做数据分析必懂的数据仓库知识!

发布时间: 2020-12-08

数据仓库通常是一个数据库,它会明智地使用非规范化表设计来支持某些报告查询,目的是构建面向数据分析的集成化数据环境,可以为企业提供决策支持。这在数据分析里面查询调取数据的时候就非常方便。

数据库有以下特点:

1、 面向主题

2、 集成的

3、 稳定的

4、 时变的

如果使用非规范化设计,则可以使数据库针对某些查询进行优化。如果我们需要针对大量数据(例如数十亿行)进行报告,则这是理想的一种方式。

任何类型的优化都自然会针对某些查询进行优化,但会以牺牲所有其他查询为代价,完事都是有得有失。因此,我们就需要首先定义要为其设计数据仓库的报表查询。

数据分析过程中的规范化规则指导我们创建数据值重复最少的表,因此数据异常风险最小,而非规范化设计会不小心打破这些规则,以使表的结构更像是查询结果集而不是一堆相互关联的表,那么这其实就违背了我们的初衷。

当我们在使用非规范化表设计时,更新变得困难,因为任何给定的信息都可能冗余存储。我们在操作时必须更新所有副本,不然的话最终将获得与自身不一致的数据。最终,如果我们用错误的方式对其进行了更新,那么我们就再也无法分辨出正确的值。

出于这个原因,我们经常会看到一个可丢弃的数据仓库。我们通过转换规范化数据库中的数据来加载数据仓库。如果数据仓库报错或出现内部异常,则将其丢弃并使用原始数据重新开始。我们通常将数据从规范化数据库复制到数据仓库的过程称为ETL(提取,转换和加载)。

由于可能存在多种报告类型,因此给定的规范化数据库可能具有多个ETL作业,以将其复制到多个不同的数据仓库中,每个仓库均针对各自的报告查询进行了优化。

信息技术与数据智能大环境下,数据仓库在软硬件领域、Internet 和企业内部网解决方案以及数据库方面提供了许多经济高效的计算资源,可以保存极大量的数据供分析使用,且允许使用多种数据访问技术。

开放系统技术使得分析大量数据的成本趋于合理,并且硬件解决方案也更为成熟。在数据仓库应用中主要使用的技术如下:

1、 计算的硬件环境、操作系统环境、数据库管理系统和所有相关的数据库操作、查询工具和技术、应用程序等各个领域都可以从并行的最新成就中获益。

2、 分区功能使得支持大型表和索引会更加容易,同时也提高了数据管理和查询性能。

3、 数据压缩功能降低了数据仓库环境中通常需要的用于存储大量数据的磁盘系统的成本,同时不断更新的压缩技术也已经消除了压缩数据对查询性能造成的负面影响。

对于想成为数据分析师的小伙伴们来说,数据仓库是一块必须掌握的内容,而已经从事数据分析工作的小伙伴们则是更加要注意自己对数据仓库的掌握和运用。

发表评论

您的电子邮箱地址不会被公开。