2021 年 CDO 需要关注的 5 大数据趋势

当新冠疫情迫使企业关闭、员工在家办公时,企业不得不迅速适应“新常态”。随着组织转向远程工作,云计算成为必需品。由于每个人都可以从不同的位置和系统访问数据,数据治理和安全成为重中之重。更聪明的AI变得更有吸引力,因为历史模型变得毫无意义了。简而言之,组织意识到他们需要快速做出改变。数据投资增加,组织寻求升级其系统并创建完美的数据堆栈。

2021年数据世界将会发生什么变化?数据基础设施将如何发展以跟上所有最新的创新和变化?今年,我们将看到几个新的数据趋势:新的数据角色和数据质量框架出现,现代数据堆栈和现代元数据解决方案兴起,以及数据湖和数据仓库的融合。

  1. 数据湖和数据仓库正在融合

在过去的十年中,数据架构师围绕两个关键单元设计了数据操作:

• 数据湖:用于存储大量原始数据甚至是非结构化数据的廉价存储。数据湖架构通常非常适合临时探索和数据科学用例。

数据仓库:传统上,数据仓库优化了计算和处理速度,这有助于报告和商业智能,使数据仓库成为分析团队的首选系统。

今天,许多公司仍在使用这两种系统——一个存储所有数据的数据湖,以及用于分析和报告用例的专门数据仓库。一些数据仓库参与者已经开始添加对半结构化数据的支持。

  1. “现代数据栈”成为主流

从2020年开始,在数据世界中随处可见“现代数据堆栈”一词。它指的是用于处理海量数据的全新、同类中最佳的现代数据架构。现代数据堆栈的关键支柱之一是强大的云平台。最初以云数据仓库为中心,现在也开始包括云数据湖和相关的数据湖引擎。

今天,现代数据堆栈指的是一套适用于数据工作流每个部分的工具:

• 数据摄取:例如 Fivetran ,  Stitch ,  Hevodata

• 数据仓库:例如 Snowflake、  BigQuery

• 数据湖:例如 Amazon S3

• 数据湖处理:例如 Presto、  Dremio、  Databricks、  Starburst

• 数据转换:例如 dbt ,  Matillion

• 元数据管理: 例如 Atlan

BI 工具:例如 Looker

  1. 元数据3.0:元数据管理重生

随着现代数据堆栈的成熟,公司已经开展了雄心勃勃的项目来升级他们的数据基础设施并解决基本的数据需求(即摄取数据、完成云迁移项目和设置新的 BI 工具)。虽然这些措施释放了很多潜力,但它们也造成了混乱。诸如“这个列名到底是什么意思?”和“为什么仪表板上的销售数字又错了?”之类的上下文问题会扼杀以极快速度前进的团队的敏捷性。

虽然这些不是新问题,但我们正处于新的颠覆性解决方案的风口浪尖。随着现代数据平台围绕五个主要参与者(AWS、Azure、Google Cloud Platform、Snowflake 和 Databricks)融合,元数据本身正在成为大数据,为元数据空间带来智能和自动化的潜力巨大。

在接下来的发展中,我们将看到多个为现代数据堆栈构建的现代元数据管理平台的兴起,这些平台将会解决数据发现、数据编目、数据沿袭和可观察性问题。

  1. 新角色出现:分析工程师和数据平台负责人

2020 年,出现了两个比以往任何时候都更加主流的角色。

☛ 数据平台负责人

组织越来越意识到需要有一个中央团队负责开发数据平台,以帮助组织的其他成员更好地完成工作。自然,这个团队需要一个领导者。

过去,这是由数据仓库专家或数据架构师等更传统的角色来处理的。现在,拥有一名数据领导者来领导整个组织的数据计划变得很常见。这些人有一系列头衔,例如“数据平台负责人”或“数据平台总监”。

数据平台负责人通常监督公司数据堆栈的现代化(对初创公司来说,是从零开始)。包括设置云数据湖和数据仓库、实施数据治理框架、选择 BI 工具等。这个新角色伴随着一个重要的新KPI:最终用户采用率。这是指领导者让组织内的人员和团队在日常工作流程中采用数据(和数据平台)的能力。这是一个受欢迎的变化,因为它使那些决定投资哪些数据产品的人与最终使用这些产品的人的动机保持一致。

☛ 分析工程师

在过去数据分析师都有一个通病:依赖数据工程师来实现产品化和建立数据管道。强大的基于 SQL 的管道构建工具(如dbt 和 Dataform)的兴起改变了这一点。通过赋予分析师超能力,他们将整个数据转换过程交给了数据分析师。他们现在拥有从接收和转换到最终将可用数据集交付给其他业务部门的整个数据堆栈。

  1. 数据质量框架正在兴起

数据质量是一个在过去二十年中没有太多创新的领域。然而,它最近取得了重大进展,数据质量的不同方面正在被整合到整个数据堆栈中。

☌ 数据质量分析

数据分析是审查数据以了解其内容和结构、检查其质量并确定未来如何使用数据的过程。在数据资产的生命周期中,分析可能会发生多次,从浅评估到深入评估。它包括计算缺失值、最小值和最大值、中位数和模式、频率分布,以及帮助用户了解底层数据质量的其他关键统计指标。

虽然数据质量分析通常是数据堆栈中的一个独立产品,但公司越来越多地将其作为一项功能纳入现代数据目录,使最终用户能够理解和信任他们的数据。

☌ 业务驱动的数据质量规则

数据质量不仅仅是对数据的统计理解,它还涉及基于业务上下文的数据是否可信。例如,你的销售数字每周的增幅通常不应超过10%。销售额的 100% 激增应该提醒正确的团队成员并停止数据管道的运行,而不是进入CEO使用的仪表板!

这种对智能警报的需求促使组织将业务团队纳入编写数据质量检查的过程中。对于数据团队来说,在数据质量检查方面与业务同行进行协作的方式仍然不是很好,但预计这个领域在未来几年会出现很多创新。未来,我们将看到更智能的解决方案,它们根据数据趋势自动生成业务驱动的数据质量规则。

☌ 数据管道中的数据质量测试

数据质量变得普遍的第三种方式是将其写入数据管道本身,这借鉴了软件工程世界中“单元测试”的原则。多年来,软件工程一直包含单元测试框架,它们会自动测试每个单独的代码单元,以确保它可以使用。管道内的数据质量测试模拟单元测试框架为数据工程带来同样的信心和速度。这有助于团队在上游数据更改影响组织的工作流和报告之前发现数据质量问题。

作者:Prukalpa Sankar

免责声明:凡未注明来源或者来源为网络的信息均转自其它平台,是出于传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性。网站只负责对文章进行整理、排版、编辑,不承担任何法律责任。若有侵权或异议请联系我们删除,谢谢。

类似文章

发表评论

您的电子邮箱地址不会被公开。