什么是现代数据堆栈

什么是现代数据堆栈

现代数据堆栈 (MDS) 是一种技术堆栈,它使现代数据仓库的性能比传统数据仓库好 10-10000 倍。现代数据堆栈可以节省时间、金钱和精力,其四大支柱是数据连接器、云数据仓库、数据转换器和BI 和数据探索工具。

过去需要由数据工程师团队定期构建和维护的工作现在可以用用于简单用例的工具代替。StitchFivetran等托管解决方案,以及AirbyteMeltano等开源解决方案,正在实现这一目标。

由于其高性能和成本效益,使用基于云的柱状数据仓库已成为最近的趋势。您可以从每月 100 美元(或更少)开始,而不是每年为本地 MPP(大规模并行处理)数据库支付 10 万美元。据说云原生数据仓库比传统 OLTP 快 10-10000 倍。此类别中的热门选项是BigQuerySnowflakeRedshift

在过去,由于技术的限制,在数据仓库内处理数据是瓶颈。因此,公司不得不支持 ETL 而不是 ELT,以减少数据仓库的工作量。然而,随着云原生数据仓库的进步,许多数据仓库内转换工具变得流行起来。此类别中最引人注目的是 dbt(数据构建工具)和 Dataform。

BI 工具过去也负责一些转换,以减少遗留数据仓库的工作量。然而,随着现代数据堆栈的出现,BI 工具的重点已经转移(在我看来),以实现数据访问、自助服务和数据发现的民主化。我认为正朝着正确方向发展的一些工具是LookerMetabaseSuperset

发表评论

您的电子邮箱地址不会被公开。