Apache Impala 的大数据分析

Apache Impala 的大数据分析

什么是 Apache Impala?

Impala是Cloudera Enterprise附带的SQL分析引擎,它是一个完全集成的、最先进的分析数据库架构,其架构专门用于利用 Apache Hadoop 的灵活性和可扩展性,其中可能包含多种类型的信息和内容,包括点击流、 Web 和呼叫中心日志以及 ID 扫描。尽管与 Cloudera 最密切相关,但 Impala 还附带其他 Hadoop 发行版,包括 MapR、Oracle 和 Amazon。

为什么使用 Apache Impala 进行大数据分析?

Impala 平台为 Hadoop 带来了可扩展的并行数据库技术,使用户能够对存储在HDFS 和 Apache HBase 中的大数据发出低延迟 SQL 查询, 而无需移动或转换数据。

Impala 带来了 Parquet 列式数据存储格式,它比 HDFS 中的基于行的格式更有效地存储数据。尽管编写 Parquet 文件意味着您需要提前确定架构(表、列)并以特定方式写入数据,但好处是分析速度要快得多。

Impala 使分析师和数据科学家能够通过 SQL 或商业智能工具对 Hadoop 中存储的数据执行实时、交互式分析。

Logi Composer 和 Apache Impala

Logi Composer 是首批经过认证的 Impala 大数据分析和可视化软件工具之一,此次合作取得了显着的成果。传统 BI 工具使用 JDBC 或 ODBC 来查询 Impala,就好像它是关系数据库一样,Logi Composer 通过本机 API 连接到 Impala 并了解 Parquet 分区方案。

它使用此信息将单个逻辑查询分解为多个微查询。提交给 Impala 的微查询在不同的时间点返回。Logi Composer 在第一个微查询返回后立即显示初步可视化,然后在其他微查询完成时锐化可视化。结果:更快的响应时间、分析和洞察力。

免责声明:凡未注明来源或者来源为网络的信息均转自其它平台,是出于传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性。网站只负责对文章进行整理、排版、编辑,不承担任何法律责任。若有侵权或异议请联系我们删除,谢谢。

发表评论

您的电子邮箱地址不会被公开。