hadoop与spark的区别

hadoop与spark的区别

Hadoop是分布式管理、存储、计算的生态系统。Spark是分布式计算平台,是一个用scala语言编写的计算框架,基于内存的快速、通用、可扩展的大数据分析引擎。

解决问题的层面不一样

Hadoop和Apache Spark两者都是大数据框架,但是也有很多的差异。

Hadoop更像是一个分布式数据基础设施,它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储。

Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。而Spark则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。

两者可合可分

我们完全可以抛开Spark,用Hadoop自身的MapReduce来完成数据的处理,因为 Hadoop还提供HDFS分布式数据存储功能和MapReduce的数据处理功能。

同样的说,Spark也是可以独立了运行的。但是由于其本身没有提供文件管理系统,必须和其他的分布式文件系统进行集 成才能运作。Spark默认来说还是被用在Hadoop上面的,相对来说还是比较好的组合形式。

发表评论

您的电子邮箱地址不会被公开。