hadoop的用途有:分布式存储数据、日志处理、ETL、机器学习、搜索引擎、数据挖掘等。Hadoop是专为离线和大规模数据分析而设计的,它是一个处理实际问题的编程模型,它提供了一些基础模块或软件做支撑。

相比于传统的数据,处理大数据需要的存储量大、计算量也大,除了数字、还有文字、声音、视频、网络日志、视频、图片、地理位置信息等多种数据,处理这样的数据,就需要Hadoop技术来实现。作为目前主流的大数据处理分布式架构之一,Hadoop就是基于大规模数据处理任务需求的满足。并且,相对于其他的分布式处理架构,Hadoop具有很明显的优点:

可扩展性强,Hadoop可以在一组计算机集群当中分配任务完成数据计算,这些集群可以更方便地扩展到数千节点当中。

高效性,Hadoop的分布式文件系统,能够保证高效的数据交互,通过并行处理加快数据处理速度。

高可靠性,Hadoop的分布式文件系统将数据分块储存,每个数据块在集群节点上依据一定的策略冗余储存,确保能够针对失败的节点重新分布处理,从而保证了数据的可靠性。

发表评论

您的电子邮箱地址不会被公开。