浅谈Hadoop在大数据中的地位

发布时间: 2020-12-17

大数据是指对于传统系统而言,存储和处理的数据集过于庞大和复杂。大数据面临的主要问题主要在三个V以下。它们是体积,速度和多样性。

您知道吗?我们每分钟都会发送2.04亿封电子邮件,产生180万个Facebook喜欢,发送27.8万条推文,并向Facebook上载20万张照片。

体积:数据正在按Tera到PB的顺序生成。数据的最大贡献者是社交媒体。例如,Facebook每天产生500 TB的数据。Twitter每天产生8TB的数据。

速度:每个企业都对自己拥有过程数据的时间范围有自己的要求。信用卡欺诈检测等许多用例仅需几秒钟即可实时处理数据并检测欺诈。因此,需要一种能够进行高速数据计算的框架。

多样性:同样,来自各种来源的数据具有多种格式,例如文本,XML,图像,音频,视频等。因此,大数据技术应具有对各种数据进行分析的能力。

为什么发明了Hadoop?

我们先来讨论一下Hadoop发明的传统方法的缺点:

1.存储大数据集

传统的RDBMS无法存储大量数据。可用的RDBMS中的数据存储成本非常高。因为这会招致硬件和软件的成本。

2.处理不同格式的数据

RDBMS能够以结构化格式存储和处理数据。但是在现实世界中,我们必须处理结构化,非结构化和半结构化格式的数据。

3.高速生成数据:

数据每天以tera到peta字节的顺序渗出。因此,我们需要一个能够在几秒钟内实时处理数据的系统。传统的RDBMS无法提供高速的实时处理。

什么是Hadoop?

Hadoop是上述大数据问题的解决方案。它是一种将大量数据集以分布式方式存储在廉价机器群集中的技术。不仅如此,它还通过分布式计算框架提供大数据分析

它是由Apache Software Foundation作为项目开发的开源软件。Doug Cutting创建了Hadoop。在2008年,Yahoo将Hadoop交给了Apache Software Foundation。从那时起,出现了两个版本的Hadoop。2011年的1.0版和2013年的2.0.6版。Hadoop具有多种风格,例如Cloudera,IBM BigInsight,MapR和Hortonworks。

学习Hadoop的先决条件

熟悉一些基本的Linux命令-在Linux操作系统(最好是Ubuntu)上建立Hadoop。因此,必须知道某些基本的Linux命令。这些命令用于在HDFS中上载文件,从HDFS中下载文件等等。

基本Java概念–人们希望学习Hadoop可以从Hadoop开始,同时掌握Java的基本概念。我们也可以使用其他语言在Hadoop中编写地图并简化功能。这些是Python,Perl,C,Ruby等。这可以通过流API来实现。它支持从标准输入读取和写入到标准输出。Hadoop还具有不需要Pig的高级抽象工具,例如Pig和Hive。

Hadoop由三个核心组件组成:

Hadoop分布式文件系统 (HDFS)——它是Hadoop的存储层。

Map-Reduce ——它是Hadoop的数据处理层。

YARN ——它是Hadoop的资源管理层。

为什么选择Hadoop?

现在让我们了解为什么大数据Hadoop非常流行,为什么Apache Hadoop占据了90%以上的大数据市场。大数据

Apache Hadoop不仅是存储系统,还是数据存储和处理的平台。它具有可伸缩性(因为我们可以动态添加更多节点),容错(即使节点出现故障,也可以由另一个节点处理数据)。

Hadoop的以下特征使其成为独特的平台:

灵活存储和挖掘任何类型的数据,无论是结构化,半结构化还是非结构化数据。它不受单个架构的限制。

擅长处理复杂性质的数据。它的横向扩展体系结构将工作负载分散在许多节点上。另一个额外的优点是其灵活的文件系统消除了ETL瓶颈。

如所讨论的,它可以经济地扩展,可以部署在商品硬件上。除此之外,它的开源性质还可以防止供应商锁定。

综上所说,我们在大数据的学习过程中对于Hadoop需要格外重视并勤加练习。

发表评论

您的电子邮箱地址不会被公开。