大数据处理工具有哪些

大数据处理工具有很多,大致可分为大数据可视化工具和大数据分析工具。大数据可视化工具包括Excel、SPSS、Modest Maps、Raw、R语言等;大数据分析工具包括RapidMiner、HPCC、Hadoop、Pentaho BI等。主流的数据分析工具具备直连数据库、多数据源、易用性、自助式开发的强大功能。

ღ Excel:Microsoft Excel微软推出的包含在Microsoft office内独立的一款办公软件。最擅长的领域就是对批量数据的处理,软件总体是以表格形式来运行,还蕴含着很多丰富的函数功能。

ღ SPSS:拥有强大的统计图制作功能,可以用来绘制各种各种常用的统计图乃至复杂的3D视图,还能自定义颜色、线条,美化制图。

ღ Modest Maps:是一个轻量级、可扩展的、可定制的和免费的地图显示类库,能够帮助开发人员实现项目与地图的交互。

ღ Raw:RAW Graphs是一款更加注重视觉表达的数据可视化工具。用户可以选择网站推荐的基础数据可视化模板,也可以选择在数据导入后选择通过网站随机生成一些自定义图形。这种类似盲盒的机制也意味着在RAW Graphs中生成的一些可视化形式是独特的,甚至是编程语言都无法制作出来的

ღ R:R的主要优势是它有一个庞大的社区,通过邮件列表,用户贡献的文档和一个非常活跃的堆栈溢出组提供支持。还有CRAN镜像,一个用户可以很简单地创造的一个包含R包的知识库。这些包有R里面的函数和数据,各地的镜像都是R网站的备份文件,完全一样,用户可以可以选择离你最近的镜像访问最新的技术和功能,而无需从头开发。

ღ RapidMiner:是比较先进的数据挖掘技术,涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。

ღ HPCC:HPCC代表高性能计算集群(High-Performance Computing Cluster),也被称为数据分析超级计算机(Data Analytics Supercomputer,DAS)。它是一个由LexisNexis风险解决方案开发的开源的、数据密集型的计算系统平台。HPCC
平台包含了一个在计算集群上实现的软件架构,为各种使用大数据的应用程序提供高性能、数据并行处理的设计。HPCC平台包含系统配置,以通过索引数据文件(Roxie)支持并行批量数据处理(Thor)和高性能在线查询应用。HPCC平台还包含一个以数据为中心的、用于并行数据处理的声明式编程语言ECL。

ღ Hadoop:能对大量数据进行分布式处理的软件框架,具备可靠、高效、可伸缩、成本低的特点。它维护多个工作数据副本,能够针对失败的节点重新分布处理,能够处理PB级数据。

ღ Pentaho BI:Pentaho 是一个完整的商业智能套件,涵盖从报告到数据挖掘的各种用例。 Pentaho BI 套件包含多个开源项目,Pentaho Reporting 就是其中之一。 像其他工具一样,Pentaho Reporting 具有丰富的功能集,可以在企业组织中使用。

类似文章

发表评论

您的电子邮箱地址不会被公开。