大数据分为几种类型?(下)

现在让我们谈论数据分析:这是成为数据分析师的重要组成部分。

大数据分析技术

有许多技术可以利用诸如统计和计算机科学(尤其是机器学习)等学科来数据分析数据集。此列表绝不是详尽无遗的。实际上,研究人员继续开发新技术并改进现有技术,特别是为了响应数据分析新数据组合的需求。
另外,请注意,并非所有这些技术都严格要求使用大数据-其中一些可以有效地应用于较小的数据集(例如A / B测试,回归数据分析)。但是,此处列出的所有技术都可以应用于大数据,并且一般而言,与较小,差异较小的数据集相比,可以使用更大,更具多样性的数据集来生成更多,更具洞察力的结果。

A / B测试。 一种技术,其中将对照组与各种测试组进行比较,以确定哪种治疗方法(即更改)将改善给定的目标变量,例如市场响应率。此技术也称为拆分测试或存储桶测试。一个示例应用程序正在确定哪些副本文本,布局,图像或颜色将提高电子商务网站上的转换率。大数据可以执行和数据分析大量的测试,从而确保组的大小足以检测对照组28和治疗组之间有意义的(即,统计上有意义的)差异(请参阅统计信息)。当在治疗中同时操纵多个变量时,采用统计建模的该技术的多变量概括通常称为“ A / B / N”测试。

想象一下可乐与Facebook签约从事营销和销售工作。Facebook会根据客户投放广告。它可以创建广告版本。并非所有版本都适合每个地理位置。有些适合美国,有些适合印度。有些可以适合居住在美国的印第安人。Facebook可以做的是从庞大的人群中选择一部分人,然后根据这些人是否喜欢食物在他们的供稿中传递广告。对于每个广告,Facebook将收集响应,并据此确定哪个广告效果更好,而在更大的人群中,它将使用更好的广告。数据分析是否能让人更好地确定答案?绝对!

关联规则学习。一套用于发现大型数据库中变量之间有趣关系(即“关联规则”)的技术。这些技术由多种算法组成,用于生成 和测试可能的规则。一种应用是市场购物篮数据分析,零售商可以在其中确定经常一起购买哪些产品,并将这些信息用于市场营销(通常被引用的例子是发现许多购买尿布的超市购物者也倾向于购买啤酒)。

分类。基于包含已分类数据点的训练集,用于标识新数据点所属类别的一组技术。一种应用是在明确的假设或客观结果的情况下预测特定细分客户的行为(例如,购买决策,客户流失率,消费率)。由于存在训练集,这些技术通常被称为监督学习。它们与聚类数据分析(一种无监督的学习)形成鲜明对比。

聚类数据分析。一种用于对对象进行分类的统计方法,该方法将不同的组分成相似对象的较小组,其相似性特征事先未知。聚类数据分析的一个示例是将消费者分为自相似群体进行有针对性的营销。这是一种无监督学习,因为不使用训练数据。这种技术与分类(一种监督学习)相反。

众包。一种收集通常是通过网络之类的网络媒体通过公开通话由一大群人或社区(即“人群”)提交的数据的技术。28这是一种大规模协作,是使用Web的一种实例。 2.0.29数据融合和数据集成。

与通过数据分析单个数据源开发的方法相比,集成和数据分析来自多个源的数据的一组技术,以便以更有效且可能更准确的方式开发见解。

数据挖掘。通过将统计和机器学习方法与数据库管理相结合,从大型数据集中提取模式的一组技术。这些技术包括关联规则学习,聚类数据分析,分类和回归。应用程序包括挖掘客户数据以确定最有可能响应报价的细分市场,挖掘人力资源数据以识别最成功员工的特征,或进行市场数据分析以建模客户的购买行为。

整合学习。与从任何组成模型中获得的预测模型相比,使用多个预测模型(每个模型都使用统计和/或机器学习开发)可获得更好的预测性能。这是一种监督学习。

遗传算法。一种用于优化的技术,其灵感来自自然进化或“适者生存”过程。在这种技术中,潜在的溶液被编码为可以结合和突变的“染色体”。选择这些个体染色体以在模拟“环境”中生存,该“环境”决定了种群中每个个体的适应性或表现。这些算法通常被描述为一种“进化算法”,非常适合解决非线性问题。应用示例包括改善制造中的作业计划并优化投资组合的绩效。

机器学习。计算机科学的一个专业(在历史上称为“人工智能”的领域内)与算法的设计和开发有关,该算法允许计算机根据经验数据来演化行为。机器学习研究的主要重点是自动学习识别复杂的模式并根据数据做出明智的决策。自然语言处理是机器学习的一个示例。

自然语言处理(NLP)。计算机科学子专业中的一组技术(在历史上称为“人工智能”的领域内)和语言学,它们使用计算机算法来数据分析人类(自然)语言。许多NLP技术是机器学习的类型。NLP的一种应用是在社交媒体上使用情绪数据分析来确定潜在客户对品牌宣传活动的反应。通过自然语言处理数据分析的来自社交媒体的数据可以与实时销售数据结合,以确定营销活动对客户情绪和购买行为产生何种影响。

神经网络。计算模型是受生物神经网络(即大脑中的细胞和连接)的结构和工作原理启发的,可以在数据中找到模式。神经网络非常适合查找非线性模式。它们可用于模式识别和优化。一些神经网络应用程序涉及监督学习,而另一些应用程序涉及无监督学习。应用程序示例包括识别有可能离开特定公司的高价值客户以及识别欺诈性保险索赔。
网络数据分析。一组用于表征图形或网络中离散节点之间关系的技术。在社交网络数据分析中,将数据分析社区或组织中

人之间的联系,例如,信息如何传播或谁对谁影响最大。应用程序的示例包括确定要营销目标的主要意见领袖,以及确定企业信息流中的瓶颈。

优化。一种数字技术组合,用于根据一个或多个客观指标(例如,成本,速度或可靠性)来重新设计复杂的系统和过程,以提高其性能。应用示例包括改进诸如调度,路由和楼层布局之类的运营流程,以及制定诸如产品范围战略,关联投资数据分析和研发投资组合战略之类的战略决策。遗传算法是优化技术的一个示例。同样,混合整数编程是另一种方法。
模式识别。一组机器学习技术,可根据特定算法将某种类型的输出值(或标签)分配给给定的输入值(或实例)。分类技术就是一个例子。

预测建模。创建或选择数学模型以最好地预测结果概率的一组技术。客户关系管理中的一个应用示例是使用预测模型来估计客户“流失”(即变更提供者)的可能性或客户可以交叉销售另一种产品的可能性。回归是许多预测建模技术的一个例子。

回归。一组统计技术,用于确定修改一个或多个自变量时因变量的值如何变化。常用于预测或预测。应用示例包括根据各种市场和经济变量预测销量,或确定哪些可测量的制造参数最能影响客户满意度。用于数据挖掘。

情绪数据分析。应用自然语言处理和其他数据分析技术从源文本材料中识别和提取主观信息。这些数据分析的关键方面包括识别表达情感的特征,方面或产品,并确定情感的类型,“极性”(即,积极,消极或中立)以及情感的程度和强度。应用程序的示例包括应用情感数据分析来数据分析社交媒体(例如,博客,微博和社交网络),以确定不同的客户群和利益相关者如何对其产品和行为做出反应的公司。

信号处理。 最初由电气工程和应用数学开发的一组技术,用于数据分析离散和连续信号,即模拟物理量(即使以数字表示)的表示形式,例如无线电信号,声音和图像。此类别包括来自信号检测理论的技术,该技术量化了区分信号和噪声的能力。示例应用程序包括时间序列数据分析的建模或实现数据融合,以通过组合来自一组不太精确的数据源中的数据来确定更精确的读数(即,从噪声中提取信号)。信号处理技术可用于实现某些类型的数据融合。

空间数据分析。一组技术,其中一些是从统计中应用的,用于数据分析编码在数据集中的拓扑,几何或地理属性。通常,用于空间数据分析的数据来自地理信息系统(GIS),该系统捕获包括位置信息(例如地址或纬度/经度坐标)的数据。应用示例包括将空间数据合并到空间回归中(例如,消费者购买产品的意愿如何与位置相关联?)或模拟(例如,制造供应链网络如何在不同位置的站点中执行?)。

统计。数据收集,组织和解释的科学,包括调查和实验的设计。统计技术通常用于判断变量之间可能发生的偶然关系(“零假设”),以及变量之间的哪些关系可能是由某种潜在的因果关系引起的(即“具有统计学意义”) 。统计技术还用于减少I型错误(“假阳性”)和II型错误(“假阴性”)的可能性。应用程序的一个示例是A / B测试,以确定哪种类型的营销材料将最大程度地增加收入。

监督学习。从一组训练数据中推断功能或关系的一组机器学习技术。例如分类和支持向量机。30这与无监督学习不同。
模拟。对复杂系统的行为进行建模,通常用于预测,预测和方案规划。例如,蒙特卡洛模拟是一类算法,该算法依赖于重复随机抽样,即运行数千个模拟,每个模拟都基于不同的假设。结果是一个直方图,给出了结果的概率分布。鉴于各种计划的成功存在不确定性,一项申请正在评估实现财务目标的可能性。

时间序列数据分析。来自统计和信号处理的一组技术,用于数据分析代表连续时间值的数据点序列,以从数据中提取有意义的特征。时间序列数据分析的示例包括股票市场指数的每小时价值或每天诊断为给定状况的患者人数。

时间序列预测。时间序列预测是使用模型基于相同或其他序列的已知过去值来预测时间序列的未来值。其中一些技术(例如结构建模)将一系列分解为趋势,季节和残差成分,这对于识别数据中的周期性模式可能很有用。应用示例包括预测销售数字,或预测将被诊断出患有传染病的人数。

无监督学习。一组机器学习技术,可在未标记的数据中找到隐藏的结构。聚类数据分析是无监督学习的一个例子(与有监督学习相反)。

可视化。用于创建图像,图表或动画以交流,理解和改善大数据分析结果的技术。这扩展为在Web或桌面平台上创建仪表板。

希望这份精心编写的文章能为您提供灵感。

发表评论

您的电子邮箱地址不会被公开。