常见的预测算法

常见的预测算法

常见的预测算法

总体来说,预测分析算法可以分为两类:机器学习和深度学习。

  • 机器学习涉及我们在表中看到的结构化数据。用于此的算法包括线性和非线性变量。线性算法训练更快,而非线性算法则针对它们可能面临的问题(通常是非线性的)进行了更好的优化。
  • 深度学习是机器学习的一个子集,通常在处理音频,视频,文本和图像方面更受欢迎。

对于机器学习预测模型,有几种不同的算法可以应用。下面是一些最常见的算法,它们被用于支持上面描述的预测分析模型

随机森林

随机森林可能是最流行的分类算法之一了,能够同时进行分类和回归。能够对大量数据进行准确分类。

“ Random Forest”(随机森林)源于该算法是决策树的组合。每棵树都取决于独立采样的随机向量的值,该随机向量对“森林”中的所有树具有相同的分布。

预测分析算法尝试通过使用“boosting”(一种根据最后的分类来调整观测值权重的技术)或“套袋”(从训练样本中创建数据的子集,并通过替换随机选择)来实现尽可能低的误差。 )。随机森林使用套袋。如果您有很多样本数据,则可以代替一个子集并对其进行训练,而可以对另一个子集进行训练,而对另一个子集进行训练(允许重叠)。所有这些都可以并行完成。从您的数据中抽取多个样本以创建平均值。

尽管个别树可能是“弱学习者”,但“随机森林”的原理是它们在一起可以构成一个“强学习者”。

随机森林模型的受欢迎程度是由其各种优势来解释的:

  • 在大型数据库上运行时准确高效
  • 多棵树减少了较小集合或单棵树的方差和偏差
  • 抵制过度拟合
  • 可以处理数千个输入变量,而无需删除变量
  • 可以估计哪些变量在分类中很重要
  • 提供估计丢失数据的有效方法
  • 丢失大量数据时保持准确性

广义线性模型(GLM)

在从不同分布的数组中抽取以找到“最佳拟合”模型之前,需要使用后一种模型对多个变量对连续变量的影响进行比较。

假设你想了解冬季外套的客户购买行为。定期的线性回归可能会显示,对于温度的每个负度差异,都需要购买300份冬季外套。如果将温度从9度降低到3度似乎可以再出售2100件,这似乎是合乎逻辑的,但如果温度降低到-20度,我们会发现数量增加到完全相同的程度似乎不太合逻辑。

广义线性模型将缩小变量的范围,可能意味着超过某一温度时销量会上升,而当达到另一温度时销量会下降或持平。

该算法的优点是训练速度非常快。响应变量可以具有任何形式的指数分布类型。广义线性模型还能够处理分类预测变量,同时相对容易解释。最重要的是,它提供了对每个预测变量如何影响结果的清晰理解,并且相当抵制过度拟合。但是,它需要相对较大的数据集,并且容易受到异常值的影响。

梯度提升模型(GBM)

在推广之前,梯度提升模型会生成由决策树(每个决策树都是“弱学习器”,就像随机森林一样)组成的预测模型。顾名思义,它使用“增强型”机器学习技术,而不是Random Forest使用的套袋技术。用于分类模型。

GBM的显着特征是它一次只建立一棵树。每棵新树都有助于纠正先前训练过的树所犯的错误,这与“随机森林”模型不同,后者中的树没有任何关系。就像在搜索引擎Yahoo和Yandex中一样,它经常用于机器学习排名。

通过GBM方法,数据更具表现力,基准测试结果表明,就数据的整体完整性而言,GBM方法更可取。但是,当它顺序构建每棵树时,它也需要更长的时间。也就是说,其较慢的性能被认为可以导致更好的泛化。

K-means

K-means是一种非常流行的高速算法,它涉及基于相似性将未标记的数据点放置在单独的组中。该算法用于聚类模型。例如,汤姆和丽贝卡在第一组,约翰和亨利在第二组。汤姆(Tom)和丽贝卡(Rebecca)具有非常相似的特征,但是丽贝卡(Rebecca)和约翰(John)具有非常不同的特征。K-means试图弄清楚个人的共同特征是什么,并将他们组合在一起。当您拥有大数据集并希望实施个性化计划时,这特别有用-这对于100万人来说是很难做到的。

在医疗保健的预测分析背景下,通过算法可以将患者的样本量放入5个单独的集群中。有一组人有多个共同特征:他们不锻炼,他们的医院就诊记录不断增加(一年三次,第二年十次),而且他们都有患糖尿病的风险。基于相似之处,我们可以主动为这一群体推荐一个饮食和锻炼计划。

在时间序列和预测模型中使用了Prophet算法。它是Facebook开发的一种开放源代码算法,公司内部用于进行预测。

Prophet

Prophet算法在容量规划中非常有用,例如分配资源和设置销售目标。由于全自动预测算法的性能水平不一致,并且缺乏灵活性,因此很难成功地实现此过程的自动化。另一方面,人工预测需要经验丰富的分析师进行数小时的工作。

Prophet不仅是自动的。它也足够灵活地结合了启发式方法和有用的假设。在处理混乱数据时,该算法的速度,可靠性和鲁棒性使其成为时间序列和预测分析模型的流行替代算法选择。专家分析人员和缺乏预测经验都认为它很有价值。

作者: SRIRAM PARTHASARATHY

免责声明:凡未注明来源或者来源为网络的信息均转自其它平台,是出于传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性。网站只负责对文章进行整理、排版、编辑,不承担任何法律责任。若有侵权或异议请联系我们删除,谢谢。

发表评论

您的电子邮箱地址不会被公开。