数据挖掘中的经典算法

数据分析中常见的经典算法包含:EM、AdaBoost、Apriori、CART、KNN、NaiveBayes、PageRank、K-Means、C4.5、SVM。这些算法在数据挖掘领域都产生了极大的影响。

EM:最答预期算法在概率模型中模型依赖于无法观测的隐藏变量。模型中率模型最大的期待经常用于机器学习和计算机视觉的数据集合领域。

Adaboost是一种反复算法,算法是通过改变数据分析来实现的,Adaboost会根据每次训练里面的样本分类是否正确,以及上次整体分类的精度来决定每个样本的权利值。

Apriori关联规则挖掘算法,也是最经典的算法。它利用逐层搜索的迭代方法找出数据库中项集的关系,以形成规则,其过程由连接(类矩阵运算)与剪枝(去掉那些没必要的中间结果)组成。

CART是决策树的一种,可以用于创建模型树、回归树、分类树。其中CART作为分类树时,他的特征属性可以是连续类型或者离散类型,但观察属性必须是离散类型。

KNN:一般指邻近算法。 邻近算法,或者说K最邻近分类算法是数据挖掘分类技术中最简单的方法之一。

NaiveBayes基于贝叶斯定理与特征条件独立假设的分类方法。最为广泛的两种分类模型是决策树模型和朴素贝叶斯模型。

PageRank:基本想法是在有向图上定义一个随机游走模型,即一阶马尔可夫链,描述随机游走者沿着有向图随机访问各个结点的行为。

K-Means:k均值聚类算法是一种迭代求解的聚类分析算法,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。

C4.5是决策树算法的一种。决策树算法作为一种分类算法,目标就是将具有p维特征的n个样本分到c个类别中去。

SVM本质模型是特征空间中最大化间隔的线性分类器,是一种二分类模型。

     

类似文章

发表评论

您的电子邮箱地址不会被公开。