数据挖掘的算法有哪些

数据挖掘的算法有:C4.5、K-Means、Apriori算法、支持向量机(Support Vector Machine)算法、最大期望(EM)算法、KNN分类算法等等。作为一名合格的数据分析师,除了基本的数据分析工作之外,还要善于挖掘数据。

1、C4.5 —— 机器学习算法中的一种分类决策树算法,它是决策树核心算法ID3的改进算法。

优点:计算复杂度不高,输出结果易于理解;对中间值的缺失不敏感,可以处理不相关特征数据。

缺点:可能会产生过渡匹配问题。

2、K-Means —— 一种聚类算法,把n的对象根据他们的属性分为k个分割,k < n。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。

优点:容易实现。

缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢。

3、Apriori算法 —— 一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段“频繁项集”思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。

优点:易编码实现。

缺点:在大数据集上运算速度较慢。

4、支持向量机 —— 一种监督式学习的方法,它被广泛应用于统计分类以及回归分析中。

优点:泛化错误率低,计算开销不大,结果易解释。

缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。

5、最大期望(EM)算法——EM算法是在依赖于无法观测的隐藏变量的概率模型中,寻找参数最大似然估计或者最大后验估计的算法。

优点: 当拥有缺失数据的时候,可以迭代地做参数估计,例如高斯混合模型(GMM)。

缺点:对初始化敏感

6、KNN分类算法——K-近邻算法(KNN)概述 最简单最初级的分类器是将全部的训练数据所对应的类别都记录下来。

优点:型很容易理解,通过不需要过多调节就可以得到不错的性能。

缺点:构建最近邻模型的速度通常很快,但如果训练集很大(特征数很多或样本数很大),预测速度可能会比较慢。

类似文章

发表评论

您的电子邮箱地址不会被公开。