数据分析师必须知道的十大算法(一)

数据分析师必须知道的十大算法(一)

数据分析师必须知道的十大算法:线性回归Logistic回归决策树朴素贝叶斯KNN支持向量机K均值聚类主成分分析神经网络随机森林

数据分析师们在解决任何问题时都需要一套技能,而机器学习是这项技能不可或缺的一部分。在进行数据分析时,我们必须了解用于解决不同类型问题的各种机器学习算法,因为某一种算法可能并不是适用于所有类型问题,我们需要找到一个最合适的。

这些算法可从我们正在使用数据集中找到各种不同的应用,例如预测,分类,聚类等。

  顶级数据分析算法

今天我们先来了解一下以下5种算法

1.线性回归

线性回归方法用于通过使用自变量的值来预测因变量的值,线性回归模型适用于预测连续量的值,线性回归模型以方程式给出的直线表示数据集的输入变量(x)和输出变量(y)之间的关系

如:y = b0 + b1x

在这个式子中,y是我们要预测其值的因变量,x是自变量,其值用于预测因变量,b0和b1是常数,其中b0是Y轴截距,b1是斜率。

该方法的主要目的是找到b0和b1的值,以找到将覆盖或最接近大多数数据点的最佳拟合线。

2. Logistic回归

线性回归通常用于表示某些连续值之间的关系。但是,Logistic回归则适用于离散值。

逻辑回归在解决二元分类问题中应用非常广泛,即当一个事件只有两种可能性时,该事件将发生或将不会发生(0或1)。

因此,在Logistic回归中,我们通过使用称为logistic函数的非线性变换函数将预测值转换为介于0到1范围内的值。

逻辑函数产生S形曲线,因此也称为等式给出的Sigmoid函数,如

?(x)= 1/1 + e ^ -x

Logistic回归的方程是P(x)= e ^(b0 + b1x)/ 1 + e ^(b0 + b1x)

其中b0和b1是系数,逻辑回归的目标是找到这些系数的值。

3.决策树

决策树有助于解决帮助数据分析师们分类和预测问题,它可以轻松理解数据,以提高预测的准确性。

决策树的每个节点代表一个要素或属性,每个链接代表一个决策,每个叶节点拥有一个类标签,即结果。它的的缺点是存在过度拟合的问题,基本上,这两种数据分析算法最常用于实现决策树。

ID3(迭代二分法3)算法使用熵和信息增益作为决策指标。

Cart(分类和回归树)算法使用基尼系数作为决策指标。

下图可以帮助我们更好地理解:  

4.朴素贝叶斯

朴素贝叶斯算法有助于建立预测模型,当我们要计算将来某个事件发生的概率时,我们会使用此数据分析算法。

在这里,我们假设已经知道另一个事件已经发生,朴素贝叶斯算法的假设是每个特征都是独立的,并且对最终预测有各自的贡献。

朴素贝叶斯定理表示为:

P(A | B)= P(B | A)P(A)/ P(B)

其中A和B是两个事件。

P(A | B)是后验概率,即给定B已经发生的A的概率。

P(B | A)是似然性,即在已经存在A的情况下B的概率。

P(A)是概率之前的类别。

P(B)是预测变量先验概率。

5. KNN

该数据分析算法同时使用分类和回归问题,KNN算法将完整的数据集视为训练数据集。

使用KNN算法训练模型后,我们就可以尝试预测新数据点的结果了。在这里,KNN算法搜索整个数据集以标识该数据点的k个最相似或最接近的近似值。

然后根据这k个实例预测结果,为了找到数据实例的近似值,我们可以使用各种距离度量,例如欧几里得距离,汉明距离等。

为了更好地理解,让我们考虑以下示例。

在这里,我们分别用圆形和正方形表示了两个类A和B。

让我们假设k的值为3。

现在,我们将首先找到最接近新数据项的三个数据点,并将它们围成一个虚线圆。在这里,新数据项的三个最接近点属于A类。因此,可以说新数据点也将属于A类。

现在你们可能都在想我们如何假设k = 3,k值的选择是非常关键的,我们应该采用k的值,使其既不会太小也不会太大,另一种更简单的方法是使k =√n,其中n是数据点的数量。

剩下的5种我们明天继续说哦~

发表评论

您的电子邮箱地址不会被公开。