核心数据科学算法:K-Means和K-Medoids聚类分析

核心数据科学算法:K-Means和K-Medoids聚类分析

聚类是用于统计数据分析的主要技术之一。

顾名思义,“聚类”为使用相似的距离度量将相似的对象收集到不同的组中或将数据集分布到子集中的过程。

K-means聚类常说是被数据科学家放在其工具箱中使用的基本算法。该算法能在数据科学行业中的流行,当然也是有其特别的优势。

  • 简单
  • 速度
  • 效率

它是如何工作的?

K-means和k-medoids 是分区聚类算法中使用的方法,其功能基于指定组的初始数量或更精确地通过在组之间重新分配对象来实现。

该算法的工作原理是首先将所有的点分离到一个已经选定的群集数量。该过程是通过测量点和每个聚类中心之间的距离来进行的。由于k-means只能在欧几里德空间中起作用,因此该算法的功能受到限制。尽管算法具有缺点,但k-means仍然是聚类中使用的最强大的工具之一。可以看到这些应用程序广泛用于多个领域-物理科学,自然语言处理(NLP)和医疗保健。

k-means算法的扩展涉及其k-centers的更智能的起始位置,这进一步允许更多可变的簇大小。发生这种情况时,创建的距离将大于欧几里德距离。

此外CLARANS,CLARA和PAM,这些方法有助于集成超越欧几里德距离测量的距离。

k-means聚类也是有缺陷需要进行解决的。异常值通常是由于欺诈行为、人为错误和机械故障而出现的。这也可以在k-means聚类中看到。

首先,需要在数据集中应用k-means聚类算法,然后才能开始从每个聚类中识别离群值。基于距离的方法和基于聚类的方法,用于识别或检测数据集中的异常值和异常。

主要目标是首先检测异常值,然后将其删除,从而使聚类更加可靠。

以下是k-means聚类失败的预测要点:

  • 当群集的大小和密度不同时,将无法正常工作。
  • 预测要分割数据的质心的准确数量变得困难。
  • k形心的初始放置会影响结果。
  • 质心是数据集中的一个虚点,其价值可能较小。
  • 对维度的规模敏感,因此重新缩放数据可能会变得困难。
  • 利用欧几里德距离划分点。然而,在高维的设置中它会变得无效,因为所有点彼此之间的距离相等。
  • 即使分区没有意义,该算法也会划分空间。

围绕Medoids (PAM)算法的分区

除了聚类的均值之外,还可以使用medoid进行分区,也可以使用数据点位于聚类的中心点。据说,Medoid与聚类中的所有点具有最小的相似点,对数据集中的异常值较不敏感。

聚类算法在机器学习(ML)的无监督学习下证明了自己。k-means背后的主要思想之一是我们想向已有的数据中添加新点(k)–每一个点被称为质心。k-means算法是每个数据科学家必须在其工具箱中拥有的最简单的数据科学算法之一。

现在,这些分区可以使用任意距离,而不必始终依赖于欧几里德距离。这是PAM,CLARA和CLARANS中最关键的一点。

以下是PAM涉及的步骤:

  • 给定k
  • 现在选择随机数k作为初始medoid
  • 这些实例中的每一个都需要分配给最近的medoid(x)
  • 然后计算目标函数,即将每个实例的pf差异与最接近的medoids相加
  • 选择任意随机实例(y)
  • 如果发生这种情况,将x替换为y,并且交换或替换操作会降低功能
  • 然后重复(3-6),直到不再更改为止

CLARA(大型应用程序的集群)是PAM的更快版本,有助于在算法中启用循环的嵌套顺序。我们需要一个更快版本的PAM,以防PAM算法的时间复杂度比k-means算法慢。

尽管k-means聚类算法存在多个缺点,例如容易受到离群值的影响,依赖于欧几里德距离以及收集不代表真实数据点的质心,但PAM,CLARA和CLARANS在解决该问题中起着重要作用。

作者:Niti Sharma

免责声明:凡未注明来源或者来源为网络的信息均转自其它平台,是出于传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性。网站只负责对文章进行整理、排版、编辑,不承担任何法律责任。若有侵权或异议请联系我们删除,谢谢。

发表评论

您的电子邮箱地址不会被公开。