常用的降维技术方法有哪些

常用的降维技术方法有哪些

有很多方法可以执行降维,最常用的就有:决策树、随机森林、向后特征消除、高相关性、因子分析、主成分分析等。在不同的情况下使用合适的方式可以更好的得到结果。

1、决策树: 它可以用作解决多种挑战的终极解决方案,例如缺失值、异常值和识别重要变量。

2、随机森林: 与决策树类似的是随机森林。我还建议使用随机森林提供的内置特征重要性来选择较小的输入特征子集。请注意随机森林倾向于偏向具有更多 no 的变量。不同的值,即比二进制/分类值更喜欢数字变量。

3、高相关性:表现出较高相关性的 维度会降低模型的性能。此外,具有相似信息或变异的多个变量也称为“多重共线性”是不好的 可以使用 Pearson(连续变量)或Polychoric(离散变量)相关矩阵来识别具有高相关性的变量,并使用VIF  (方差膨胀因子)选择其中之一。可以删除具有更高值 ( VIF > 5 ) 的变量。

4、向后特征消除: 在这种方法中,我们从所有 n 维开始。在消除每个变量(n 次)后计算误差平方和 (SSR)。然后,识别移除对 SSR 产生最小增加的变量,最后将其移除,留下n-1 个输入特征。

重复这个过程,直到没有其他变量可以被删除。

5、因子分析: 假设一些变量高度相关。这些变量可以根据它们的相关性进行分组,即特定组中的所有变量之间可以高度相关,但与其他组的变量相关性较低。这里每个组代表一个单一的潜在构造或因素。与大量维度相比,这些因素在数量上很小。然而,这些因素很难被观察到。主要有两种进行因子分析的方法:

  • EFA(探索性因素分析)
  • CFA(验证性因素分析)

6、主成分分析(PCA):在这种技术中,变量被转换成一组新的变量,这些变量是原始变量的线性组合。这些新的变量集称为主成分。 它们以这样一种方式获得:第一主成分占原始数据的大部分可能变化,之后每个后续成分具有最高的可能变化。

第二个主成分必须与第一个主成分正交。

发表评论

您的电子邮箱地址不会被公开。