在数据建模中,转换是指用函数替换变量。例如,用平方/立方根或对数 x 替换变量 x 是一种变换。换句话说,转换是改变一个变量与其他变量的分布或关系的过程。

我们什么时候应该使用变量转换?

以下是需要进行变量转换的情况:

  • 当我们想要改变一个变量的尺度或标准化一个变量的值以便更好地理解时。如果您有不同尺度的数据,则必须进行此转换,但此转换不会改变变量分布的形状
  • 当我们可以将复杂的非线性关系转化为线性关系时。与非线性或曲线关系相比,变量之间存在线性关系更容易理解。变换帮助我们将非线性关系转换为线性关系。散点图可用于找出两个连续变量之间的关系。这些转换也改进了预测。对数转换是这些情况下常用的转换技术之一。
  • 对称分布优于偏态分布,因为它更容易解释和生成推论。一些建模技术需要变量的正态分布。因此,每当我们有偏斜分布时,我们都可以使用减少偏斜的变换。对于右偏态分布,我们取变量的平方/立方根或对数,对于左偏态,我们取变量的平方/立方或指数。
  • 变量转换也是从实现的角度(人为参与)完成的。让我们更清楚地了解它。在我的一个关于员工绩效的项目中,我发现年龄与员工的绩效直接相关,即年龄越大,绩效越好。从实施的角度来看,启动基于年龄的计划可能会带来实施挑战。但是,将销售代理分为 <30 岁、30-45 岁和 >45 三个年龄组,然后为每个组制定三种不同的策略是一种明智的方法。这种分类技术称为变量分箱。

发表评论

您的电子邮箱地址不会被公开。