如何去除大数据异常值

如何去除大数据异常值

常见处理异常值的方法类似于缺失值的方法,例如删除观察值、转换、装箱、将它们作为单独的组处理、进行插补值等方式去除大数据异常值。

下面我们将讨论用于处理异常值的常用技术:

删除观察:如果由于数据输入错误、数据处理错误或异常值观察数量非常少,我们将删除异常值。我们还可以在两端使用修剪来去除异常值。

转换和分箱值: 转换变量还可以消除异常值。一个值的自然对数减少了由极值引起的变化。分箱也是变量变换的一种形式。由于变量的分箱,决策树算法允许很好地处理异常值。我们还可以使用为不同的观察分配权重的过程。

插补: 与缺失值插补一样 ,我们也可以插补异常值。我们可以使用均值、中值、模式插补方法。在插补值之前,我们应该分析它是自然异常值还是人工值。如果它是人为的,我们可以使用估算值。我们还可以使用统计模型来预测异常值观察值,然后我们可以用预测值对其进行估算。

单独处理: 如果有大量异常值,我们应该在统计模型中单独处理它们。一种方法是将两个组视为两个不同的组,并为这两个组构建单独的模型,然后组合输出。

发表评论

您的电子邮箱地址不会被公开。