数据异常值产生的原因

数据异常值产生的原因

数据异常值产生干原因主要可以分为两大类:非自然错误和自然错误造成。非自然也就是人工错误,比如常见的数据输入错误,处理错误,抽样误差等。像是自然离群点就属于自然问题。

每当我们遇到异常值时,解决它们的理想方法是找出出现这些异常值的原因。处理它们的方法将取决于它们发生的原因。异常值的原因可以分为两大类:

  1. 人工(错误)/非自然
  2. 自然的

让我们更详细地了解各种类型的异常值:

  • 数据输入错误:- 人为错误,例如在数据收集、记录或输入过程中引起的错误,可能会导致数据出现异常值。例如:客户的年收入为 100,000 美元。意外地,数据输入操作员在图中添加了一个额外的零。现在收入变成 1,000,000 美元,高出 10 倍。显然,与其他人群相比,这将是异常值。
  • 测量误差: 它是最常见的异常值来源。这是当所使用的测量仪器出现故障时引起的。例如:有 10 台称重机。其中9个是正确的,1个是错误的。故障机器上的人测量的体重将高于/低于组中的其他人。在故障机器上测量的权重可能会导致异常值。
  • 实验误差:异常值的另一个原因是实验误差。例如:在 7 名跑步者的 100m 冲刺中,一名跑步者错过了专注于“Go”的呼叫,这导致他迟到了。因此,这导致跑步者的跑步时间比其他跑步者多。他的总运行时间可能是一个异常值。
  • 故意异常值: 这通常出现在涉及敏感数据的自我报告措施中。例如:青少年通常会少报他们消耗的酒精量。其中只有一小部分会报告实际价值。这里的实际值可能看起来像异常值,因为其余的青少年报告的消耗量不足。
  • 数据处理错误:每当我们执行数据挖掘时,我们都会从多个来源提取数据。某些操作或提取错误可能会导致数据集中出现异常值。
  • 抽样误差: 例如,我们要测量运动员的身高。我们错误地在样本中包含了一些篮球运动员。这种包含很可能会导致数据集中出现异常值。
  • 自然离群点: 当离群点不是人为的(由于错误)时,它就是一个自然离群点。例如:在我与一家著名保险公司的最后一次任务中,我注意到前 50 名财务顾问的表现远高于其他人。令人惊讶的是,这不是由于任何错误。因此,每当我们与顾问进行任何数据挖掘活动时,我们都会单独处理这一部分。

发表评论

您的电子邮箱地址不会被公开。