为什么数据会产生缺失值

为什么数据会产生缺失值

数据输入错误、测量误差、实验误差、数据处理错误、抽样错误等问题都会导致缺失值的产生。在进行数据收集的时候一定要细心,避免数据发生错误。

  • 数据输入错误:- 人为错误,例如在数据收集、记录或输入过程中引起的错误,可能会导致数据出现异常值。例如:客户的年收入为 100,000 美元。意外地,数据输入操作员在图中添加了一个额外的零。现在收入变成 1,000,000 美元,高出 10 倍。显然,与其他人群相比,这将是异常值。
  • 测量误差: 它是最常见的异常值来源。这是当所使用的测量仪器出现故障时引起的。例如:有 10 台称重机。其中9个是正确的,1个是错误的。故障机器上的人测量的体重将高于/低于组中的其他人。在故障机器上测量的权重可能会导致异常值。
  • 实验误差:异常值的另一个原因是实验误差。例如:在 7 名跑步者的 100m 冲刺中,一名跑步者错过了专注于“Go”的呼叫,这导致他迟到了。因此,这导致跑步者的跑步时间比其他跑步者多。他的总运行时间可能是一个异常值。
  • 故意异常值: 这通常出现在涉及敏感数据的自我报告措施中。例如:青少年通常会少报他们消耗的酒精量。其中只有一小部分会报告实际价值。这里的实际值可能看起来像异常值,因为其余的青少年报告的消耗量不足。
  • 数据处理错误:每当我们执行数据挖掘时,我们都会从多个来源提取数据。某些操作或提取错误可能会导致数据集中出现异常值。
  • 抽样误差: 例如,我们要测量运动员的身高。我们错误地在样本中包含了一些篮球运动员。这种包含很可能会导致数据集中出现异常值。

发表评论

您的电子邮箱地址不会被公开。