异常值的类型有哪些

异常值的类型有哪些

可以有两种类型:单变量和 多变量。当我们查看单个变量的分布时,是可以找到这些异常值的。多变量异常值是 n 维空间中的异常值。想要找到它必须查看多维分布。

让我们通过一个例子来理解这一点。假设我们正在了解身高和体重之间的关系。下面,我们有身高、体重的单变量和双变量分布。看一下箱线图。我们没有任何异常值(高于和低于 1.5*IQR,最常用的方法)。现在看散点图。在这里,在特定的体重和身高部分,我们有两个低于平均值的值,一个高于平均值。

什么导致异常值?

每当我们遇到异常值时,解决它们的理想方法是找出出现这些异常值的原因。处理它们的方法将取决于它们发生的原因。异常值的原因可以分为两大类:

  1. 人工(错误)/非自然
  2. 自然的

让我们更详细地了解各种类型的异常值:

  • 数据输入错误:- 人为错误,例如在数据收集、记录或输入过程中引起的错误,可能会导致数据出现异常值。例如:客户的年收入为 100,000 美元。意外地,数据输入操作员在图中添加了一个额外的零。现在收入变成 1,000,000 美元,高出 10 倍。显然,与其他人群相比,这将是异常值。
  • 测量误差: 它是最常见的异常值来源。这是当所使用的测量仪器出现故障时引起的。例如:有 10 台称重机。其中9个是正确的,1个是错误的。故障机器上的人测量的体重将高于/低于组中的其他人。在故障机器上测量的权重可能会导致异常值。
  • 实验误差:异常值的另一个原因是实验误差。例如:在 7 名跑步者的 100m 冲刺中,一名跑步者错过了专注于“Go”的呼叫,这导致他迟到了。因此,这导致跑步者的跑步时间比其他跑步者多。他的总运行时间可能是一个异常值。
  • 故意异常值: 这通常出现在涉及敏感数据的自我报告措施中。例如:青少年通常会少报他们消耗的酒精量。其中只有一小部分会报告实际价值。这里的实际值可能看起来像异常值,因为其余的青少年报告的消耗量不足。
  • 数据处理错误:每当我们执行数据挖掘时,我们都会从多个来源提取数据。某些操作或提取错误可能会导致数据集中出现异常值。
  • 抽样误差: 例如,我们要测量运动员的身高。我们错误地在样本中包含了一些篮球运动员。这种包含很可能会导致数据集中出现异常值。
  • 自然离群点: 当离群点不是人为的(由于错误)时,它就是一个自然离群点。例如:在我与一家著名保险公司的最后一次任务中,我注意到前 50 名财务顾问的表现远高于其他人。令人惊讶的是,这不是由于任何错误。因此,每当我们与顾问进行任何数据挖掘活动时,我们都会单独处理这一部分。

发表评论

您的电子邮箱地址不会被公开。