如何检测数据异常值

如何检测数据异常值

检测异常值最常用的方法是可视化。例如Box-plot、Histogram、Scatter Plot等都是数据分析师在日常中使用到比较多的数据异常值检测。

其中还包括:

  • 任何超出 -1.5 x IQR 到 1.5 x IQR 范围的值
  • 使用封顶方法。任何超出第 5 个和第 95 个百分位数范围的值都可以被视为异常值
  • 离均值三个或三个以上标准差的数据点被认为是异常值
  • 离群点检测只是检查有影响数据点的数据的一个特例,它也取决于业务理解
  • 双变量和多变量异常值通常使用影响指数或杠杆指数或距离来衡量。 STUDENT, COOKD, RSTUDENT等流行指标经常用于检测异常值。
  • 在SAS中,我们可以使用PROC Univariate,PROC SGPLOT。为了识别异常值和有影响的观察结果,我们还会查看统计指标,如 STUDENT、COOKD、RSTUDENT 等。

发表评论

您的电子邮箱地址不会被公开。