8个需要防范的常见数据问题

8个需要防范的常见数据问题

你的数据有多干净?数据质量可能是分析项目的最大障碍之一。良好的数据质量会带来更准确的结果和更好的预测,而糟糕的数据质量会产生误导性的预测——进而可能导致公司采取有误导性的行动。

以下是需要注意的最常见的数据问题,在使用中要尤为注意:

#1. 简单的数字输入错误

输入的值与字段范围不符。例如,为一周输入的值可能是从1到7的数字。值为 8 是不正确的。另一种常见的是使用字母“O”表示0,使用字母“I”表示1。在输入的很多细节上的问题都是需要注意的。

#2. 复杂的数字输入错误

输入的值符合字段范围,但不符合其他字段的上下文。1,000美元的费用是正常的,但一本书籍就需要1,000美元就会存在不正常的问题,需要留意。在此示例中,可能错误地添加了一个额外的零。

#3。简单的文本错别字

这些只是不正确的值。例如,将 Feb 输入为 Deb,因为“D”就在键盘上的“F”旁边。Deb 作为一个名字可能有意义,但作为一个月份就会出现错误,让人无法理解其意思。

#4。复杂的文本错别字

更复杂的文本拼写错误也是一个常见问题。例如,为 Vermont 输为 Belmont,因为“V”在键盘上的“B”旁边。Belmont和Vermont虽然算是一个地方,但是如果在州的字段内,那是错误的,因为Belmont不是州。

#5. 缺失值

数据有缺失值。例如,客户记录中缺少年龄(数字)或性别(分类)。

#6。违反数据规则

一个简单的数据规则违反的例子是将未来的时间设置为出生日期。这是一个容易发现的问题。更复杂的数据规则违规行为可能是一岁儿童的体重为 100 磅。您需要上下文来捕捉复杂的错误(可能是 10 磅的一岁孩子或 100 磅的 15 岁孩子)。

#7。格式错误

假设您是一家跨国公司,并且您正在合并产品数据。美国的五磅和国内的五公斤就是不一样的。另一个常见的格式错误与日期有关。例如,1/12/18 与 12/1/18 不同。

#8。重复值

重复值对于数据也是有着一定影响的。例如,具有相同信息的两个人同时入院几乎可以就是重复值,需要进行排查。

你能做什么?

  • 解决当前数据中的问题。可以使用机器学习的转换、插补和预测的组合。
  • 在源数据中手动解决问题,防止以后再次发生。

作者:SRIRAM PARTHASARATHY

免责声明:凡未注明来源或者来源为网络的信息均转自其它平台,是出于传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性。网站只负责对文章进行整理、排版、编辑,不承担任何法律责任。若有侵权或异议请联系我们删除,谢谢。

发表评论

您的电子邮箱地址不会被公开。