数据分析的常见问题

数据分析的常见问题

在数据分析过程中常见的问题有:数字输入错误、文本错别字、缺失值、违反数据规则、格式错误等。良好的数据质量会带来更准确的结果和更好的预测,要尽量避免或是及时处理好一些常见的基础问题。

数字输入错误

输入的值与字段范围不符。例如,为一周输入的值可能是从1到7的数字。值为 8 是不正确的。另一种常见的是使用字母“O”表示0,使用字母“I”表示1。在输入的很多细节上的问题都是需要注意的。

文本错别字

这些只是不正确的值。例如,将 Feb 输入为 Deb,因为“D”就在键盘上的“F”旁边。Deb 作为一个名字可能有意义,但作为一个月份就会出现错误,让人无法理解其意思。

缺失值

数据有缺失值。例如,客户记录中缺少年龄(数字)或性别(分类)。

违反数据规则

一个简单的数据规则违反的例子是将未来的时间设置为出生日期。这是一个容易发现的问题。更复杂的数据规则违规行为可能是一岁儿童的体重为 100 磅。您需要上下文来捕捉复杂的错误(可能是 10 磅的一岁孩子或 100 磅的 15 岁孩子)。

格式错误

假设您是一家跨国公司,并且您正在合并产品数据。美国的五磅和国内的五公斤就是不一样的。另一个常见的格式错误与日期有关。例如,1/12/18 与 12/1/18 不同。

重复值

重复值对于数据也是有着一定影响的。例如,具有相同信息的两个人同时入院几乎可以就是重复值,需要进行排查。

发表评论

您的电子邮箱地址不会被公开。