大数据中的五种常见偏见

大数据中的五种常见偏见

大数据中的偏见,无论是有意还是无意,都可能导致错误判断和糟糕的业务成果。

如今,企业意识到他们决策的很大一部分受到大数据的影响。数据的大量可用性并不能保证其相关性,数据科学家和分析师对大数据的分析也不能保证其相关性,因为人类的判断有时可能存在缺陷。此外,有几个因素可能会对数据产生正面或负面的影响。因此,数据可能会不时波动。这就是为什么数据团队知道如何从大数据中做出正确推断变得至关重要的原因。只有当数据分析师和科学家意识到存在偏见及其解决方案时,这才有可能 。

确认偏差

感知就是一切,在大数据分析过程中会产生字面上的影响。这会导致一种称为确认偏差的情况,这种偏差会扭曲数据。在这种现象中,数据科学家或分析师倾向于与他们的信念、观点和观点一致的数据。在筛选数据的过程中,他们倾向于从信息中提取见解,以加快他们的主张或假设;一旦他们发现数据,哪怕只是稍微反驳他们的假设,他们就会放弃。在希望根据自己的看法调整证据和信息的重要性的组织领导者中,这种情况更为常见。通常,确认偏差会导致不良的业务结果。

可用性启发式

可用性启发,通常称为可用性偏差,经常出现在大数据中。它是我们必须注意的东西,更重要的是因为它的表现是微妙的。基本上,它指的是数据科学家仅根据现成的数据或最近的信息进行推断的方式。他们相信即时数据就是相关数据。对于新闻而言尤其如此,有时新闻报道的内容与实际发生的内容之间存在巨大差异。这可能会对大数据及其分析产生危险的后果,因为它可能会转移数据分析师的注意力,使其不再关注其他替代观点和解决方案。通过让你只依赖最近的数据,可用性启发式方法导致了数据分析的狭窄性。

辛普森悖论

我们所说的辛普森不是卡通片辛普森,而是一种被称为辛普森悖论的数据偏差。辛普森悖论可能是最容易被忽视和低估的数据偏差。在肉眼看来,一些数据和统计数据可能看起来非常好,但一个警觉的数据科学家必须知道如何在字里行间阅读。在分析中,当对单个群体进行分析时,模式显示了某一特定趋势的主导地位。然而,当累积观察这些模式时,结果完全相反。这些单独的趋势可能会导致误导并掩盖数据的整体价值和真实价值。这就是为什么当数据流量增加时,分析师在阅读时必须谨慎。这在医疗保健和营销领域尤为重要,因为这两个领域的目标受众非常敏感。

非正态性

数据呈正态分布或非正态分布。非正态性的偏差是通过称为 t 检验或钟形曲线的东西来衡量的。钟形曲线上的最高点用于突出那些代表最高概率事件的数据系列。筛选汇总数据的分析师有时会假设存在钟形曲线,但实际上数据存在某些误差和错误,而这些误差和错误远不及钟形曲线。这导致数据科学家强行尝试将数据拟合到钟形曲线中。反过来,这会导致非常不准确的结果,从而损害组织的输出。

过拟合和欠拟合

数据科学家普遍存在的一个误解是,一个包含多种数据趋势的过于复杂的模型必然会带来准确的推论。但是,当评估大量参数并将其添加到数据模型时,会导致检测到不必要的噪声和微小波动。这样一来,主要的潜在趋势往往会被忽略,从而导致预测分析不佳。在欠拟合的情况下,与过拟合相反,它主要是模型过于简单的结果。在这种情况下,数据分析师尝试将非线性数据拟合到线性数据模型中,这两种方法中的任何一种都可能导致偏差,最终导致结果扭曲。

数据科学家和分析师必须考虑到现有的偏见并针对这些偏见制定补救解决方案。由于大数据中隐藏的偏见会阻碍准确决策,并可能影响结果,因此企业领导者和领导管理人员保持警惕至关重要。

作者:NAVEEN JOSHI

免责声明:凡未注明来源或者来源为网络的信息均转自其它平台,是出于传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性。网站只负责对文章进行整理、排版、编辑,不承担任何法律责任。若有侵权或异议请联系我们删除,谢谢。

发表评论

您的电子邮箱地址不会被公开。