透过数据看看美国大选的“笑话”

透过数据看看美国大选的“笑话”

作为数据分析的参考,这是我在其他网站上看到的图形:

这是我从其发布的数据集中创建的相同数据的图表:

数据范围实际上一直上升到6,但是为了与它们的版本保持一致,在这里我将他们裁剪为2。需要注意的一件事是,它们的版本似乎包含一些额外的要点。

我在这里把网格线包含在内,是因为我想指出一点:这些应该是每个批次的D / R投票比率,并且我们知道比赛是摇摆的,因为延迟计数的批次很大程度上是拜登的那一方数据。但是此图显示了后期批次几乎没有突破1.0 D / R比率。如果批量投票比率如上所述,拜登绝不可能卷土重来。

此外,在整个州的数据统计中,选票并没有“洗牌”。他们被送到县投票中心,而不是一个州级办公室。因此,各个批次会受到县的高度偏见,无法得到公正的数据分析。并且趋势线应比我们在这里看到的嘈杂得多。举个例子,对于宾夕法尼亚州来讲,该州有两个主要的延迟计数县,阿勒格尼和蒙哥马利,数据分析师们希望看到的是两个重要趋势,而不仅仅是一个。

最后,选举结果的数据打击到了我。这些不是作者声称的逐批D / R投票比率。这些实际上是累积的D / R投票比率。这是当我们向散点图添加漂亮的线条时的样子。

现在,我们看到的不仅仅是在开始时随机绘制散布的D / R批次,我们只是在查看累积比率中的早期噪声,该噪声是由于到目前为止计数的票数少而最终稳定到接近的比率,然后趋势随着邮寄票数的支持而上升。它们趋于上升的原因仅仅是因为后期批次的绝大多数是支持拜登的那一方。向上趋势并没有意味着批次后期变得更加亲拜登随着时间的推移作为作者的权利要求。

今天我们从一位数据分析师的角度来分析了一下美国大选背后的数据问题,如果有感兴趣的小伙伴可以来九道门商业数据分析学院了解更多呦~~~

发表评论

您的电子邮箱地址不会被公开。