章鱼保罗是神预测?耶鲁统计学课让你轻松识破一本正经的胡说八道

在现代社会常常有一些莫名其妙的理论,让人觉得有些奇怪,但是又说不出什么道理。比如这次运气太好,那下次运气就会差一些;再比如中国人会觉得4这个数字会带来厄运,而美国人则觉得13会带来厄运。

很多时候我们面对这些模型和数据常常只能被动接受,因为大部人只会觉得这些数字和模型让人觉得头疼,以至于不去深究其背后的漏洞,因此有时候这些荒诞的理论能够盛行,也是因为人们懒得去思考。

今天这篇文章是关于《简单统计学:如何轻松识破一本正经的胡说八道》的解析和书评,在这里我们试图总结整理美国教授加里·史密斯的几条总结性原则,来解释日常见到的一些错误推论。

不管是原始人在打猎、采集还是现代人在写字楼里工作,人总是非常热衷于总结经验,以至于我们能够更有效率地获取价值。

但是正是因为这种特性导致我们常常容易陷入自己创造的模式之中,没能意识到它本身存在的漏洞。

由此很多一本正经的胡说八道并不是人故意捏造出来的,有时候只是因为他们没有意识到这些理论本身存在的问题罢了。

章鱼保罗曾因为预测了世界杯而爆红网络,但是章鱼保罗真的是能预测球赛吗?其实这样的玄学绝对是荒诞的,因为章鱼保罗预测相对准确的原因并非它懂球,而是因为国旗这一混杂因素的干涉。

章鱼虽然是色盲,但是它能够识别敏感度,而且喜欢横向形状,由此它倾向去选择德国、西班牙和塞尔维亚的国旗。

我们在观察保罗预测的时候常常是以人的视角去考量保罗的选择,却没能从章鱼的角度去理解它所看到的世界,由此得出错误的结论几率很大

同样,二战时期返航的战斗机通常两翼、尾部弹孔最多,而驾驶舱、发动机和油箱附近的弹孔相对稀少,如果单单凭借这个推论,我们或许会认为应该在弹孔多的地方加防护。

但是实际上这样做所起的效果恰恰相反,因为在选取数据样本时,我们漏掉了那些被击中驾驶舱、发动机和油箱而不能返航的飞机。

所以我们在考量一个模式或者理论是否合理时,我们必须要考量它的样本以及研究角度。

当然我们同样也会被一些比例蒙骗,比如作者在书中举的那个例子说,马萨诸塞州有一个小镇叫维尔弗里特,据传,那里的谋杀案发生率在高达0.04%,也就是1万居民中有4起谋杀案,而大城市波士顿才只有0.017%的谋杀案发生率。

经过记者调查,人们才发现,原来维尔弗里特只有2000多人,而刚好里面一桩案件被错误统计成了谋杀案,这就导致了民众接受的荒诞信息。

由此这样的比较在某种意义上来说是比较荒诞的,因为基数不同,有时候两个样本间不能相互比较,这也就是所谓的比较偏差。

相关性不一定等于因果关系,就像堕胎合法化不一定会减少犯罪率,因为样本基数同样也会发生变化。

二、横纵坐标如果不是等分的,那么图形特别是折线的走势会与等分的有很所不同;

数据和图像之外,「条件」也喜欢捣蛋。在本书中,加里提到了蒙提·霍尔问题,说是有那么一个电视节目需要人在三扇门之中选一扇,一扇门背后是大奖,其他两扇门后面是山羊。

当选手选了一扇门之后,主持人蒙提·霍尔就会向选手展示他没有选择的一扇门后面的山羊,并询问选手是否换一扇门。

很多人就此认为,既然排除了一扇门,那么选手就等于是在两扇门里面做选择,自然获胜的几率是50%。

但是实际上从现实的角度来看,如果你选择不换门,你的获胜几率依旧是1/3,因为你本来就知道剩下2扇门里有1扇门是有山羊的。但是那个时候如果你打算换门,那么实际上,你的胜率会达到2/3。

这就是条件影响概率,由此我们在考虑模型的时候对于条件也需要注意,因为条件很有可能影响我们原始的样本,从而影响我们的概率。

接下里的一个问题便是所谓的辛普森悖论,比如通过列举几个专业的招生比例,指出男女生招收比例不平衡,但是实际从总体上看,数据是平衡的,因为整体数据拆解之后,样本基数发生了变化。

比如一个专业只有20个人,男生有15人,于是男生比例变成了75%,而其他亦有一些专业男生比较高,但是所有专业合起来统计,我们却会发现男女生比例并没有差很多。

就好比赌场上赌大小,在很多次大之后,大家都期盼着一次小的出现,因为从正常的模式来看大小出现的几率是50%,所以一旦大连续出现后,大家觉得肯定会出现小。

这就是所谓的均值回归,但是实际上,每次大小出现的几率都会是50%,这不会因为前几次都出现大,这个几率就会有所变化。

就像运气守恒定律一样,人们总觉得自己一直倒霉,因此接下来就会走运,但是事实上,运气的概率不会因为之前的条件变化而受影响。

相比于之前的几个偏差定律而言,德克萨斯神枪手也是一个有趣的隐喻,神枪手谬误有两种,一种是枪手随便射击,最后在弹孔最密集的地方画上靶心,另一种是向许多目标射出子弹,然后只留下自己射中的目标,把其他的抹去。

由此在面对一些理论的时候,我们不仅仅需要得出合理有效的数据才能有效地去推演模型,同样也需要反复考量模型本身的合理性和有效性,这样才不会推导出荒诞的理论来。

在这本书中,加里对这些偏差的解释都用了非常经典的例子来证明,由此在这本书中,我们不仅可以一窥统计学世界的奥妙,同样也能了解到学习统计学途中的各种陷阱,有时候就连专家教授也不能幸免。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注