辛普森悖论

1.辛普森悖论是什么?

首先,辛普森悖论是一个统计学中的名词,大概意思是为了探究两种变量的相关性,人们会对之进行分组研究,但是出现一个问题是:在分组比较中都占优势的一方,在总评的时候有时反而是失势的一方。

举第一个栗子:加州伯克利分校录取率中是否含有性别歧视

这里统计了两个学院男生和女生的申请人数,录取人数以及录取率,这里隐含的辛普森悖论是:无论是物理学院还是文学院,男生的个别录取率都小于女生,但是计算总计的录取率男生却远大于女生。当时录取结果出来时,人们议论这个学校是不是对女生存在性别歧视,但是当你看不同分组的录取率时,你会发现它歧视男生?到底是歧视谁呢?

举第二个栗子:两种疗法治疗肾结石的成功率

同理,在治疗小型和大型肾结石的两个分组里,A疗法的成功率都大于B疗法,但是计算总计时却是B疗法的成功率比较大。

举第三个栗子:乔丹和詹姆斯投篮谁比较厉害

无论是在二分球还是三分球的命中率上,乔丹都要低于詹姆斯,但是在计算总计时乔丹却领先詹姆斯一个百分点。

2.为什么会出现这种情况?

为什么会出现这种情况?在分层统计的时候是一批人优秀,而到了总计的时候又是另外一批人优秀,完全相同的数据却得出相反的结论。

原因:辛普森悖论的本质是,或者说前提是,每层之间的成功率差别很大。

拿上面三组数据来说明:录取率数据中,无论是男生还是女生,物理学院的录取率都远高于文学院(这里可能是学校专业分配上的原因,物理学院更好考吧);治疗成功率中,小型肾结石的治疗成功率远大于大型肾结石(这个很好理解,小的结石比较好治嘛);最后投篮命中率中,二分球的命中率也远大于三分球的命中率(这个想想就知道二分球比较容易投)。

这里有三个点,物理学院更容易考,小型结石更好治,二分球更好投;总结来说就是三件更容易做的事,而且观察三组数据发现,不同批次的人分配做不同难度事的人物也是有差别的,这也是悖论的第二个前提,更多男生申请了物理学院(选择更容易的事去做),导致最终统计成功率时出现反转;人们使用A疗法做了更多大型结石(困难)的治疗;詹姆斯相比乔丹投了更多的三分球,拉低了他的整体进球率。

总结下来一句话:如果你多去干成功率高的事,那你整体的成功率就会变大。

3.几何解释

数无形时少直觉,形少数时难入微,数形结合千般好啊,如果用几何的方式来解释辛普森悖论,相信能有更好的理解。

我们以横坐标表示做某件事尝试的次数,纵坐标表示成功的次数,每一个事件都可以用直角坐标系中的一个点来表示,从原点出发,画一个指向这个坐标点的向量,向量的斜率表示的就是成功率。假设一个人做了两件事,一件事的成功率记为k1,另一件事的成功率记为k2;那么总体的成功率该怎么计算呢?很简单,总体成功率=总的成功次数/总的尝试次数,在几何上,根据平行四边形法则,以这两个向量作为邻边做一个平行四边形,而这个平行四边形对角线的斜率就是总体的成功率。

,,总k1=y1x1,k2=y2x2,k总=y3x3=y1+y2x1+x2

这样子就能解释,为什么一个人两层的成功率都不高(相对的),但是总体的成功率偏高。

A无论做第一件事还是第二件事,成功率都小于B,但是计算总的成功率却大于B。

4.结论

为了避免辛普森悖论的出现,就需要斟酌个别分组的权重,以一定的系数去消除以分组资料基数差异所造成的影响。虽然数据是客观和真实的,但是不同的人却可以用同样的数据讲出不同的故事。




转载请注明:http://www.jieshiajd.com/dsyy/12724.html


当前时间: