《统计学的世界》第3部分机会与概率 读书笔记-1

接2018年的统计阅读主题,今年开始啃《统计学的世界》这本美国给文科生的统计学教材,通俗易懂又有深度,每章后面的测试题挺好,仔细思考,检验自己真正看懂了多少。 读此书帮助我加深统计主题下的很多概念。
本读书笔记是第3部分第17章的内容,强调“概率”的定义,强调概率和“个人概率”的区别(之前一直对这个概念模模糊糊,现在终于弄清楚了统计推理和贝叶斯推理,也就是频率派和贝叶斯派的本质差异)。

第17章 思考随机事件

关键词:随机事件,少量重复与多次重复,大数定律与小数定律,概率,个人概率,概率与风险
本章关键结论: 概率指的是多次重复的随机事件的可能性,不是一次性的个人判断,所以平时分析问题是,一个很重要的问题就是,对方说的可能性是“个人判断还是长期概率”?

随机事件和概率

概率是描述随机性事件的语言,是多次重复随机事件的平均结果。
随机事件在短期内是没有规律的,但是长期则是有规律的。
我们直觉上对随机性事件存在很多的偏见。
一是我们倾向于忽略长期的随机规律性,
二是倾向于将随机事件视为存在某些推动力所致,比如连续扔六次硬币都是正面朝上(这个概率其实和其他情况都是一样的),比如一位母亲连续三次在同一天生孩子(认为不可思议),比如彩票中奖号码正好等于某个当天的特殊日期(认为存在操纵),比如一个人连续两次中大奖(认为有勾结可能性,可能性微乎其微),但是却没有考虑到这些极端事件在整体中的发生可能性,发生存在必然性,只不过发生在我们周围就觉得不可思议。(同样道理,我们非要在这些随机事件中寻找原因,那就没有意义了,所以不需要必须对一些随机事件寻找因果解释).

1986年,伊芙琳·玛丽第二次中新泽西州彩票头奖,前一次赢得奖金390万美元,这次赢得奖金150万美元。《纽约时报》(1986年2月14日)宣称同一个人中两次头奖的概率差不多是17万亿分之一。两个星期后,两名统计学家致信该报批评这是胡说八道。玛丽一生中赢得两次彩票头奖的机会确实很小,但几乎可以肯定的是,在美国几百万个经常买彩票的人中,总会有这样的幸运儿。这两位统计学家预测,7年内有人中两次头奖的概率是1/2。果不其然,1988年5月,罗伯特·汉弗莱第二次赢得了宾夕法尼亚州彩票头奖(奖金共计680万美元)。
有时,癌症病例会在邻近区域内密集发生,这不算稀奇,总有“某个”地方因为巧合而出现多个癌症病例。可是当癌症群出现在“我们”邻近的区域时,我们就会往坏的方面想,想找某个人来承担责任。

概率和大数定律

在《思考,快与慢》一书中,介绍了大数定律,即只有尽可能多次重复,才能得到接近理想概率的平均值, 如果只有少量重复,就很容易得到偏离平均值很多的极端结果,也就是与“大数定律”相对的“小数定律”。
以抛硬币为例,抛成千上万次,正面朝上的次数占总次数的概率会很接近0.5,但是如果只抛几次或十几次,偏离0.5的可能性很大(比如达到0.7或0.3等)。

平均律

一枚真正的硬币,抛了十次都是正面朝上,下一次正面朝上的概率是多少?
0.5还是大于0.5?
前面的结果是否会影响后面的可能性,还是说更以后的结果会“熨平”之前的极端结果。(小数定律在更多的重复结果中就变成了大数定律)

(长期)概率和个人概率personal probability

上面说的概率是随机事件多次重复的结果,即“长期概率”;我们日常经常说的概率则不是严格意义的概率,而是一种“个人概率”,即我们对一件事情的单次发生可能性的判断。
对于对一件事情的单次判断, 我们可以使用贝叶斯推理来进一步优化结论,也就是一种基于补充信息做出的下一步推断。
所以可以说,统计推断是计算“长期概率”, 贝叶斯推理则是计算“个人概率”。 (2019-2-12 我的分析)

概率是根据同一个随机现象重复多次而来的。
个人概率 一个事件的个人概率是0~1之间的一个数字,代表个人对于该事件发生机会有多大的判断。
在统计学中,调整个人概率是有正规方法的,被称为“贝叶斯方法”。基本定律就是“贝叶斯定理”

风险与概率

从概率的角度看风险。
专家和大众的区别,前者关注长期概率,后者关注个人概率,所以大众容易因噎废食或每次坐飞机时胆战心惊(又想起了吴秀波),这也反映了两种看待风险的角度!
从概率的角度看风险,很多人存在一些风险的错误认识,比如高估自己可以控制的风险(飞机有危险选择不坐飞机,觉得这样坚持更安全),低估自己不能控制的风险(学校建筑中有石棉,就歇斯底里的要求如何如何)。
我们毫不犹豫的接受很高风险的手术或开车打瞌睡,却难以接受更低风险的坐飞机等行为,这是一种典型的矛盾。

一旦我们知道,“对于机会多大的个人判断”和“重复多次会出现什么结果”是不同的概念,就可以了解为什么一般大众和专家,对于什么时候风险很大、什么时候风险不大的意见会大不相同。专家是用根据数据计算得出的概率,来描述遇上某个不受欢迎事件的风险;然而,个人或者社会却似乎对数据置之不理。我们会为一些几乎永远不会发生的事担心,却对某些很有可能发生的事毫不在意。

为什么我们把石棉的风险看得比驾驶的风险大得多?为什么我们对一些很难碰上的威胁,比如龙卷风和恐怖分子,担忧的程度超过患心脏病?

比较起来,当风险似乎在我们的掌握之中时,我们会比不能控制它时觉得更安全。我们开车时可以掌握情况(或者自认为如此),但对于来自石棉、龙卷风或恐怖分子的风险,我们却完全不能控制。

第18章 概率模型

第19章 统计模拟

第20章 赌场的生意经:期望值

备注:机会chance的数学表达方式是概率probability,这是我之前读《ten great ideas about chance》一直没有弄明白的地方。

使用kindle阅读,使用mweb手机端快速整理读书笔记,电脑端复制引用部分,发表。—— 2019.02.13