《统计学关我什么事》 读书笔记 -2 贝叶斯统计学 vs 标准统计学

第一部分介绍贝叶斯推理的本质! 前半部分读书笔记见《统计学关我什么事》读书笔记-1 贝叶斯推理举例

该读书笔记包括第一部分第5-13讲的内容,主要介绍两种统计方法,标准统计学(费希尔-内曼-皮尔逊统计学)与贝叶斯统计学在思考方式、逻辑等方面的不同之处。

贝叶斯推理的精华:概率因获得信息而发生变化。
生活其实就包含了无数的贝叶斯推理过程。

用壶中取球为例,介绍两种统计方法。 另一本书中用正常硬币与老千硬币,对比这两种统计方法。(想想应该怎么分析?这个非常有必要单独写个博文总结方法。)

问题设定:面前有一只壶,已知这个壶不是A壶就是B壶,但是单从外表看不出究竟是哪个。而目前已知的是:A壶中有9个白球和1个黑球,B壶中有2个白球和8个黑球。现在,如果从壶里取出1个球,并且这个球是黑色的,那么,面前的这个壶究竟是A还是B呢?
图:

标准统计学(频率派)分析:
贝叶斯推理:

第5讲 贝叶斯推理的特征和逻辑构造

关键词:推理,逻辑推理(自然演绎),概率推理,标准统计学,贝叶斯统计学

几个关键概念

标准统计学和贝叶斯统计学

首先,特别要做的一件事是,将贝叶斯推理与标准的统计推理(称为“内曼-皮尔逊统计学”)之间的区别予以明确。内曼和皮尔逊这两位统计学家共同构筑了现代统计学的形式。还有一位名叫费希尔的统计学者,对统计学也做出了重大的贡献。因此,也有“费希尔・内曼・皮尔逊统计学”这样的名称。本书统一采用通用名称——“内曼-皮尔逊统计学”。
一般的统计学教科书中,对于内曼-皮尔逊统计学都会进行解释说明。“假说检验”“区间估计”等,都是极具代表性的方法论。但令人意外的是,它的历史很短,大约完成于19世纪末到20世纪初左右。

什么是推理?

一般来说,“推论”是指对于尚不明确的事件,通过掌握的某些证据进行推理、并且查明其事实的行为。每个领域都有该领域固有的科学推论方法。在这些方法当中,最典型的推论方法是“逻辑推论性”。

推理,分为逻辑推理(自然演绎)和概率推理,书中用如何区分两个壶为例解释这两种推理方法。 如果A壶都是白球,B壶都是黑球,从一个壶中摸出一个黑球,就可以用逻辑推理判断肯定是B壶。逻辑推理针对的是确定性的事情。但如果A壶有8个白球,2个黑球,B壶有9个白球,1个黑球,那从一个壶中摸出一个黑球,则用概率推理得到“大概”上是A壶,概率推理给出具体的不确定性程度即概率。

1.逻辑性推理(自然演绎)是由逻辑学演绎法经过严密推导得出的结论。
2.在已知的事实中如果存在不确定的部分,则需要概率推理。

两种概率推理方式:贝叶斯统计学,“费希尔・内曼・皮尔逊统计学”(标准统计学)

两种统计学对“大概”一词的解释,反映了两种推理方法的差异(没看懂)

通过对于“大概”一词的解释,我们能够明显地看出标准统计学(内曼-皮尔逊统计学)与贝叶斯统计学之间的立场差异。
在标准统计学的推导中,“大概是B”这一结论,是基于“虽然可能出错,但还是确定结论为B”的考虑而确定的。这是在了解风险的情况下,从两种可能性中选出一种的立场。
而在贝叶斯推理中,“大概是B”这一结论,是基于“可能为A,也可能为B,而B的可能性更大一些”的考虑而确定的。这样,既不确定是A,也不确定是B,而是认为两者都有可能;与此同时,对于A和B的重视程度有所不同,这就是贝叶斯推理的立场。

备注:概率推理的过程,就是缩小可能性空间的过程?

第6讲 明快而严格,但其使用场合受到限制的内曼-皮尔逊式推理

标准统计学(内曼-皮尔逊统计学)中的“假设检验”法。
关键词:假设,对立假设,显著水平,逆向思考(如果假设不成立,选择对立假设)。

这儿不展开介绍,具体内容我直接翻《统计学的世界》读书笔记。
贝叶斯推理和假设检验的区别是,贝叶斯推理不需要设定一个置信度作为前提,比如5%。

使用标准统计学时,关键是获得平均值加减标准差的一个置信区间,这个区间对应一个置信度(67-95-99.7规则对应1,2,3个标准差),根据实测值是否在这个范围,得出结论。
默认“显著性差异”使用的是95%置信度。

问题1:只取样一次,如何计算标准差?
答案:传统统计学对一次测试几乎无效,因为没办法计算误差, 针对的是长期概率。但贝叶斯可以对主观概率进行分析,只需要很少信息就可以推断,就像前面章节说的夫妻生男孩生女孩的概率分析。
问题2:5%置信度在这儿如何使用?

显著水平α,通常用来表示“极少被观察到的现象”的概率。【补充:因为随机性而产生当前观察结果的可能性】当然,可以把它设定其为一个很小的数值,通常会设定为5%(0.05)或1%(0.01)。但是,为何要设定为5%(0.05)或1%(0.01),这一点并没有相应的科学依据。有的说法认为,这是因为费希尔以“在每年都进行推测的情况下,研究20年中大约会有1次弄错,这也是没办法的事情”为理由,对其进行了设定。

标准统计学的缺陷:

如果置信水平小于0.1,就没办法使用传统统计学(假设推理)选择了。
贝叶斯推理无论在何种条件下,都能得出一个暂时的结果。

第7讲 通过少量信息得出切实结论的贝叶斯推理与内曼-皮尔逊式推理的差异

贝叶斯推理不使用显著水平,而是计算出两种可能(A壶还是B壶)的比例。

使用面积法进行贝叶斯推理:

  1. 先将两种可能性平分为0.5。(使用“理由不充分原理”,平分可能性)(基础概率严重影响后验概率,所以这个如何设定很重要!)
  2. 已知两种可能的取出黑球的概率(两个都是长期概率)
  3. 实际取出一个黑球,从而删除两种可能中的白球情况
  4. 进行归一化
  5. 得到两种可能性的后验概率!

具体如下图所示,普通硬币和老千硬币也是一样的推理方法。

标准统计学和贝叶斯推理的对比

贝叶斯推理并没有像内曼-皮尔逊统计学的假设检验那样,有关于显著水平的设定。贝叶斯推理的强项是“无论在何种条件下,都能得出一个暂时的结果”。但是,这个结果并不像内曼-皮尔逊统计学那样,得出一个单方面的判断(非 A 即 B ),而是认为两种可能性都有,并赋予这两种可能性相应的比例关系,仅此而已。而“看到数值之后,做出判断”的工作,就留给统计学家们了。因此,贝叶斯推理也常被称为“总经理的概率”,它的含义是:贝叶斯推理就像是公司职员进行筛选和鉴别,最终由总经理根据下属报告上来的数值进行判断。

贝叶斯统计学中需要设定先验概率,而内曼 – 皮尔逊统计学中则完全不涉及这一概念。先验概率是指,对于接下来将要推理的事物,先设想出多个可能的原因,并为这些原因设定“可能的程度”,即先验概率。

贝叶斯推理和标准统计学的“风险”差异

这里的“风险” 是统计结果实际是错误的概率。
标准统计学的置信水平不能给出真实的“风险”水平(只是一个阀值),而贝叶斯得到的后验概率就是贝叶斯推理结论的“风险”。

在贝叶斯推理和内曼 – 皮尔逊式推理中,各自“风险”的含义是完全不同的。
用比喻性的说法来解释:假设检验的风险存在于结论之外,而贝叶斯推理的风险则存在于结论的后验概率本身之中。
贝叶斯推理之所以能在不考虑显著水平的情况下做出判定,是因为设定了先验概率这一“奇怪的”概念。【所以设定怎样的先验概率很重要】
基础概率的设定影响随意性,对结果影响也很大!这也是“总经理的概率”的缘故。

第8讲 贝叶斯推理的基础:极大似然原理—贝叶斯统计学与内曼-皮尔逊统计学的衔接点

标准统计学中与“先验概率”相似的概念,是极大似然原理。
没看懂,放弃,感觉就是一种定性描述,一种没有学习假设推理和贝叶斯推理也会做出正确选择的概率思想,所以同时适用于两种推理方法。

有点类似于抽样调查和真值的关系。

标准统计学与贝叶斯统计学的共通之处,在于一种被称为“极大似然原理”的思考方式。
简单来说,“极大似然原理”的含义就是:世界上正在事件,之所以发生,是因为它发生的概率大。
我们可以认为,贝叶斯统计学中的先验概率是极大似然原理的应用之一。
标准统计学的点推理中,采用使观察到的现象的概率最大的函数作为推断值,这也是极大似然原理的应用之一。

第9讲 贝叶斯推理的结果,有时与直觉大相径庭 ②蒙蒂霍尔问题与三个囚犯的问题

两个问题本质上是一样的。
这两个问题的概率,都是主观概率,而非长期概率!
可以使用贝叶斯推理分析主观概率。

三个囚犯的问题艾伦、伯纳德、查尔斯三个囚犯,他们的名字简称为A、B、C。所有人都知道,这三人中,有两人要被处死,剩下一人被释放,但不知道被释放的会是谁。这时,艾伦对看守说:“反正三个人中有两人要被处死,所以伯纳德和查尔斯中两个人中,至少有一个是要被处死的。即使你告诉我这两人中谁要被处死,对我来说也没什么益处。那么,能不能请你告诉我,究竟谁要被处死呢?”看守听后,同意了艾伦的看法,于是告诉他:伯纳德将要被处死。艾伦听了这话,心中窃喜。因为艾伦是这样考虑的:在什么情况都不了解的时候,我被释放的概率是1/3;但现在,我知道了伯纳德要被处死,那么我和查尔斯之中,如果一方被处死,另一方肯定会被释放。这样一来,我被释放的概率就上升到了1/2。【反过来看,被处死的概率从最初的2/3降至1/2。】
现在我们可以了解到,三个囚犯问题和蒙蒂霍尔问题具有相同的结构。艾伦相当于A帘,伯纳德相当于B帘,查尔斯相当于C帘,而将要被释放的人则对应藏在帘子后面的轿车。看守人告知艾伦,伯纳德会被处死这一消息,则对应主持人打开B帘之后没有轿车这一信息。而A帘后面有轿车,则对应为艾伦要被释放的信息。

这两个问题的关键点都在于:由于获得了一定信息而导致概率发生变化。 (贝叶斯推理的过程就是新增信息更新概率)
蒙蒂霍尔问题和三个囚犯问题,以两种不同的形式表达了相同的内容。
这两个问题都可以通过贝叶斯推理来进行解答。
选择者自身的概率不会发生变化,而非选择者那一方的概率会发生变化。 可以从以下的例子分析
现在,假设你从海量的彩票中选出1张。之后,主持人在剩余的所有彩票中只选出1张留下,剩下的彩票全部销毁,并告诉你:刚才撕碎的彩票中没有头奖。这时,你是应该改选主持人留下的那1张彩票,还是继续坚持自己最初选择的那张彩票不变呢?
在你选出某 1 张彩票的时刻,它是不是头奖就已经是固定不变的事实了,后来发生变化的只是“你的主观推测值”。既然是主观的东西,那么答案自然不止一个了。
总之,说到底,概率性推论依存于“主观”因素——对概率现象结构的想象,因此结论会根据模型的构建方式而不同。因此可以说,概率性推论并不存在“正确的答案”,至多是“妥当的推论”罢了。这一点在贝叶斯统计学和标准统计学(内曼-皮尔逊统计学)中是相同的。
笔者认为,由于结论依存于模型的设定(如何想象概率现象),所以没有所谓的“正确答案”。

问题:蒙蒂霍尔问题,如何进行面积法分析?
答案: 书中给出了两个面积法分析,对应于两种条件概率的设定规则,两个规则都是合理的,取决于裁判的预设规则(条件概率!)。

第10-13讲 贝叶斯推理与持续更新

第10讲 掌握多条信息时的推理①运用“独立试验的概率乘法公式”
第11讲 掌握多条信息时的推理②以垃圾邮件过滤器为例
第12讲 在贝叶斯推理中可以依次使用信息“序贯理性”
第13讲 每获得一条信息,贝叶斯推理就变得更精确一些

总结:第10讲介绍概率的乘法规则,通过不断补充新的信息,不断更新后验概率! 第11讲和12讲了两种同时利用两条信息进行贝叶斯推理的方法。一种是一次使用两条信息,使用一个大的面积法计算后验概率,第二个是将第一个信息得到的后验概率作为第二个信息的先验概率。 两种方法得到的结果是一样的,这就是书中说的“序贯理性”。以垃圾邮件拦截为例做了面积法介绍。
第13讲介绍不断更新的贝叶斯推理,以多次取球为例,介绍多次概率的不断更新情况,具体从略。

贝叶斯推理可以依次使用大量信息对先验概率进行更新,从而用于现在的大数据分析和推理。
这也类似于人脑的学习过程。 人脑也是一个贝叶斯过程。

在进行统计推算与贝叶斯推理等概率推算时,通常需要两条以上的信息。并且,信息数量越多,推算出的结果可信度越高。
事实上,贝叶斯推理的实际应用中,最广为人知的正是这种垃圾邮件过滤器。
信息越多,推理结果就越精确
观察次数越多,推算结果就越接近实际
通过连续收集到的信息而进行的连续推理(称为逐步推理)。简单地说,就是“通过获得信息①而修改了各个类别的概率之后,再通过信息②来进行推理时,可以暂时忘记之前的信息①,这样做是没有问题的”。这在专业上被称为“序贯理性”,也是贝叶斯推理的突出性质之一。
“通过同时利用两条信息求出的后验概率”和“把通过信息①得出的后验概率设为先验概率,然后通过信息②,再求出后验概率”是完全一致的,在贝叶斯推理中,该结论一般情况下都是能够成立的。这一特性在专业领域被称为“序贯理性”。
贝叶斯推理正是具备了“收集信息并自动变聪明”的功能。
据此,我们能够得出“从某种意义上来讲,贝叶斯推理是一种具备人类特性的推理方式”的结论。

对先验概率的质疑和理解

贝叶斯推理之所以显得有些“牵强”,主要是因为其中的先验概率。所谓先验概率,是指“在没有任何信息的情况下,暂且把所有可能性的概率设定为对等的(理由不充分原理)”,或者“从主观上进行设定”等,因而会令人感到“牵强”。
但反过来说,正是由于设定了这样的先验概率,贝叶斯推理从而具备了“即使只有少量信息(数据),也能够进行推理”的优点。这一点也正是贝叶斯推理优于标准统计推理(内曼-皮尔逊式推理)的地方。

贝叶斯推理的价值

此外,贝叶斯推理还具有“将已经在推理过程中使用过的信息反映到后验概率之后,即使把它丢掉也没关系”的良好特性,这一特点被称为贝叶斯推理的学习功能。【前面说的序贯推理!】
实际上,贝叶斯推理还具备另外一个学习机能,也就是“信息越多,推理结果就越精确”的性质。

问题1:理解垃圾邮件拦截中的先验概率,条件概率,多个消息下的后验概率

备注:这几张分析的依然是主观概率的更新吧。 对于长期概率的更新,
答案: 书中有一个例子和对应的面积法分析,先是基于邮件是否有链接更新是垃圾邮件的可能性,然后根据是否有“幽会”字段进一步更新是垃圾邮件的可能性。
两者条件都满足的邮件是垃圾邮件的概率假如是0.96,超过了设定的垃圾邮件阀值比如0.95,就会被转入垃圾邮件收件箱。

备注2: 第11讲后的练习题,对应本书第一部分第二章的假阳性事件,通过两种方法的检查,进一步贝叶斯更新,得到进一步的后验概率,从而降低假阳性的可能性。 这就利用了独立事件的概率乘法法则。

假设,有两种方法(检查方法1和检查方法2)能够检查出是否患有癌症。这两种检查方法的原理完全不同。因此,当癌症患者通过其中一种方法检查出了阳性时,采用另一种方法反而很难检测出阳性。所以,要分开进行试验。对于健康人来说,检查时也是一样的。下面我们来思考以下设定。

2019-7-26 读完本书第一部分(对应两篇读书笔记)
2019-9-17 下班地铁上,重读并更新读书笔记,彻底读完并整理完第一部分读书笔记。