统计主题阅读4:两种推理方法之二——贝叶斯推理-1

接已经整理的读书笔记:统计主题阅读3:两种推理方法之一——统计推断 – Zero,本文分析第二个推理方法即贝叶斯推理,本想等读完几本贝叶斯主题的图书再整理该主题,但是内容越来越多,一篇博文是整理不完的。所以用本文先捋一下贝叶斯的相关知识和核心内容,以此作为索引,以后再根据阅读情况进一步补充细化。
本文先简单介绍贝叶斯推理的基本概念,和统计推理的区别,并举一个例子,其他的贝叶斯知识和应用,后续再单独整理。

贝叶斯推理是什么

关键词:prior information(前提信息,先验信息),条件概率,
后验概率=相似率*先验概率

贝叶斯公式:
后验概率=先验概率*调整因子
P(h | D) = P(h) * P(D | h) / P(D)

先验概率:h的发生概率,也就是我们最常见的某一事件的发生概率。
后验概率:在D事件发生的前提下,h的发生概率。后验概率是一种条件概率,也就是D事件发生前提下h事件的发生概率。
条件概率(conditional probability),在某一个条件/前提下的的概率,比如“如果Y,那么X的概率”。
调整因子,也叫相似率: P(D | h) / P(D) ,h事件发生的前提下D的发生概率/D的发生概率

P(B|A) = P(A|B) * P(B) / [P(A|B) * P(B) + P(A|~B) * P(~B) ]
收缩起来就是:
P(B|A) = P(AB) / P(A)
其实这个就等于:
P(B|A) * P(A) = P(AB)
难怪拉普拉斯说概率论只是把常识用数学公式表达了出来。

《暗时间》

备注:有一篇文章介绍了记忆贝叶斯公式的简单办法:ABABAB,也就是这儿的hDhDhD;
如果把公式右边的分母放在最左边,就是最简单和方便理解的公式:
P(D) * P(h | D) = P(h) * P(D | h) = P(hD)
P(h) * P(D | h) 不等于 P(D) …还要考虑“非h”的情况。
P(A|B) * P(B) + P(A|~B) * P(~B) = P(A)

统计推断和贝叶斯推断的比较

统计推断和贝叶斯推理是两种完全不同的思考方式。
统计推理和贝叶斯推断是两种基本的推理方法,前者的核心是正态分布和显著性检验,通过分析现有的数据推测绝对的概率; 后者的核心是贝叶斯公式,强调的是利用新信息更新现有的一个概率,有点类似于“不断累积证据从而不断趋近目标概率”的过程。

贝叶斯推理和统计推断的关键区别是,是否存在“先验概率”即初始概率。贝叶斯推理根据新的证据,更新“先验概率”,得到“后验概率”,类似于不断迭代的推理方法,从而不断趋紧真值。

所谓频率派,就是指在“无数次的试验”中出现结果的“频率”(随机事件多次重复的长期频率—《统计学的世界》),频率派就是基于费希尔那种思考方式的统计学家。——《看穿一切数字的统计学》
如果将两者之间的区别用一句话来概括的话,那就是“是否在事前预测某种概率”。【可以认为统计推理的基础概率是1】

频率派:围绕概率本身的思考方法,对应于置信区间、显著性检验方法。
贝叶斯派:贝叶斯推理是针对“单次事件的可能性”进行更新。根据贝叶斯派的思考方法,在“事前概率”这个假设的前提下,就可以根据数据进行演绎。

贝叶斯推理是一种精益思维,是一种不断更新判断的方法论,和统计推理各有各的优势。 我们在直觉上习惯使用统计推理,很难习惯于贝叶斯推理。
什么时候用统计推理,什么时候用贝叶斯推理?

因此,在进行“不允许出现错误”的保守判断时,基本上都会选择频率派的方法。在这种不允许出现错误的判断之中,假设“有50%的概率有效”的事前概率是非常不明智的,因为所有可能导致因果推论出现错误的假设,都应该极力避免。
与之前所提到的那些不同领域间的思考方法一样,贝叶斯派与频率派之间也没有对错之分。通过对有限的信息与假设进行组合,追求“效率”的时候使用贝叶斯派的思考方法,追求“准确性”或者“拥有足够数据”的时候使用频率派的方法求p值更好。——《看穿一切数字的统计学》

贝叶斯推理举例1

直接拷贝刘未鹏在《暗时间》和博文中提到的wikipedia案例和介绍。 更多案例我以后再手动整理。

一所学校里面有 60% 的男生,40% 的女生。男生总是穿长裤,女生则一半穿长裤一半穿裙子。有了这些信息之后我们可以容易地计算“随机选取一个学生,他(她)穿长裤的概率和穿裙子的概率是多大”,这个就是前面说的“正向概率”的计算。然而,假设你走在校园中,迎面走来一个穿长裤的学生(很不幸的是你高度近似,你只看得见他(她)穿的是否长裤,而无法确定他(她)的性别),你能够推断出他(她)是男生的概率是多大吗?

我们来算一算:假设学校里面人的总数是 U 个。60% 的男生都穿长裤,于是我们得到了 U * P(Boy) * P(Pants|Boy) 个穿长裤的(男生)(其中 P(Boy) 是男生的概率 = 60%,这里可以简单的理解为男生的比例;P(Pants|Boy) 是条件概率,即在 Boy 这个条件下穿长裤的概率是多大,这里是 100% ,因为所有男生都穿长裤)。40% 的女生里面又有一半(50%)是穿长裤的,于是我们又得到了 U * P(Girl) * P(Pants|Girl) 个穿长裤的(女生)。加起来一共是 U * P(Boy) * P(Pants|Boy) + U * P(Girl) * P(Pants|Girl) 个穿长裤的,其中有 U * P(Girl) * P(Pants|Girl) 个女生。两者一比就是你要求的答案。

下面我们把这个答案形式化一下:我们要求的是 P(Girl|Pants) (穿长裤的人里面有多少女生),我们计算的结果是 U * P(Girl) * P(Pants|Girl) / [U * P(Boy) * P(Pants|Boy) + U * P(Girl) * P(Pants|Girl)] 。容易发现这里校园内人的总数是无关的,可以消去。于是得到

P(Girl|Pants) = P(Girl) * P(Pants|Girl) / [P(Boy) * P(Pants|Boy) + P(Girl) * P(Pants|Girl)]
= P(Girl) * P(Pants|Girl) / P(Pants)

所以这个例子的答案是
穿裤子的人是女孩的概率:P(Girl|Pants)=0.4 * 0.5/0.8=0.25
同理,穿裤子的人是男孩的概率P(Boy|Pants)=0.6*1.0/0.8=0.75
两者相加等于100%。

这个问题可使用图表方式更直观的分析出,暂且按下不表,以后单独拿一个例子写一下,方法来自《统计学关我什么事?》。

参考图书:

  1. 《统计学关我什么事》, 图表化介绍贝叶斯推理,非常非常好! 简单易学的贝叶斯入门读物! 使用该书的图表方法,可以“视觉化”快速计算后验概率。
  2. 《看穿一切的统计学》,本书提到了“频率派与贝叶斯派”的比较,就是上面所说的统计推理和贝叶斯推理的区别。
  3. 《暗时间》一书的贝叶斯部分:数学之美番外篇:平凡而又神奇的贝叶斯方法 – 刘未鹏 | Mind Hacks
  4. 《魔鬼数学》第二部分推理   第10章(大数据与精确预测)《魔鬼数学》第二部分 推理,其中介绍了很多贝叶斯推理的案例。
  5. 《思考,快与慢》,提到贝叶斯推理的几个例子,比如红色和蓝色出租车
  6. 《超越智商》读书笔记见 《超越智商》第三部分 给大脑安装好的心智程序 读书笔记,介绍我们大脑缺失的一种心智程序是贝叶斯推理(忽略条件概率(先验概率))。
  7. 《ten great ideas about chance》, 介绍贝叶斯和拉普拉斯
  8. 《算法之美》,第六章 贝叶斯定律和拉普拉斯定律
  9. 《风险与好的决策》 王烁推荐的贝叶斯思维训练图书

参考文章:

  1. Predicting the Future with Bayes’ Theorem FS上的一篇介绍贝叶斯推理的文章,超级好,文章举了两个例子,第二个例子就是经典的疾病诊断问题。
  2. 贝叶斯推理 – MBA 智库百科,介绍什么是贝叶斯推理,常见的贝叶斯推理案例。
  3. Julia Galef: Think Rationally via Bayes' Rule,youtube视频,介绍贝叶斯推理在生活中的普遍性,我们每天都在决策中用到。
  4. 可怕的贝叶斯定理,看完后忍不住感慨数学太重要了,用通俗易懂的语言介绍贝叶斯推理公式,举例介绍贝叶斯推理。
  5. 给Jonna的信(8):直观与逻辑 同学的朋友公众号的一篇文章,谈的是直觉和逻辑的关系,第一个例子“罕见疾病的诊断问题”是贝叶斯推理中的经典案例。 第二个例子,家里先后两个孩子因为不知的原因而去世,被母亲故意伤害的概率多少? 这是基础概率推断错误的案例,在《超越智商》第三部分 给大脑安装好的心智程序 读书笔记 有具体介绍。实际上我们低估了第二个孩子去世的概率。“Monte Hall”问题(蒙提·霍尔悖论)也是一个基本的概率错误案例。

2019.3.3
2019.5.2 published

One thought on “统计主题阅读4:两种推理方法之二——贝叶斯推理-1

  1. 感谢您的主题阅读笔记,最近刚读完《统计学关我什么事》,也正在搜集阅读一些贝叶斯的文章。文章末尾的参考图书的部分简直就是一个新的宝藏,可以先从这几本看起了。谢谢

Comments are closed.