作者: 小岛宽之
该读书笔记覆盖《统计学关我什么事》一书第二部分内容,即从14到21讲,最主要的是以下三节的内容。
第19讲 在“贝塔分布”中使用概率分布图进行高级推理
第20讲 在抛硬币或天体观测时观察到的“正态分布”
第21讲 在“正态分布”中使用概率分布图进行高级推理
关键词:均匀分布,贝塔分布,正态分布,概率分布图,期望值,“生女孩”案例,“温度计测水温”案例
这部分的一个疑点是最后一部分的例子,如何从先验概率的正态分布曲线变成后验概率的另一条曲线,这个暂时没弄弄懂,其他都理解ok。
“贝叶斯推理”在日语中被称为“贝叶斯流派”,是指以主观概率为中心,尝试对人类行为进行说明的学术流派
贝叶斯推理是利用新增信息,将先验概率升级为后验概率的过程。
本书第一部分介绍的几个例子,对应的先验概率都是一个确定的概率数值,不论是“假阳性事件”中的社会平均患病率,还是“进店客户的购买概率”,还是“三扇门后面是小汽车的概率”;或者先验概率稍微复杂一些,比如“生男生女”的先验概率是一个0.5,或者是三个平均的概率(0.4, 0.5, 0.6 各占1/3)。 对于这些简单的先验概率,可以使用简单可视化的贝叶斯推理方法—“面积法”,通过计算面积比例并归一化快速计算。
本书第二部分,也就是14-21讲,介绍了复杂的先验概率情况。先验概率不再是简单一两个概率,而是概率密度分布曲线。第一种情况是贝塔分布,第二种情况是正态分布,两种分布有不同的数学函数表达。然后各举了一个例子,介绍这两种分布的后验概率。
第一个例子是“第一胎是女孩,第二胎还是女孩的概率是多少”。
第二个例子是,“不准确的温度计测量水温”。
先验概率是概率密度分布曲线,后验概率也是。然后再根据实际情况计算出期望值,比如第一个例子中,后验概率对应的概率密度分布曲线的期望值就是生女孩的平均概率,第二个例子中,后验概率的概率密度分布曲线的期望值就是当前最可能的实际水温。
问题1:以上两个例子对应的先验概率分布反过来,如何计算后验概率?
类似的问题:何时用贝塔分布,何时用正态分布?
类似问题:生活中的统计学,哪些情况符合贝塔分布,哪些情况符合正态分布??
答案:因为生女孩的概率符合贝塔分布,所以最好把先验概率也设定为贝塔分布。
问题2: 贝塔分布的后验分布是什么?正态分布的后验分布是什么?
自问自答
问题3:贝叶斯推理优于标准统计学的场景是什么?
自己的答案:贝叶斯推理优于标准统计学的一个场景是对主观概率或个人概率的更新判断,是否正确?
在本书中,新增信息大都是单一信息,比如“入店的顾客上前询问价格”,“温度计读数是40度”,“医院检测仪器的测试结果是阳性”,“第一胎是女孩”,“主持人打开的一扇门后面什么也没有”等等。 基于这些信息,去更新主观概率。
换言之,贝叶斯统计的主要应用是主观概率,而传统统计学则对应长期概率,
现实生活中,很多情况都是一种主观推定的概率,而非想掷骰子那样的确定的长期概率。
概率分布图
概率分布图是指,在“横轴上设定表示事件的数值、在纵轴上设定概率”的图表。
在诸如均匀分布这种连续型概率模型中,用来表示的概率并不是“高度”,而是“面积”。如果考虑面积的话,那么CD只是一条线段,面积为0,这样想就符合了整合性的要求。
注意:高度本身不是概率,而是概率密度,需要乘以对应的横坐标宽度才是该分类对应的概率。剩下的就是数学中的积分概念了啊,包括后面的贝塔分布的期望值,就可以用数学中的积分方法计算出来。
均匀分布
均匀分布: 掷骰子,抛硬币,赌场的赌盘。 (注意,向上抛硬币应该是和上抛速度角度有关,并非随机)
贝塔分布
问题: 什么是贝塔分布?
答案:贝塔分布是一类特定的分布,具体曲线与其中的两个变量α 和 β 有关,比如 α =β =1时的贝塔分布就是均匀分布,即各种情况下的概率是一样的。
贝塔分布可以用以下公式来表达:
y=(常数)* xα-1 * (1-x)β-1 (0≤x≤1)
贝塔分布,是 x 的取幂和( 1-x )的取幂相乘的形式。
贝塔分布的期望值为 α/(α+β)
出现在指数部分α和β,应为大于1的自然数,它用来决定贝塔分布的种类。换言之,如果赋予α和β具体的数值,就能够决定一次贝塔分布。当α、β为较小的数值时,贝塔分布的图表为相对简单的模型;反之,当α、β为较大的数值时,贝塔分布的图表则为比较复杂的模型。另外,写着“常数”的部分,是为了使标准化条件(所有事件的概率之和为1)成立,而进行了调整的数值,因此在贝叶斯推理中并不是那么的重要。
贝塔分布是概率分布曲线,纵坐标是概率密度,对应的面积才是概率,所以贝塔分布曲线的总面积是1。
其中的“常数”取决于最后归一化的计算,确保总概率即面积为1(也就是进行积分计算)。【这和后面的正态分布公式是一个道理】
其中的x是一件事情的所有可能类型,比如“生女孩的概率”是从0到1; 其中的y是各种可能性x的概率密度; y-x曲线就是概率密度曲线。
“贝塔分布”概率分布图的贝叶斯推理
问题:贝塔分布的贝叶斯推理是什么?
答案:还是贝塔分布,具体变化取决于具体的例子。
贝塔分布是不同的概率曲线类型,将其作为先验概率,计算其后验概率。
至于如何计算后验概率,则取决于具体的情况。
比如本书提到“生男生女”的推理,第一部分使用了0.4,0.5,0.6作为先验概率,第二部分则使用连续的贝塔分布作为先验概率。对生女孩这一 个例子来说,所有情况的平均值就是生女孩的概率,所以要计算贝叶斯推理得到的贝塔分布的期望值! ! 因为贝塔分布曲线是归一化后的曲线,所以生女孩概率就是这条曲线的期望值”。
第 19 讲中的贝塔分布的情况,由于信息只有“女孩”“男孩”2种情况,因此勉强能够用完整的图表来举例
问题: 先验概率是贝塔分布,后验分布也是贝塔分布?
why?
若把类别 x 的先验分布设定为均匀分布,那么后验分布为贝塔分布。对于“类别”本身(而不是类别 x 的概率分布)进行推理时,使用贝塔分布的期待值。
第19讲讲了个鬼啊,不知道是否翻译太差所致。
正态分布
关于正态分布,基本知识,从略
主要内容:正态分布曲线,公式,标准正态分布曲线(平均值=0,标准差=1)的68,95,99.7规则,正态分布由“μ”和“б”决定,标准正态分布<–>普通正态分布,正态分布的n次观察数据的平均值和标准差的计算公式
这是连续型的概率分布。由于高度y表示的并非概率,而是概率密度,因此,“有宽度的部分的面积才是概率”这一点,与贝塔分布是一样的。例如,在满足-1≤x≤1时观察到x的概率,表示为图表20-2中涂有颜色部分的面积,其概率约为0.6826。
μ是概率分布的平均值。换言之,即为“挑担人偶的平衡支点”。由于其左右对称的,因此位于函数图像的顶点位置。而б是被称为标准偏差的指标,表示分布中的“分散”“扩大”的程度。
抽样分布:从符合正态分布的集合中拿样品组成的集合,依然是正态分布,但标准差随样品数量而变宽。
正态分布的多个观测值的平均值为正态分布
即使将正态分布进行平均化,结果也依然是正态分布”
根据平均值μ、标准偏差б的正态分布观测到n个数值,取平均值记为x,即x=平均值μ、标准偏差= б/ sqrt(n)
“正态分布”概率分布图的贝叶斯推理
类型的先验概率符合正态分布,观察到某一个信息,如何给出后验分布曲线,其平均值计算公式是什么? 如果有多个信息,如何计算后验分布的平均值?【如何利用某一个消息更新正态概率分布曲线及其平均值】
书中第21节给出了平均值计算公式,
举例:用不准确的温度计推算洗澡水的温度。
第21节练习题:血压测试
要把洗澡水加热到适宜的温度42℃。当认为已经烧开到42度的时候,便用温度计测量了水温。但由于所使用的温度计不够准确,假设温度计显示温度x,遵循以实际温度θ为平均值、标准偏差为2℃的正态分布的概率分布。现在,温度计显示的温度为40℃。那么,实际的水温为多少度呢? [翻译有点歧义,修改之!]
先验概率:温度计的读数不准确,存在波动性,波动情况符合正态分布,即温度计读数处于基于未知的真值(实际温度)和标准差的整体分布曲线上。 在这个例子中,先验概率是平均值为42度,标准差为2度的正态分布。 这就是实际水温的概率密度函数。
观察信息:温度计显示的水温是40C。
后验概率: 如何根据观测到的40度,更新初始的正态分布?实际水温依然只是一个概率密度分布曲线,只不过不同温度对应的概率密度有所变化,不再是正态分布曲线!具体如何计算?
如何计算?
类别是实际水温,信息是温度计显示的水温
在烧水的问题中,“类别&信息”,则是以“(实际的水温θ)&(测量的温度x)”这种形式出现的。但在该组合中出现了两个难题:第一,与癌症检查中出现4种可能性不同,该情况下,存在无限种可能的组合形式。因此,不能通过图表来进行举例说明(而第19讲中的贝塔分布的情况,由于信息只有“女孩”“男孩”2种情况,因此勉强能够用完整的图表来举例)。第二,“类别&信息”的概率,虽然是通过“条件概率的公式”(见15-3)计算得来的,但这种情况下的计算太过复杂,对于不是那么精通数学的人来说很难理解。
把 θ 的先验分布设定为平均值 μ0 、标准偏差 б0 的正态分布,观测的信息 x 遵循平均值 θ 、标准偏差 б 的正态分布。但 μ0 、 б0 、 б 均为具体的已知数值。此时,在观察到的数值为 x 情况下, θ 的后验分布为正态分布,其平均值为:
备注:在另一本书好像《统计学的世界》,提到显著性检验的一个案例,已知健康人群的理想血压,和公司中抽取N名测试人员的血压情况,请问是否可以基于此推测全体人员的健康情况。 是否可以用贝叶斯推理?
答案:这是一个抽样调查的问题,如何根据样本的情况推测整体的情况,所以和贝叶斯推理不同。
专栏内容:何为“主观概率”
“主观概率”一词并不很常见,但作为关于概率的一种思考方法,有着确切的起源。用数学方法来思考概率问题,是在17世纪法国数学家帕斯卡和费尔马的研究之后才开始的,但“准确性”这一思考方法,在很久之前就已经诞生了。所谓“准确性”,是指“有多大的可信度”“其证据有多大的说服力”等“主观性”的东西。
17世纪,德国数学家莱布尼茨认为,这样的“可信性”“证据能力”,也就是“概率”。同时,莱布尼茨也是一位法学家,他对审判时的推论进行了研究:在审判中,需要用证据来证明被告人的罪行。而此时,被告人有罪一事的“可信性”,就构成了主观概率。
2019-9-25 最近几天的下班地铁时间
2019-9-26 思考本书第二部分的和第一部分的关系,思考正态分布的贝叶斯推理
2019.10.7 重读并整理正态分布部分。
2019.10.8 重读整理,done