最近一年多的阅读主题是统计和概率思维,本文根据自己的理解梳理一下推理方法的分类,两种方法的概念和使用场景,以加强自己的理解。
概率思维的重要性,可能很少有人知道,但是了解就会发现,概率是一种看世界的角度,是决策的方法(比如贝叶斯推理,比如期望值理论),也是一种科学工具(如何证实证伪)。
“整个保险行业都是建立在概率的基础之上”
概率分析的过程,一是收集数据,二是分析。
令人信服的解释可以分为统计推断和假设检验。(《经济的限度》)贝叶斯推理和经典的统计归纳推理,是最主要的两种推理方法。
统计推断
关键词:归纳推理,比较,随机化,正态分布,置信区间,标准差,随机对照实验
统计推理,即统计归纳推理,强调的是先通过抽样调查,得到样品分布,然后利用个体或样本的统计值,推测整体的真值。
统计推断是根据样本数据对总体得出结论,并用概率来表示结论的可靠程度【包含两个部分:结论+可靠程度】。置信区间用来估计未知的总体参数【整体的真值所处的范围,也对应一个置信度】。显著性检验告诉我们,针对某个参数的断言,其证据有多强【用p值来说明证据失效而依然观察到当前结果的可能性大小,即单纯因为随机性得到当前结果的概率】。——《统计学的世界》
统计推断和不确定性 —《统计学的世界》
统计推断是使用个体或样本分析总体的过程。
我们的收集数据的目的不是为了了解观察的个体,而是得出关于整体的结论。
物理学的公式定理是根据某个假设得到确定的结论(结果要么yes,要么no,不存在不确定性的答案,例如“90%是这个答案”),但是统计推断得到的是不确定的结论(多大概率是结果a,多大概率是结果b,等)【微观世界里的电子运动也是不确定性的,所以不能用牛顿的经典物理学来分析】,所以统计推断除了有一个结论,还会对应一个不确定程度。 这就类似于在统计学中要比较两个平均值时,还要同时比较偏差大小。
统计推断:结论(好坏高低)+ 不确定性程度。
统计推断的核心就是如何将“不确定程度”精确化!
不确定性不能说“差不多”,而是要使用置信度和置信区间“精确化” 不确定性程度,比如我们经常默认使用的95%置信度,就是“有95%的可能性,该结果是成立的”。(很多人不知道默认不确定性程度是95%,而误以为是100%,那就大错特错了)
统计推断的步骤和方法
统计推断的步骤:
(1)使用抽样分析了解整体情况,抽样调查的核心是随机性。
(2)使用置信区间了解未知参数的位置&范围,或者使用p值判断“零假设”的概率。
一种统计推理方法是置信区间,更典型的就是中心极限定律。要通过随机抽样推测整体的真值,使用抽样平均值和标准差建立一个置信区间(对应不同的置信度)来限定真值的范围,然后判断样本是否属于整体(比如判断是否是正常硬币)。
另外一种统计推理的方法是显著性检验。
显著性检验的核心是“假设检验”,先设定零假设(假设影响或因果关系不存在),然后分析在这种情况下,依然得到当前结果的概率,也就是p值。而p值的计算方法是正态分布曲线的面积(中心极限定律)或正态分布的计算表格。 如果p值很小,就可以推翻零假设。我们一般默认p=0.05是可以推翻零假设的“显著性”临界点,p=0.01是“非常显著”,即零假设成立的可能性更低。—— 《统计学的世界》第四部分 第二节 “什么是显著性检验” 介绍了更详细的内容。
第三种统计推断方法是随机对照试验。
本质上,随机对照试验也是显著性检验。这里的零假设是“实验组和对照组的影响变量是没有意义的”,然后计算此前提下得到当前实验组和对照组的不同结果的可能性,即p值。
随机对照试验是统计学最重要的武器,因为随机化可以控制误差在可以接受的范围内(置信区间和p值),确保其他干扰因素都均匀分布在实验组和对照组中,从而通过实验组和对照组之间的比较得到足够准确的结论(分析的本质是比较)。
随机对照试验中,比较实验组和对照组,利用“随机控制”,增强结论的精确度,降低零假设存在的可能性。
《看穿一切的统计学》一书介绍了随机对照试验。其中举了好几个例子,其中一个是分析英国妇人准判断奶茶先加奶还是先加咖啡是否源自运气。 用随机对照试验的方法,就是将不同的奶茶(先加牛奶或后加牛奶)随机交给这位夫人,看他能判断出哪个更好喝。 根据结果确定结论。
什么时候使用随机对照实验?
随机对照实验用于判断一个变量是否有效,比如上面两种配置牛奶的方法,比如两种煮咖啡的方法(现磨和速溶),比如洗发水中加入和不加入膨润土的性能区别; 但是对于单纯通过重复来计算比例的事件,却不适用了,比如手里有一枚硬币,通过上抛五十甚至一百次判断是否是正常硬币, 这个情况没有一个可以分离出来的影响变量来随机分配到多次重复实验中,自然就不能使用随机对照实验了。—2019.3.11 想通了这个问题
备注:以上的三种分类是我自己的理解,可能有不当之处,后续再重读以更新和修改。
2019.3.11