这一部分记录本书第22章的内容,几乎没有摘抄,都是自己在地铁上读书的时候,直接根据自己的理解记录而来,可能有些理解有误,后续反刍读书笔记时再检查。
置信区间和显著性检验是两种主要的统计推断方法,都是针对总体比例p,和总体平均值u的推断,本质是是一样的,只不过前提和结果顺序不同而已。 置信区间是给出一个概率/置信度对应的范围,比如平均值加减一个标准差范围对应68%置信度,平均值加减三个标准差范围对应99.7%置信度。 而显著性检验则是计算与得到结果相对应的p值,即零假设成立下得到当前测试结果的可能性,或者说是因为随机性得到当前测试结果的可能性,比如工作中两种膨润土的柔顺打分差是0.4,是否具有显著性差异。 【注意我的理解可能有误】
第22章 什么是显著性检验
关键词:显著性检验,随机性,p值,反向思考,归为不可能法,零假设(nill hypothesis),备则假设(alternative hypothesis),显著性水平(significant level),总体比例检验,总体平均值检验
显著性检验,帮助我们判断某个观察到的区别或因果关系,是否来自于随机性!
我们用概率来度量对断言不利的证据(也就是随机性)到底有多强。
显著(significant)在统计学中的意义不是“重要”,而表示“仅凭随机性不易发生”。
显著性检验的步骤
第一步是设定一个假设(也就是零假设-假设我们设想的因果关系不成立),第二步是计算零假设下得到当前结果的概率,即p值,也就是因为随机性得到当前结果的概率,反过来看就是“零假设不成立的证据有多强?”
p值:零假设成立的前提下,得到我们的结论的概率有多大,如果p值很高,那么零假设成立的可能性就很高,如果p值很小,我们就有更大的理由推翻零假设。 p=0.05设为显著性的临界值,如果p=0.01则为非常显著。
p值的计算方法:正态分布曲线,中心极限定理
利用正态分布曲线的面积(最基本的是68-95-99.7规则,对应1-2-3个标准差)【也是置信区间计算方法】,或者更精确的正态分布百分表格计算(将要计算的正态分布曲线,通过转换对应到平均值=0,标准差=1的正态分布曲线面积,这就是数学考试的内容了)。
显著性水平,p值的大小:能否推翻零假设
p<0.1,“有一些证据”不利于零假设
p<0.05,代表显著,significant,“有适度证据”不利于零假设
p<0.01,代表非常显著,strong significant,“有力证据”不利于零假设
正态分布上的置信区间 95%和99%的含义,与p值的关系:取决于是单边还是双边检验!
显著性检验的应用
应用1:检验总体比例p
比如下面提到的两个例子,现煮咖啡是不是和速溶咖啡一样好喝(零假设下的总体比例p=0.5,即两个没有区别),布冯硬币是不是正常硬币(零假设下的总体比例p=0.5,正面朝上和反面朝上的概率一致)。
已知:总体真值,抽样标准差(使用抽样标准差公式计算),样本真值
未知:样本是否属于总体?(硬币是不是正常硬币)
应用2:检验总体平均数 【这个有点难理解,感觉像一回事,看例子又不一样】
和总体比例的方法论 有些类似,零假设是总体平均值等于样本平均值(利用样本平均值的抽样分布作为正态分布),利用样本的平均值和标准差,计算然后计算两个样本标准差,对应到正态分布曲线上,计算双尾或单尾概率。
已知:样本的抽样分布,即抽样平均值和样本的标准差,总体平均值
未知:样本所代表的整体的平均值,
书中有了两个例子,一个是是不是所有的大学生读写能力都不达标,第二个是下面的经理人的收缩压。
如下的一个例子,取出一个样本(企业中的72名经理人),知道样本的平均值和标准差(平均值和标准差,注意这个标准差不是样本标准差吧),分析这个样本是不是代表整体(已知整体的水平即健康人的收缩压,询问是否可以从72名企业经理人的样本推测企业整体的管理人是否健康)
检验方法:样本平均值,样本标准差,样本的正态分布,和整体平均值的关系,从而判断样本是不是整体的一部分。
【解答细节间书中的例子】

备注/心得: “总体比例”和“总体平均值”的关系
总体比例是一个绝对的真值,不存在波动范围,比如正常硬币正面朝上的概率就是0.5,不可能是0.501。
总体平均值虽然也是一个绝对值,但是未知,所以我们视为是一个平均值+波动范围,比如“健康成年人的正常收缩压是290”,比如“高考成绩500分以上代表具有读写能力”,这里的绝对值并不是“硬币朝上概率是0.5”这样绝对,有可能某些人收缩压是350是正常的,只不过概率低,所以正常的“总体平均值”也是一个单位。2019.3.21
应用3:其他总体参数,比如相关系数。
这应该是下一章的内容
几个注意事项
- 主意是单边检验还是双边检验(两侧的面积还是一侧的面积,比如后面说的布冯的不正常硬币是双边检验)
- 显著性检验和置信区间是否完全等价?【目前我的理解是等价的】
几个例子:
现煮咖啡是否比速溶咖啡好喝?
区分现煮咖啡和速溶咖啡的可能性, 类似于另外一本书的牛奶咖啡先加牛奶和后加牛奶有没有区别,给50个人各两杯进行判断, 假设有36人喜欢现煮咖啡,请问这样是否可以推翻假设,即人们无法区分现煮咖啡和速溶咖啡。
解题思路: 利用真值p=0.5和样本抽样量n=50,计算样本标准差(公式见前一章 方差=p(1-p)/n),然后基于正态分布,可以确定,零假设成立时,只有0.001的概率得到72%的结果,所以零假设不成立,所以“现煮咖啡比速溶咖啡更好喝”。
这也可以用来识别普通硬币和老千硬币,假设有一枚硬币,假设上抛50次,有36次是正面朝上,询问这枚硬币是正常硬币吗?【两个例子看起来不一样,本质上其实是一样的,所以都参考抛硬币的分析角度即可】
布冯伯爵抛硬币
布冯伯爵抛了4040次硬币,有2048次正面朝上,问这枚硬币是否是正常硬币?
样本比例=0.507
真值=0.5
样本标准差=0.07787 (样本标准差计算公式)
基于正态分布,零假设下正态分布向两侧偏离0.5达到0.007(大概一个标准差)的概率是0.37。(很接近一个标准差的100%-68%=32%)
该p值很大,远大于5%显著性水平,所以布冯的这枚硬币是正常的。
备注问题:如果用随机对照检验来进行上面的实验,是不是更快,为什么,怎么做?
答案: 速溶咖啡的例子可以使用随机对照实验,抛硬币不可以。
答案:随机对照试验是将两个要区分的东西(比如一杯速溶咖啡,一杯现磨咖啡)随机交给一个人或多个人测试,如果东西一样,那测试人员「恰好」认为一种东西更好的概率就很低,送检越多,零假设的可能性即p值越小。 所以本质上,上面的抛硬币或者区分两种咖啡,都已经在使用随机对照试验方法了! 核心就是通过多次重复的随机性,避免小概率事件的发生,也就是保证p值很小,达到可以接受的地步。 如果只抛三五次硬币,p值就很大,难以下结论。【随机对照试验的核心就是多次重复的随机性】
总体平均值检验:某大公司的管理层的血压是否处在正常水平,天津的高三学生是否体重超标?
已知健康人群的血压值比如收缩压(是一个范围,这儿知道平均值),然后从大公司管理层中抽取比如50名领导,测量其收缩压,从而得到该样本的平均值和标准差,问题:从这50名领导的收缩压情况,判断公司整体的管理层是否处于健康水平?
这个就不同于上面的两个例子(都是“总体比例”问题),而是“总体平均值”检验。
(1)零假设:管理层总体平均值=健康人群的收缩压平均值,(2)根据50名领导的收缩压标准差,计算管理层整体的标准差=样本标准差/样本数开根号,(3)建立管理层平均值和管理层标准差的正态分布,(4)计算“50名领导的收缩压平均值”的标准分= (平均值-总体平均值)/标准差,查找正态分布百分表格确定概率,注意是双尾检验还是单尾检验,这里是双尾检验,因为不健康既可以是偏高也可以是偏低。
2019.3.12 地铁
2019.3.21 地铁更新 后期重读再更新本文
2019.3.21 回家,补充“总体平均值”的收缩压例子和分析,发表