2019年上半年最重要的一本书就是《统计学的世界》,几乎每一章都做了读书笔记,尤其第四部分统计推断。
第24章 双向表和卡方检验
关键词:双向表(two-way table),卡方检验,辛普森悖论;类型变量(type variance),百分比,预计计数(expected value),
本章两句话总结:(1)对于由类别变量而非数值变量组成的双向表,判断是否存在显著性的相关性,需要使用卡方检验。 (2)其次要注意潜在变量,几个组别内存在的相关性,合并成一个大组时可能就没有相关性或相关性逆转,这就是辛普斯悖论。
Q:分析的本质是比较!比较需要同时看统计值和波动性。
A:如果只给我一个表格,比如女性当教授的比例只有20%,就推断说性别歧视(20%<50%)。 比如容易发怒的人得冠心病的概率是4.3%,高于不容易发怒的人得冠心病的概率1.7%,就说发怒容易得冠心病。 这样就犯了 单纯比较绝对数,没有衡量不确定性(波动程度)的错误!
Q:预计计数的含义?
A:预期计数是当 H0 为真时,我们所预测到的计数(除了随机性变异外)。如果观察到的计数和预期计数相差很大,就是不利于 H0 的证据。 差别的差距就用卡方统计量来定量度量。
Q:双向表&卡方检验和上一章的显著性检验(总体比例,总体平均值)的区别
A1:传统的显著性检验都是两个变量之间的比较,每个变量进行多次重复测试(上一章介绍的总体比例),或者一个变量在整体中的分布(上一章介绍的总体平均值)。 双向表是多变量之间的关系,数据体现在一个多行多列的表格中。 【不是核心区别】
A2:双向表和卡方检验分析的是类型变量,比如几种治疗方法,比如性别。 而前两章的显著性检验针对的是数值变量,比如总体比例(硬币是否是正常硬币即正面看上的概率是50%)或总体平均值(抽样五十人的血压值是否能够反映整体人情的健康水平)。
Q:正态分布和卡方分布的区别
A:上一章的正态分布类比本章的卡方分布,都代表零假设为真时的抽样分布情况。只不过正态分布曲线只有一条,卡方曲线有很多条,按照自由度区分,自由度越大,曲线倾斜性越小;正态分布曲线也是很多条,只不过不是倾斜程度,而是胖瘦或者说半峰宽差异。另外相同的是,都是通过分布曲线下的面积度量显著性程度。
当自由度增加时,密度曲线的偏斜程度会减小,而较大值出现的可能性加大。
Q:什么时候可以使用卡方检验?
A:抽样太少时,使用统计分析就不恰当,就像只有三四个人参加使用,却要用百分比写结论,会让别人误以为是统计学结论。殊不知25%只是4个中的1个,没有普遍性。 其次是抽样的均匀性太差时,卡方统计量可能都有一个数据为主,也容易卡方检验失效。
应用卡方检验所需的每格计数的下限当预期计数小于5的格所占比例不超过20%,而且每一格的预期计数都至少是1时,就可使用卡方检验。
双向表: 类似于2*2或多行多列的多类型变量之间的关系,比如两个专业的男女候选人的录取情况,高校教职职位中性别情况,三种药物的戒烟效果(参加人数,戒烟成功比例),是否玩游戏对学生的成绩分布ABCD的影响。
思考:这些数据为什么不可以用上一章的显著性检验分析? 【因为类型变量不是数值变量,两者难以简单转换。】
Q:上一章的显著性检验使用p值和置信区间来定量表达置信度,在卡方检验中如何定量衡量相关性的程度?
A:卡方统计量,卡方分布,也是查表格得到95%置信度下的数值,然后通过比较了解差异是否significant。 因为不具有正态分布,所以没有68-95-99.7的规律。
卡方分布
当“没有相关关系”的零假设为真时,卡方统计量χ2的抽样分布叫作“卡方分布”(chi-square distribution)。
卡方分布是一整组分布,只有正值且是右偏的。特定的卡方分布是由它的“自由度”(degrees offreedom)决定的。
有r行和c列的双向表所对应的卡方检验,用的是自由度为(r-1)(c-1)的卡方分布之临界值。
如何对双向表的数据进行显著性检验:
比如判断一种药物和安慰剂的戒烟能力是否具有显著性差异,有显著性差异就是变量之间存在相关性
- 数据整理: 计算双向表行总数,列总数,计算百分比
- 确定零假设H0
- 计算“预期计数”(expected count),也就是零假设情况下预期得到的结果。 计算方法是假设各个变量的影响都一样,直接计算总数中成功的比例(比如所有戒烟成功的人占总数的比例)
- 计算“卡方统计量(chi-square statistics) “:使用双向表中的真实结果和“预期计数”具体计算(公式见下面的例子),
- 计算自由度,利用行数和列数计算
- 使用自由度查找卡方分布密度曲线的面积(查表),得到不同置信度(显著性水平)下的p值。
- 比较“卡方统计表”和p值的关系,确定在哪个置信度下两者之间的差异是否具有显著性,比如处理方法和戒烟成功具有统计学显著性的相关关系(p0.001)
> 要在水平为α时具有统计学显著性,卡方统计量的值必须大于α对应的那一行的值
提醒:卡方检验只能得出变量之间是否具有显著性的相关性,但是不能给出背后的本质逻辑,所以要小心从相关性直接过渡到因果关系!
显著性检验只能证明处理方式和戒瘾成功之间有某种相关关系。我们还要检视双向表,了解这种关系的本质:去郁敏比另外两种处理方式对戒除可卡因瘾更有效。
卡方检验应用举例
- 对抽烟者评估三种戒烟方法,两种结果即类型(有效vs无效),根据每种方法的成功案例数,判断不同处理方法是否有显著性差异,即是否可以确定某些方法有效果。比如显著性水平是0.01。
- 判断玩游戏是否影响学习成绩:因变量是玩游戏vs不玩游戏,结果变量是 学习成绩的ABCD四档。 根据玩游戏和不玩游戏的学生的学习成绩分布,判断游戏是否不利于学习。 使用0.05显著性水平
2019-5-28 一周前就已经整理完本文,发表,威尼斯