《六西格玛管理统计指南》第五章假设检验-1

本文是六西格玛蓝皮书第五章“假设检验”的前半部分,介绍假设检验的两大原理、五大步骤、三个条件,两类错误,几种均值检验; 后半部分等下一篇整理笔记。

备注:本文整理《六西格玛管理统计指南》第五章 假设检验 知识和知识框架,如果不懂细节就重新翻书,不再追求面面俱到,捎带引用生活和工作中的例子。

个人认为,假设检验是统计分析最重要的方法,也是最容易应用到生活中的“决策方法论”,解释检验给出基于概率的是/否判断。现代不确定的社会,很多决策都是基于假设检验作出的!
比如最近新冠病毒肆虐,学者医生研究某一种药物是否有效,就是通过实验设计试图推翻"零假设——某某药物没有效果"。 工作中能用到假设检验的情况更多了,只不过我们习惯了,很少意识到所做的数据分析和统计结论是基于"假设检验"的。

学完这一章,就要弄懂以下最基本的问题(自问自答,回顾一下):

  • 统计分析包括哪两类?
  • 假设检验的两大原理
  • 假设检验的分类:基于样本和统计量
  • 假设检验的五大步骤
  • 第一类错误(拒真概率)和第二类错误(纳伪概率):具体是什么意思,如何降低错误?【这个有点难度,要复习!】
  • 假设检验的三个条件:
  • 均值检验,简单的是单正态总体均值检验,复杂的是双正态总体均值检验,最常见的是配对t检验和双样本t检验
  • 实际工作中,什么情况下,可以认为”两个总体方差(或标准差)相等“,从而使用双样本t检验。

基本原理和方法

统计分析包括参数估计假设检验这两种情况,前者输出数值,后者输出判断!

假设检验的两大原理:小概率事件(p值的含义是接受随机的小概率事件),反向思考(查理芒格推崇的思考方式)

很多人都没意识到,"统计结论"不是绝对的是否,而是基于我们能接受的概率下的是否,比如常见的置信度95%,也就是接受书中强调的"第一类错误"小于5%。 如果我们忽略了小概率事件,一旦实际结果与"统计结果"相反,发生了小概率事件,就无法接受,这就"缺乏统计思维"了。

几种常见的假设检验情况,根据"样本数量"和"统计量类型"进行分类。样本数量包括单样本、双样本、多样本 ;统计量包括均值、方差、比率、中位数!两两组合,就得到不同的假设检验应用,比如工作中涉及的柔顺测试是多样本均值比较,同时结合“多重比较”。比如新冠药物评估中的"致死率"是比率,康复时间是均值,等等。

假设检验的五大步骤

这是后续所有假设检验的步骤,只不过不同情况具体的数据类型等不同。

  • 设定零假设
  • 确定检验统计量
  • 设定显著性水平 (阿尔法)和纳伪概率(贝塔)
  • 数据分析,计算出p值、临界值、拒绝域
  • 比较(分析的本质是比较!):p值(与设定值比如0.05比较),临界值,拒绝域

零假设——反面思维,通过推翻零假设,来证明我们想要的结论,这就是波普尔说的"证伪性"和数学中的反证法。
检验统计量:我们要分析的问题,体现在哪个统计量上?
显著性水平:接受多大程度的"小概率",比如可以容忍5%,还是只能接受1%,符合正态分布的数据,如果推行"六西格玛",那我们就知道了容纳的小概率。 置信度是第一类错误,另外还有第二类错误! 这个需要再
数据分析:具体的计算过程,本书更强调的是方法论,计算部分都尽可能交给Mintab等软件,而不像中国的教育方法,把大量的时间用来计算计算计算,学生都没有足够重视前因后果。
比较:分析的本质是比较,具体比较又分为好几种,但是殊途同归。

关于两类错误,我从下面文章摘抄一部分,加强理解。

假设检验通常会存在两种错误:弃真错误(α错误,有的书上也称第一类错误)和取伪错误(β错误,有的书上称第二类错误)。弃真错误是原假设为真假设检验结果为拒绝原假设的错误,在这里的表现就是原假设为真,p0.05。
玩转假设检验,拯救那些被p值拉低的智商!——探秘样本量和p值的关系以及两类风险
第一类错误和第二类错误

下面介绍"均值"和"方差"这两个检验统计量。

均值检验

数据符合哪种分布类型:正态分布,t分布,近似t分布?
样本量:单样本、双样本、多样本
特殊情况:配对t检验,看起来是双样本,实际一一对应,是对"差值"的单样本检验!

我个人认为,常犯的错误是选择错误的分布类型,尤其是“很多统计问题的解决依赖于数据服从正态分布”,但很多情况下,要么数据并不符合正态分布,要么数据量太少不能用正态分布。比如只测试了10个数据,却用标准差而非样本标准差反映数据的波动(spread)。应该用t分布的时候却用了正态分布,等等。

假设检验的三个条件【细节省略,以后更新读书笔记再补充】

  • 独立性检验——如何证明数据是互相独立的,游程(run)的定义和假设检验,
  • 正态性检验:
  • 异常值检验——Outlier tests,具体操作还是假设检验,只不过目的是看最大值和/或最小值是否是“异常值”。

具体计算过程这儿不说了,能照着Mintab方法做即可,关键是知道是否要做检验,选择何种检验。

单正态总体均值检验

最简单的均值检验类型,就是将一个正态分布样本的均值统计量与一个绝对标准进行比较,比如50个产品的硬度结果否高于设定的指标!
这有点类似于 上一章的“参数设定”部分,关键的检验部分就是计算一个正态分布在某一个置信度下的p值或临界值,然后将该临界值和设定值对比。
如果直观看,就是画一个正态分布曲线,找到临界值,标上设定值,简单对比即可!

双正态总体均值检验 ——最实用也容易犯错的知识!

(1)是否是配对样本?
双正态总体, 如果从两个总体中抽取的两组样本是配对的,相当于针对“每个样本的差值”进行“单正态总体均值检验”! 细节略。

如果不是配对样本,进行普通的双正态总体均值检验,此时的关键就是“两组样本的均值的差值”的标准差如何计算!这也就是本书第四章“双样本均值差的分布”的内容!
注意:配对检验是每个样本的两两差值,再计算均值;非配对样本是”两组样本的均值的差值!

(2)双正态总体均值检验 又可以分成哪三类?

  • 两个样本的标准差已知(几乎没有这种情况,Z检验)
  • 两个样本的标准差未知,但是相等! ——这就是最最常见的“双样本t检验” (不知道总体标准差,只有样本标准差,但是可以认为两个样本的总体标准差相等)
  • 两个样本的标准差未知,也不相等。(很少使用)

第二种最常见的“双样本t检验”,工作中常用到,注意事项如下,尤其要想清楚,“两个样本代表的总体的标准差,是否相等?”,这个是关键问题。

工作中对于第二种情况应用最多,通常称为双样本t检验注意,能够使用双样本t检验的条件共有三项:

  • (1)两组样本内部相互独立,两组间也相互独立。
  • (2)两组数据皆来自正态分布总体
  • (3)两个总体方差(或标准差)相等。

请大家特别留意这三项基本前提。对于前两项的含义及检验方法,我们已在5.3.2.1节中做了介绍。这里要特别注意第三项条件,我们应该充分理解这样要求的合理性。事实上,如果两批数据精度悬殊(例如一批螺钉直径用卡尺量,另一批螺钉直径用千分尺量),两批数据其实是不可比较的。双样本t检验就提出了这种要求。如果它不能满足,则我们用统计量(5-20)来检验时,它只可能是一种近似的双样本t检验方法,其总自由度已经大打折扣,精确度受到很大的影响。另外,这里要求是两个总体方差(或标准差)相等,并没要求两个样本方差(或标准差)相等。实际工作中,两个样本方差(或标准差)有些差别并不奇怪,它是允许的。至于如何通过两批样本数据来检验两总体的方差是否相等,请参考5.4.2节。
虽然在 MINITAB软件中比较两总体均值时无论两总体方差是否相等都可以计算,但必须明确:选定“假定两总体方差相等”时,进行的是精确的双样本t检验而未选定“假定两总体方差相等”时,进行的只是近似的双样本t检验。
将上述关于两个总体均值的显著性水平为的检验列在表5-8中,同样用检验统计量Z,t的检验分别称为Z检验和t检验,但由于双样本Z检验很少使用,所以 MINITAB软件没有此窗口。

六西格玛——P130 双样本总体均值检验

双样本t检验很重要,所以举几个例子:

  1. P130的例子,为了分析废水处理方法对BOD的影响,分别用空气和氧气吹入活化泥,然后用相同的测试方法空气法测试BOD,分析两种处理方法是否有显著性差异?
  2. 工作中的例子:一种膨润土原矿,分别用三个纯碱添加量进行活化,然后用同样的评估方法测试膨润土原料的GCS强度,分析三种活化添加量对铸造性能的影响。 (这儿可以进行两两比较,如果不是两两比较,如何简化?)
  3. 工作中的例子:把上面的“纯碱添加量“固定,改动其他条件,比如三种粒径,或三个烘干温度,或三种原矿,这就是另外的三组实验。

2020.4.28 早晨写简单框架
2020.5.1 早晨用ipad整理前半部分内容。
2020.5.2 上午用mac继续整理前半部分,发布,后半部分单独发出。