六西格玛改进 DMAIC 分析阶段 学习笔记3 相关和回归

根据《原因与结果的经济学》的“证据金字塔”,回归分析是证据程度最弱的工具,观察实验和准实验、随机对照实验,证据能力依次增强。其次在实际工作中,主要通过设计对比实验进行因果推理,相比之下,社会科学因为经常无法设计实验,会更多使用回归分析。

所以我不想花太多时间深入回归分析的所有细节,重点是模型检验和残差分析,弄清楚拟合模型的统计量的具体含义,因为在后面的DOE中会频繁使用。

核心内容:散点图和相关性,简单线性回归,模型检验、残差检验。

前提:何时使用相关性和回归分析,要求x和y都是连续型数据。当然更多是事后分析时用回归分析,事前能实验设计,就直接用DOE等工具。

第一部分:相关性,散点图

相关关系不等于因果关系。

使用相关性分析,确定x和y之间存在统计意义的相关性后,需要进一步解释其可能的因果关系。

具体分析工具:散点图,相关性系数(r)

Minitab相关性分析:

  • 散点图: graph – scatterplot (两个变量之间的相关性分析)
  • 矩阵图:graph – matrix plots (多个变量之间的相关性分析)

《原因和结果的经济学》中,提到“判断两个变量属于因果关系还是相关关系时,先回答三个问题”,排除是否存在时间先后、第三变量、逆向因果的可能。

第二部分:简单线性回归分析 P17-P62

只有一个x,对应“简单线性回归”,模型为 y = a +b*x + 误差,即直线方程; 多个x,对应“多项线性回归”

模型拟合的原理:最小二乘法,确定垂直距离平方最小的直线,即为最小二乘法回归线,此时的误差即SSerror最小。

残差Residual的定义: the difference or deviation between an actual observed value and the predicted value from the regression equation.

模型的三种误差:分类、量化表征



简单线性回归模型的“三种误差”: (所以在模型分析中,需要计算模型的纯误差、拟合优度(表征失拟误差))

  • 由于不可控因素产生的重复误差或“纯误差”,简写PE,pure error
  • 对输入变量x拟合不良而产生的误差,简写LOF,lack of fit,即“失拟误差“
  • 测量误差,简写MSA

SST = SSM + SSE
总误差 平方和 = 模型误差 平方和 + 误差 平方和

三个误差的含义是什么?

  • SST,或SS total:总误差,总变异量, 模型的SS total/ (n-1)就是方差,再开根号就是标准差。
  • SSM,SS regression = SS model:模型误差=拟合误差=失拟误差,模型预测值相对于平均值的变异量,反映了模型对数据变化的解释能力。
  • SS residual error:残差,实际值和预测值之间的差异,也就是模型无法解释的变异量; (我自己的理解,包括了上面说的Pure error和测量系统误差)

具体如何做回归分析,下图的统计量的具体含义


1、模型系数是否显著:t检验

Coef是系数,计算原理是最小二乘法。

SE Coef 是系数的标准误(Standard Error of the Coefficient), 如何计算?

T是t统计量, T=Coef/ SE Coef

t检验,计算出p值;p<0.05,代表该系数显著。

  • 系数的标准误 是指系数估计值的标准差,它反映了系数估计值的精度。
  • 标准误越小,表示系数估计值越精确,反之亦然。
  • 系数的标准误可以用来计算系数的置信区间,以及进行假设检验。

2、回归方程的标准差S,拟合优度R-sq,R-sq(adj)

S是回归方程的标准差,是MS error的开根号,MS error是均方,是SS error/DF error,所以S反映的是回归方程的纯误差的大小?

R-sq = SS model / SS total = SSM/SST

使用R-Sq (R^2)评估回归模型的拟合优度R-sq越大,代表模型的预测能力越好,误差越小。

使用R-sq(adj)避免参数过多导致的过度拟合(模型项数p越多,根据以下计算公式,R-sq(adj)越小,可能会出现负数)

R-sqR-sq(adj)的接近程度,说明模型的拟合好坏

R-sq (adj)一般要求大于80%,最小64%,代表拟合的好坏。

3、回归的ANOVA(analysis of variance):F检验

只看回归模型总体的变异,不细分其中的系数

DF, SS, MS, F, P : 这一部分是做变异的F检验分析,分析变异主要来自于模型还是纯误差,DF是自由度,SS是变异,MS是均方,MS error=SSerror/DFerror

不直接比较SS,而是比较均方MS

F在这儿代表“信噪比”大小,如下所示,p<0.05,回归模型具有统计上的显著性 (输出响应Y在统计上依赖X)

残差检验及其他

如果要应用方程,就必须做模型检验,残差检验是最主要的模型检验方法。

为什么要做残差检验???可能的模型问题是什么???

残差的四个假设:

  • 独立的(无相关性)——>残差和实验顺序的关系图 (独立性检验)
  • 正态的——> 残差的正态图,直方图
  • 稳定性,即来自一个稳定(受控)的总体——>
  • 方差齐性,即具有相等的总体方差——>
     

四种残差图:

残差图的解释及其应用

四合一残差图

  • 左上:正态图,没有远离拟合线的异常点
  • 左下:直方图,是否有异常的残差值,代表异常点;看模型是否稳定。
  • 右上:残差与拟合图,分析方差齐性,不应该出现弯曲、漏斗等形状,而要均匀上下分布;
  • 右下:顺序图, 分析随机性和独立性, 不应该出现明显的趋势

多元线性回归

多个x,多重共线性,方差膨胀因子(VIF), 这一部分略。

一般线性模型(GLM)

GLM的x,既可以离散,又可以线性; 内容略。

第四部分:逻辑回归

逻辑回归:x是连续型变量,y是离散型变量。

提醒:尽可能通过优化测量系统,将离散型变量y,转换成连续型和计量行数据。 尽可能不用逻辑回归。内容略。

2024-7-5 重读,整理; 2024-7-6 重读一遍,发布