六西格玛改进 DMAIC 分析阶段学习笔记3 相关和回归

根据《原因与结果的经济学》的“证据金字塔”，回归分析是证据程度最弱的工具，观察实验和准实验、随机对照实验，证据能力依次增强。其次在实际工作中，主要通过设计对比实验进行因果推理，相比之下，社会科学因为经常无法设计实验，会更多使用回归分析。

所以我不想花太多时间深入回归分析的所有细节，重点是模型检验和残差分析，弄清楚拟合模型的统计量的具体含义，因为在后面的DOE中会频繁使用。

核心内容：散点图和相关性，简单线性回归，模型检验、残差检验。

前提：何时使用相关性和回归分析，要求x和y都是连续型数据。当然更多是事后分析时用回归分析，事前能实验设计，就直接用DOE等工具。

第一部分：相关性，散点图

第二部分：简单线性回归分析 P17-P62

只有一个x，对应“简单线性回归”，模型为 y = a +b*x + 误差，即直线方程; 多个x，对应“多项线性回归”

模型拟合的原理：最小二乘法，确定垂直距离平方最小的直线，即为最小二乘法回归线，此时的误差即SSerror最小。

残差Residual的定义： the difference or deviation between an actual observed value and the predicted value from the regression equation.

模型的三种误差：分类、量化表征

简单线性回归模型的“三种误差”：（所以在模型分析中，需要计算模型的纯误差、拟合优度（表征失拟误差））

由于不可控因素产生的重复误差或“纯误差”，简写PE，pure error
对输入变量x拟合不良而产生的误差，简写LOF，lack of fit，即“失拟误差“
测量误差，简写MSA

SST = SSM + SSE
总误差平方和 = 模型误差平方和 + 误差平方和

三个误差的含义是什么？

SST，或SS total：总误差，总变异量，模型的SS total/ (n-1)就是方差，再开根号就是标准差。
SSM，SS regression = SS model：~~模型误差=拟合误差=失拟误差~~，模型预测值相对于平均值的变异量，反映了模型对数据变化的解释能力。
SS residual error：残差，实际值和预测值之间的差异，也就是模型无法解释的变异量；（我自己的理解，包括了上面说的Pure error和测量系统误差）

具体如何做回归分析，下图的统计量的具体含义

1、模型系数是否显著：t检验

Coef是系数，计算原理是最小二乘法。

SE Coef 是系数的标准误（Standard Error of the Coefficient)， 如何计算？

T是t统计量， T=Coef/ SE Coef

t检验，计算出p值；p<0.05，代表该系数显著。

系数的标准误是指系数估计值的标准差，它反映了系数估计值的精度。
标准误越小，表示系数估计值越精确，反之亦然。
系数的标准误可以用来计算系数的置信区间，以及进行假设检验。

2、回归方程的标准差S，拟合优度R-sq，R-sq(adj)

S是回归方程的标准差，是MS error的开根号，MS error是均方，是SS error/DF error，所以S反映的是回归方程的纯误差的大小？

R-sq = SS model / SS total = SSM/SST

使用R-Sq （R^2)评估回归模型的拟合优度；R-sq越大，代表模型的预测能力越好，误差越小。

使用R-sq(adj）避免参数过多导致的过度拟合（模型项数p越多，根据以下计算公式，R-sq(adj)越小，可能会出现负数)

R-sq和R-sq(adj)的接近程度，说明模型的拟合好坏

R-sq (adj)一般要求大于80%，最小64%，代表拟合的好坏。

3、回归的ANOVA（analysis of variance）：F检验

只看回归模型总体的变异，不细分其中的系数

DF, SS, MS, F, P ：这一部分是做变异的F检验分析，分析变异主要来自于模型还是纯误差，DF是自由度，SS是变异，MS是均方，MS error=SSerror/DFerror

不直接比较SS，而是比较均方MS

F在这儿代表“信噪比”大小，如下所示，p<0.05，回归模型具有统计上的显著性 (输出响应Y在统计上依赖X）

残差检验及其他

如果要应用方程，就必须做模型检验，残差检验是最主要的模型检验方法。

为什么要做残差检验？？？可能的模型问题是什么？？？

残差的四个假设：

独立的（无相关性）——>残差和实验顺序的关系图（独立性检验）
正态的——> 残差的正态图，直方图
稳定性，即来自一个稳定（受控）的总体——>
方差齐性，即具有相等的总体方差——>

四种残差图:

残差图的解释及其应用

四合一残差图

左上：正态图，没有远离拟合线的异常点
左下：直方图，是否有异常的残差值，代表异常点；看模型是否稳定。
右上：残差与拟合图，分析方差齐性，不应该出现弯曲、漏斗等形状，而要均匀上下分布；
右下：顺序图，分析随机性和独立性，不应该出现明显的趋势

多元线性回归

多个x，多重共线性，方差膨胀因子（VIF），这一部分略。

一般线性模型（GLM）

GLM的x，既可以离散，又可以线性；内容略。

第四部分：逻辑回归

逻辑回归：x是连续型变量，y是离散型变量。

提醒：尽可能通过优化测量系统，将离散型变量y，转换成连续型和计量行数据。尽可能不用逻辑回归。内容略。

2024-7-5 重读，整理； 2024-7-6 重读一遍，发布