《试验设计方法与Design-Expert软件应用》part2 回归分析和正交试验

上一篇文章总结了本书前三章的内容,主要是基础知识、软件功能和方差分析,其中方差分析是统计分析特别是“变异分析”的核心。

本部分介绍最近刚读完的第四章“回归分析”和第六章“正交试验设计”的内容,其中计算过程的原理直接跳过,重要的是理解背后的逻辑和如何用Design exeprt软件来执行,而回想大学期间的学习,那时候才是学习计算原理的时候(可惜那时候学得有点稀里糊涂,现在更是忘得一干二净)。

第4章 回归分析

关键词:回归、方差分析(F分析),模型的检验

Q1: 回归分析和方差分析的关系

  • 方差分析:单因素、两因素、多因素
  • 回归分析:一元、多元(根据因子数分类); 线性回归,非线性回归(根据线性与否分类)。
  • 方差分析的核心是判断变异的来源,进行变异源的大小排序;比如因素之间的大小,因素内的水平之间;因素和随机误差之间。
  • 回归分析是在方差分析的基础上(哪些因素值得放在回归分析中),构建响应y和因素(因子x)之间的函数关系的过程,也就是建立相关性、构建模型。 构建模型之后,进行方差分析,判断模型的精度、因素之间的权重(相关性系数)等; 然后可以根据模型进行数据预测或控制。 (p63 回归分析解决的问题)

回归分析的分类:

  • 根据因子数(一个,多个)和线性与否,分成四大类。
  • 一元线性回归是最简单的,也就是y=a+bx,然后计算系数a和b,并进行函数的方差分析,确定模型的精度。 (P65的公式,可以根据多组数据手动计算a和b)

一元线性回归

1. p66 一元线性回归方程的检验:方差检验法(F检验法)

方差分析法,计算“回归”、“残差“的平均离差平方和,进行F检验。

2. P68 预测与控制

手动计算范围和置信区间,给出(1)已知x的y范围,(2)已知y的控制范围,寻找x控制范围。

3. 使用Design expert进行一元线性回归分析

一元线性回归分析,即方差分析中的“单因子多水平”试验设计,直接使用factorial design – general factorial即可,选择一个因子,输入具体实验的水平及其对应的response,进行analysis即可。

一方面是方差分析,看水平之间是否有显著性差异;另一方面是看回归模型,分析模型的精度(还是一个方差分析)

多元线性回归分析

依然是线性,区别是因子数增加,构建一个y和多个x之间的关系,只是要注意试验次数要多于因子数。

线性,即不考虑交互作用和平方项等高阶因素。 多元,即多个因子。

P76 多元线性回归方程的显著性检验,和一元线性回归方程的显著性检验(其实就是一个回归系数的检验)并不相同,既要看整个方程是否显著,又要看每个因子是否显著(去掉因子后,误差平方和Q变大,回归平方和U变小,对比变化程度,对因子的权重进行排序;同时进行F检验,判断因子是否显著。)

从这个角度看,过度拟合就是掺入了太多不显著的因子,即使剔除,对回归方程的影响也很小。

Q:如何用Design-expert进行多元线性回归分析?

A:不用general factorial了,因为试验数据不一定是按照正交方法设计的,而水平数也不一定相同; 此时就应该用Response surface下的historical data分析。 / 因为是线性,所以mode order选择main effects,去掉所有的二交互及多交互所有。

一元非线性回归分析

核心:通过某些简单的变换,将非线性回归转化为线性回归模型进行求解。

这就像根据x和y的曲线,判断这个曲线应该用哪种数学函数来拟合,常见的对数曲线、指数曲线、倒数曲线等。

第一步是先画出y和x的关系,如果是明显的非线性,就观察属于以下哪种曲线,然后做转换(大部分情况是只对y做转换,有时候时同时对x和y做转换),查看转换后的曲线,是否是直线,不是的话,再考虑是否还有更好的转换。

几种情况:

  • J型曲线回归方程 (幂函数曲线,不过零点,只需要对y取对数即可)
  • S型曲线(在第一象限过零点的S曲线,采用Logistic 模型,先将y转化成0-1之间的概率数字,然后计算概率的优势比(odds ratio),再取对数,作为新的response即可。 详细见P88
  • 倒数曲线(类似于y=1/x的第一象限曲线,此时分别对x和y取倒数,再拟合即可)
  • 幂指数型(过零点,分别对x和y取对数)

非线性回归分析的核心,是选择合适的曲线类型。(数据经验)

正交多项式回归分析(跳过)

对于一元非线性回归,如果不能用上面的转换获得很好的你喝,就需要手动补充二交互等高阶项,比如x的平方项、立方项甚至更高阶,但是这样计算量比较大,提出一个项都要从头计算。 如果x是等间距的,可以用正交多项式回归分析,具体方法略,我还没看懂。。


第6章 正交试验设计

关键词:正交表头设计,极差分析法(适合手动计算,但无法分析误差项),方差分析法,

本周讲的内容偏向于大学期间学的基础知识,倾向于手动设计正交方案(选择正交表格,然后填写正交表头等),再手动计算极差,进行因素之间的排序。

书中介绍了针对多个response的分析,如何灵活应用,

等水平正交表:“整齐可比,均衡分散”,具有以下两个性质:

  • 任意一列,每个因素的每个水平出现的次数是相同的。
  • 任意两列,每种水平搭配出现的次数相同。

极差分析法:

方差分析法:

第三节 多指标实验分析方法:多个response对应的最优因子组合不同,应该如何选择? (1)综合平衡法,哪个响应是最主要的,以及少数服从多数; (2)综合评分法,有点像计分卡,通过分别打分和计算加权进行量化决策。

第五节 正交试验设计的常用灵活应用方法(这个可能是难以用design-expert执行的?)

  • 并列法:将2水平、3水平等相同水平正交表加以改造,变成混合水平正交表。例如将2水平7因子的8次实验,改成(4水平1因子+2水平4因子)的8次实验,其中的关键就是将两列两水平变成一个一列四水平!(这个是手动,在软件中怎么做?)
  • 拟水平法:用水平多的正交表安排水平少的因素,方法是在水平少的因素上虚拟一些水平。比如正对一因子两水平和两因子三水平的试验设计,如何直接使用三因子三水平的正交表。
  • 赋闲列法: (略)

第六节 直和法、直积法 (这两种能在design – expert上实现吗)

  • 直和法:对于因素很多水平不等的情况,根据经验,对因素和水平进行priority排列,分阶段进行试验,得到两个正交表,总综合分析。 分阶段的方法,包括减因素(先评估关键因素)、减水平)先评估最可能的水平)和复合因素(先评估CD交互作用,再根据结果分析是否有必要展开二次实验)。
  • 直积法:常见的是配方+工艺的试验设计,重点关心配方和工艺之间的交互作用,而不考虑各自内部之间的交互作用,这里的方法是用内表+外表的试验设计。 同样是先后两次实验设计,先把两种不同种类的因素单独安排试验,再把这两类因素组合试验,从而分析因素间的交互作用!

Design-expert 正交实验设计

正交表:Taguchi OA Design,直接选择想要使用的正交表进行实验设计。

软件细节,等我再研究一下写一个学习笔记。

2022-10-7 国庆假期,整理第四章

2022-10-8/9 休假,整理第六章,发布。