《design and analysis of experiments》
《实验设计与分析》(第6版)
作者:Douglas C. Montgomery
2022.9 开始阅读,重新和更系统梳理DOE知识,并加强design expert的应用,最初实践是做章节习题,其次考虑工作中的实际案例。
第1章 引论
1.1 实验策略
关键词:
输入–>黑箱子–>输出
实验 vs 观察
非统计实验方法:最佳猜想法,OFAT(一次一因子)
析因实验:处理多个因子,所有因子一起变化,而不是一次变一个。
主效应,交互作用
析因实验(factorial experiment)
分式析因实验(fractional factorial experiment)
实验:猜想(假设)–>实验–>收集和分析数据–>新的猜想(假设)–>实验。
一次一因子策略的主要缺点在于,它没有考虑因子间可能存在的交互作用(interaction) 交互作用会使一个因子与另一个因子的不同水平的结合使用难以对响应产生同样的效应。因子间的交互作用是非常普遍的,如果交互作用存在,那么一次一因子的策略产生的结果往往不理想。许多人没有意识到这一点,结果在实际中经常采用一次一因子实验。(有些人确实认为这个策略是一种科学方法,或认为它“合乎”工程原理)。然而对设计而言,一次一因子实验往往比其他基于统计途径的方法效率更低。 p3
1.2 几种实验设计的应用
刻画实验(characterize):确定哪些过程变量会影响过程的响应。
优化实验:确定导致最佳响应的重要因子的范围。
RSM:一旦找到了优化区域,一般就要进行另一次实验.第2次实验的目标是开发一个过程的经验模型,并得到一个对时间和温度的最优运行条件的精确估计,这种过程最优化的方法称作响应曲面方法(response surface methodology),第11章将会详细研究它。(p7)
混料实验(mixture experiment)是响应曲面实验的特殊类型。
1.3 基本原理
所谓实验的统计设计(statistical design of experiments),就是设计实验的过程,以便收集适合于用统计方法分析的数据,从而得出有效且客观的结论。如果想从数据中得出有意义的结论,那么用统计方法作实验设计是必要的,当问题涉及受实验误差影响的数据时,只有统计方法才是客观的(objective)分析方法.
任何实验问题就存在两个方面:实验的设计和数据的统计分析。 这两个方面是紧密相连的,因为分享方法直接依赖于所用的设计。
实验设计的三个基本原则:随机化、重复、区组化。 (100年前Fisher提出的统计方法)
随机化可以“平均掉”可能出现的外来因子的效应。
对于很难随机化的部分,比如化学反应的实验温度,可以用区组化设计。
重复:
重复有两条重要的性质。第一,它允许实验者得到一个实验误差估计,这个误差估计成为一个确定数据之间的观测差是否统计意义的实际差的基本度量单位。第二,如果用样本均值(y bar)估计实验中某一因子水平的响应均值的真值,则重复能够使得实验者得到更精确的参数估计.(第二条指的是“中心极限定理”)
重复和重复测试有很大的区别!
1.4 设计实验指南
设计实验分为以下七步,其中前三步是实验前的计划。
- 问题的识别与表述——清晰的描述问题,牢记总目标,明确的目标会帮助我们选择合适的实验类型(刻画或因子,优化,稳健等),
- 响应变量response的选择——包括响应的定义及测试方法
- 因子factor、水平level和范围range的选择
- 实验设计的选择
- 进行实验
- 数据的统计分析
- 结论和建议。
第一步:
“问题的识别与表述”看起来似乎是再明白不过了,但是在实践中,确认需要实验的问题的存在却并不是那么简单的,将问题阐述得简明而又可以被普遍接受就更不简单了.需要对实验目的有一个全面的考虑.通常,吸收所有有关各方的参与是很重要的,其中包括:工程部、质量保证部、制造部、市场营销部、管理部门、顾客以及操作工(通常,他们有很多很好的想法,却常常被忽略了).基于这个原因,采用团队方法来设计实验是值得推荐的.
明确地陈述问题通常有助于更好地理解正在研究的现象以及问题的最终解决方案.牢记总目标也很重要.
提出问题时必须认识到一个大的综合性实验不可能满意地回答所有的关键性问题。采用序贯的方法是一个较好的策略.所谓序贯的方法,就是做一系列较小的实验,每个实验都有一个特定的目标,比如因子筛选.
第二步:
在一些仪表性能不好的情形下,实验者可以多次测量每个实验单元,采用重复测量的平均值作为响应的观测值. (又是中心极限定理!降低误差的关键方法:重复抽样)
第三步:因子、水平和范围的选择
- 潜在设计因子 (实验中被改变的因子)
- 设计因子
- 保持常量因子 (可能影响响应,将这些因子保持在特定的水平)
- 允许改变因子(假定效应较小,接受这些因子的影响,通过随机化抵消该效应。比如材料批次之间的影响,如果不进行详细研究,那就进行随机化设定)
- 讨厌因子
- 可控因子——常用区组化进行控制
- 不可控因子——不可控,但可以测量的讨厌因子,可以采用协方差分析的分析过程补偿它的效应 (具体怎么做??)
- 噪声因子——在真实过程中自然变化且不可控,但基于实验目的可以进行控制
P12 一旦实验者选择了设计因子,他或她必须选择这些因子变化的范围及其特定水平,还必须考虑如何将这些因子控制在所希望的数值上以及如何测量这些数值。例如,在浸流焊接实验中,工程师已经确定了12个可能影响出现焊接次品的变量,实验人员还必须确定每个变量的范围(即每个因子未来可能变化的范围)以及每个变量使用多少个水平,要做到这一点,就需要一定的过程知识,这种过程知识通常是实践经验和理论理解的结合,能够研究所有的重要因子而不受过去经验的过分影响(特别是在实验的早期阶段或过程远未成熟时)是很重要的。
当实验目的是因子筛选或过程刻画时,通常应选择较少的因子水平数。一般地,在因子筛选中,研究两个水平是较好的,选择感兴趣的范围也是重要的,在因子筛选中,范围必须相对地大,即因子变化的范围应该较宽. 当我们对哪些变量重要和哪些水平能产生最佳效果认识得更多的时候,感兴趣的范围通常就会变得窄一些。
P12 使用因果图/鱼骨图(cause and effect diagram)梳理实验中的潜在设计因子和讨厌因子,比如最常用的人、机、料、法、环、测的分解方法,从而输出相应的控制方法(作为设计因子,区组化,还是保持常量)
实验前计划,即前三步,非常重要,成功的关键大多取决于实验前计划的好坏。 P13
第四步:
善用软件包,牢记实验的目的。
第五步:
做少数试验或尝试性试验通常是有帮助的。
第六步:
图解法,经验模型,残差分析,模型适应性检验
统计方法与良好的工程知识(或过程知识)以及常识相结合,通常有助于人们得出正确的结论
通贯整个过程,要牢记实验是学习过程的一个重要部分,在学习过程中,我们暂时提出了关于系统的假设,进行实验来研究这些假设,根据实验的结果再提出新的假设,如此等等,这表明,实验是选代式地逐步深化的。通常一种错误的做法,是在研究一开始,就去设计一个单一、庞大和内容广泛的实验,一个成功的实验需要先弄清其中的重要因子,这些因子可能变化的整个范围,使用合适的水平个数,以及度量这些变量的合适单位,一般说来,我们不可能完全知道这些问题的答案,但是,当我们不断实验下去就会获得对于它们的更多认识.随着实验的进展,我们经常会抛弃一些输入变量,而加进一些其他变量,改变某些因子的研究范围,或者加进新的响应变量,因此,我们通常序贯地进行试验。 作为一般法则,在第一次试验中,投入的可用资源不要超过约25%,这样可以确保有足够的资源用来进行确认试验并最终完成实验的最后目的。 P14
1.5 统计设计简史
四个时期:
- Fisher 将统计的思维和原理引入实验设计
- Box和Wilson 提出RSM,并大量应用于研究和开发工作
- 田口主张的稳健参数设计,尤其是其理念和目标,特别推荐部分析因设计和正交表
- 田口方法的改进方法
良好的实验设计经验与工程学和科学的成功结合,已成为未来工业竞争的关键因子。
1.6 在实验中使用统计方法
专业经验和专业知识对实验设计很重要,设计尽可能简单,注意统计结果在实际中的意义,迭代实验,不断深化对实验的理解,不要在一开始就设计太宽泛的实验。
2022-9-18 读完第一章,夯实基础。
2024-10-30 两年之后,购买纸质版,重读第一章,更新读书笔记,重新发布