首先快速总结上一篇文章 试验设计DoE的三大原则:随机化、区组化、重复 的核心观点:
- 统计是试验设计的基石,DoE又称为试验的统计设计(statistical design of experiments);
- 统计学的核心是理解、量化和控制变异(variability)。
- 试验设计的三大原则,核心就是控制变异。
- 能分区组者则分区组,不能分区组者则随机化(block what you can and randomize what you cannot)。换言之,优先考虑区组化,其次才是随机化。
- 随机化可以”平均掉“可能的干扰因素(eliminate potential biases and confounding variables),虽然会增大随机误差,但可以避免系统性偏差,增强结论的说服力。
- 区组化将随机变异分离为区组间变异和区组内变异,区组是一种特殊的属性变量(category factor);与随机化不同,区组化会减小随机误差。
- 重复,是指每个因子水平组合的独立重复;它允许实验者估计实验误差,进而判断一个因子不同水平之间的观测差是否统计意义。
本文更新一些新的阅读和工作思考。
随机化
上篇中提到“除非有充分的理由,否则都要进行随机化”, 但日常的试验基于很多有意或无意的假设,假设某些系统性安排不会产生系统性偏差。比如忽视试验者、设备、板材批次、日期、天气等之间的差异。
绝大部分时候,这个假设是成立的。而这些假设是基于试验者的实践经验和专业知识,一个不错的指导原则是“大胆假设,小心求证”——来自麦肯锡,既能通过大胆假设加快实验进度,又能在需要时回头检查假设是否正确。
对于新手来说,最好就是执行严格的随机化,以避免看似随机的试验方法产生系统性偏差。专家则可以很自然的忽略一些严格的随机化。
比如《试验设计》中分享了一个对比两种类型的牛奶的试验,试验一开始进行随机化分配,之后通过主观评估“加以改善”,“教师在不知不觉中受到了贫困儿童的更大需求的影响,从而导致喂养组中很多被替换成了营养不良的学生,而对照组中被替代的却很少”,导致试验组和对照组之间产生了系统性偏差。如此以来,耗费大量资源的试验,说服力大大降低。
再比如,我在之前公司研究一种天然矿物原料的织物柔顺性效果,使用四个条件洗涤毛巾,之后请专家小组(panellist)对柔顺性进行打分(0到,1,2,3,4这四个分数),毛巾排列看似随机,实际每次就是1234,2341,3412和4123,这就不是严格的随机化;如果试验者无意把毛巾上的编号1234面向panellist,那么随机性就进一步被破坏了。
总而言之,严格的随机化很难,试验者要保持警惕性,勤观察和思考潜在的随机误差有哪些及其随机化处理对策。
区组化
展开介绍之前,还是重复之前的观点:区组化可以减少随机误差,区组间的差异体现为区组这个属性变量的显著性,而区组内的差异则被归入随机误差,为了降低随机误差,提高试验精度,区组内会选择尽可能相近的样本。
最简化的区组化是“成对比较”或“配对比较”,即组内只有两个处理。比如著名的NASA的双胞胎试验,将一对双胞胎“拆开”,一个留在地球上,另一个送到国际空间站里;在持续一年的时间内,观察两人的生理体征表现,探究航天飞行如何影响人类身体。
配对比较是日常试验中最常用(最推荐)的试验工具,特别是详细的DoE之前的“线索生成试验”——寻找关键的影响因子[1],因为有更高的试验精度,而且试验简单。比如在一个玻璃板上贴两块胶带,排除玻璃批次对胶带测试的干扰;比如一个材料先后放在常温和老化条件下测试,利用其差值分析老化对材料的影响。
另外一种常用的设计是“随机化区组”,即使用某一个类型进行分组,区组内随机化。比如不同机器、不同日期,在后续统计分析中,确认区组之间是否有显著性差异,如果没有,那就是一个重要的专业知识,下次试验设计考虑放弃这个区组,不需要随机化,以提高试验效率。
在培训课上,德尔拓咨询的欧大师分享了一个很棒的案例——“蓝膜问题”,一款手机的按键质量时好时坏,工厂耗费三个月一直没有找到根因;六西格玛团队通过筛选试验排除掉一系列的影响因子,最后锁定根因是原材料的包装颜色——一个属性变量,通过区组化研究发现,白膜的原材料生产一切顺利,蓝膜的原材料生产就会出问题。
如果两个甚至多个维度分组,就类似于六西格玛DMAIC的分析阶段中的“多变异分析MVA”,这是一种重要的原因分析工具。同样多用于“线索生成试验”[1]。
重复
一次重复,指的是因子水平的所有可能的组合都被研究一次。
最严谨的重复是完全重复,即仿行,将所有的处理随机化重复执行。
重复的目的是统计分析。下表[2]是模型的方差分析表,要得到误差平方和,至少要有两次重复(n>=2),否则误差项的自由度ab(n-1)=0。没有误差平方和,就无法计算误差均方(等于误差平方和/误差自由度),就无法检验主效应和交互作用的显著性(F检验,都要和误差的均方对比),即无法“判断一个因子不同水平之间的观测差是否统计意义”。

在DoE基本术语引用的电池寿命的案例中,“每种板极材料与温度组合上检验 4 节电池,依随机次序进行所有 36 次检验”,四次仿行,共进行36次随机试验。该试验的方差分析表如下,a=3,b=3,n=4,所以误差的自由度=27。进而计算误差均方,主效应和二交互的F值和p值。[2]

因此,增加重复试验的意义是,增加误差的自由度,计算误差标准差,进而进行比较判断。
如果没有重复,误差的自由度为零,这称为“试验饱和”,此时无法进行方差分析。
但在实践中,特别是多因子的试验中,可能对每种因子的组合进行一次观察,即可获得足够的精度[1]。我个人的观察是,完全重复使用不多。更常用的“重复”是观测结果的重复,取平均值作为响应变量,提高观测精度(中心极限定理),但严格来说这不是试验设计的“重复”原则。
实践中,最常用的是部分重复,特别是中心点试验的重复,推荐重复2~5次。一方面,避免了完全重复的繁琐,另一方面,少量的中心点重复试验可以计算随机误差。
没有重复,就真的无法进行模型显著性检验吗?也有妥协的办法,实际工作中也常用,其原理与“部分析因试验”相同,都是“效应稀缺原理”,该内容在后续介绍“交互作用”时详细展开。
PS. 试验工具是简单的,困难的是何时用,灵活用。
[1] 《世界级质量管理工具》
[2] 《试验设计与分析》