Minitab中的正态性检验提供了三种方法:Anderson-Darling(AD),Ryan-Joiner(RJ)和Kolmogorov-Smirnov(KS)。AD检验是默认的,那它在检验非正态的时候是不是最好的方法呢?
对于这三种正态性检验方法,检验结果有时是有差异的(如下图),那么就有个问题:到底以哪种方法的结果为准?
三种情形
情形1:生产过程中产生较大的离群值。
在此模拟中,从平均值= 0,标准偏差= 1的正态分布中模拟了29个值,从均值= 0,标准偏差= 4的正态分布中模拟了1个值。
情形2:制造过程发生了变化,从而导致分布发生变化。
创建一个双峰分布(如下图),一个是均值为10,标准差为1的正态分布;一个是均值为14,标准差为1的正态分布。
情形3:测量结果自然遵循非正态分布,正如我们通常会看到的失效时间数据。对于这种情况,从Weibull(a = 1,b = 1.5)分布中模拟了30个值。
注意:此文中评估的三种情形并非旨在评估使用中心极限定理的检验(例如单样本t,双样本t和配对t检验)的正态性假设的有效性。我们的重点是在使用分布估计制造有缺陷(不合格)单元的可能性时检验非正态性。
仿真(情形1为例)
步骤1:模拟数据(即29个来自正态分布+ 1个来自具有大标准差的正态分布)。
步骤2:运行正态性检验(AD,RJ和KS),并记录P值。
步骤3:重复步骤1和2 ,N次。
步骤4:分析每个正态性检验的P值,并基于不同的alpha值绘制拒绝正态性概率的置信区间。
仿真结果比较
在情形1中,Ryan-Joiner检验显然是赢家,仿真结果如下。
在情形2中,Anderson-Darling检验是最好的,仿真结果如下。
在情形3中,AD和RJ检验之间没有太大差异。两者都比Kolmogorov-Smirnov检验更有效地检验非正态性,仿真结果如下。
小结
总而言之,AD检验从来都不是最糟糕的检验,但在检验离群值方面,其效果不及RJ检验。如果您要分析制造过程中的数据往往会产生单个离群值,则最适合使用Ryan-Joiner检验。
RJ检验在情形1和情形3下均表现出色,但是当数据发生变化时(情形2),在检验非正态性方面表现不佳。如果您要分析制造过程中的数据,该数据由于意外更改而趋于变化,那么AD检验是最合适的。
KS检验在任何情况下均表现不佳。
在后续文章中,我还将讨论当从正态分布模拟数据并且对数据进行一定程度的舍入时,这三个检验在不拒绝正态性方面的表现如何。