U分布和T分布在研发阶段设计验证数据处理中的应用

吴秀梅

（赛默飞世尔（上海）仪器有限公司，上海 201206）

吴秀梅

（赛默飞世尔（上海）仪器有限公司，上海 201206）

在研发阶段仅对单一的样机做测试，并以测试结果作为结论来评价产品的设计质量，这一做法显然具有很大的随机性，不能全面准确的评估设计成果。而对多台样机的测试就会不可避免的涉及到数据处理的问题。在实际项目中，我们引入了U分布和T分布统计方法对测试数据做处理，以期对设计有个客观准确的评价。

样本抽样 U分布 T分布正态分布置信度置信区间样本均值

1 在测试中引入统计学的概念

自从2007年毕业以来，本人一直从事新产品测试工作。刚开始测试样本数量一般是1台，且用“通过”或“不通过”作为测试的结论。后来发现1台样本随机性太强，很难代表新研发产品的设计品质，所以样本数量增加到多台。这样一来测试中经常发现下列几种状况：一、多个测试结果结论不统一，有的结果在规格内，有的则在规格外；二、所测多个样机的电压值均在规格内，但普遍靠近规格上限或下限；三、对同一台样机多次测试，所得结果有的在规格内，有的在规格外；针对这些测试结果，简单用“通过”或“不通过”来评估该设计显然是不充分的，有必要引入其他的描述对整体的设计品质做评估，来准确判定设计的质量。

经过各种借鉴和学习，最终我们引入统计学方法对测试所得的多组数据做处理，并利用“样本均值”“置信度”“置信区间”等概念对样本作全面的评估。

2 正态分布

2.1 CPK的广泛应用

常用的统计学方法有多种，U分布、T分布、Z分布等。因为U分布是多种分布的理论基础，也是应用最广的分布，所以开始我们采用cpk作为设计质量判断的指数。Cpk（Complex process capability index）全称是制程能力指数，一般用来反映生产过程性能的允许最大变化范围与过程的正常偏差的比值。也有公司用它来表征产品设计的质量。在此不做论证其适用性，仅对实用过程做说明。

表1 cpk数值对应的设计质量分析

图1

2.2 CPK的不足

以上计算过程简单，结论明确，可操作性强。但实际应用于项目中后发现根据取样数据所得cpk值偏低，并不能准确反映设计情况。追究原因可能源于以下几点：

（1）所得样本数据存在异常点，即由于非设计因素影响使得测试结果出现偏差；而在统计分析中没有排除这些点；（2）样本数据分布形态不符合正态分布；（3）最重要的一点，样本数据量过小，不符合用cpk分析设计质量的要求。因为相关资料中介绍cpk时有建议取样数据最少要在120个以上，而在实际的研发试样中，样机总数量很少超过15台，远达不到要求。（4）没有考虑随机因素的影响。

3 T分布

3.1 T分布介绍

基于以上原因，我们决定采用T分布来进行数据分析，并加入了“预测符合度”的考量对分析所得区间做调整。现将T分布介绍如下。T分布以U分布为理论基础，是一簇曲线其形态变化与样品数量n有关。样品数量越小，t分布曲线越低平，样品数量越大，t分布曲线越接近标准正态分布曲线，当样品数量大于120个时，T分布曲线和标准正态分布曲线无限接近（图1所示）。简单说来，每一种样品数量都对应着T分布的的一条曲线。这样就使得样品分布与T曲线的符合度高，就解决了样品数量过小的问题（事实上当样品数量小于30个时，使用T分布是合适的）。

另外，T分布中考虑了置信度，即考虑了在抽样对总体参数做出估计时，由于样本的随机性，其结论总是不确定的。因此置信度是一种概率的陈述方法，也就是数理统计中的区间估计法，即估计值与总体参数在一定允许的误差范围以内，其相应的概率有多大。

再者，考虑到设计本身所固有的可变性（与制造过程的可变性无关），引入了预测符合度的概念，用以对T分布统计计算所得区间范围做调整。

现将T统计计算过程详述如下：

对应着不同的预测符合度水平，y有不同的数值，如下：

y = 1 minimum 68% conforming

y = 1.28 minimum 80% conforming

y = 1.64 minimum 90% conforming

y = 1.96 minimum 95% conforming

y = 2.58 minimum 99% conforming

y = 3 minimum 99.7% conforming

3.2 T分布在实际中的应用

以下9个数据来自对5V电压源的测试所得，该电压源的规格范围为4.5V到5.5V，置信度为95%，预测符合度为90%，请根据测试数据对设计水平做评价。

测试数据：5.1V，5.2V，4.9V，5.0V，5.0V，4.8V，5.1V，4.8V，4.5V。

则