浅谈考试成绩的差异显著性分析

来源：范文网 1.06W

　　浅谈考试成绩的差异显著性分析

【摘要】本文尝试运用数理统计学中的显著性检验的基本思想和常用的excel软件简单介绍了考试成绩中班级之间、校际之间的平均分、优秀率、及格率的差异显著性检验，即U检验的计算方法与主要步骤；以及教改结题报告的成绩分析涉及各种检验方法——T检验、Z检验的区别及计算方法、主要步骤。简单而言，本文是用统计学中的检验方法科学地分析什么情况下两个平均分、优秀率、及格率“差别不大”，“差别明显”，“差很多”，希望能更加科学客观地分析两个均值间的差异，对有需要的老师有所帮助。

【关键词】成绩差异；U检验；T检验；excel软件

　　一、引言

在每次考试成绩统计中，平均分、及格率、优秀率依然是一个班级教学的主要考核指标，但由于这样或那样的原因，可能会有些学生缺考。特别是近年我市实行了中职技校春季招生政策，某些学校分流人数也许过半。如何才能科学地公平地进行统计分析，也是许多从事成绩分析与管理的老师面临的难题。

另外，在教改结题报告或阶段性小结中，总要会对教改效果进行分析，也就难免对对比班与实验班的考试成绩中平均分、及格率、优秀率等数据作显著性检验，来比较教改的效果是否明显或不明显。看了不少结题报告，其中涉及到的检验方法如U检验，Z检验，T检验等等，不一而足，让人摸不着头脑。即便是数学教师，由于在大学就读时的教学内容侧重点有所不同，或许对数理统计方面知识掌握不强，也很难明白这些检验方法孰是孰非，孰优孰劣，更别说非专业其它科目的教师。在作成绩对比分析时，通常无从下手，或是委托统计能力强的老师帮忙，或是随意给些似是而非的数据，抑或罗列考试成绩，直接对比，不作任何检验，也就缺乏科学严谨性。

　　二、班、级考试成绩差异显著性分析

有些学校以班和年级考试人数与注册人数比值作为相对系数对实考的分数进行了调整，其大致算法是：年级在册人数为N，缺考R人，某班在册人数为n，缺考r人，则相对系数为[（n-r）/n]/[（N-R）/N]，用此系数乘以该班实际考试成绩，即为相对成绩，然后再以各班的相对成绩进行对比。这或许是一种方法，但这种调整，会对实考的成绩进行了放大或缩小，个人认为没有多少益处。事实上，一个班级本身或许也有人缺考，只不过没别班那么多，但平均分调整后可能偏离很多。

例1：一所学校九年级4个班，每个班注册人数均为50，在一次考试中，某班平均分60，缺考20人，全级缺考100人，按上述方法折算该班平均分。解： =60*[（50-20）/50]/[（200-100）/200]=72，这是不科学的，也没有什么意义。

1、样本均值与总体均值差异显著性检验（U检验）

要检查班级之间成绩是否相差太大，目的并不是要排出名次，可以采用U检验（有些文章也称Z检验，在ecxel软件中，相应的变量也是Z。为避免与下文混淆，只有总体方差未知，本文方用Z检验，且二者计算不同，故此不用此名称）。U检验的条件是：已知（或可以求出）样本均值、样本容量与总体均值、总体的标准差，可能采用U检验进行两均值异显著性检验。

统计学认为，不论x变量（考试分数）是连续型还是离散型，也无论x服从何种分布，一般只要样本容量（考试人数）n>20，就可认为平均值的分布是正态的，，则，服从标准正态分布，这就是进行U检验的理论依据。U检验主要步骤如下：

第一步，建立虚无假设，即先认为两者没有差异，用表示

第二步，计算u统计量

U检验的统计量为，其中，

（a） = （为该班每一个学生的分数）是要检验班的平均分，excel软件的公式为：=AVERAGE（该班的成绩区域）；

（b） = （为年级每一个学生的分数）是年级平均分，excel软件的公式为：=AVERAGE（年级的成绩区域）；

（c）为标准误，年级标准差，计算公式是 = excel软件的公式为：=STDEV（年级的成绩区域）；

（d）n为该班人数，excel软件的公式为：=COUNT（该班的成绩区域）。以上的数据均由学生考试成绩表统计得到。

从u统计量式子中我们看到，在两个平均分的差值进行标准化过程中，u值要受到年级标准差σ该班人数n影响。一般而言，就一次考试中n相对稳定，经开方后值更小，影响不大；而u值与σ成反比，换句话说，年级中各人成绩离散程度越大，两个平均分差值的差异就越不显著。

第三步，设定显著水平ɑ，查表或计算接受域

检验前必须设定显著水平ɑ，这是一个小概率数值，经常会选择ɑ=0.05，此时置信度1-ɑ=0.95，也即检验的结果有95%可靠性，有5%的不可靠，这个误差可能是由于偶然性造成的。在许多研究领域，0.05通常被认为是可接受错误的边界水平。如果有必要，也可选择ɑ=0.01，0.02等，使检验结果准确。由于标准正态分布图像是关于纵轴两边对称的，0.95对应的.置信区间占据中间部分，而两侧共占0.05，一侧则占0.025，所以在计算或查表时，应以1-ɑ/2作为参数进行。如显著性水平ɑ=0.05，则查表或计算的是1-0.05/2=0.975对应的置信区间，excel软件的计算公式为：=NORMSINV（0.975），回车后得1.959963985，一般取近似数1.96。由于图像对称性，确定的置信区间为（-1.96，1.96），以这个区间为接受域。若令ɑ=0.01，则接受域（-2.578，2.578）。

第四步，观察统计量u值是否落在接受区域，由此对样本均值与总体均值作出显著性差异判断。如果u统计量在置信区间（-1.96，1.96）内，接受H0，差异不显著，否则拒绝H0，差异显著；如果u统计量不在置信区间（-2.578，2.578）内，则差异非常显著。

例2.甲班某次参加考试36人，平均分66，年级平均分60，标准差为20分，检验甲班平均分与年级平均分是否有显著性差异。解：把相关数据代入，所以无显著性差异。有些人认为相差5分就差很多，看来也是不科学的。

2、标准分的计算

由于标准分是综合个体与总体分数排位等因素计算而来，因此标准分本身是经过差异分析得到的数值。值得一提的是，在计算高考或中考标准分中，excel的NORMSINV函数作用非常大，不用查标准正态分布表，而且数值十分精确。换算公式T=100Z+500，其中Z=NORMSINV（Pi）， Pi为某名次以下的人数占考生总数的百分比，相当于1-ɑ/2。例如10000人考试，则第1名的标准分为T=100Z+500= 100*NORMSINV（9999/ 10000）+500 872。

3、班、级的及格率、优秀率的检验

在成绩分析时，及格率、优秀率也可以像平均分一那样进行显著性差异检验，那么这两项该如何进行呢？难点在于标准差怎么求。

其实，从公式看：平均分、及格率、优秀率三个数据的分母均为考试人数，三者均为平均值。平均分是每个人的分数之和/考试人数，由于每个人都会有一个分数，直接相加可得。那么及格率呢？表面看是及格率=及格人数/考试人数，在计算时，其实将每个人分数稍作处理：将达到及格的分数改为1，没达到的改为0，excel软件中可用公式=if（Ai>=60，1，0）及填充柄下拉简单得到，Ai为每个原始分数所在单元格，然后对转换后的数据求平均值（即及格率）与标准差了。然后把班、级的及格率代入u统计量式子中计算u值。优秀率也用相方法处理即可。

例2.乙班某次考试成绩如下：

87 64 71 81 75 72 87 46 54 61 50 42 65 50 79

72 43 68 64 64 60 48 87 48 52 56 54 50 48 62

92 70 82 53 82 73 75 72 68 70

求此次考试的及格率及对应的标准差。

解：按及格分数为1，不及格分数为0转换后为：

1 1 1 1 1 1 1 0 0 1 0 0 1 0 1

1 0 1 1 1 0 0 1 0 0 0 0 0 0 1

1 1 1 0 1 1 1 1 1 1

可以求出这组数据的平均值即及格率为=26/40=65%，标准差为S= =0.483。

年级的优秀率与及对应的标准差也如法炮制，再进一步如平均分一样代入u统计量式子中计算就可以进行分析检验。需要指出的是，有些资料计算方法并非如此，这可能是转换后的结果只有0、1两个，不少人会认为这组数据服从两点分布或二项分布，所以按两点分布求方差S2=p（1-p），在这里p可以是及格率或优秀率，像上例S= =0.4770，出入比较大，很明显这并不是两点分布。我认为每个人及格记1分，不及格记0分，班级的“平均数”就是及格率或优秀率，这样理解更自然，按上例方法求标准差及进行检验可能更科学。

4、U检验运用条件

在已知样本均值、样本容量及总体的均值及总体的标准差，在每次考试中，这几个数据还是比较容易得到的，u统计量服从标准正态分布，即可以进行U检验。U检验涉及的计算较为简单，把以上四个参数代入公式即得u统计量（如果u值为负则取绝对值），然后与临界值比较，一般以1.96或2.578为临界值，不再另外查表或计算，就可以分析样本均值与总体均值是否具有显著性差异，所以U检验在诸多领域运用广泛。

　　三、教改结题报告中的成绩分析（T检验，Z检验）

一般而言，教改成绩就是实验班与对比班两个班的成绩比较，能否仅凭这两个班的平均分、优秀率、及格率的差值，立即得出教学效果是否明显呢？统计学认为，这样得出的结论是不可靠的，因为一个班的平均分具有统计意义，存在抽样误差，此数据是在一定范围内波动的，故而我们需要进行显著性差异检验。由于一个班多则也就50多人，少则也有20多人；所以每个班都可以看成一个样本，两个班就可看成从两个总体中抽取出来的双样本，一个总体是实施了教改的，一个是没有实施教改的。当然，这两个总体在这种情形下更多是虚拟的，它们具体的一些数据（平均分，方差等）我们是无从知晓的，也就没有办法直接研究，只能通过研究样本（即实验班及对比班成绩），由样本的数据对总体进行估计，并进行差异显著性检验，才能作出判断。

1、Z检验与T检验的区别

不少文章对Z检验还是T检验这两种方法作出了说明，两个总体均值的差异显著性检验中，在不知总体方差及均值情况下且统计量服从t分布，可以使用Z检验或T检验。如果样本容量n大于30，用Z检验，如果样本容量n小于30，则用t检验，在这里样本容量n即为该班人数。很明显，正如前文所说，一个班的人数一般都在30人之上，可以用Z检验。但假如一个班30人以下，另一班30人以上那怎么办？其实在计算机广泛应用计算的今天，不管样本容量n是多少，哪种检验都是可以使用的，且各种检验的基本原理是相同的。下面，不妨先了解这两种检验方法的统计量。

首先，不论哪种检验都要用到以下数据：

（a）两个班的平均分：；

（b）两个班的考试人数：；

（c）两个班的成绩的方差，应用excel软件的公式为=var（该班的成绩区域），数量上，方差=标准差的平方。

t检验或z检验的主要步骤：

第一步，建立虚无假设，即先认为两者没有差异，用表示

第二步：计算Z检验或T检验统计量

z= ①，t= ②（大分母部分称为标准误）。式子中，是两个班的平均分，，是两个班分数的方差，是两个班考试人数。从函数单调性而言，不论z或t，与u值类似，当两班的方差增大时，其值减小，即两班均分所代表的两总体的均值的差值差异性也到受成绩离散程度影响。

另外，从式子结构看，t统计量要复杂很多，这在计算工具落后的过去，这个计算当然是很繁琐的。想当初，手中可能连计算器都没有，开个方都可能需要手算。据说数学家陈景润证明“1+2”时所用的草稿纸真的达到汗牛充栋地步，可堆满房子，如果换了今天，估计他的稿纸也许高不盈尺。所以我们可以认为，Z检验其实只是T检验的粗略计算而已，二者其实都可使用，只是t值过程稍复杂，但应更精确。第三步查表或计算临界值

在不知总体方差情形下，两个平均值差服从t分布，查表或计算t临界值要有两个参数，显著水平ɑ，及自由度df。如果考查一个班，d ，如果进行两个班对比，自由度d 。计算临界值，excel软件中公式为：=TINV（ɑ，df），若令ɑ=0.05，自由度从30至120，临界值都约为2，详见下表：

自由度df 30 40 50 60 70 80 90 100 110 120

临界值t0 2.042 2.021 2.009 2.000 1.994 1.990 1.987 1.984 1.982 1.980

而两个班的人数基本上也在这个幅度内，像U检验一样，根据原始数据算出的t值与临界值进行比较，为了简化运算，可以取近似数2。

同样，在差异显著情形下，非要区别出相差很多，以令ɑ=0.01，自由度30至120主要的临界值如下：

自由度df 30 40 50 60 70 80 90 100 110 120

临界值t0 2.750 2.704 2.678 2.660 2.648 2.639 2.632 2.626 2.621 2.617

第四步比较t值或z值与，作出统计推断

与u检验类似，比较计算出来的t值或z值与临界值，如果|t|< =2或|z| < =2，则认为要检验的两个样本均值差异不明显，否则差异显著。

在报告中，不妨将各次考试成绩计算出来的t值用表格与图表形式展示出来，这样使数据条理更加清晰，也会使得内容更丰富，生动。

例3.某次考试原始成绩（满分100）如下：

实验班30人：

90 54 56 84 78 84 78 78 82 50 82 76 80 56 80

80 76 78 68 70 60 64 68 50 70 72 47 68 74 72

对比班40人：

70 72 72 54 66 64 90 68 50 62 60 54 50 95 56

52 60 50 52 50 60 62 87 48 52 56 54 50 48 48

66 62 70 70 82 60 64 64 62 58

经计算得，实验班平均分，方差 =132.3，对比班平均分，方差 =135.2；分别代入Z统计量及T统计量式子中得

z= = =3.255，

= =3.25，二者差别不大，均大于临界值 =2，所以可以认为教改验效果明显。

2、及格率、优秀率的检验

很多教改老师在成绩分析时，主要是对实验班及对比班的平均分进行显著性差异检验，而及格率或优秀率的检验则很少人涉及，这或许不够全面。与U检验一样，对分数稍作转换，然后对处理后的两组数据像平均分显著性检验方法一样进行计算。

例3.如上述例子，作及格率差异显著性分析，及格的分数改为1，不及格的改为0，则两个班的分数表为：

实验班30人：

1 0 0 1 1 1 1 1 1 0 1 1 1 0 1

1 1 1 1 1 1 1 1 0 1 1 0 1 1 1

对比班40人：

1 1 1 0 1 1 1 1 0 1 1 0 0 1 0

0 1 0 0 0 1 1 1 0 0 0 0 0 0 0

1 1 1 1 1 1 1 1 1 0

算得实验班及格率： =80%，方差 0.251；对比班及格率： =57.5%，方差 0.166，代入式子

=2.01>2，同样及格率的检验差异显著性是明显的。同样方法也可以对优秀率进行检验。由于可以在excel表直接列表中用填充柄，计算极方便，此处不再赘言。

3、前后两阶段成绩自身对比分析

如果说，实验班与非实验班的成绩对比是横比的话，那么自身两次成绩的对比则是纵比。教改实验从开始接手到结束是一个过程，加上一个班学生的成绩也是一个动态变化，反映在教改期间的每一次在考试成绩，所以很有必要进行前后两阶段成绩自身对比分析。

其检验方法是：对每一名学生两次成绩求差，，然后以所有的差作为样本数据进行分析。

统计量为，其中为这组数据的标准差。

例4.如例1中实验班成绩为：

90 54 56 84 78 84 78 78 82 50

82 76 80 56 80 80 76 78 68 70

60 64 68 50 70 72 47 68 74 72

而前一次考试成绩为：

87 52 55 83 84 81 71 76 81 54

80 76 80 54 78 77 74 72 65 74

62 63 68 44 71 68 45 66 73 75

对应位置的两个数据为同一名学生两次成绩，对这两次成绩平均分的进行差异显著性检验。

解：两组对应位置的数据求差得：

3 2 1 1 -6 3 7 2 1 -4

2 0 0 2 2 3 2 6 3 -4

-2 1 0 6 -1 4 2 2 1 -3

计算得， =1.2 =2.93 df=30-1=29，计算 =2.045，差异性显著，所以可以作出结论：教改效果明显。

同样，与平均分、及格率，优秀率一样，通过对动态的差值计算的t值也可以通过表格与图表表示出来，说明教改中实验班与对比班成绩差异是否显著，教学效果是否明显。

综上所述，在教改成绩分析中，不但要检验实验班与对比班的平均分差异显著性，还可以对两班及格率、优秀率差值进行检验，甚至对同一个班前后几次成绩进行检验，这样方能更科学地分析教改成效。

　　四、差异显著性分析的意义

不管是U检验还是T检验或其它检验，其计算方法都是两个均值的差除以标准误，然后与临界值比较，U检验的临界值，T检验的临界值在ɑ=0.05，自由度30至100时，然后作出差异显著性判断。超过甚至远远超过这个临界点是我们每一位教师所追求的目标。但是现实中，大多教师是达不到这个目标的，原因有很多，因篇幅关系此处不作分析，我想既然是教学改革是实验，当然就会存在失败，这是客观现象。我们应该更在乎过程，所以在成绩分析时，也就没有必要更改原始分数，非要达到“效果显著”。

以上笔者试图用统计知识，简单介绍了考试成绩中班级之间乃至校际之间的平均分、优秀率、及格率与的差异显著性检验，以及教改结题报告的成绩分析涉及各种检验方法，以期能对有需要的老师有所帮助，只是限于本人水平匮乏，文中必有许多不足之处，敬请各位给予指正为谢。

　　参考文献：

[1] 佚名《Excel常用函数大全》

[2] 邢航《独立样本均数差异的显著性检验及应用》《中国集体经济》 2008年第6期

[3] 郑巧玲何以平《医学论文中t检验误用分析》《中国科技期刊研究》2004年01期

[4] 《平均数差异显著性检验统计检验力和效果大小的估计原理与方法》

浅谈显著性考试成绩差异