4 测验分数等值及其常模量表的建立

第4章 测验分数等值及其常模量表的建立

4.1 测验分数等值及其常模

4.1.1 测验等值的含义

测验等值是指对测量同一心理特质的不同测验的分数或试题参数,通过一定的数学方法,转换成同一单位系统中的量数,以利于相互比较的方法。测验等值包括分数等值和项目参数等值两类。根据实测资料,求出两测验间考生实得分数的等值转换关系,叫做分数等值。一位学生期中语文考试成绩70分与期末语文考试成绩70分并不相等,因为两次考试的参照点和单位不同,这就需要进行分数等值转换。而项目等值是指在建立题库时,各试题的难度和区分度等参数的单位系统不一样,需要从实测资料出发,求出这些单位系统的转换关系。

两个等值测验之间进行转换时,必须有相互沟通的桥梁存在,即共同的试题组或共同的考生组。当测验A 和测验B 同时向同一组考生施测,称为共同考生设计方法。当在测验A 和B 中都加进一批共同的试题,构成两个新测验A '和B ',然后将A '和B '分别向不同考生组施测,这叫做共同试题设计方法。只有利用上述方法得到的实测资料,才能求出两个等值测验间的单位系统转换关系。

测验等值转换一般以两种形式出现:

(1)水平等值。若两个测验的难度水平相当,考生能力分布类似时,它是同一测验的不同形式,称为测验的水平等值。如高考时的正卷与副卷,其副卷是为正卷在某种意外不能使用的情况下备用的,它们两者的等值是水平等值。

(2)垂直等值。当测验程度水平不同,考生的能力分布也不同时,这一类等值称为垂直等值。

4.1.2 测验分数等值的方法

1.线性等值

两个平行且信度相等的测验分数X 和Y ,假若它们各自导出的标准分数相等,就可以认为是等值分数,因此,有

Y -M Y X -M X

= (4-1)

S Y S X

式中,X 和Y 是两测验的原始分数;M Y 、M X 和S Y 、S X 分别是两个测验上的原始分数的平均数与标准差。整理公式(4-1)得:

Y =

S Y S

X +M Y -Y M X S X S X

(4-2)

▌▎计算机辅助教育测量与评价 ▎▌

令 b =

S Y S

,a =M Y -Y ,则有 S X S X

(4-3) Y =bX +a 即,两个测验分数的等值关系建立。 2.百分位等值

两个平行且信度相等的测验分数X 和Y ,如果它们在各自考生组中的百分位数级相等,就可以认为是等值。随机地划分两组考生A 和B ,分别计算它们的累积频率、相对累积频率,则在A 和B 两个组中同一百分位等级所对应的原始分数,就是等值分数。

3.铆等值

实际工作中,常采用设置一批共同试题的方法,求取两个测验间的等值转换关系,两个测验所共用的部分试题称为铆题。铆题的数量应为全卷的1/5,铆题在试卷中可以分散、也可以集中,或者作为一个独立的测验来施测。

包括铆题的两个测验可以先后测试同一批考生,也可以把这批考生随机地分成a 、b 两部分,然后,同时分别考试。

分数的等值方程如公式(4-2):

S S

Y =Y X +M Y -Y M X

S X S X

其中,

M X =M Xa +M Y =M Yb +

2

S X

S Xa

r Xa , ua (M ut -M ua ) S ua

S Yb

r Yb , ub (M ut -M ub ) S ub

(4-4) (4-5) (4-6) (4-7)

=

2S Xa

+

22S Y =S Yb +

22

r 2(S ut -S ua ) 2Xa , ua S ua 2S Yb 22

r 2(S ut -S ub ) 2Yb , ub S ub

2S Xa

式中符号意义为:X 和Y 为两组测验,a 和b 是两半考生,t =a +b 代表全体考生,u 为共同测验。公式(4-4)中M Xa 和S Xa 是测验X 在考生组a 上所得分数的平均数和标准差,S ua 为共用测验在a 考生组上的标准差,r Xa , ua 是对a 考生组来说,在X 测验和共同测验u 上所得分数的相关系数;M ut 为共同测验u 在全部考生上所得分数的平均数;M ua 为测验u 在考生组a 上所得分数的平均数。公式(4-5)、公式(4-6)及公式(4-7)符号的意义可类推。

4.1.3 常模

1.常模的定义

在教育测量中测验的常模,简称常模。它是指一个有代表性的样组在某种测验上的表现情况,或者说,是一个与被试同类的团体在相同测验上得分的分布状况与结构模式。测验往往有明确的受测对象范围,因此,测验的常模总是针对某种人群的常模。

常模是解释测验分数的参照系,它可以通过比较看出学生在不同学科领域中的表现,也可以看出一个学生的能力与成就发展在其团体中的相对位置状况,还能够了解学生在不同时

- 88 -

▌▎第4章 测验分数等值及其常模量表的建立 ▎▌

期的发展变化情况。这无论是对学生本人,还是对教育者来说都具有重要的意义。

2.常模资料的获取

首先通过抽样获取一个有代表性的常模团体。为了使其有较好的代表性,常模团体的容量总是数以百计,多则成千上万。其次,进行统计学描述。常模团体在一个测验上的一般表现情况或成绩分布状况,需要用统计学方法加以整理和描述。除了用常模团体平均分数对其一般表现进行衡量以外,人们还可利用测验常模团体的测试数据,建立更精细的解释测验分数的常模框架,如百分等级量表和标准分数量表。最后将原始分数转换为导出分数。所谓导出分数就是以常模团体的原始分数为基础,用统计学方法,导出一种新的具有特定意义的能反映个体发展在其团体中相对位置状况的分数量表或符号系统。为了得到参照常模解释测验分数的更一般的框架,原始分数可以转换为导出分数。例如,我们经常使用的学生体育达标测验量表就是一种简单直观的导出分数。

4.2 百分等级常模的建立

4.2.1 百分等级常模的意义

百分等级是一个地位量数,能够反映某个测验分数在一组数据中的相对地位。在学生测验中,它把学生的原始分数放在该学生所在群体(比如,四年级)的成绩中进行比较,以确定该学生在群体中的相对地位之高低。例如,某学生在学期末考试中英语卷面成绩是70分,知道该学生所在群体(或年级)中有60%的学生成绩低于70分,则该学生的百分等级为60。与百分等级相对应的原始分数称为该百分等级的百分位数。如上例,第60百分位数为70分。

百分等级常模就是基于某个常模团体,为某种测验的原始分数与百分等级之间建立起一种对应关系的组内常模类型(或量表)。例如,某年级数学测验最高分为94分,其百分等级为100;最低分为38分,其百分等级为0。在94分与38分之间分成100个等级,如果一名学生测验分数为52分,他处于第15个百分等级,就可以表明有15%的学生测验分数比他差,而有85%的学生测验分数比他好。

4.2.2 百分等级常模的建立方法

1.用原始分数直接计算其百分等级

例如,现以高二50名学生的数学测验分数为例,如表4.1所示,说明计算各原始分数百分等级的步骤和方法。

表4.1 高二50名学生数学测验分数

85 70 67 50 87 70 68 52 53 67 72 86 89 71 42 74 60 45 83 73 62 48 82 64 72 82 79 74 61 71 81 84 96 75 65 55 57 66 77 91 76 68 58 60 69 78 94 79 67 57

(1)将表4.1中学生的所有可能获得的分数从大到小排列,其中最大的分数要比实际获

- 89 -

▌▎计算机辅助教育测量与评价 ▎▌

得的最大分数大1,最小的分数要比实际获得的最小分数小1,中间的分数依次一个比一个小,为了使分数连续起来,即使没有学生获得的分数也应列上。见表4.2第1列。

(2)计算各原始分数的频数。见表4.2第2列。

(3)从下至上计算各分数的累积频数。见表4.2第3列。

(4)计算各分数中点的累积频数。某个分数中点的累积频数,就等于该分数频数的一半加上小于该分数的频数总和。如表4.2中,58分的频数为1,其一半为0.5,57分的累积频数为9,则58分中点的累积频数为0.5+9=9.5。见表4.2第4列。

(5)计算各分数中点的百分等级。将各分数中点的累积频数除以总频数再乘以100,即

9.5

为各分数中点的百分等级。如58分中点的百分等级为⨯100=19。见表4.2第5列。

50

表4.2的第1列和第5列就构成高二数学测验的百分等级量表。

表4.2 高二数学测验分数百分等级计算表

原始分数

1 97 96 95 94 93 92 91 90 89 88 87 86 85 84 83 82 81 80 79

频数 2 0 1 0 1 0 0 1 0 1 0 1 1 1 1 1 2 1 0 2

累积频数

3 50 50 49 49 48 48 48 47 47 46 46 45 44 43 42 41 39 38 38

至中点的累积频数

4 50 49.5 49.0 48.5 48.0 48.0 47.5 47.0 46.5 46.0 45.5 44.5 43.5 42.5 41.5 40.0 38.5 38.0 37.0

百分等级PR

5 100 99 98 97 96 96 95 94 93 92 91 89 87 85 83 80 77 76 74

59 58

0 1

10 10

10.0 9.5

20 19

- 90 -

▌▎第4章 测验分数等值及其常模量表的建立 ▎▌

原始分数

1 57 56 55 54 53 52 51 50 49 48 47 46 45 44 43 42 41

频数 2 2 0 1 0 1 1 0 1 0 1 0 0 1 0 0 1 0

累积频数

3 9 7 7 6 6 5 4 4 3 3 2 2 2 1 1 1 0

至中点的累积频数

4 8.0 7.0 6.5 6.0 5.5 4.5 4.0 3.5 3.0 2.5 2.0 2.0 1.5 1.0 1.0 0.5 0.0

5 16 14 13 12 11 9 8 7 6 5 4 4 3 2 2 1 0

续表

百分等级PR

2.用频数分布表编制百分等级量表

用频数分布表编制百分等级量表的方法分为编制频数分布表和建立百分等级与原始分数的等值对照表两大步骤。

步骤一:编制频数分布表。

仍以表4.1高二学生数学测验分数为例,说明频数分布表的编制方法。

(1)求全距。从原始分数中找出最大值和最小值,并求其差,即为全距。本例中最大值为96,最小值为42,全距为96-42=54。

(2)决定组数和组距。各组的组距等于全距除以组数。而组数可根据总频数的多少而定,一般在10~20之间。根据数据特点,本例拟分为12组,则各组的组距为54/12=4.5,为了计算方便,组距取整数5。

(3)决定组限。每组的最小值为下限,最大值为上限。为了保持全距的连续性,各组可只写出下限,而不写出上限,因为各组的上限就是其相邻数值较大一组的下限。为了使百分等级量表的意义比较容易理解,将由小到大的各组数值从下往上排列。

(4)列出各组组中值。各组组中值等于上限与下限的平均数,如第一组的组中值为(95+100)/2=97.5。

(5)记录频数。将原始分数依次记在各组之中,对于既是数值较小一组的上限又是数值较大一组的下限的数据,记录时,应记入数值较大一组。例如,70这个数据,既是65~70这

- 91 -

▌▎计算机辅助教育测量与评价 ▎▌

组的上限,又是70~75这组的下限,记录时,应记入70~75这组。

(6)计算各组至上限的累积频数。某组至上限的累积频数等于本组的频数加上小于本组下限的各组频数之和。

步骤二:建立百分等级与原始分数的等值对照表。

通过频数分布计算百分等级与原始分数等值对照表的方法有三种,分别为:计算各组组中值百分等级、计算几个特定的百分位数和计算测验分始分数X 所对应原百分等级PR 。

(1)计算各组组中值百分等级。确定某个原始分数在标准化样本中所处的地位,不必十分精确,因为同一个分数在不同的样本中的百分等级也不完全相同。因此,我们可以用各组组中值所对应的百分等级来代表该组各个分数的百分等级。

计算各组组中值百分等级的方法如下:

1)计算各组组中值的累积频数。某组组中值的累积频数等于本组频数的一半加上小于本组下限的各组频数之和。也可以说,本组频数的1/2,加上数值较小相邻一组的累积频数。

2)计算各组组中值的累积比率。各组组中值的累积频数除以总频数,即为各组组中值的累积比率。

3)计算各组组中值的百分等级。将各组组中值的累积比率乘以100,即为组中值的百分等级,如表4.3第7列所示。

表4.3 高二数学测验分数百分等级计算表

原始分数

1 95~ 90~ 85~ 80~ 75~ 70~ 65~ 60~ 55~ 50~ 45~ 40~

组中值 2 97.5 92.5 87.5 82.5 77.5 72.5 67.5 62.5 57.5 52.5 47.5 42.5

频数 3 1 2 4 5 6 9 8 5 4 3 2 1 50

至上限的

累积频数

4 50 49 47 43 38 32 23 15 10 6 3 1

至组中值 的累积频数

5 49.5 48.0 45.0 40.5 35.0 27.5 19.0 12.5 8.0 4.5 2.0 0.5

至组中值 的累积比率

6 0.99 0.96 0.90 0.81 0.70 0.55 0.38 0.25 0.16 0.09 0.04 0.01

组中值的 百分等级

7 99 96 90 81 70 55 38 25 16 9 4 1

(2)计算几个特定的百分位数。在频数分布表列好之后,可以用插值法求几个特定百分等级相对应的百分位数,一般是求第5,10,20,30,40,50,60,70,80,90,95共11个

- 92 -

▌▎第4章 测验分数等值及其常模量表的建立 ▎▌

百分位数,以构成百分等级与原始分数的等值对照表,即百分等级量表。

百分位数的计算公式为:

⎛p ⎫i

P p =L p + n -n 1⎪

⎝100⎭f p

(4-8)

式中,P p 表示某一个百分位数;L p 表示该百分位数所在组的下限;p 表示该百分位数的百分等级数;n 表示总频数;n 1表示小于该百分位数所在组下限的频数总和;i 表示组距;f p 表示该百分位数所在组的频数。

例如,表4.3中第5百分位数为

⎛p ⎫i

P 5=L p + n -n 1⎪

⎝100⎭f p

⎛5⎫5=45+ ⨯50-1⎪⨯

⎝100⎭2

= 48.75 ≈49

其他几个特定的百分位数的计算方法以此类推,计算后取整数可得表4.4,即高二数学测验百分等级量表。

表4.4 高二数学测验百分等级量表

百分等级 百分位数

95 90 80 70 60 50 40 30 20 10 5 91 88 82 78 74 71 68 65 60 53 49

(3)计算测验分始分数X 所对应原百分等级PR ,其公式如下:

PR =

f (X -L b ) ⎤100⎡F +b ⎥ n ⎢i ⎣⎦

(4-9)

式中,PR 表示百分等级;n 为常模团体的人数;X 为测验原始分数;L b 为X 所在组别的组下限;F b 为小于L b 的各组频数之和;f 为X 所在组的频数;i 为组距。

例如,表4.3中,要确定原始分数58分所对应的百分等级PR ,由公式(4-9),可得到:

PR =

f (X -L b ) ⎤100⎡F +b ⎥ n ⎢i ⎣⎦100⎡4(58-55) ⎤6+ 50⎢5⎣⎦

=

=16.8

即说明测验分数58分所对应的百分等级为16.8;或者说在此频数分布中,有16.8%的数据低于58分。其他原始分数的解释依次类推,将变换结果用一张表或一个图形加以表达,即为测验的百分等级量表。

- 93 -

▌▎计算机辅助教育测量与评价 ▎▌

4.3 标准分数常模的建立

4.3.1 标准分数的定义

标准分数是以标准差为单位表示测验成绩与平均分数之间的距离。

不同的测验分数只有当它们的总体平均数、标准差、分布形态相同或者极其相近,才可以相互比较。但是,所测量的属性,其总体平均数、标准差和分布形态往往是未知的,既然我们无从确切地了解所测量的属性在总体中的情况如何,为了使不同的测验分数可以相互比较,只好假定所测量的一切属性,其总体平均数、标准差和分布形态都是一致的。若几种测验分数的样本分布形态是相近的,只需将几种测验分数转换成平均数相同和标准差相同的线性标准分数;若样本分布形态不一样,还需将测验分数转换成非线性的标准分数,即正态化的标准分数。所谓线性标准分数就是原始分数转换成标准分数之后,只改变了分布的平均数和标准差,并不改变分布的形态。而非线性标准分就是正态化的标准分,也就是原始分数与正态化标准分数的等值对照表,其量表值就是正态化的标准分数或非线性的标准分数。

1.标准分数Z

Z 分数本身就是关于原始分数X 的一种线性变换,因此,Z 分数不改变原始分数的分布形态。任何一批原始分数,转化成Z 分数后,这批Z 分数的平均值为0,标准差为1。在一般情况下,标准分数Z 的取值范围在-3到+3之间。

其计算公式如下:

Z =

X - S

(4-10)

式中和S 分别表示测验的平均分数和标准差。

Z 标准分数的单位是等距的,如果几个不同测验分数的分布形态很相近时,同一个被试在几个不同测验上的Z 分数可以相互比较,或者可以比较不同被试几个测验分数。

例如,对高一学生进行学习质量检测,语文、数学和英语成绩的平均数分别是80分、70分和85分,这三种成绩的标准差分别是10分、15分和12分。某学生的三科成绩分别是85分、82分和90分,问该生这三科成绩哪一科最好?

根据公式(4-10)可得到:

85-80

Z 语文==0.5

1082-70

Z 数学==0.8

1590-85

Z 英语==0.42

12

可见,Z 数学>Z 语文>Z 英语,故可认为该生的数学成绩相对最好,其次为语文,再次为英语。 由于标准分数Z 分值过小,并往往带有小数和负值等缺陷,在许多情形下,直接使用不大合乎人们表示分数的习惯,故通常把标准分数Z 通过线性变换,转到更大的标准分数量表

- 94 -

▌▎第4章 测验分数等值及其常模量表的建立 ▎▌

上,其一般公式为:

(4-11) T =a +bZ

在这里,a 和b 为选定的两个常数,Z 为标准分数,T 为线性变换分数。常见的转换分数有以下几种:

(1)教育与心理测验中的T 分数:T =50+10Z 。

(2)韦氏智力量表中各分测验的量表分:T =10+3Z 。 韦氏智力量表智商(离差智商):IQ =100+15Z 。 (3)美国大学入学考试报告分数:CEEB =500+100Z 。 (4)为出国人员举行的英语水平考试:EPT =90+20Z 。

(5)美国教育测验中心举办“托福”考试:TOEFL =500+70Z 。 2.正态分布下标准分数Z 和百分等级PR 之间的关系

标准分数Z 是与百分等级PR 相联系的一种相对分数,在正态分布下,其对应的百分等级PR 与一个以标准分Z 为界点的正态曲线左尾部面积比例数相对应。这种对应关系由统计学家编制出正态分布表供人们查表确定。通过查正态分布表,只要简单计算就可以确定某个Z 分数所对应的百分等级PR 。

3.正态分布下若干种分数量表之间的关系

(1)标准分数及其与百分等级和标准分数之间的关系。

标准九分是基于百分等级形成的另一种较常用的评分量表,该评分量表是9点评分形式,取值为1至9的整数。在正态分布下,标准九分量表与标准分数Z 及百分等级PR 之间的关系如表4.5所示。

表4.5 标准九分与其他评分量表对应关系

标准九分

9 8 7 6 5 4 3 2 1

Z 分数范围 +1.75以上 +1.25至+1.75 +0.75至+1.25 +0.25至0.75 -0.25至+0.25 -0.75至-0.25 -1.25至-0.75 -1.75至-1.25 -1.75以下

百分等级范围 96~100 89~95 77~88 60~76 41~59 24~40 12~23 5~11 1~4

标准九分个案百分比(%)

4 7 12 17 20 17 12 7 4

(2)其他多等级评分量表及其对应关系。

除了上述标准九分量表外,还有标准十分、标准十五分和标准二十分量表等,它们在本质上都是基于百分等级的多等级评分量表。例如,卡特尔16PF 测验就是采用标准十分量表常模。

根据正态分布的特点,当我们把上述介绍的标准分数评分量表、T 分数评分量表、韦氏智

- 95 -

▌▎计算机辅助教育测量与评价 ▎▌

力量表、标准九分评分量表、CEEB 评分量表以及百分等级评分量表综合在一起加以比较,即可形成如图4.1所示的对应关系。

图4.1 几种标准分数的对应关系

4.3.2 标准分数常模的建立方法

标准分数常模的建立方法可分为两个步骤:

(1)根据标准化样本中每个被试测验的原始分数,计算其平均分数及标准差。 (2)根据公式(4-10)计算原始分数的Z 分数。

例如,表4.6是40名初三学生语文测验分数,通过标准分数转换,可得如表4.7所示的Z 分数和CEEB 分数量表。

表4.6 40名初三学生语文测验分数

79 76 59 66 73 67 64 74 82 62 78 80 75 63 77 56 72 65 70 58 68 61 78 74 63 66 80 62 64 72 65 68 72 67 64 63 64 66 75 68

- 96 -

▌▎第4章 测验分数等值及其常模量表的建立 ▎▌

表4.7 初三语文测验标准分数量表

学生 1 2 3 4 5 6 7 8 9 10 11 12 13 14

原始分数

82 81 80 79 78 77 76 75 74 73 72 71 70 69

Z 分数 1.96 1.81 1.66 1.51 1.36 1.21 1.06 0.91 0.76 0.61 0.46 0.31 0.16 0.01

CEEB 分数

696 681 666 651 636 621 606 591 576 561 546 531 516 501

学生 15 16 17 18 19 20 21 22 23 24 25 26 27

原始分数

68 67 66 65 64 63 62 61 60 59 58 57 56

Z 分数 -0.13 -0.28 -0.43 -0.58 -0.73 -0.88 -1.03 -1.18 -1.33 -1.48 -1.63 -1.78 -1.93

CEEB 分数

487 472 457 442 427 412 397 382 367 352 337 322 307

=68.9 S =6.67

习题四

1.什么是常模?教育测验常模的建立有什么意义?

2.计算测验分数等值的方法有哪几种?

3.试建立某门课程测验分数的百分等级常模。

- 97 -

第4章 测验分数等值及其常模量表的建立

4.1 测验分数等值及其常模

4.1.1 测验等值的含义

测验等值是指对测量同一心理特质的不同测验的分数或试题参数,通过一定的数学方法,转换成同一单位系统中的量数,以利于相互比较的方法。测验等值包括分数等值和项目参数等值两类。根据实测资料,求出两测验间考生实得分数的等值转换关系,叫做分数等值。一位学生期中语文考试成绩70分与期末语文考试成绩70分并不相等,因为两次考试的参照点和单位不同,这就需要进行分数等值转换。而项目等值是指在建立题库时,各试题的难度和区分度等参数的单位系统不一样,需要从实测资料出发,求出这些单位系统的转换关系。

两个等值测验之间进行转换时,必须有相互沟通的桥梁存在,即共同的试题组或共同的考生组。当测验A 和测验B 同时向同一组考生施测,称为共同考生设计方法。当在测验A 和B 中都加进一批共同的试题,构成两个新测验A '和B ',然后将A '和B '分别向不同考生组施测,这叫做共同试题设计方法。只有利用上述方法得到的实测资料,才能求出两个等值测验间的单位系统转换关系。

测验等值转换一般以两种形式出现:

(1)水平等值。若两个测验的难度水平相当,考生能力分布类似时,它是同一测验的不同形式,称为测验的水平等值。如高考时的正卷与副卷,其副卷是为正卷在某种意外不能使用的情况下备用的,它们两者的等值是水平等值。

(2)垂直等值。当测验程度水平不同,考生的能力分布也不同时,这一类等值称为垂直等值。

4.1.2 测验分数等值的方法

1.线性等值

两个平行且信度相等的测验分数X 和Y ,假若它们各自导出的标准分数相等,就可以认为是等值分数,因此,有

Y -M Y X -M X

= (4-1)

S Y S X

式中,X 和Y 是两测验的原始分数;M Y 、M X 和S Y 、S X 分别是两个测验上的原始分数的平均数与标准差。整理公式(4-1)得:

Y =

S Y S

X +M Y -Y M X S X S X

(4-2)

▌▎计算机辅助教育测量与评价 ▎▌

令 b =

S Y S

,a =M Y -Y ,则有 S X S X

(4-3) Y =bX +a 即,两个测验分数的等值关系建立。 2.百分位等值

两个平行且信度相等的测验分数X 和Y ,如果它们在各自考生组中的百分位数级相等,就可以认为是等值。随机地划分两组考生A 和B ,分别计算它们的累积频率、相对累积频率,则在A 和B 两个组中同一百分位等级所对应的原始分数,就是等值分数。

3.铆等值

实际工作中,常采用设置一批共同试题的方法,求取两个测验间的等值转换关系,两个测验所共用的部分试题称为铆题。铆题的数量应为全卷的1/5,铆题在试卷中可以分散、也可以集中,或者作为一个独立的测验来施测。

包括铆题的两个测验可以先后测试同一批考生,也可以把这批考生随机地分成a 、b 两部分,然后,同时分别考试。

分数的等值方程如公式(4-2):

S S

Y =Y X +M Y -Y M X

S X S X

其中,

M X =M Xa +M Y =M Yb +

2

S X

S Xa

r Xa , ua (M ut -M ua ) S ua

S Yb

r Yb , ub (M ut -M ub ) S ub

(4-4) (4-5) (4-6) (4-7)

=

2S Xa

+

22S Y =S Yb +

22

r 2(S ut -S ua ) 2Xa , ua S ua 2S Yb 22

r 2(S ut -S ub ) 2Yb , ub S ub

2S Xa

式中符号意义为:X 和Y 为两组测验,a 和b 是两半考生,t =a +b 代表全体考生,u 为共同测验。公式(4-4)中M Xa 和S Xa 是测验X 在考生组a 上所得分数的平均数和标准差,S ua 为共用测验在a 考生组上的标准差,r Xa , ua 是对a 考生组来说,在X 测验和共同测验u 上所得分数的相关系数;M ut 为共同测验u 在全部考生上所得分数的平均数;M ua 为测验u 在考生组a 上所得分数的平均数。公式(4-5)、公式(4-6)及公式(4-7)符号的意义可类推。

4.1.3 常模

1.常模的定义

在教育测量中测验的常模,简称常模。它是指一个有代表性的样组在某种测验上的表现情况,或者说,是一个与被试同类的团体在相同测验上得分的分布状况与结构模式。测验往往有明确的受测对象范围,因此,测验的常模总是针对某种人群的常模。

常模是解释测验分数的参照系,它可以通过比较看出学生在不同学科领域中的表现,也可以看出一个学生的能力与成就发展在其团体中的相对位置状况,还能够了解学生在不同时

- 88 -

▌▎第4章 测验分数等值及其常模量表的建立 ▎▌

期的发展变化情况。这无论是对学生本人,还是对教育者来说都具有重要的意义。

2.常模资料的获取

首先通过抽样获取一个有代表性的常模团体。为了使其有较好的代表性,常模团体的容量总是数以百计,多则成千上万。其次,进行统计学描述。常模团体在一个测验上的一般表现情况或成绩分布状况,需要用统计学方法加以整理和描述。除了用常模团体平均分数对其一般表现进行衡量以外,人们还可利用测验常模团体的测试数据,建立更精细的解释测验分数的常模框架,如百分等级量表和标准分数量表。最后将原始分数转换为导出分数。所谓导出分数就是以常模团体的原始分数为基础,用统计学方法,导出一种新的具有特定意义的能反映个体发展在其团体中相对位置状况的分数量表或符号系统。为了得到参照常模解释测验分数的更一般的框架,原始分数可以转换为导出分数。例如,我们经常使用的学生体育达标测验量表就是一种简单直观的导出分数。

4.2 百分等级常模的建立

4.2.1 百分等级常模的意义

百分等级是一个地位量数,能够反映某个测验分数在一组数据中的相对地位。在学生测验中,它把学生的原始分数放在该学生所在群体(比如,四年级)的成绩中进行比较,以确定该学生在群体中的相对地位之高低。例如,某学生在学期末考试中英语卷面成绩是70分,知道该学生所在群体(或年级)中有60%的学生成绩低于70分,则该学生的百分等级为60。与百分等级相对应的原始分数称为该百分等级的百分位数。如上例,第60百分位数为70分。

百分等级常模就是基于某个常模团体,为某种测验的原始分数与百分等级之间建立起一种对应关系的组内常模类型(或量表)。例如,某年级数学测验最高分为94分,其百分等级为100;最低分为38分,其百分等级为0。在94分与38分之间分成100个等级,如果一名学生测验分数为52分,他处于第15个百分等级,就可以表明有15%的学生测验分数比他差,而有85%的学生测验分数比他好。

4.2.2 百分等级常模的建立方法

1.用原始分数直接计算其百分等级

例如,现以高二50名学生的数学测验分数为例,如表4.1所示,说明计算各原始分数百分等级的步骤和方法。

表4.1 高二50名学生数学测验分数

85 70 67 50 87 70 68 52 53 67 72 86 89 71 42 74 60 45 83 73 62 48 82 64 72 82 79 74 61 71 81 84 96 75 65 55 57 66 77 91 76 68 58 60 69 78 94 79 67 57

(1)将表4.1中学生的所有可能获得的分数从大到小排列,其中最大的分数要比实际获

- 89 -

▌▎计算机辅助教育测量与评价 ▎▌

得的最大分数大1,最小的分数要比实际获得的最小分数小1,中间的分数依次一个比一个小,为了使分数连续起来,即使没有学生获得的分数也应列上。见表4.2第1列。

(2)计算各原始分数的频数。见表4.2第2列。

(3)从下至上计算各分数的累积频数。见表4.2第3列。

(4)计算各分数中点的累积频数。某个分数中点的累积频数,就等于该分数频数的一半加上小于该分数的频数总和。如表4.2中,58分的频数为1,其一半为0.5,57分的累积频数为9,则58分中点的累积频数为0.5+9=9.5。见表4.2第4列。

(5)计算各分数中点的百分等级。将各分数中点的累积频数除以总频数再乘以100,即

9.5

为各分数中点的百分等级。如58分中点的百分等级为⨯100=19。见表4.2第5列。

50

表4.2的第1列和第5列就构成高二数学测验的百分等级量表。

表4.2 高二数学测验分数百分等级计算表

原始分数

1 97 96 95 94 93 92 91 90 89 88 87 86 85 84 83 82 81 80 79

频数 2 0 1 0 1 0 0 1 0 1 0 1 1 1 1 1 2 1 0 2

累积频数

3 50 50 49 49 48 48 48 47 47 46 46 45 44 43 42 41 39 38 38

至中点的累积频数

4 50 49.5 49.0 48.5 48.0 48.0 47.5 47.0 46.5 46.0 45.5 44.5 43.5 42.5 41.5 40.0 38.5 38.0 37.0

百分等级PR

5 100 99 98 97 96 96 95 94 93 92 91 89 87 85 83 80 77 76 74

59 58

0 1

10 10

10.0 9.5

20 19

- 90 -

▌▎第4章 测验分数等值及其常模量表的建立 ▎▌

原始分数

1 57 56 55 54 53 52 51 50 49 48 47 46 45 44 43 42 41

频数 2 2 0 1 0 1 1 0 1 0 1 0 0 1 0 0 1 0

累积频数

3 9 7 7 6 6 5 4 4 3 3 2 2 2 1 1 1 0

至中点的累积频数

4 8.0 7.0 6.5 6.0 5.5 4.5 4.0 3.5 3.0 2.5 2.0 2.0 1.5 1.0 1.0 0.5 0.0

5 16 14 13 12 11 9 8 7 6 5 4 4 3 2 2 1 0

续表

百分等级PR

2.用频数分布表编制百分等级量表

用频数分布表编制百分等级量表的方法分为编制频数分布表和建立百分等级与原始分数的等值对照表两大步骤。

步骤一:编制频数分布表。

仍以表4.1高二学生数学测验分数为例,说明频数分布表的编制方法。

(1)求全距。从原始分数中找出最大值和最小值,并求其差,即为全距。本例中最大值为96,最小值为42,全距为96-42=54。

(2)决定组数和组距。各组的组距等于全距除以组数。而组数可根据总频数的多少而定,一般在10~20之间。根据数据特点,本例拟分为12组,则各组的组距为54/12=4.5,为了计算方便,组距取整数5。

(3)决定组限。每组的最小值为下限,最大值为上限。为了保持全距的连续性,各组可只写出下限,而不写出上限,因为各组的上限就是其相邻数值较大一组的下限。为了使百分等级量表的意义比较容易理解,将由小到大的各组数值从下往上排列。

(4)列出各组组中值。各组组中值等于上限与下限的平均数,如第一组的组中值为(95+100)/2=97.5。

(5)记录频数。将原始分数依次记在各组之中,对于既是数值较小一组的上限又是数值较大一组的下限的数据,记录时,应记入数值较大一组。例如,70这个数据,既是65~70这

- 91 -

▌▎计算机辅助教育测量与评价 ▎▌

组的上限,又是70~75这组的下限,记录时,应记入70~75这组。

(6)计算各组至上限的累积频数。某组至上限的累积频数等于本组的频数加上小于本组下限的各组频数之和。

步骤二:建立百分等级与原始分数的等值对照表。

通过频数分布计算百分等级与原始分数等值对照表的方法有三种,分别为:计算各组组中值百分等级、计算几个特定的百分位数和计算测验分始分数X 所对应原百分等级PR 。

(1)计算各组组中值百分等级。确定某个原始分数在标准化样本中所处的地位,不必十分精确,因为同一个分数在不同的样本中的百分等级也不完全相同。因此,我们可以用各组组中值所对应的百分等级来代表该组各个分数的百分等级。

计算各组组中值百分等级的方法如下:

1)计算各组组中值的累积频数。某组组中值的累积频数等于本组频数的一半加上小于本组下限的各组频数之和。也可以说,本组频数的1/2,加上数值较小相邻一组的累积频数。

2)计算各组组中值的累积比率。各组组中值的累积频数除以总频数,即为各组组中值的累积比率。

3)计算各组组中值的百分等级。将各组组中值的累积比率乘以100,即为组中值的百分等级,如表4.3第7列所示。

表4.3 高二数学测验分数百分等级计算表

原始分数

1 95~ 90~ 85~ 80~ 75~ 70~ 65~ 60~ 55~ 50~ 45~ 40~

组中值 2 97.5 92.5 87.5 82.5 77.5 72.5 67.5 62.5 57.5 52.5 47.5 42.5

频数 3 1 2 4 5 6 9 8 5 4 3 2 1 50

至上限的

累积频数

4 50 49 47 43 38 32 23 15 10 6 3 1

至组中值 的累积频数

5 49.5 48.0 45.0 40.5 35.0 27.5 19.0 12.5 8.0 4.5 2.0 0.5

至组中值 的累积比率

6 0.99 0.96 0.90 0.81 0.70 0.55 0.38 0.25 0.16 0.09 0.04 0.01

组中值的 百分等级

7 99 96 90 81 70 55 38 25 16 9 4 1

(2)计算几个特定的百分位数。在频数分布表列好之后,可以用插值法求几个特定百分等级相对应的百分位数,一般是求第5,10,20,30,40,50,60,70,80,90,95共11个

- 92 -

▌▎第4章 测验分数等值及其常模量表的建立 ▎▌

百分位数,以构成百分等级与原始分数的等值对照表,即百分等级量表。

百分位数的计算公式为:

⎛p ⎫i

P p =L p + n -n 1⎪

⎝100⎭f p

(4-8)

式中,P p 表示某一个百分位数;L p 表示该百分位数所在组的下限;p 表示该百分位数的百分等级数;n 表示总频数;n 1表示小于该百分位数所在组下限的频数总和;i 表示组距;f p 表示该百分位数所在组的频数。

例如,表4.3中第5百分位数为

⎛p ⎫i

P 5=L p + n -n 1⎪

⎝100⎭f p

⎛5⎫5=45+ ⨯50-1⎪⨯

⎝100⎭2

= 48.75 ≈49

其他几个特定的百分位数的计算方法以此类推,计算后取整数可得表4.4,即高二数学测验百分等级量表。

表4.4 高二数学测验百分等级量表

百分等级 百分位数

95 90 80 70 60 50 40 30 20 10 5 91 88 82 78 74 71 68 65 60 53 49

(3)计算测验分始分数X 所对应原百分等级PR ,其公式如下:

PR =

f (X -L b ) ⎤100⎡F +b ⎥ n ⎢i ⎣⎦

(4-9)

式中,PR 表示百分等级;n 为常模团体的人数;X 为测验原始分数;L b 为X 所在组别的组下限;F b 为小于L b 的各组频数之和;f 为X 所在组的频数;i 为组距。

例如,表4.3中,要确定原始分数58分所对应的百分等级PR ,由公式(4-9),可得到:

PR =

f (X -L b ) ⎤100⎡F +b ⎥ n ⎢i ⎣⎦100⎡4(58-55) ⎤6+ 50⎢5⎣⎦

=

=16.8

即说明测验分数58分所对应的百分等级为16.8;或者说在此频数分布中,有16.8%的数据低于58分。其他原始分数的解释依次类推,将变换结果用一张表或一个图形加以表达,即为测验的百分等级量表。

- 93 -

▌▎计算机辅助教育测量与评价 ▎▌

4.3 标准分数常模的建立

4.3.1 标准分数的定义

标准分数是以标准差为单位表示测验成绩与平均分数之间的距离。

不同的测验分数只有当它们的总体平均数、标准差、分布形态相同或者极其相近,才可以相互比较。但是,所测量的属性,其总体平均数、标准差和分布形态往往是未知的,既然我们无从确切地了解所测量的属性在总体中的情况如何,为了使不同的测验分数可以相互比较,只好假定所测量的一切属性,其总体平均数、标准差和分布形态都是一致的。若几种测验分数的样本分布形态是相近的,只需将几种测验分数转换成平均数相同和标准差相同的线性标准分数;若样本分布形态不一样,还需将测验分数转换成非线性的标准分数,即正态化的标准分数。所谓线性标准分数就是原始分数转换成标准分数之后,只改变了分布的平均数和标准差,并不改变分布的形态。而非线性标准分就是正态化的标准分,也就是原始分数与正态化标准分数的等值对照表,其量表值就是正态化的标准分数或非线性的标准分数。

1.标准分数Z

Z 分数本身就是关于原始分数X 的一种线性变换,因此,Z 分数不改变原始分数的分布形态。任何一批原始分数,转化成Z 分数后,这批Z 分数的平均值为0,标准差为1。在一般情况下,标准分数Z 的取值范围在-3到+3之间。

其计算公式如下:

Z =

X - S

(4-10)

式中和S 分别表示测验的平均分数和标准差。

Z 标准分数的单位是等距的,如果几个不同测验分数的分布形态很相近时,同一个被试在几个不同测验上的Z 分数可以相互比较,或者可以比较不同被试几个测验分数。

例如,对高一学生进行学习质量检测,语文、数学和英语成绩的平均数分别是80分、70分和85分,这三种成绩的标准差分别是10分、15分和12分。某学生的三科成绩分别是85分、82分和90分,问该生这三科成绩哪一科最好?

根据公式(4-10)可得到:

85-80

Z 语文==0.5

1082-70

Z 数学==0.8

1590-85

Z 英语==0.42

12

可见,Z 数学>Z 语文>Z 英语,故可认为该生的数学成绩相对最好,其次为语文,再次为英语。 由于标准分数Z 分值过小,并往往带有小数和负值等缺陷,在许多情形下,直接使用不大合乎人们表示分数的习惯,故通常把标准分数Z 通过线性变换,转到更大的标准分数量表

- 94 -

▌▎第4章 测验分数等值及其常模量表的建立 ▎▌

上,其一般公式为:

(4-11) T =a +bZ

在这里,a 和b 为选定的两个常数,Z 为标准分数,T 为线性变换分数。常见的转换分数有以下几种:

(1)教育与心理测验中的T 分数:T =50+10Z 。

(2)韦氏智力量表中各分测验的量表分:T =10+3Z 。 韦氏智力量表智商(离差智商):IQ =100+15Z 。 (3)美国大学入学考试报告分数:CEEB =500+100Z 。 (4)为出国人员举行的英语水平考试:EPT =90+20Z 。

(5)美国教育测验中心举办“托福”考试:TOEFL =500+70Z 。 2.正态分布下标准分数Z 和百分等级PR 之间的关系

标准分数Z 是与百分等级PR 相联系的一种相对分数,在正态分布下,其对应的百分等级PR 与一个以标准分Z 为界点的正态曲线左尾部面积比例数相对应。这种对应关系由统计学家编制出正态分布表供人们查表确定。通过查正态分布表,只要简单计算就可以确定某个Z 分数所对应的百分等级PR 。

3.正态分布下若干种分数量表之间的关系

(1)标准分数及其与百分等级和标准分数之间的关系。

标准九分是基于百分等级形成的另一种较常用的评分量表,该评分量表是9点评分形式,取值为1至9的整数。在正态分布下,标准九分量表与标准分数Z 及百分等级PR 之间的关系如表4.5所示。

表4.5 标准九分与其他评分量表对应关系

标准九分

9 8 7 6 5 4 3 2 1

Z 分数范围 +1.75以上 +1.25至+1.75 +0.75至+1.25 +0.25至0.75 -0.25至+0.25 -0.75至-0.25 -1.25至-0.75 -1.75至-1.25 -1.75以下

百分等级范围 96~100 89~95 77~88 60~76 41~59 24~40 12~23 5~11 1~4

标准九分个案百分比(%)

4 7 12 17 20 17 12 7 4

(2)其他多等级评分量表及其对应关系。

除了上述标准九分量表外,还有标准十分、标准十五分和标准二十分量表等,它们在本质上都是基于百分等级的多等级评分量表。例如,卡特尔16PF 测验就是采用标准十分量表常模。

根据正态分布的特点,当我们把上述介绍的标准分数评分量表、T 分数评分量表、韦氏智

- 95 -

▌▎计算机辅助教育测量与评价 ▎▌

力量表、标准九分评分量表、CEEB 评分量表以及百分等级评分量表综合在一起加以比较,即可形成如图4.1所示的对应关系。

图4.1 几种标准分数的对应关系

4.3.2 标准分数常模的建立方法

标准分数常模的建立方法可分为两个步骤:

(1)根据标准化样本中每个被试测验的原始分数,计算其平均分数及标准差。 (2)根据公式(4-10)计算原始分数的Z 分数。

例如,表4.6是40名初三学生语文测验分数,通过标准分数转换,可得如表4.7所示的Z 分数和CEEB 分数量表。

表4.6 40名初三学生语文测验分数

79 76 59 66 73 67 64 74 82 62 78 80 75 63 77 56 72 65 70 58 68 61 78 74 63 66 80 62 64 72 65 68 72 67 64 63 64 66 75 68

- 96 -

▌▎第4章 测验分数等值及其常模量表的建立 ▎▌

表4.7 初三语文测验标准分数量表

学生 1 2 3 4 5 6 7 8 9 10 11 12 13 14

原始分数

82 81 80 79 78 77 76 75 74 73 72 71 70 69

Z 分数 1.96 1.81 1.66 1.51 1.36 1.21 1.06 0.91 0.76 0.61 0.46 0.31 0.16 0.01

CEEB 分数

696 681 666 651 636 621 606 591 576 561 546 531 516 501

学生 15 16 17 18 19 20 21 22 23 24 25 26 27

原始分数

68 67 66 65 64 63 62 61 60 59 58 57 56

Z 分数 -0.13 -0.28 -0.43 -0.58 -0.73 -0.88 -1.03 -1.18 -1.33 -1.48 -1.63 -1.78 -1.93

CEEB 分数

487 472 457 442 427 412 397 382 367 352 337 322 307

=68.9 S =6.67

习题四

1.什么是常模?教育测验常模的建立有什么意义?

2.计算测验分数等值的方法有哪几种?

3.试建立某门课程测验分数的百分等级常模。

- 97 -


相关文章

  • 心理测量学复习重点
  • 心理测量与测验 期末复习整理 第一章 心理测量的历史 1. 中国古代心理测量方法:观察法.访谈法.自然实验法 2. 冯特1879年在莱比锡大学建立第一所心理实验室. 最先倡导测验运动的是优生学创始人高尔顿.他开创了个别差异心理学研究,并采用 ...查看


  • 考试的测量学基础知识(十一):等值
  • 等值(Equating)是一种在两个或多个测验版本的分数之间建立相互关系的过程,即将测量同一特质的不同测验版本的分数置于同一尺度上,使得参加不同测验版本的考生的分数可以直接相比,从而实现跨测验版本考生评价的公平性.其过程既包括分数的等值,也 ...查看


  • 戴海琦版心理测量学重难点考点归纳整理1
  • 心理测量学重难点考点归纳整理 一.心理测量的基本理论 (一)心理测量的基本理论 1)心理测量的基本概念 (1)心理测量的特点 ①间接性--心理属性是内在的不可直接测量到的特质,但可表现为一系列具有内在联系的外显行为,测量者可以通过一定的方法 ...查看


  • 估计调查问卷信度的方法
  • 第二节 估计信度的方法 前面已经提出了信度的概念,但只是一个理论上的构想,实际测量过程中,无法对真分数和误差分数进行测量,在实际应用中,通常以同一样本得到的两组资料的相关,作为测量一致性的指标.估计信度有不同的方法,常用的估计的方法有再测信 ...查看


  • 人才测评必要的理论基础
  • 研究者可以通过以下的方法来控制效标污染 一是改变效度研究本身的 设 计 二是采用部分相关的统计方法 只有尽可能地控制效标污染才能更准确地了 解测量工具和效标间的真实关系 四信度和效度之间的关系 根据前面所论述 的信度和效度的定义和作用可以看 ...查看


  • 心理测量学考试试题
  • 一.单项选择题 1.下列对测量的描述,正确的是( B ). A.测量就是心理测量 B.就是依据一定的法则用数字对事物加以确定 C.就是用数字来描述事物的法则 D.测量就是用一些题目或数字来描述事物的属性 2.参照点就是确定事物的量时,计算的 ...查看


  • 心理与教育测量学试题库
  • 一. 填空题(每格1分) 1. 我国古代教育家孔子曾把人分为中人.中人以下.中人以上,这实际上相当于测量学中的命名量表和量表. 2.卡特尔于1890年发表了<心理测验和测量>一文,首创了这个术语. 3.著名美国学者波林指出:&q ...查看


  • 人事测评理论与方法笔记
  • 人事测评理论与方法唐宁玉 第一章 人事测评概论 一.定义 1.人事测评:就是对人与事之间的适应关系进行定量和固定性相结合的测量和评价. 2.坚定性测评:又称为考核性测评,是用来鉴定与验证与某些人员是否具备特定的技能.素质或具备程度大小的人事 ...查看


  • 黄希庭版本普通心理学笔记
  • 第 1 章 概论 1 . 中国古代心理测量简述: ( 1 ) 公元六世纪初,南朝人刘勰的著作<新论 · 专学>中提到了类似现代 " 分心测验 " 的思想. ( 2 ) 在中国古代, " 七巧板 &q ...查看


热门内容