测验的信度

心理测量学——测验的信度学习笔记

第三节测验的信度

第一单元信度的概念

第二单元信度评估的方法

第三单元信度与测验分数的解释第四单元影响信度的因素

第一单元信度的概念

一、信度的定义

信度是指同一被试者在不同时间内用同一测验（或用另一套相等的测验）重复测量，所得结果的一致程度。

在测量理论中，信度被定义为：一组测量分数的真分数方差与总方差（实得分数的方差）的比率。

二、信度的指标

（一）信度系数与信度指数

信度指数是真分数标准差与实得分数标准差的比值。

信度指数的平方就是信度系数。

（二）测量标准误

测量误差分布的标准差，即为测量的标准误。

第二单元信度评估的方法

一、重测信度

二、复本信度

三、内部一致性信度

四、评分者信度

信度的类型与估计方法

重测信度（test-retestreliability）

–又称稳定性系数。它的计算方法是采用重测法，即使用同一测验，在同样条件下对同一组被试者前后施测两次测验，求两次得分间的相关系数。

–最适宜的时距随测验的目的、性质和被试特点而异，一般是两周到四周较宜，间隔时间最长不超过六个月。

内部一致性信度（internalconsistencyreliability）

–分半信度（split-halfreliability）采集者退散

是在测验实施后将测验按奇、偶数分为等值的两半，并分别计算每位被试在两半测验上的得分，求出这两半分数的相关系数。

分半法经常会低估信度，必须修正，借以估计整个测验的信度。 –同质性信度（homogeneityreliability）

同质性主要代表测验内部所有题目间的一致性。当各个测题的得分有较高的正相关时，不论题目的内容和形式如何，则测验为同质的。相反，即使所有题目看起来好象测量同一特质，但相关很低或为负相关时，则测验为异质的。 –评分者信度（scorerreliability）

–随机抽取若干份测验卷，由两位评分者按评分标准分别给分，然后再根据每份测验卷的两个分数计算相关，即得评分者信度。

–一般要求在成对的受过训练的评分者之间平均一致性达0.90以上，才认为评分是客观的。

–当多个评分者评定多个对象，并以等级法记分时，可采用肯德尔和谐系数作为评分者信度的估计。

第三单元信度与测验分数的解释

一、解释真实分数与实得分数的相关

二、确定信度可以接受的水平

三、解释个人分数的意义

四、比较不同测验分数的差异

信度与测验分数的解释

解释真实分数与实得分数的相关

–信度系数可以解释为总的方差中有多少比例是由真实分数的方差决定的，也就是测验的总变异中真分数造成的变异占百分之几。

确定信度可以接受的水平

–当rxx

解释个人分数的意义

–其一是估计真实分数的范围；其二是了解实得分数再测时可能的变化情形。这就是测量标准误的应用。

比较不同测验分数的差异

–这种比较包括两个人不同分数的差别和同一被试在两个测验上的差别。这就是差异分数的标准误问题。

第四单元影响信度的因素

一、样本特征

（一）样本团体异质性的影响

（二）样本团体平均能力水平的影响

二、测验长度

（一）测验越长测题取样或内容取样越有代表性。

（二）测验越长被试的猜测因素影响就越小。

三、测验难度

难度与信度不存在简单的对应关系。如果因为难度过大或过小，造成分数范围缩小，可使信度降低。

四、时间间隔

再测法求信度，间隔时间越短信度系数越大；间隔时间越久，信度系数越低。注意:

斯皮尔曼-布朗公式为校正分半信度的经验公式，它的假设是两半测验分数的变异数相等。当假设不成立时，可用下列两种公式之一，直接求得测验的信度系数。

弗朗那根（flanagan）公式，卢伦（kulon）公式www.Ｅxamda.CoM

对于一些复杂的、异质的心理学变量，采用单一的同质性测验是不行的，因而常常采用若干相对异质的分测验，使每个分测验内容具有同质性。

第四节测验的效度

第一单元效度的概念

一、效度的定义

在心理测验中，效度是指所测量的与所要测量的心理特点之间的符合程度，

或者简单地说是指一个心理测验的准确性。

在测验理论中，效度被定义为在一组测量中，与测量目标有关的真实方差（或称有效方差）与总方差的比率。

二、效度的性质

（一）效度具有相对性

任何测验的效度都是针对一定的目标而言。

（二）效度具有连续性

只有程度上的不同，没有“全有”或“全无”的区别。

测验效度是测验结果的有效性程度。

一、内容效度

（一）什么是内容效度

指的是测验题目对有关内容或行为取样的适用性，从而确定测验是否是所欲测量的行为领域的代表性取样。

这种测验的效度主要与测验内容有关，故而得名。

（二）内容效度的评估方法

1、专家判断法

–定义好测验内容的总体范围；

–编制双向细目表，确定内容的具体细节各自所占的比例；

–由每位评判者在评定量表上作出判断。

2、统计分析法

–计算两个评分者之间评定的一致性（评分者信度）

–两个测验复本上得分之相关（复本信度）

–再测法也可用于内容效度的评估（测验-学习-再测验）

3、经验推测

–这种效度是通过实践来检验效度

（三）内容效度的特性

内容效度与所有效度一样，并非普遍适用。只有编制者与使用者定义的内容范围相同，编制者报告的内容效度对使用者才有意义。

内容效度也有时间上的特定性。

内容效度与表面效度不同。

二、构想效度

（一）什么是构想效度

是指测验能够测量到理论上的构思或特质的程度，即测验的结果是否能证实或解释某一理论的假设、术语或构思，解释的程度如何。

要回答的问题是：该测验欲测量什么心理构想？对该构想测得有多好？测验分数中有多少比例的变异数是来自测验所欲测之构想？

（二）构想效度的评估方法

1、对测验本身的分析测验的内容效度

测验的内部一致性指标

分析被试者对题目的反应特点

2、测验间的相互比较

相容效度是构思效度的一个证据

区分效度是构思效度的又一个证据来源

因素分析法也是建立构思效度的常用方法

3、效标效度的研究证明

●根据效标分成相对照的两组，比较测验成绩

●观察分析测验高分组与低分组的心理特质

4、实验法和观察法证实

三、效标效度

（一）什么是效标效度

亦称实证效度，反映的是测验预测个体在某种情境下行为表现的有效程度。分为同时效度和预测效度。

一个好的效标必须具备4个条件。

1.效标本身必须有效；

2.效标必须具有较高的信度，不随时间等因素而变化；

3.效标可以客观地加以测量，可用数据或等级来表示；

4.效标测量的方法简单，省时省力，经济实用。

（二）效标效度的评估方法

1、相关法：

相关法是评估效标效度最常用的方法，它是求测验分数与效标资料间的相关，这一相关系数称为效度系数。

2、区分法：

分析高分组与低分组分布的重叠量，或者计算每一组内得分超过（或低于）另一组平均数的人数百分比，或者计算两组分布的共同区的百分比。重叠量越大，说明两组分数差异越小，即测验的效度越差。

3、命中率法：

命中率法是当测验用来做取舍的依据时，用其正确决定的比例作为效度指标的一种方法。

第二单元效度评估的方法

第三单元效度的功能

一、预测误差

效度系数的实际意义常常以决定性系数来表示，意旨相关系数的平方，其表达式是rxy2，它表示能够正确预测或解释效标的测验分数的方差占总方差的比例。

另一种表达方法是估计的标准误，简写为sest，它是指所有具有某一测验分数的被试其效标分数（y）分布的标准差，也即真正效标分数落在某一范围内有多大可能性。

二、预测效标分数

在测验工作中，人们感兴趣的是从测验分数预测效标成绩，因此最常用的是y对x的回归方程。

三、预测效率指数

第四单元影响效度的因素

一、测验本身的因素

为了提高效度，要做到：

1.测验材料必须对整个内容具有代表性；

2.测题设计时应尽量避免容易引起误差的题型（如是非题）；

3.测题难度要适中，具有较高的区分度；

4.测验长度要恰当，即要有一定的测题量；

5.测题的排列按先易后难顺序。

二、测验实施中的干扰因素

（一）主试的影响因素

主试不符合标准化要求的任何做法

（二）被试的影响因素

兴趣、动机、情绪、态度和健康状况等。

三、样本团体的性质

（一）样本团体的异质性

异质性越高，分数分布范围大，测验效度越高。

1、如果只以选拔出来的被试为样本团体参加研究，会降低测验的效度。

2、选拔标准太高，样本团体的同质性增加，会降低测验的效度。

三、样本团体的性质

（二）干涉变量

包括年龄、性别、教育水平、智力、动机、兴趣、职业等。

美国心理学家吉塞利（e.e.ghiselli）寻找干涉变量的方法：

1、用回归方程求每个人的预测效标分数，与实际效标分数相比较；

2、根据样本团体的组成，设立对照组，分别计算效度。

3、根据显而易见的干涉变量将其分为预测性高和预测性低的两个亚团体。

三、效标的性质

包括年龄、性别、教育水平、智力、动机、兴趣、职业等。来源：考试大效标与测验分数之间是否呈线性关系是很重要的因素。皮尔逊积差相关系数的前提是假设两个变量的关系是线性的分布。

效标测量本身的可靠性如何亦是值得考虑的问题。

信度是效度的必要而非充分条件

–效度高必然信度高，而信度高并不一定保证效度高，说明信度高只是效度高的必要条件，并不是效度高的充分条件。

效度是受信度制约的

–信度系数与效度系数之间有这样一种关系：信度系数的平方根是效度系数的最高限度。用公式表示如下：

–信度系数的平方根又称信度指数，也就是说，效度系数的最高限度是信度指数。考试大收集整理

心理测量学——测验的信度学习笔记

第三节测验的信度

第一单元信度的概念

第二单元信度评估的方法

第三单元信度与测验分数的解释第四单元影响信度的因素

第一单元信度的概念

一、信度的定义

信度是指同一被试者在不同时间内用同一测验（或用另一套相等的测验）重复测量，所得结果的一致程度。

在测量理论中，信度被定义为：一组测量分数的真分数方差与总方差（实得分数的方差）的比率。

二、信度的指标

（一）信度系数与信度指数

信度指数是真分数标准差与实得分数标准差的比值。

信度指数的平方就是信度系数。

（二）测量标准误

测量误差分布的标准差，即为测量的标准误。

第二单元信度评估的方法

一、重测信度

二、复本信度

三、内部一致性信度

四、评分者信度

信度的类型与估计方法

重测信度（test-retestreliability）

–又称稳定性系数。它的计算方法是采用重测法，即使用同一测验，在同样条件下对同一组被试者前后施测两次测验，求两次得分间的相关系数。

–最适宜的时距随测验的目的、性质和被试特点而异，一般是两周到四周较宜，间隔时间最长不超过六个月。

内部一致性信度（internalconsistencyreliability）

–分半信度（split-halfreliability）采集者退散

是在测验实施后将测验按奇、偶数分为等值的两半，并分别计算每位被试在两半测验上的得分，求出这两半分数的相关系数。

分半法经常会低估信度，必须修正，借以估计整个测验的信度。 –同质性信度（homogeneityreliability）

–随机抽取若干份测验卷，由两位评分者按评分标准分别给分，然后再根据每份测验卷的两个分数计算相关，即得评分者信度。

–一般要求在成对的受过训练的评分者之间平均一致性达0.90以上，才认为评分是客观的。

–当多个评分者评定多个对象，并以等级法记分时，可采用肯德尔和谐系数作为评分者信度的估计。

第三单元信度与测验分数的解释

一、解释真实分数与实得分数的相关

二、确定信度可以接受的水平

三、解释个人分数的意义

四、比较不同测验分数的差异

信度与测验分数的解释

解释真实分数与实得分数的相关

–信度系数可以解释为总的方差中有多少比例是由真实分数的方差决定的，也就是测验的总变异中真分数造成的变异占百分之几。

确定信度可以接受的水平

–当rxx

解释个人分数的意义

–其一是估计真实分数的范围；其二是了解实得分数再测时可能的变化情形。这就是测量标准误的应用。

比较不同测验分数的差异

–这种比较包括两个人不同分数的差别和同一被试在两个测验上的差别。这就是差异分数的标准误问题。

第四单元影响信度的因素

一、样本特征

（一）样本团体异质性的影响

（二）样本团体平均能力水平的影响

二、测验长度

（一）测验越长测题取样或内容取样越有代表性。

（二）测验越长被试的猜测因素影响就越小。

三、测验难度

难度与信度不存在简单的对应关系。如果因为难度过大或过小，造成分数范围缩小，可使信度降低。

四、时间间隔

再测法求信度，间隔时间越短信度系数越大；间隔时间越久，信度系数越低。注意:

弗朗那根（flanagan）公式，卢伦（kulon）公式www.Ｅxamda.CoM

对于一些复杂的、异质的心理学变量，采用单一的同质性测验是不行的，因而常常采用若干相对异质的分测验，使每个分测验内容具有同质性。

第四节测验的效度

第一单元效度的概念

一、效度的定义

在心理测验中，效度是指所测量的与所要测量的心理特点之间的符合程度，

或者简单地说是指一个心理测验的准确性。

在测验理论中，效度被定义为在一组测量中，与测量目标有关的真实方差（或称有效方差）与总方差的比率。

二、效度的性质

（一）效度具有相对性

任何测验的效度都是针对一定的目标而言。

（二）效度具有连续性

只有程度上的不同，没有“全有”或“全无”的区别。

测验效度是测验结果的有效性程度。

一、内容效度

（一）什么是内容效度

指的是测验题目对有关内容或行为取样的适用性，从而确定测验是否是所欲测量的行为领域的代表性取样。

这种测验的效度主要与测验内容有关，故而得名。

（二）内容效度的评估方法

1、专家判断法

–定义好测验内容的总体范围；

–编制双向细目表，确定内容的具体细节各自所占的比例；

–由每位评判者在评定量表上作出判断。

2、统计分析法

–计算两个评分者之间评定的一致性（评分者信度）

–两个测验复本上得分之相关（复本信度）

–再测法也可用于内容效度的评估（测验-学习-再测验）

3、经验推测

–这种效度是通过实践来检验效度

（三）内容效度的特性

内容效度与所有效度一样，并非普遍适用。只有编制者与使用者定义的内容范围相同，编制者报告的内容效度对使用者才有意义。

内容效度也有时间上的特定性。

内容效度与表面效度不同。

二、构想效度

（一）什么是构想效度

是指测验能够测量到理论上的构思或特质的程度，即测验的结果是否能证实或解释某一理论的假设、术语或构思，解释的程度如何。

要回答的问题是：该测验欲测量什么心理构想？对该构想测得有多好？测验分数中有多少比例的变异数是来自测验所欲测之构想？

（二）构想效度的评估方法

1、对测验本身的分析测验的内容效度

测验的内部一致性指标

分析被试者对题目的反应特点

2、测验间的相互比较

相容效度是构思效度的一个证据

区分效度是构思效度的又一个证据来源

因素分析法也是建立构思效度的常用方法

3、效标效度的研究证明

●根据效标分成相对照的两组，比较测验成绩

●观察分析测验高分组与低分组的心理特质

4、实验法和观察法证实

三、效标效度

（一）什么是效标效度

亦称实证效度，反映的是测验预测个体在某种情境下行为表现的有效程度。分为同时效度和预测效度。

一个好的效标必须具备4个条件。

1.效标本身必须有效；

2.效标必须具有较高的信度，不随时间等因素而变化；

3.效标可以客观地加以测量，可用数据或等级来表示；

4.效标测量的方法简单，省时省力，经济实用。

（二）效标效度的评估方法

1、相关法：

相关法是评估效标效度最常用的方法，它是求测验分数与效标资料间的相关，这一相关系数称为效度系数。

2、区分法：

3、命中率法：

命中率法是当测验用来做取舍的依据时，用其正确决定的比例作为效度指标的一种方法。

第二单元效度评估的方法

第三单元效度的功能

一、预测误差

二、预测效标分数

在测验工作中，人们感兴趣的是从测验分数预测效标成绩，因此最常用的是y对x的回归方程。

三、预测效率指数

第四单元影响效度的因素

一、测验本身的因素

为了提高效度，要做到：

1.测验材料必须对整个内容具有代表性；

2.测题设计时应尽量避免容易引起误差的题型（如是非题）；

3.测题难度要适中，具有较高的区分度；

4.测验长度要恰当，即要有一定的测题量；

5.测题的排列按先易后难顺序。

二、测验实施中的干扰因素

（一）主试的影响因素

主试不符合标准化要求的任何做法

（二）被试的影响因素

兴趣、动机、情绪、态度和健康状况等。

三、样本团体的性质

（一）样本团体的异质性

异质性越高，分数分布范围大，测验效度越高。

1、如果只以选拔出来的被试为样本团体参加研究，会降低测验的效度。

2、选拔标准太高，样本团体的同质性增加，会降低测验的效度。

三、样本团体的性质

（二）干涉变量

包括年龄、性别、教育水平、智力、动机、兴趣、职业等。

美国心理学家吉塞利（e.e.ghiselli）寻找干涉变量的方法：

1、用回归方程求每个人的预测效标分数，与实际效标分数相比较；

2、根据样本团体的组成，设立对照组，分别计算效度。

3、根据显而易见的干涉变量将其分为预测性高和预测性低的两个亚团体。

三、效标的性质

效标测量本身的可靠性如何亦是值得考虑的问题。

信度是效度的必要而非充分条件

–效度高必然信度高，而信度高并不一定保证效度高，说明信度高只是效度高的必要条件，并不是效度高的充分条件。

效度是受信度制约的

–信度系数与效度系数之间有这样一种关系：信度系数的平方根是效度系数的最高限度。用公式表示如下：

–信度系数的平方根又称信度指数，也就是说，效度系数的最高限度是信度指数。考试大收集整理

相关文章