文章编号:1000 677X(2007) 02 0090
04体育科学
2007年(第27卷) 第2期CH INA S PORT SCIENCE
Vol. 27, No. 2, 90 93, 2007.
测量可靠性及其估价方法分析
Analysis on the Reliability of Measurement and Evalu ation Method
郑 凯
ZH ENG Kai
摘 要:测量的可靠性是评价测量质量的重要指标。一般认为测量的可靠性代表测量结果的准确性, 这显然是一种误解, 尤其是目前应用较多的几种可靠性估价方法似乎无法对可靠性作出正确的估价。为此, 对于可靠性及其估价方法应重新加以审视和评析, 以期重新认识并有所改善。通过分析和示例结果, 可以得出如下结论:测量的可靠性不能完全表达测量结果的准确度; 在可靠性定义中一致性不能由相关或相似性替代; 在进行差异分析时, 应注意重复测量结果的关联属性, 并推荐使用非参数检验方法; 可靠性分析不能替代误差分析与处理等其他方法。
关键词:测量; 可靠性; 信度
Abstract:T he reliability of measur ement is an impor tant factor to evaluate the quality of meas ur ement. T he under standing on r eliability g enera lly fo cus o n the accur acy o f measur ement. It is obviously a misunderstanding , especially for some assessment methods used w idely now ada ys that can t make cor rect assess to the reliability of measurement. T her efore , this paper analy zed the tr aditional method o f assessment and its reliability in or der to re recog nize it. Accor ding to the analy sis and the samples, some co nclusions are draw n as the follo wing :the reliability can t completely express the accuracy o f the measurement; the consistency to the definition of relia bilit y can t be replaced by relat ivity o r similarit y ; w hen making the analysis o f var iance, the relevance of repeated measur ing results sho uld be taken in, and the non pa rameter test is rec ommended; the reliability analysis can t replace the er ror analy sis and er ror co nduct other else methods.
Key words:meas ur ement; r eliabil ity ; r el iability
中图分类号:G80 32 文献标识码:A
1 前言
在科学研究过程中, 人们通过各种测量手段取得可以描述研究对象各种属性特征的数据资料, 并加以分析论证, 从而得出研究结论。在这一过程中, 数据是研究客观事物的性质、运动规律及事物间相互联系的基本素材, 是进行科学研究的基础。要获得科学的研究结果, 必须依靠客观真实的数据。但误差公理告诉我们: 误差存在于一切加工和测量中。! [1]换句话说, 一切测量结果中必然包含误差。因此, 对测量质量的评估以及对测量误差的发现和控制, 就成为科学研究工作中的一项重要任务。测量的可靠性就是评价测量质量的重要指标。
所谓测量的可靠性, 是指在相同测量条件下, 对同一批受试者使用相同的测量手段, 重复测量结果的一致性程度! [2, 3]。对于可靠性的理解, 一般认为, 测量的可靠性代表着测量结果的准确性。这显然是一种误解。测量的可靠性和测量的准确性是两个不同的概念, 在大多数情况下, 测量的可靠性并不代表测量结果的准确性。其一, 可靠性的引入是人们在无法测得真值, 即无法确知测量误差的情况下, 试图依靠多次重复测量, 对结果进行确认的一
种无奈之举; 其二, 测量的可靠性是以测量方法的正确性和测量工具的精确性为前提的; 其三, 对测量可靠性的估价, 是与所使用的方法∀∀∀信度计算方法相关联的。
在对于可靠性的诸多误解中, 信度估价方法存在问题最多, 影响也较大。目前, 应用较多的几种信度估价方法似乎无法对可靠性作出正确的评估, 这将对分析结论的可信性产生严重的影响。为此, 本文对于可靠性及信度估价方法重新加以审视和评析, 以期重新认识并有所改善, 更希望以此引起更多人们的关注和更深入的研究探讨。2 对测量可靠性及信度估价方法的分析
对于可靠性的概念以及可靠性理论的局限, 诸多学者
收稿日期:2006 11 10; 修订日期:2007 01 10
作者简介:郑凯(1958 ) , 男, 辽宁沈阳人, 教授, 硕士研究生导
师, 毕业于吉林大学数学系, 主要从事体育统计理论
与应用、体育测量与评价理论和应用研究, Tel:(024)
86930788, E mail:zk0193@163. com 。
作者单位:沈阳体育学院计算机教研室, 辽宁沈阳110032
Computer Research Office, Shenyang Institute of Physical Education , Shenyang 110032, China.
郑 凯:测量可靠性及其估价方法分析
进行了深入的探讨[6 11]。但是, 对于可靠性究竟在什么条件下, 能够从多大程度上表达测量结果的精度, 很少提出明确的意见, 这就使人们很难对可靠性有一个明晰的理解。
2. 1 测量误差
随机误差:在实际测量中, 由于偶然因素引起的同一对象多次测量结果不完全一致, 没有固定倾向、大小, 不可避免的误差称为随机误差。随机误差有如下统计特征:对称性、有界性、单峰性、抵偿性。
系统误差:在测量过程中, 由于场地、器材、方法和标准造成的测量结果呈倾向性的偏大或偏小, 由此产生的误差称为系统误差。
粗大误差(过失误差) :在测量过程中, 由于过失或突然的强干扰所造成的误差, 称为粗大误差。如记录时的 笔误! 、报结果时的 口误! 等, 这种误差会对测量结果产生严重的扭曲[4, 5]。
在测量学中用测量精度描述测量误差的大小, 在不考虑粗大误差的情况下, 精度通常包含以下3个概念:
正确度:表示系统误差的大小程度; 精密度:表示随机误差的大小程度; 准确度:表示测量值与真值的接近程度。
因此, 通常所说的精度是指测量结果的准确度, 它代表着随机误差和系统误差综合值的大小2. 2 对一致性的理解
在可靠性定义中 一致! 是最重要的关键词。它所表达的是在测量对象、测量条件、测量方法均具有最高一致性(相同) 的前提下, 测量结果的一致性。因此, 要更好地理解和把握可靠性概念, 就必须真正理解 一致! 的含义。
一致! 一词在#辞海∃中的解释是:趋于相同。说明一致并不代表完全相同, 只是趋于相同, 但可以理解为相同度越高, 一致性越强。
在对于测量可靠性的规定中, 相同的测量对象是应该尽量保证的, 但有时也难于做到。绝对相同的测量条件和测量方法却是不一定需要满足的。我们可以要求每次测量采用尽可能标准的条件和正确的方法, 如果发现在测量过程中条件或方法存在问题, 就应该加以纠正和补救。例如, 每次测量前对测量工具进行检查, 发现存在系统误差的就应立即更换, 再进行测量。这样, 如果前次测量中没有发现工具问题, 本次测量发现问题, 就可以通过两次测量结果的不一致中得到反映。
在分析测量结果时, 一致性表示相同程度, 重复测量结果相同程度越高, 一致性也越高。但必须注意到:相似性不能代表一致性, 相关性也不能代表一致性。因此, 对于测量可靠性的估价必须能够反映重复测量结果的相同程度。
更进一步, 重复测量结果的一致性不能代表测量结果的准确度。如果多次测量中都存在着同样的系统误差, 测量结果可以高度一致, 但结果显然是不准确的。因此, 在
[1]
一般情况下测量可靠性可以反映随机误差的影响水平; 在多次重复测量中至少保证其中一次测量的工具、方法、程序、环境等完全是标准、正确的条件下, 测量可靠性才有可能代表测量结果的准确度。
2. 3 可靠性估价∀∀∀几种主要的信度计算方法
用来衡量测量结果可靠程度大小的指标, 称为可靠性系数, 又称信度。关于测量信度的估价, 人们提出了很多方法, 尤其是近年来方差分析、因子分析等方法, 得到了较多的应用。此外, 如多水平线性模型方法、项目反应理论、概化理论等开始得到应用[12 21]。但由于上述方法或者需要较多的重复测量次数, 或者方法本身比较复杂, 应用较困难。因此, 在实际应用中主要的还是以下几种方法。
再测验法:对同一受试者在不同时间实施两次测量, 然后计算两次测量结果的相关系数, 其相关系数就是可靠性系数。两次测量结果的相关程度越高, 测量结果就越可靠。
复本法:是指对受试者实施两次等价测验, 其结果的相关程度, 称为复本信度或等值信度。
分半法:是指将正常的一次测验分成等值的两半(如奇数题和偶数题) , 分别计算每位受试者在两半测验的得分, 然后求出两半测验成绩的相关系数, 作为半个测验的信度估计, 最后再利用斯皮尔曼∀布朗公式计算出整个测验的信度估计。
系数法:是由克伦巴赫提出的, 用以估计主观性测验的信度, 其公式为:
=
K
1-
。
S
S t
2
i
其中: ∀克伦巴赫 系数, K ∀项目数, S 2i ∀每一项目成绩的方差, S 2t ∀测验成绩的方差。2. 4 信度估价方法评析
虽然在测量学理论中, 可靠性的确是以误差估价为目的, 但上述几种信度却在大多数情况下无法对测量误差作出估价。
例如:按照定义, 测量信度:
2
r =1-2x
22
其中, x 为实测值的方差, e 为误差的方差, 虽然多数
情况下误差方差是不可知的, 但如果假定一个测量中不存在过失误差和随机误差(当然这也是不可能的) , 却存在一
2个常值的系统误差, 此时, e =0, r =1, 测量结果的可靠性
极高。
再如, 对一组对象的身高进行重复测量, 第一次使用标准皮尺, 第二次使用了一个未加标定的皮尺, 每米多测2cm, 两组测量结果如表1。
重复测试结果的相关系数r =1, 可靠性极好。如果在上例中增加一个粗大误差, 例如, 将第一号对象的初测结果改为124. 5, 其复测值仍为147. 4, 此时r =0. 92, 可靠性好。在此例中虽然粗大误差使相关系数由1
体育科学2007年(第27卷) 第2期
减小到0. 92, 但随着样本含量n 的增加, 个别粗大误差对于相关系数的影响作用会逐渐减小。
表1 一组含有系统误差的重复测试结果一览表
1
初测复测
144. 5147. 4
2149. 1152. 1
3159. 3162. 5
4152. 3155. 3
5162. 2165. 4
6160. 6163. 8
7159. 2162. 4
8157. 4160. 5
9176. 8180. 3
10170. 5173. 9
11143. 5146. 4
系统误差是影响测量结果的最重要的误差, 而其中的常值误差和常比误差, 又是系统误差中发生频率最高的。通过以上两个极端的例子可以说明, 目前常用的以相关系数为主的信度值, 不能体现测量结果中所可能包含的系统误差, 甚至个别粗大误差。只能在某种程度上对测量过程中产生的随机误差进行估价。因此, 如果对测量结果没有进行误差分析, 信度并不能说明测量结果的准确度。
回应前面进行的讨论, 相关性不能代表一致性。因此, 单纯依靠相关系数进行可靠性估价是不全面、不真实的。
系数不同于相关系数, 但由其计算式可知, 如果测量结果中存在常值系统误差, 项目方差与总方差均不变, 系数不变; 如果测量结果中存在常比系统误差, 项目方差与总方差均按一定比例变化, 系数亦不变。因此, 同样不能发现误差的存在。
通过以上分析可以发现, 目前常用的主要信度方法都不能对测量结果的可靠性作出真实的估价。3 对可靠性估价方法的补充
既然相关性无法对测量结果的可靠性作出真实的估价, 可以考虑对测量结果的不一致性进行评估, 而要评估
测量结果的不一致性, 首先想到的是对重复测量结果的差异进行检验分析。对于3次及以上的重复测量结果, 可以使用方差分析方法; 对于两次测量结果, 则可以使用参数或非参数检验方法。3. 1 参数检验方法
仍以表1数据为例, 在应用中常见对重复测试结果作独立样本的均数检验, 对于此例:t =0. 72, P =0. 48, 差异不显著。
实际上两次重复测量应属于相关样本, 因此, 上述独立样本的检验方法是不恰当的, 其结果也不能真实反映两组结果的差异情况。
作成对样本均数检验, 检验结果:t =51. 28, P =0, 差异具有非常显著意义, 说明两组结果是不一致的。
显然, 第二种检验方法更恰当, 检验结果也更合理。3. 2 非参数检验
由于参数检验更注重量的变化, 而非参数检验可以比较多地反映质的变化。因此, 在对重复测量结果进行差异分析时, 可以考虑采用一些非参数检验的方法。
例如, 对表1数据采用关联样本的符号检验方法。如果初测值大于复测值记为 +! , 初测值小于复测值记为 -! (表2) , 如果两次测量结果相等, 删除该例数据。
表2 符号与秩和检验计算一览表
1
初测复测符号
144. 5147. 4-2149. 1152. 1-3159. 3162. 5-4152. 3155. 3-5162. 2165. 4-6160. 6163. 8-7159. 2162. 4-8157. 4160. 5-9176. 8180. 3-10170. 5173. 9-11143. 5146. 4-
在本例中, +! 出现次数为0, P (k &0|11, 0. 5) =0. 0005, 说明两次测量结果具有显著差异。
还可以采用相关样本的符号秩和检验方法。由于在本例中所有差值均为负, 因此T +=0, T -=66, P
应该说明, 由于上面所讨论的示例数据是人为构造出来的, 只包含单一的常比系统误差, 而排除了其他可能存在的误差和必然存在的随机误差。因此, 分析结果显现异常绝对化和极端化。在实际应用中情况会复杂多变, 各种误差交织作用难于分辨, 此时采用非参数方法可能效果会更好一些。
只有在保证采用标准条件和正确方法的前提下, 可靠性才可以部分代表准确度。
2 在可靠性定义中一致性不能由相关或相似性替代, 因此, 目前常用的以相关系数为主的信度, 无法对测量结果的可靠性作出真实估价, 而应补充以对重复测量结果的差异分析。
3 在进行差异分析时, 应注意重复测量结果的关联属性, 并推荐使用非参数检验方法。
4 可靠性分析只是对测量结果质量估价诸多方法中的一部分, 不能替代误差分析与处理等其他方法, 在对数据进行分析之前应先检查并剔除过失误差, 检查并修正系统误差, 之后利用可靠性分析随机误差的影响。否则, 高
4 小结
1 测量的可靠性不能完全反映测量结果的准确度。
信度并不代表测量结果具有较好的准确度。
郑 凯:测量可靠性及其估价方法分析
参考文献:
[1]王正明. 测量数据建模与参数估计[M ]. 长沙:国防科技大学出
版社, 1996.
[2]#体育测量与评价∃教材编写组. 体育测量与评价[M ]. 北京:人
民体育出版社, 1999.
[3]赵秋蓉. 体育测量与评价[M ]. 西安:陕西人民出版社, 1992. [4]张小蒂. 应用统计学导论[M ]. 杭州:浙江大学出版社, 1998. [5]郑凯, 张路. 体育应用统计基础[M ]. 沈阳:沈阳出版社, 2004. [6]仇建生. 关于体育测量学科发展的研究[J ]. 四川体育科学,
2004, 24(6) :76 77, 95.
[7]杨静. 三种教育与心理测量理论的比较研究[J]. 中国考试,
2006, (6) :33 35.
[8]纪凌开. 经典测验理论的局限性评析[J]. 湖北大学成人教育学
院学报, 2005, 23(4) :64 66.
[9]魏登云. 体育测量的可靠性概念及有关问题的讨论[J ].西安体
育学院学报, 1999, 16(1) :35 37.
[10]李世明, 范万杰, 董兆云, 等. 体育科研中的统计学概念辨析
[J ]. 南京体育学院学报(自然科学版) , 2004, 3(4) :7 9. [11]刘桔. 概化理论研究及应用前景[J]. 心理科学, 2003, 26(3) :
433 437.
[12]陈炳为, 许碧云, 倪宗瓒, 等. 证实性因子分析在量表信度中的
应用研究[J ]. 中国卫生统计, 2005, 22(4) :261 263.
[13]曹阳, 陈洁, 曹建文, 等. 世界健康调查项目中国预调查重测信
度分析[J ]. 中国公共卫生, 2006, 22(3) :282 284.
[14]周艺彪, 赵根明. 测量的可靠性及其估计方法[J ]. 中华流行病
学杂志, 2003, 24(12) :1146 1149.
[15]杨继星, 赵先卿, 李剑. 体育测量信度估价研究的现状与问题分
析[J ]. 首都体育学院学报, 2005, 17(2) :117 120.
[16]魏登云, 夏冬. 体育测量客观性可靠性和有效性的对比分析
[J]. 北京体育大学学报, 2002, 25(4) :499 501.
[17]魏登云. 体育测量可靠性检验的基本思想与方法[J]. 体育科
学, 2001, 21(3) :85 88.
[18]任弘, 章潮晖, 王利群, 等. 运用方差分析法估价测量可靠性的
探讨[J ]. 北京体育大学学报, 2004, 27(3) :359 360.
[19]顾海根, 李超. 同质信度多种指标的比较研究[J ]. 心理科学,
2005, 28(5) :1196 1198.
[20]孔丹莉. 多水平线性模型在问卷信度评价中的应用[J]. 广东医
学院学报, 2006, 24(1) :79 80.
[21]竺培梁. 测验信度大盘点[J ]. 外国中小学教育, 2005, (6) :18
25.
(上接第41页)
[11]M IN J H , YANG H , IVAN M , et al . Structu re of an HIF
1alph a pVH L com plex:h ydroxyproline recognition in s igna ling[J]. Sci, 2002, 296(5574) :1886 1889.
[12]HU ANG L E, ARANY Z, LIVINGS TON D M , e t al . Activa
tion of hypoxia inducib le tran scription factor depends prim arily upon redox sensitive stab ilization of its alp ha subu nit[J]. J Biol Chem , 1996, 271(50) :32253 32259.
[13]FIRTH J D, EBERT B L, PUGH C W , e t al . Ox yg en regulated
control elements in the phosph oglycerate kinase 1and lactate dehydrogenas e A genes :s imilarities w ith the erythropoietin 3' enhancer[J]. Proc Natl Acad Sci U S A, 1994, 91(14) :6496 6500.
[14]S EM ENZA G L, WANG G L. A nu clear factor indu ced by hy
poxia via de novo protein synthesis b inds to the hu man eryth ro
poietin gene enhancer at a site requ ired for tran scriptional acti vation [J]. M ol Cell Biol, 1992, 12(12) :5447 5454.
[15]VOGT M , PU NTS CHART A, GE IS ER J , et al . M olecular ad
aptations in hum an skeletal mus cle to endurance training under simulated hypoxic condition s[J]. J Appl Phys iol, 2001, 91(1) :173 182.
[16]LICH TENS TEIN M , KEINI G, CEDAR H , et al . B cell specific
dem ethylation:a novel role for the intronic kappa chain en han cer s equen ce[J]. Cell, 1994, 76(5) :913 923.
[17]M AGIN T M , M CEW AN C, M ILNE M , e t al . A position an d
orientation dependent element in the first in tron is required for expression of the m ouse hp rt gen e in emb ryon ic stem cells [J]. Gene, 1992, 122(2) :289 296.
(上接第53页)
[67]COST A D, GUT HRIE S. Women and s port:interdisciplinary
perspectives[M ]. Cham paign , IL:H uman Kinetics, 1994.
[68]DU NNING E. Cultur e, civiliz ation and the s ociology of s port
[J]. Innovation , 1992, 5(4) :7 18.
[69]DUNNING E, M URPHY P, WILLIAM S J. T he roots of foot
ball h ooliganis m:an history and sociological s tu dy [M ]. Lon don:Routledge, 1988.
[70]DUNNING E, SH EARD K. Barbarian s, gentlemen and players :
a sociological study of the development of rugby footb all[M ]. Oxford:M artin Robertson, 1979.
[71]M AGU IRE J. Glob aliz ation, s port development and the media
sport pr odu ction com plex [J]. Sport Sci Rev, 1993, (2) :29 47. [72]埃利亚斯, 邓宁. 大平章译. 体育运动与文明化:激昂的探求
[M ]. 东京:日本法政大学出版局, 1995.
文章编号:1000 677X(2007) 02 0090
04体育科学
2007年(第27卷) 第2期CH INA S PORT SCIENCE
Vol. 27, No. 2, 90 93, 2007.
测量可靠性及其估价方法分析
Analysis on the Reliability of Measurement and Evalu ation Method
郑 凯
ZH ENG Kai
摘 要:测量的可靠性是评价测量质量的重要指标。一般认为测量的可靠性代表测量结果的准确性, 这显然是一种误解, 尤其是目前应用较多的几种可靠性估价方法似乎无法对可靠性作出正确的估价。为此, 对于可靠性及其估价方法应重新加以审视和评析, 以期重新认识并有所改善。通过分析和示例结果, 可以得出如下结论:测量的可靠性不能完全表达测量结果的准确度; 在可靠性定义中一致性不能由相关或相似性替代; 在进行差异分析时, 应注意重复测量结果的关联属性, 并推荐使用非参数检验方法; 可靠性分析不能替代误差分析与处理等其他方法。
关键词:测量; 可靠性; 信度
Abstract:T he reliability of measur ement is an impor tant factor to evaluate the quality of meas ur ement. T he under standing on r eliability g enera lly fo cus o n the accur acy o f measur ement. It is obviously a misunderstanding , especially for some assessment methods used w idely now ada ys that can t make cor rect assess to the reliability of measurement. T her efore , this paper analy zed the tr aditional method o f assessment and its reliability in or der to re recog nize it. Accor ding to the analy sis and the samples, some co nclusions are draw n as the follo wing :the reliability can t completely express the accuracy o f the measurement; the consistency to the definition of relia bilit y can t be replaced by relat ivity o r similarit y ; w hen making the analysis o f var iance, the relevance of repeated measur ing results sho uld be taken in, and the non pa rameter test is rec ommended; the reliability analysis can t replace the er ror analy sis and er ror co nduct other else methods.
Key words:meas ur ement; r eliabil ity ; r el iability
中图分类号:G80 32 文献标识码:A
1 前言
在科学研究过程中, 人们通过各种测量手段取得可以描述研究对象各种属性特征的数据资料, 并加以分析论证, 从而得出研究结论。在这一过程中, 数据是研究客观事物的性质、运动规律及事物间相互联系的基本素材, 是进行科学研究的基础。要获得科学的研究结果, 必须依靠客观真实的数据。但误差公理告诉我们: 误差存在于一切加工和测量中。! [1]换句话说, 一切测量结果中必然包含误差。因此, 对测量质量的评估以及对测量误差的发现和控制, 就成为科学研究工作中的一项重要任务。测量的可靠性就是评价测量质量的重要指标。
所谓测量的可靠性, 是指在相同测量条件下, 对同一批受试者使用相同的测量手段, 重复测量结果的一致性程度! [2, 3]。对于可靠性的理解, 一般认为, 测量的可靠性代表着测量结果的准确性。这显然是一种误解。测量的可靠性和测量的准确性是两个不同的概念, 在大多数情况下, 测量的可靠性并不代表测量结果的准确性。其一, 可靠性的引入是人们在无法测得真值, 即无法确知测量误差的情况下, 试图依靠多次重复测量, 对结果进行确认的一
种无奈之举; 其二, 测量的可靠性是以测量方法的正确性和测量工具的精确性为前提的; 其三, 对测量可靠性的估价, 是与所使用的方法∀∀∀信度计算方法相关联的。
在对于可靠性的诸多误解中, 信度估价方法存在问题最多, 影响也较大。目前, 应用较多的几种信度估价方法似乎无法对可靠性作出正确的评估, 这将对分析结论的可信性产生严重的影响。为此, 本文对于可靠性及信度估价方法重新加以审视和评析, 以期重新认识并有所改善, 更希望以此引起更多人们的关注和更深入的研究探讨。2 对测量可靠性及信度估价方法的分析
对于可靠性的概念以及可靠性理论的局限, 诸多学者
收稿日期:2006 11 10; 修订日期:2007 01 10
作者简介:郑凯(1958 ) , 男, 辽宁沈阳人, 教授, 硕士研究生导
师, 毕业于吉林大学数学系, 主要从事体育统计理论
与应用、体育测量与评价理论和应用研究, Tel:(024)
86930788, E mail:zk0193@163. com 。
作者单位:沈阳体育学院计算机教研室, 辽宁沈阳110032
Computer Research Office, Shenyang Institute of Physical Education , Shenyang 110032, China.
郑 凯:测量可靠性及其估价方法分析
进行了深入的探讨[6 11]。但是, 对于可靠性究竟在什么条件下, 能够从多大程度上表达测量结果的精度, 很少提出明确的意见, 这就使人们很难对可靠性有一个明晰的理解。
2. 1 测量误差
随机误差:在实际测量中, 由于偶然因素引起的同一对象多次测量结果不完全一致, 没有固定倾向、大小, 不可避免的误差称为随机误差。随机误差有如下统计特征:对称性、有界性、单峰性、抵偿性。
系统误差:在测量过程中, 由于场地、器材、方法和标准造成的测量结果呈倾向性的偏大或偏小, 由此产生的误差称为系统误差。
粗大误差(过失误差) :在测量过程中, 由于过失或突然的强干扰所造成的误差, 称为粗大误差。如记录时的 笔误! 、报结果时的 口误! 等, 这种误差会对测量结果产生严重的扭曲[4, 5]。
在测量学中用测量精度描述测量误差的大小, 在不考虑粗大误差的情况下, 精度通常包含以下3个概念:
正确度:表示系统误差的大小程度; 精密度:表示随机误差的大小程度; 准确度:表示测量值与真值的接近程度。
因此, 通常所说的精度是指测量结果的准确度, 它代表着随机误差和系统误差综合值的大小2. 2 对一致性的理解
在可靠性定义中 一致! 是最重要的关键词。它所表达的是在测量对象、测量条件、测量方法均具有最高一致性(相同) 的前提下, 测量结果的一致性。因此, 要更好地理解和把握可靠性概念, 就必须真正理解 一致! 的含义。
一致! 一词在#辞海∃中的解释是:趋于相同。说明一致并不代表完全相同, 只是趋于相同, 但可以理解为相同度越高, 一致性越强。
在对于测量可靠性的规定中, 相同的测量对象是应该尽量保证的, 但有时也难于做到。绝对相同的测量条件和测量方法却是不一定需要满足的。我们可以要求每次测量采用尽可能标准的条件和正确的方法, 如果发现在测量过程中条件或方法存在问题, 就应该加以纠正和补救。例如, 每次测量前对测量工具进行检查, 发现存在系统误差的就应立即更换, 再进行测量。这样, 如果前次测量中没有发现工具问题, 本次测量发现问题, 就可以通过两次测量结果的不一致中得到反映。
在分析测量结果时, 一致性表示相同程度, 重复测量结果相同程度越高, 一致性也越高。但必须注意到:相似性不能代表一致性, 相关性也不能代表一致性。因此, 对于测量可靠性的估价必须能够反映重复测量结果的相同程度。
更进一步, 重复测量结果的一致性不能代表测量结果的准确度。如果多次测量中都存在着同样的系统误差, 测量结果可以高度一致, 但结果显然是不准确的。因此, 在
[1]
一般情况下测量可靠性可以反映随机误差的影响水平; 在多次重复测量中至少保证其中一次测量的工具、方法、程序、环境等完全是标准、正确的条件下, 测量可靠性才有可能代表测量结果的准确度。
2. 3 可靠性估价∀∀∀几种主要的信度计算方法
用来衡量测量结果可靠程度大小的指标, 称为可靠性系数, 又称信度。关于测量信度的估价, 人们提出了很多方法, 尤其是近年来方差分析、因子分析等方法, 得到了较多的应用。此外, 如多水平线性模型方法、项目反应理论、概化理论等开始得到应用[12 21]。但由于上述方法或者需要较多的重复测量次数, 或者方法本身比较复杂, 应用较困难。因此, 在实际应用中主要的还是以下几种方法。
再测验法:对同一受试者在不同时间实施两次测量, 然后计算两次测量结果的相关系数, 其相关系数就是可靠性系数。两次测量结果的相关程度越高, 测量结果就越可靠。
复本法:是指对受试者实施两次等价测验, 其结果的相关程度, 称为复本信度或等值信度。
分半法:是指将正常的一次测验分成等值的两半(如奇数题和偶数题) , 分别计算每位受试者在两半测验的得分, 然后求出两半测验成绩的相关系数, 作为半个测验的信度估计, 最后再利用斯皮尔曼∀布朗公式计算出整个测验的信度估计。
系数法:是由克伦巴赫提出的, 用以估计主观性测验的信度, 其公式为:
=
K
1-
。
S
S t
2
i
其中: ∀克伦巴赫 系数, K ∀项目数, S 2i ∀每一项目成绩的方差, S 2t ∀测验成绩的方差。2. 4 信度估价方法评析
虽然在测量学理论中, 可靠性的确是以误差估价为目的, 但上述几种信度却在大多数情况下无法对测量误差作出估价。
例如:按照定义, 测量信度:
2
r =1-2x
22
其中, x 为实测值的方差, e 为误差的方差, 虽然多数
情况下误差方差是不可知的, 但如果假定一个测量中不存在过失误差和随机误差(当然这也是不可能的) , 却存在一
2个常值的系统误差, 此时, e =0, r =1, 测量结果的可靠性
极高。
再如, 对一组对象的身高进行重复测量, 第一次使用标准皮尺, 第二次使用了一个未加标定的皮尺, 每米多测2cm, 两组测量结果如表1。
重复测试结果的相关系数r =1, 可靠性极好。如果在上例中增加一个粗大误差, 例如, 将第一号对象的初测结果改为124. 5, 其复测值仍为147. 4, 此时r =0. 92, 可靠性好。在此例中虽然粗大误差使相关系数由1
体育科学2007年(第27卷) 第2期
减小到0. 92, 但随着样本含量n 的增加, 个别粗大误差对于相关系数的影响作用会逐渐减小。
表1 一组含有系统误差的重复测试结果一览表
1
初测复测
144. 5147. 4
2149. 1152. 1
3159. 3162. 5
4152. 3155. 3
5162. 2165. 4
6160. 6163. 8
7159. 2162. 4
8157. 4160. 5
9176. 8180. 3
10170. 5173. 9
11143. 5146. 4
系统误差是影响测量结果的最重要的误差, 而其中的常值误差和常比误差, 又是系统误差中发生频率最高的。通过以上两个极端的例子可以说明, 目前常用的以相关系数为主的信度值, 不能体现测量结果中所可能包含的系统误差, 甚至个别粗大误差。只能在某种程度上对测量过程中产生的随机误差进行估价。因此, 如果对测量结果没有进行误差分析, 信度并不能说明测量结果的准确度。
回应前面进行的讨论, 相关性不能代表一致性。因此, 单纯依靠相关系数进行可靠性估价是不全面、不真实的。
系数不同于相关系数, 但由其计算式可知, 如果测量结果中存在常值系统误差, 项目方差与总方差均不变, 系数不变; 如果测量结果中存在常比系统误差, 项目方差与总方差均按一定比例变化, 系数亦不变。因此, 同样不能发现误差的存在。
通过以上分析可以发现, 目前常用的主要信度方法都不能对测量结果的可靠性作出真实的估价。3 对可靠性估价方法的补充
既然相关性无法对测量结果的可靠性作出真实的估价, 可以考虑对测量结果的不一致性进行评估, 而要评估
测量结果的不一致性, 首先想到的是对重复测量结果的差异进行检验分析。对于3次及以上的重复测量结果, 可以使用方差分析方法; 对于两次测量结果, 则可以使用参数或非参数检验方法。3. 1 参数检验方法
仍以表1数据为例, 在应用中常见对重复测试结果作独立样本的均数检验, 对于此例:t =0. 72, P =0. 48, 差异不显著。
实际上两次重复测量应属于相关样本, 因此, 上述独立样本的检验方法是不恰当的, 其结果也不能真实反映两组结果的差异情况。
作成对样本均数检验, 检验结果:t =51. 28, P =0, 差异具有非常显著意义, 说明两组结果是不一致的。
显然, 第二种检验方法更恰当, 检验结果也更合理。3. 2 非参数检验
由于参数检验更注重量的变化, 而非参数检验可以比较多地反映质的变化。因此, 在对重复测量结果进行差异分析时, 可以考虑采用一些非参数检验的方法。
例如, 对表1数据采用关联样本的符号检验方法。如果初测值大于复测值记为 +! , 初测值小于复测值记为 -! (表2) , 如果两次测量结果相等, 删除该例数据。
表2 符号与秩和检验计算一览表
1
初测复测符号
144. 5147. 4-2149. 1152. 1-3159. 3162. 5-4152. 3155. 3-5162. 2165. 4-6160. 6163. 8-7159. 2162. 4-8157. 4160. 5-9176. 8180. 3-10170. 5173. 9-11143. 5146. 4-
在本例中, +! 出现次数为0, P (k &0|11, 0. 5) =0. 0005, 说明两次测量结果具有显著差异。
还可以采用相关样本的符号秩和检验方法。由于在本例中所有差值均为负, 因此T +=0, T -=66, P
应该说明, 由于上面所讨论的示例数据是人为构造出来的, 只包含单一的常比系统误差, 而排除了其他可能存在的误差和必然存在的随机误差。因此, 分析结果显现异常绝对化和极端化。在实际应用中情况会复杂多变, 各种误差交织作用难于分辨, 此时采用非参数方法可能效果会更好一些。
只有在保证采用标准条件和正确方法的前提下, 可靠性才可以部分代表准确度。
2 在可靠性定义中一致性不能由相关或相似性替代, 因此, 目前常用的以相关系数为主的信度, 无法对测量结果的可靠性作出真实估价, 而应补充以对重复测量结果的差异分析。
3 在进行差异分析时, 应注意重复测量结果的关联属性, 并推荐使用非参数检验方法。
4 可靠性分析只是对测量结果质量估价诸多方法中的一部分, 不能替代误差分析与处理等其他方法, 在对数据进行分析之前应先检查并剔除过失误差, 检查并修正系统误差, 之后利用可靠性分析随机误差的影响。否则, 高
4 小结
1 测量的可靠性不能完全反映测量结果的准确度。
信度并不代表测量结果具有较好的准确度。
郑 凯:测量可靠性及其估价方法分析
参考文献:
[1]王正明. 测量数据建模与参数估计[M ]. 长沙:国防科技大学出
版社, 1996.
[2]#体育测量与评价∃教材编写组. 体育测量与评价[M ]. 北京:人
民体育出版社, 1999.
[3]赵秋蓉. 体育测量与评价[M ]. 西安:陕西人民出版社, 1992. [4]张小蒂. 应用统计学导论[M ]. 杭州:浙江大学出版社, 1998. [5]郑凯, 张路. 体育应用统计基础[M ]. 沈阳:沈阳出版社, 2004. [6]仇建生. 关于体育测量学科发展的研究[J ]. 四川体育科学,
2004, 24(6) :76 77, 95.
[7]杨静. 三种教育与心理测量理论的比较研究[J]. 中国考试,
2006, (6) :33 35.
[8]纪凌开. 经典测验理论的局限性评析[J]. 湖北大学成人教育学
院学报, 2005, 23(4) :64 66.
[9]魏登云. 体育测量的可靠性概念及有关问题的讨论[J ].西安体
育学院学报, 1999, 16(1) :35 37.
[10]李世明, 范万杰, 董兆云, 等. 体育科研中的统计学概念辨析
[J ]. 南京体育学院学报(自然科学版) , 2004, 3(4) :7 9. [11]刘桔. 概化理论研究及应用前景[J]. 心理科学, 2003, 26(3) :
433 437.
[12]陈炳为, 许碧云, 倪宗瓒, 等. 证实性因子分析在量表信度中的
应用研究[J ]. 中国卫生统计, 2005, 22(4) :261 263.
[13]曹阳, 陈洁, 曹建文, 等. 世界健康调查项目中国预调查重测信
度分析[J ]. 中国公共卫生, 2006, 22(3) :282 284.
[14]周艺彪, 赵根明. 测量的可靠性及其估计方法[J ]. 中华流行病
学杂志, 2003, 24(12) :1146 1149.
[15]杨继星, 赵先卿, 李剑. 体育测量信度估价研究的现状与问题分
析[J ]. 首都体育学院学报, 2005, 17(2) :117 120.
[16]魏登云, 夏冬. 体育测量客观性可靠性和有效性的对比分析
[J]. 北京体育大学学报, 2002, 25(4) :499 501.
[17]魏登云. 体育测量可靠性检验的基本思想与方法[J]. 体育科
学, 2001, 21(3) :85 88.
[18]任弘, 章潮晖, 王利群, 等. 运用方差分析法估价测量可靠性的
探讨[J ]. 北京体育大学学报, 2004, 27(3) :359 360.
[19]顾海根, 李超. 同质信度多种指标的比较研究[J ]. 心理科学,
2005, 28(5) :1196 1198.
[20]孔丹莉. 多水平线性模型在问卷信度评价中的应用[J]. 广东医
学院学报, 2006, 24(1) :79 80.
[21]竺培梁. 测验信度大盘点[J ]. 外国中小学教育, 2005, (6) :18
25.
(上接第41页)
[11]M IN J H , YANG H , IVAN M , et al . Structu re of an HIF
1alph a pVH L com plex:h ydroxyproline recognition in s igna ling[J]. Sci, 2002, 296(5574) :1886 1889.
[12]HU ANG L E, ARANY Z, LIVINGS TON D M , e t al . Activa
tion of hypoxia inducib le tran scription factor depends prim arily upon redox sensitive stab ilization of its alp ha subu nit[J]. J Biol Chem , 1996, 271(50) :32253 32259.
[13]FIRTH J D, EBERT B L, PUGH C W , e t al . Ox yg en regulated
control elements in the phosph oglycerate kinase 1and lactate dehydrogenas e A genes :s imilarities w ith the erythropoietin 3' enhancer[J]. Proc Natl Acad Sci U S A, 1994, 91(14) :6496 6500.
[14]S EM ENZA G L, WANG G L. A nu clear factor indu ced by hy
poxia via de novo protein synthesis b inds to the hu man eryth ro
poietin gene enhancer at a site requ ired for tran scriptional acti vation [J]. M ol Cell Biol, 1992, 12(12) :5447 5454.
[15]VOGT M , PU NTS CHART A, GE IS ER J , et al . M olecular ad
aptations in hum an skeletal mus cle to endurance training under simulated hypoxic condition s[J]. J Appl Phys iol, 2001, 91(1) :173 182.
[16]LICH TENS TEIN M , KEINI G, CEDAR H , et al . B cell specific
dem ethylation:a novel role for the intronic kappa chain en han cer s equen ce[J]. Cell, 1994, 76(5) :913 923.
[17]M AGIN T M , M CEW AN C, M ILNE M , e t al . A position an d
orientation dependent element in the first in tron is required for expression of the m ouse hp rt gen e in emb ryon ic stem cells [J]. Gene, 1992, 122(2) :289 296.
(上接第53页)
[67]COST A D, GUT HRIE S. Women and s port:interdisciplinary
perspectives[M ]. Cham paign , IL:H uman Kinetics, 1994.
[68]DU NNING E. Cultur e, civiliz ation and the s ociology of s port
[J]. Innovation , 1992, 5(4) :7 18.
[69]DUNNING E, M URPHY P, WILLIAM S J. T he roots of foot
ball h ooliganis m:an history and sociological s tu dy [M ]. Lon don:Routledge, 1988.
[70]DUNNING E, SH EARD K. Barbarian s, gentlemen and players :
a sociological study of the development of rugby footb all[M ]. Oxford:M artin Robertson, 1979.
[71]M AGU IRE J. Glob aliz ation, s port development and the media
sport pr odu ction com plex [J]. Sport Sci Rev, 1993, (2) :29 47. [72]埃利亚斯, 邓宁. 大平章译. 体育运动与文明化:激昂的探求
[M ]. 东京:日本法政大学出版局, 1995.