第一次作业
一、请举例说明什么是称名、顺序、等距、等比数据及它们之间的区别。 答:根据数据所反映的变量的性质,可把数据分为称名变量数据、顺序变量数据、等距变量数据和比率变量数据。
称名变量。称名变量只说明某一事物与其他事物在名称、类别或属性上的不
同,并不说明事物与事物之间差异的大小、顺序的先后。例如,人的性别分成男与女;人对衣服颜色的倾向性选择有红色、黄色、蓝色、白色、黑色等;人的气质可分为多血质型、胆汁质型、粘液质型和抑郁质型;而人的血型则可分为A型、B型、O型等。 在资料管理与科学研究中,常需要采用一定的规则对称名变量的观察结果进行人为的赋值与编码,从而得到称名变量数据。如前述的性别数据,用数字符号“1”表示男性,用数字符号“0”表示女性(当然也可以用其他数字符号表示);以及用6位数字组成全国各地的邮政编码等,皆是称名变量数据。这些数据仅是类别符号而已,没有在量方面的实质性意义,一般不能对这类数据进行加、减、乘、除运算,但通常可对每一类别计算次数或个数等。
顺序变量。 顺序变量是指可以就事物的某一属性的多少或大小按次序将各
事物加以排列的变量,具有等级性和次序性的特点。例如,对学生的阅读能力可划分为好、中、差三个等级;态度等级可划分为“赞成、倾向赞成、中立、倾向反对、反对”这 5个等级;对体育运动会中各个项目上的表现可以用名次“第1名、第2名、第3 名……”来表示;还有,心理测验结果常用“拾点量表”或“玖点量表”来表示测验得分高低等级顺序;学校常采用“五级记分制”来评定学生的学习成绩等,皆是顺序变量的具体表现。不难看出,顺序变量的观测结果有些是直接用序数等级来表示事物属性的多少与大小,另外有些观测结果则是用有序的类别来区分事物属性的差异。在实际应用和研究中,常用有序的整数或自然数来表示顺序变量的各种观测结果,从而得到顺序变量数据。例如,可用“5,4,3,2,1”来表示对某个问题所持赞成还是反对态
度之间的5个不同等级;可用“3,2,1”或“5,3,1”等数字序列来表示阅读能力的“好、中、差”三个等级。值得指出的是,顺序变量数据之间虽有次序与等级关系,但这种数据之间不具有相等的单位,也不具有绝对的数量大小和零点。因此,只能进行顺序递推运算。如,“因为A优于B,B优于C,所以A优于C”的运算结果充其量只是反映位次顺序的关系而已。
等距变量。等距变量除能表明量的相对大小外,还具有相等的单位。事实上,
日常生活或生产中使用的温度计算所测出的气温量值就是等距变量数据。例如测气温量值,星期一为20℃,星期二22℃,星期三24℃。则我们可以知道星期三气温高于星期二,星期二气温又高于星期一;而且我们还可以从实质性的角度说明相邻两天气温之差是相等的。等距变量观测数据的单位是相等的,但零点却是相对的。如气温0℃,并不表示没有冷热,而是特定的相对的冰点温度,若在华氏温度计或其他类型的温度计测定下,这里的0℃就不再是零。在教育测量中,人们有时用标准分数来反映人的能力相对高低,这种情形下所得到的测量结果也是一种等距变量数据。由于这类数据的零点是相对的,因此,对这类数据一般不能用乘、除法运算来反映两个数据(两个个体在某种能力属性)之间的倍比关系。比如,不能说20℃的气温是10℃气温时的“两倍”那么热。
比率变量。比率变量除了具有量的大小、相等单位外,还有绝对零点。例如,
学生身高、体重的测量数据等,皆可以看成是比率变量数据。比率变量数据可以进行加、减、乘、除运算,允许人们用乘、除法处理数据,以便对不同个体的测量结果进行比较,并作比率性(即倍比关系)描述。例如,一位学生在20岁时身高180厘米,而他3岁时身高是90厘米,我们可以说, 20岁时的身高是他3岁时身高的两倍。反过来可以说,他3岁时的身高已是20岁时身高的一半(1/2倍)。
二、如何编制次数分布表(请写出主要步骤)?
答:统计学中的次数分布表有简单次数分布表、相对次数分布表、累积次数分布表以及累积相对次数分布表等多种形式。 1) 简单次数分布表。
简单次数分布表,通常简称为次数分布表,其实质是反映一批数据在各等距区组内的次数分布结构。
①求全距
所谓全距乃是一批数据中最大值与最小值之间的差距。观察全部数据,找出其中的最大值(Xmax)和最小值(Xmin),以符号R表示全距,则全距的计算公式为:
R= Xmax-Xmin (1-1) 故,全距在有的书中也称为两极差。 ②定组数
定组数就是要确定把整批数据划分为多少个等距的区组。组数用符号K表示,它的大小要看数据的多少而定。一般来说,当一批数据的个数在200个以内时,组数可取8~18组。如果数据来自一个正态的总体,则可利用下述经验公式来确定组数,即:
5
K =1 .87 ( (1-2) N -1 )2/
上述公式中的N为数据个数。 ③定组距i =R/K
在知道全距R和组数K之后,就可以来确定分组的组距。用符号i 表示,其一般原则是取奇数或5的倍数,如1,3,5,7,9,10等。具体的取值办法,可通过全距R与组数K的比值来取整确定。
④写出组限
组限是每个组的起止点界限,有表述组限和实际组限之区别。在教育与心理统计学文献中,组限的表述方法主要有两种。两种组限表述方法意义不尽相同。
第一种方法以连续的形态表述组限,每一组实际组限是“左闭右开”的区间范围。如“10~15”和“15~20”这两组,其实际组限是指[10,15)和[15,20)的区间范围。
第二种方法以跳跃的形态表述组限,在相邻组别中形成“缺口”,例如,“10~14”和“15~19”这两组在相邻处不连续,从14跳跃到15时留下的“1”个单位缺口。对于这种表述组限,其实际组限分别是指[9.5,14.5]和[14.5,19.5]的区间范围 。
⑤求组中值
组中值是各组的组中点在量尺上的数值,其计算公式为:
组中值=(组实上限+组实下限)÷2 (1-3) 不同的组距以及不同的组限,必然会产生不同的组中值。如果希望每组的组中值恰好为整数便于后继运算,那么,组距选择为奇数是最好的。
⑥归类划记
完成上述各个步骤后,我们就可以设计一个表的格式来记录上述有关结果并对数据进行 归类划记。
⑦登记次数
根据划记结果,点计各组的次数,记入次数栏。
当我们把组别、组中值和次数值拼在一起时,就构成简单次数分布表。 2) 相对次数分布表
相对次数就是各组的次数与总次数N之间的比值,若以表示 相对次数,则相对次数的计算公式为:
R f f /N (1-3) 把组别、组中值和次数值拼在一起时,就构成次数分布表。
相对次数分布表与简单次数发布表各有不同的用途,它们既可单独使用,又可联合使用。当我们主要对各组的绝对次数感兴趣时,则可编制简单次数分布表。
相对次数分布表主要能反映各组数据的百分比结构,当我们侧重关心各组次数的相对比例结构时,通常要编制相对次数分布表。 3) 累计次数分布表
假如我们希望通过一个统计表,就能较方便地了解到处于某个数值以下的数据个数有多少时,就可编制一个累积次数分布表。
把组别、组中值和累积次数值拼在一起时,就构成累积次数分布表。
4) 累积相对次数分布表和累积百分数分布表
前面介绍的累积次数分布是对简单次数进行累积的结果。与此相对应的是,还可对相对次数进行累积。
累积相对次数分布和累积百分数分布在心理与教育测量研究中有广泛而又重要的应用。
值得一提的是,累积相对次数分布和累积百分数分布均有“以下”分布和“以上”分布两种,在应用时,应根据具体情况决定选用其中的一种。 三、举例说明实际组限与表述组限的区别
答:组限是每个组的起止点界限,有表述组限和实际组限之区别。在教育与心理统计学文献中,组限的表述方法主要有两种, 如表1-3所示。两种组限表述方法意义不尽相同。
第一种方法以连续的形态表述组限,每一组实际组限是“左闭右开”的区间范围。如“10~15”和“15~20”这两组,其实际组限是指[10,15)和[15,20)的区间范围。
第二种方法以跳跃的形态表述组限,在相邻组别中形成“缺口”,例如,“10~14”和“15~19”这两组在相邻处不连续,从14跳跃到15时留下的“1”个单位缺口。对于这种表述组限,其实际组限分别是指[9.5,14.5﹚和[14.5,19.5﹚的区间范围 。
表1-3 组限的表述方法及实际区间范围
四、某次高考模拟试卷高一的5名学生做所用时间分别为170、120、110、160、130分钟;高三的5名学生做所用时间分别为50、70、90、55、45分钟;问高一和高三哪一组离散程度大? 解法1:
高一用时平均值:x1=(170+120+110+160+130)÷5=138 高三用时平均值:x2=(50+70+90+55+45)÷5=62 高一用时离差平方和:
∑1 =(170-138)2+(120-138)2+(110-138) 2+(160-138) 2+(130-138)2 = 1024+324+784+484+64=2680 高三用时离差平方和:
∑2 =(50-62)2+(70-62)2+(90-62) 2+(55-62) 2+(45-62)2 =144+64+784+49+289=1330
高一用时标准差:S1=Sqrt(2680÷5) =23.15167 高三用时标准差:S2=Sqrt(1330÷5)=16.30950
两者对比,高三标准差比高一用时标准差差距较小所以高一用时离散程度较大。 解法2:
X=
σ=
∑Xi
n
n
∑X-X
n-1
2
X1:170.120.110.160.130,n=5 X2:50.70.90.55.45,n=5
将两组数据带入,得σ1=21.6;σ2=14.4 高一组离散度大
第二次作业
1、某次选拔考试有100人参加,若笔试成绩呈正态分布且平均分为65,标准差为10。
⑴若只能有10人进入面试,问面试分数线定为多少合适?答:77.8 ⑵此次考试及格的人有多少?答:69
⑶如果面试分数线定为75分,有多少人可参加面试?答:15
说明:由下式将原分布X化为标准正态分布,按要求查询标准正态分布表 X-μ
σ~N(0,1)
2、某次考试中选择题与总考试成绩如下表,求该选择题的区分度。答:0.373 (教
解法1:令X为选择题得分的分布,Y为总成绩的分布,将Xi,Yi(i:1.2......10)代入下式,解得相关系数为:0.373
rxy=
∑(X
i=1
N
i
-)(Yi-)
2
∑(X
i=1
N
i
-)
∑(Y-)
i
i=1
N
2
解法2:
求答对选择题的比率p和答错的比率q: p=6÷10=0.6 q=1-p=0.4
求X1和X2,分别为答对和答错选择题学生成绩的平均数: X1=(75+57+73+65+63+67) ÷6=66.67 X2=(67+56+61+65)÷4=62.25 求σx,所有考生的总分的标准差:
平均分X=(75+57+73+65+63+67+67+56+61+65)÷10=64.9
σx2=[(75-X)2+(57-X)2+(73-X)2+(65-X)2+(67-X)2+(56-X)
2+(63-X)2+(61-X)2+(65-X)2+(67-X)2] ÷10=33.69 σx=5.8
求点二列相关系数r:
r=Sqrt(0.6×0.4)×【(66.67-62.25)÷5.8】=0.37 解得相关系数0.373。
第三次作业 100分
一、假设检验基本原理与步骤 统计假设检验的基本原理
简单地说,统计假设检验就是从概论与数理统计学的角度出发,以样本观测数据为事实,对所建立的有关假设的真伪进行统计思想检验和决策。
概括起来说,统计假设检验就是一种带有概率值保证的反证法。反证法是大家熟悉的一种逻辑推理证明方法。有些命题从正面进行推论难以证明,但证明它的否命题却往往事半功倍,这就是反证法的思想方法。这样做的理由是从逻辑上说,否命题不成立,则其原命题就自然成立。反证法在数学证明中应用比较多。比如说,原来的目的是要证明线段α大于线段b,但证明者不直接证明α>b,而是找出它的否命题α≤b,假设其成立,然后进行推论,推论至最后得出一个荒谬的结果,或者得到一个与已知条件不符的结果,假设整个推论的各个步骤都是严密正确的,那么谬误的产生就只有源自于作为推论条件的假设,从而证明了假设是错误的。所以反证法的逻辑就是:证明了作为否命题的假设的错误,那么原命题就自然正确了。
统计假设检验从逻辑过程看也是一种反证法。统计检验人员常常希望证明备择假设是正确的,但他却不直接证明备择假设的正确性,而是从与备择假设对立的虚无假设出发,以虚无假设为条件,采集样本数据,确定抽样分布,计算检验统计量,考察检验计量取值的概率,如果最终发现这是一个小概率事件,那就要根据小概率事件原理推翻原虚无假设。当然,研究者必须保证在整个过程中除所作虚无假设之外的一切工作都是严密、科学的。虚无假设与备择假设是一对互否命题,也就是我们前面所说的他们是非此即彼的,推翻了虚无假设,备择假设就自然成立了。 这就是统计假设检验应用反证法的 “反证”过程。 所谓带有概率值保证是指上 述的用反证的方法作的统计假设检验,最终推翻虚无假设也即由于所求检验统计量的取值为一小概率事件,而根据小概率事件原理推翻虚无假设。我们知道,根据小概率事件原理作决策判断是一种科学的正确的决策思想方法,但并不保证每次的决策都是正确。换句话说,这一推翻虚无假设的决策也是可能犯错误的,只是犯错误的概率比较小而决策正确的概率比较大,而且这个决策正确的概率是由我们控制,是可以计算的。这就是统计假设检验“带有概率值保证”的含义。 统计假设检验的步骤可以归纳如下: 根据题目的设问提出检验假设。 选定显著性水平α。
写出检验统计量计算公式并按已知数据条件计算检验统计量值。
根据显著性水平α在Z分布或t分布中确定临界值和危机域,危机域通常在概率分布的两个尾部,是小概率事件所在地。
将求得的检验统计量值与临界值作比较,根据其是否进入危机域而作出是否拒绝虚无假设的统计结论。
二、随机抽取男、女学生各一组参加一种测验,已知测验成绩服从正态分布且总体方差相等。测验数据为:男生13名,平均分85,标准差11分;女生15名,平均分82,标准差9分。请问男、女学生在该测验上得分有无显著差异?
解:H0:u男=u女 H1:u男≠u女
然后令T=(X-Y)/Sqrt[S12÷n1+S22÷n2],
于是T服从df=(S12÷n1+S22÷n2)2/[(S12÷n1) 2÷n1+(S22÷n2)2÷n2]的t分布
代入数据得到T=0.782,
df=14851460/590999∈(25,26),这里做双边检验,查表得到t_0.025(df)>t_0.025(26)=2.056>T
所以无法拒绝H0,可以认为没有显著差异。
第一次作业
一、请举例说明什么是称名、顺序、等距、等比数据及它们之间的区别。 答:根据数据所反映的变量的性质,可把数据分为称名变量数据、顺序变量数据、等距变量数据和比率变量数据。
称名变量。称名变量只说明某一事物与其他事物在名称、类别或属性上的不
同,并不说明事物与事物之间差异的大小、顺序的先后。例如,人的性别分成男与女;人对衣服颜色的倾向性选择有红色、黄色、蓝色、白色、黑色等;人的气质可分为多血质型、胆汁质型、粘液质型和抑郁质型;而人的血型则可分为A型、B型、O型等。 在资料管理与科学研究中,常需要采用一定的规则对称名变量的观察结果进行人为的赋值与编码,从而得到称名变量数据。如前述的性别数据,用数字符号“1”表示男性,用数字符号“0”表示女性(当然也可以用其他数字符号表示);以及用6位数字组成全国各地的邮政编码等,皆是称名变量数据。这些数据仅是类别符号而已,没有在量方面的实质性意义,一般不能对这类数据进行加、减、乘、除运算,但通常可对每一类别计算次数或个数等。
顺序变量。 顺序变量是指可以就事物的某一属性的多少或大小按次序将各
事物加以排列的变量,具有等级性和次序性的特点。例如,对学生的阅读能力可划分为好、中、差三个等级;态度等级可划分为“赞成、倾向赞成、中立、倾向反对、反对”这 5个等级;对体育运动会中各个项目上的表现可以用名次“第1名、第2名、第3 名……”来表示;还有,心理测验结果常用“拾点量表”或“玖点量表”来表示测验得分高低等级顺序;学校常采用“五级记分制”来评定学生的学习成绩等,皆是顺序变量的具体表现。不难看出,顺序变量的观测结果有些是直接用序数等级来表示事物属性的多少与大小,另外有些观测结果则是用有序的类别来区分事物属性的差异。在实际应用和研究中,常用有序的整数或自然数来表示顺序变量的各种观测结果,从而得到顺序变量数据。例如,可用“5,4,3,2,1”来表示对某个问题所持赞成还是反对态
度之间的5个不同等级;可用“3,2,1”或“5,3,1”等数字序列来表示阅读能力的“好、中、差”三个等级。值得指出的是,顺序变量数据之间虽有次序与等级关系,但这种数据之间不具有相等的单位,也不具有绝对的数量大小和零点。因此,只能进行顺序递推运算。如,“因为A优于B,B优于C,所以A优于C”的运算结果充其量只是反映位次顺序的关系而已。
等距变量。等距变量除能表明量的相对大小外,还具有相等的单位。事实上,
日常生活或生产中使用的温度计算所测出的气温量值就是等距变量数据。例如测气温量值,星期一为20℃,星期二22℃,星期三24℃。则我们可以知道星期三气温高于星期二,星期二气温又高于星期一;而且我们还可以从实质性的角度说明相邻两天气温之差是相等的。等距变量观测数据的单位是相等的,但零点却是相对的。如气温0℃,并不表示没有冷热,而是特定的相对的冰点温度,若在华氏温度计或其他类型的温度计测定下,这里的0℃就不再是零。在教育测量中,人们有时用标准分数来反映人的能力相对高低,这种情形下所得到的测量结果也是一种等距变量数据。由于这类数据的零点是相对的,因此,对这类数据一般不能用乘、除法运算来反映两个数据(两个个体在某种能力属性)之间的倍比关系。比如,不能说20℃的气温是10℃气温时的“两倍”那么热。
比率变量。比率变量除了具有量的大小、相等单位外,还有绝对零点。例如,
学生身高、体重的测量数据等,皆可以看成是比率变量数据。比率变量数据可以进行加、减、乘、除运算,允许人们用乘、除法处理数据,以便对不同个体的测量结果进行比较,并作比率性(即倍比关系)描述。例如,一位学生在20岁时身高180厘米,而他3岁时身高是90厘米,我们可以说, 20岁时的身高是他3岁时身高的两倍。反过来可以说,他3岁时的身高已是20岁时身高的一半(1/2倍)。
二、如何编制次数分布表(请写出主要步骤)?
答:统计学中的次数分布表有简单次数分布表、相对次数分布表、累积次数分布表以及累积相对次数分布表等多种形式。 1) 简单次数分布表。
简单次数分布表,通常简称为次数分布表,其实质是反映一批数据在各等距区组内的次数分布结构。
①求全距
所谓全距乃是一批数据中最大值与最小值之间的差距。观察全部数据,找出其中的最大值(Xmax)和最小值(Xmin),以符号R表示全距,则全距的计算公式为:
R= Xmax-Xmin (1-1) 故,全距在有的书中也称为两极差。 ②定组数
定组数就是要确定把整批数据划分为多少个等距的区组。组数用符号K表示,它的大小要看数据的多少而定。一般来说,当一批数据的个数在200个以内时,组数可取8~18组。如果数据来自一个正态的总体,则可利用下述经验公式来确定组数,即:
5
K =1 .87 ( (1-2) N -1 )2/
上述公式中的N为数据个数。 ③定组距i =R/K
在知道全距R和组数K之后,就可以来确定分组的组距。用符号i 表示,其一般原则是取奇数或5的倍数,如1,3,5,7,9,10等。具体的取值办法,可通过全距R与组数K的比值来取整确定。
④写出组限
组限是每个组的起止点界限,有表述组限和实际组限之区别。在教育与心理统计学文献中,组限的表述方法主要有两种。两种组限表述方法意义不尽相同。
第一种方法以连续的形态表述组限,每一组实际组限是“左闭右开”的区间范围。如“10~15”和“15~20”这两组,其实际组限是指[10,15)和[15,20)的区间范围。
第二种方法以跳跃的形态表述组限,在相邻组别中形成“缺口”,例如,“10~14”和“15~19”这两组在相邻处不连续,从14跳跃到15时留下的“1”个单位缺口。对于这种表述组限,其实际组限分别是指[9.5,14.5]和[14.5,19.5]的区间范围 。
⑤求组中值
组中值是各组的组中点在量尺上的数值,其计算公式为:
组中值=(组实上限+组实下限)÷2 (1-3) 不同的组距以及不同的组限,必然会产生不同的组中值。如果希望每组的组中值恰好为整数便于后继运算,那么,组距选择为奇数是最好的。
⑥归类划记
完成上述各个步骤后,我们就可以设计一个表的格式来记录上述有关结果并对数据进行 归类划记。
⑦登记次数
根据划记结果,点计各组的次数,记入次数栏。
当我们把组别、组中值和次数值拼在一起时,就构成简单次数分布表。 2) 相对次数分布表
相对次数就是各组的次数与总次数N之间的比值,若以表示 相对次数,则相对次数的计算公式为:
R f f /N (1-3) 把组别、组中值和次数值拼在一起时,就构成次数分布表。
相对次数分布表与简单次数发布表各有不同的用途,它们既可单独使用,又可联合使用。当我们主要对各组的绝对次数感兴趣时,则可编制简单次数分布表。
相对次数分布表主要能反映各组数据的百分比结构,当我们侧重关心各组次数的相对比例结构时,通常要编制相对次数分布表。 3) 累计次数分布表
假如我们希望通过一个统计表,就能较方便地了解到处于某个数值以下的数据个数有多少时,就可编制一个累积次数分布表。
把组别、组中值和累积次数值拼在一起时,就构成累积次数分布表。
4) 累积相对次数分布表和累积百分数分布表
前面介绍的累积次数分布是对简单次数进行累积的结果。与此相对应的是,还可对相对次数进行累积。
累积相对次数分布和累积百分数分布在心理与教育测量研究中有广泛而又重要的应用。
值得一提的是,累积相对次数分布和累积百分数分布均有“以下”分布和“以上”分布两种,在应用时,应根据具体情况决定选用其中的一种。 三、举例说明实际组限与表述组限的区别
答:组限是每个组的起止点界限,有表述组限和实际组限之区别。在教育与心理统计学文献中,组限的表述方法主要有两种, 如表1-3所示。两种组限表述方法意义不尽相同。
第一种方法以连续的形态表述组限,每一组实际组限是“左闭右开”的区间范围。如“10~15”和“15~20”这两组,其实际组限是指[10,15)和[15,20)的区间范围。
第二种方法以跳跃的形态表述组限,在相邻组别中形成“缺口”,例如,“10~14”和“15~19”这两组在相邻处不连续,从14跳跃到15时留下的“1”个单位缺口。对于这种表述组限,其实际组限分别是指[9.5,14.5﹚和[14.5,19.5﹚的区间范围 。
表1-3 组限的表述方法及实际区间范围
四、某次高考模拟试卷高一的5名学生做所用时间分别为170、120、110、160、130分钟;高三的5名学生做所用时间分别为50、70、90、55、45分钟;问高一和高三哪一组离散程度大? 解法1:
高一用时平均值:x1=(170+120+110+160+130)÷5=138 高三用时平均值:x2=(50+70+90+55+45)÷5=62 高一用时离差平方和:
∑1 =(170-138)2+(120-138)2+(110-138) 2+(160-138) 2+(130-138)2 = 1024+324+784+484+64=2680 高三用时离差平方和:
∑2 =(50-62)2+(70-62)2+(90-62) 2+(55-62) 2+(45-62)2 =144+64+784+49+289=1330
高一用时标准差:S1=Sqrt(2680÷5) =23.15167 高三用时标准差:S2=Sqrt(1330÷5)=16.30950
两者对比,高三标准差比高一用时标准差差距较小所以高一用时离散程度较大。 解法2:
X=
σ=
∑Xi
n
n
∑X-X
n-1
2
X1:170.120.110.160.130,n=5 X2:50.70.90.55.45,n=5
将两组数据带入,得σ1=21.6;σ2=14.4 高一组离散度大
第二次作业
1、某次选拔考试有100人参加,若笔试成绩呈正态分布且平均分为65,标准差为10。
⑴若只能有10人进入面试,问面试分数线定为多少合适?答:77.8 ⑵此次考试及格的人有多少?答:69
⑶如果面试分数线定为75分,有多少人可参加面试?答:15
说明:由下式将原分布X化为标准正态分布,按要求查询标准正态分布表 X-μ
σ~N(0,1)
2、某次考试中选择题与总考试成绩如下表,求该选择题的区分度。答:0.373 (教
解法1:令X为选择题得分的分布,Y为总成绩的分布,将Xi,Yi(i:1.2......10)代入下式,解得相关系数为:0.373
rxy=
∑(X
i=1
N
i
-)(Yi-)
2
∑(X
i=1
N
i
-)
∑(Y-)
i
i=1
N
2
解法2:
求答对选择题的比率p和答错的比率q: p=6÷10=0.6 q=1-p=0.4
求X1和X2,分别为答对和答错选择题学生成绩的平均数: X1=(75+57+73+65+63+67) ÷6=66.67 X2=(67+56+61+65)÷4=62.25 求σx,所有考生的总分的标准差:
平均分X=(75+57+73+65+63+67+67+56+61+65)÷10=64.9
σx2=[(75-X)2+(57-X)2+(73-X)2+(65-X)2+(67-X)2+(56-X)
2+(63-X)2+(61-X)2+(65-X)2+(67-X)2] ÷10=33.69 σx=5.8
求点二列相关系数r:
r=Sqrt(0.6×0.4)×【(66.67-62.25)÷5.8】=0.37 解得相关系数0.373。
第三次作业 100分
一、假设检验基本原理与步骤 统计假设检验的基本原理
简单地说,统计假设检验就是从概论与数理统计学的角度出发,以样本观测数据为事实,对所建立的有关假设的真伪进行统计思想检验和决策。
概括起来说,统计假设检验就是一种带有概率值保证的反证法。反证法是大家熟悉的一种逻辑推理证明方法。有些命题从正面进行推论难以证明,但证明它的否命题却往往事半功倍,这就是反证法的思想方法。这样做的理由是从逻辑上说,否命题不成立,则其原命题就自然成立。反证法在数学证明中应用比较多。比如说,原来的目的是要证明线段α大于线段b,但证明者不直接证明α>b,而是找出它的否命题α≤b,假设其成立,然后进行推论,推论至最后得出一个荒谬的结果,或者得到一个与已知条件不符的结果,假设整个推论的各个步骤都是严密正确的,那么谬误的产生就只有源自于作为推论条件的假设,从而证明了假设是错误的。所以反证法的逻辑就是:证明了作为否命题的假设的错误,那么原命题就自然正确了。
统计假设检验从逻辑过程看也是一种反证法。统计检验人员常常希望证明备择假设是正确的,但他却不直接证明备择假设的正确性,而是从与备择假设对立的虚无假设出发,以虚无假设为条件,采集样本数据,确定抽样分布,计算检验统计量,考察检验计量取值的概率,如果最终发现这是一个小概率事件,那就要根据小概率事件原理推翻原虚无假设。当然,研究者必须保证在整个过程中除所作虚无假设之外的一切工作都是严密、科学的。虚无假设与备择假设是一对互否命题,也就是我们前面所说的他们是非此即彼的,推翻了虚无假设,备择假设就自然成立了。 这就是统计假设检验应用反证法的 “反证”过程。 所谓带有概率值保证是指上 述的用反证的方法作的统计假设检验,最终推翻虚无假设也即由于所求检验统计量的取值为一小概率事件,而根据小概率事件原理推翻虚无假设。我们知道,根据小概率事件原理作决策判断是一种科学的正确的决策思想方法,但并不保证每次的决策都是正确。换句话说,这一推翻虚无假设的决策也是可能犯错误的,只是犯错误的概率比较小而决策正确的概率比较大,而且这个决策正确的概率是由我们控制,是可以计算的。这就是统计假设检验“带有概率值保证”的含义。 统计假设检验的步骤可以归纳如下: 根据题目的设问提出检验假设。 选定显著性水平α。
写出检验统计量计算公式并按已知数据条件计算检验统计量值。
根据显著性水平α在Z分布或t分布中确定临界值和危机域,危机域通常在概率分布的两个尾部,是小概率事件所在地。
将求得的检验统计量值与临界值作比较,根据其是否进入危机域而作出是否拒绝虚无假设的统计结论。
二、随机抽取男、女学生各一组参加一种测验,已知测验成绩服从正态分布且总体方差相等。测验数据为:男生13名,平均分85,标准差11分;女生15名,平均分82,标准差9分。请问男、女学生在该测验上得分有无显著差异?
解:H0:u男=u女 H1:u男≠u女
然后令T=(X-Y)/Sqrt[S12÷n1+S22÷n2],
于是T服从df=(S12÷n1+S22÷n2)2/[(S12÷n1) 2÷n1+(S22÷n2)2÷n2]的t分布
代入数据得到T=0.782,
df=14851460/590999∈(25,26),这里做双边检验,查表得到t_0.025(df)>t_0.025(26)=2.056>T
所以无法拒绝H0,可以认为没有显著差异。