学生成绩分析问题

学生成绩分析问题

摘要

本文根据题目的要求,在合理的假设之下,建立了卡方检验、单因素方差分 析和 Pearson 相关性分析三个数学模型, 分别针对课程和专业两个不同的角度对 两个专业的学生成绩进行了差异显著性分析,解决了高等数学与线性代数、概率 论和数理统计得分是否有相关的问题,并根据所作出的分析,提出对于大学数学 课程学习方面的看法。

问题(1),通过对每门课程学生成绩数据的分析,建立卡方检验模型对两 个专业学生的分数进行差异显著性分析, 得到对于高数下册两个专业学生分数的 差别具有显著性, 对于线性代数两者的差别具有高度显著性,而对于高数上册和 概率论课程学生的分数不具有显著性差异。

问题(2),处理和整合数据,将学生三门功课成绩的均值作为该学生数学 水平的量化值,将专业作为影响因子建立单因素方差分析模型,运用 SPSS 软件 随机抽取 50 个同学的三个科目的平均成绩作为每个变量的样本值,进行单因素 方差分析得出两个专业的学生在数学水平上没有明显差异。

问题(3)、(4),将高数、线性代数、概率与数理统计三门课程的成绩看 做三个总体,建立 Pearson 相关系数模型并运用 SPSS 软件求解得出,高数、线 性代数、 概率与数理统计这三门课程之间的成绩互相显著性相关。根据问题三得 到的结论, 提出对于大学数学课程的学习应平等重视各门课程和学会融会贯通等 建议。 关键词 卡方检验 单因素方差分析 SPSS Pearson 相关系数 二、问题重述 请根据表 1、表 2(见附录)中某高校 A 专业和 B 专业的高等数学上册、高 等数学下册、 线性代数、 概率论与数理统计三门公共数学课程的期末考试成绩数 据,试着分析并回答以下几个问题: 问题一:针对每门课程分析,两个专业的学生的分数是否有明显差异? 问题二:针对专业分析,两个专业的学生的数学水平有无明显差异?

问题三:通过数据分析说明:高等数学成绩的优劣是否会影响线性代数、概 率论与数理统计的得分情况? 问题四:根据所作出的以上分析,阐述对于大学数学课程学习方面的看法。 三、符号说明

f R C :第 R 组第 C 个水平的样本频数 (R p R C :第 R 组第 C 个水平样本的百分比 = 1, 2, L ; C = 1, 2, L )

G R :第 R 组各个水平样本的频数之和 N C :各组第 C 水平样本的频数之和 n ¢ :卡方分布的自由度

A1 , A2 , L , Ar :单因素 A 所取得 r 个不同水平 x i g :第 i 组数据的组平均值 x : 全体数据的总平均值

S T :考察全体数据对 x 的偏差平方和 S A :各组均值对总方差的偏差平方和 S E :各组内的数据对均值偏差平方和

四、模型假设

1、假设样本可以看作是来自正态或近似正态总体。 2、假设样本中成绩能充分体现同学们的数学水平。 3、假设学生和学生之间的成绩是相互独立的。

4、假设所有的课程都同样重要,即课程的权重一样。 五、问题分析 5.1 问题一:

问题一要求针对每门课程分析两个专业学生的分数是否具有明显差异, 即要 分别对每门课程在 A、B 两个不同专业内学生的成绩进行差异显著性分析,而卡 方检验模型就是比较两个或两个以上样本率(或比) 之间差别的显著性检验, 因此 可选择建立卡方检验模型来解决此问题。

5.2 问题二: 单因素方差分析的主要目的之一就是根据观测数据推断因素A 对因变量Y 的 影响是否显著,换句话说,就是除去随机因素的干扰,在因素A 的各水平下,y 的取值是否有显著差异。 根据实际情况, 学校评价相关成绩指标时均用平均成绩计算。我们在比较不 同专业学生的数学水平是否显著性不同时,将各个学生在高数上、下册,线性代 数, 概率与数理统计三门课程中所取得的成绩的平均值作为该学生数学水平的量 化值, 将专业作为影响因子, 结合方差分析模型的特点, 建立 “单因素方差分析” 模型。

5.3 问题三: 为研究高等数学成绩的优劣是否会影响线性代数、 概率论与数理统计的得分 情况,高数的成绩用高数上册和高数下册成绩的均值表示,运用 SPSS 软件分别 画出全部学生高数成绩与线性成绩、高数成绩与概率成绩关系的散点图如图 1、 图 2 所示:

图 1 高数成绩与线性成绩关系的散点图 图 2 高数成绩与概率成绩关系的散点图 通过图 1、图 2 的形状,可以判断高数与线代、概率分数之间相关程度的强 弱、方向和性质,但并不能得知其相关的确切程度。为精确了解变量间的相关程 度,还需作进一步统计分析,建立 Pearson 相关系数分析模型,求出其相关性和 任意两变量间的影响程度。 5.4 问题四: 对以上问题所得出的结果进行总结分析, 提出对于大学数学课程学习方面的 看法,并作出合理的建议。 六、模型建立与求解 6.1 问题一:卡方检验模型 6.1.1 模型建立 当相比较样本的差别是由本身内在因素引起而非抽样误差所致时, 卡方值 就大, 相应的 P 值-----反映由抽样误差引起的样本差别的概率就小。这时就称 两样本差别“有显著性”或“有高度显著性”。反之, 卡方值越小, P 值就越大, 则称两样本差别“无显著性”。 在实际操作中, 可利用列联表模式进行预备计算。设有 R 行 C 列的列联表 模式( 见表 3) : 表3 列联表模式

水平 组别 1 2 „ R 合计 1

f 11 ( p11 ) f 21 ( p 21 ) 2

f 1 2 ( p1 2 ) f 22 ( p 22 ) C

f 1 c ( p1 c ) f2c ( p2c )

G1 G2 „

f R1 ( p R1 ) N1 „

fR2 ( pR2 ) N2 „

f RC ( p RC ) NC „ GR N

卡方值则由下式计算:

c = N ( a1 + a 2 + L + a c - 1) 2 (1) 式中, ac =

f1c p1c + f 2 c p 2 c + L + f R C p R C Nc 。计算出卡方值后, 再根据自由度 n ¢ = ( R - 1)( C - 1) 2 2

查有关的卡方值表, 从而判别各组样本间差别的显著性。当 2 差 别 有 高 度 显 著 性 ; 当 c 0.01 c ³ c 0.01 时 , P £ 0.01 , ³ c 2

³ c 0.05 2

时, 0.01 £ P £ 0.05

, 差别有显著性;当 c 2 0.05

, 差别无显著性。

6.1.2 模型求解 根据上述原理, 先将两个专业的高等数学上册、高等数学下册、线性代数、 概率论与数理统计三门公共数学课程的期末考试成绩划分为5 个档次( 水平) , 分别计算各自的百分比率, 汇总在表4、表5、表6、表7中;然后再进行2个专业 (组别) 的对照比较, 计算卡方值; 最后根据卡方值进行差异分析, 判断针对每 门课程两个专业学生的分数是否具有明显差异。 表4 高数上册成绩统计表

成绩 >=90 专业 A 专业 B 专业 合计 80~89

60~69

合计 108 153 261

9(8.3%) 16 (14.8%) 21(19.5%) 57(52.8%) 5(4.6%) 17 (11.1%) 29 (19.0%) 38(24.8%) 60(39.2%) 9(5.9%) 26 (10.0%) 45 (17.2%) 59(22.6%) 117(44.8%) 14(5.4%) 表5 高数下册成绩统计表

成绩 >=90 专业 A 专业 B 专业 合计 80~89 70~79 60~69

3(2.8%) 10(9.3%) 20(18.5%) 64(59.2%) 11 10.2%) 108 ( 5(3.3%) 28 (18.3%) 37(24.2%) 78(51.0%) 5(3.2%) 153 8(3.1%) 38 (14.6%) 57(21.8%) 142(54.4%) 16(6.1%) 261 表6 线性代数成绩统计表

成绩 >=90 专业 A 专业 B 专业 合计 80~89 70~79 60~69

9(8.3%) 15(13.9%) 29(26.9%) 50(46.3%) 5(4.6%) 108 6(3.9%) 38(24.8%) 39(25.5%) 63(41.2%) 7(4.6%) 153 15(5.7%) 53(20.3%) 68(26.1%) 113 (43.3%) 12(4.6%) 261 表7 概率论成绩统计表

成绩 >=90 专业 A 专业 B 专业 合计 80~89 70~79 60~69

合计 108 153 261

10(9.2%) 38 (35.2%) 22(20.4%) 34(31.5%) 4(3.7%) 26 (17.0%) 39 (25.5%) 34(22.2%) 45(29.4%) 9(5.9%) 36 (13.8%) 77 (29.5%) 56(21.4%) 79(30.3%) 13(5.0%)

(1)高数上册成绩分析 根据表4中得到的数据,运用卡方检验模型, 得到如下结果:

a1 = 0 .1 0 1 , a 2 = 0 .1 7 5 , a 3 = 0 .2 2 9 , a 4 = 0 .4 5 8 , a 5 = 0 .0 5 4 ;

c = N ( a1 + a 2 + L + a c - 1) = 261 ´ (0.101 + 0.175 + 0.229 + 0.458 + 0.054 - 1) = 4.437 2

显然, c 2

, 此时 P > 0.05

, 则对于高数上册,两专业学生的分数 的差别无显著性。 (2)高数下册成绩分

析 根据表5中得到的数据,运用卡方检验模型, 得到如下结果: a1 = 0.031 , a 2 = 0 .1 5 9 , a 3 = 0 .2 2 2 2 , a4 = 0.547 , a5

= 0 .0 8 0 ;

c = N ( a1 + a 2 + L + a c - 1) = 261 ´ (0.031 + 0.159 + 0.222 + 0.547 + 0.080 - 1) = 10.179 已知 c 02.0 5

= 9.4877 , c 0.01 =13.2767 2

2 ,所以 c 0.01 ³ c 2

³ c 0.05 ,此时 0.01 £ P £ 0.05 2 ,

则对于高数下册,两专业学生的分数的差别具有显著性。 (3) 线性代数成绩分析 根据表6中得到的数据,运用卡方检验模型, 得到如下结果:

a1 = 0 .0 6 5 , a 2 = 0.217 2 , a3

= 0 .2 6 1 , a 4 = 0 .4 3 6 , a 5 = 0 .0 9 2 ;

c = N ( a1 + a 2 + L + a c - 1) = 261 ´ (0.065 + 0.217 + 0.261 + 0.436 + 0.092 - 1) = 18.531

2 已知 c 0.01 =13.2767 ,所以 c 2

³ c 0.01 ,此时 P £ 0.01 ,则对于线性代数这门课程, 2

两专业学生的分数差别具有高度显著性。 (4)概率论与数理统计成绩分析 根据表7中得到的数据,运用卡方检验模型, 得到如下结果:

a1 = 0 .1 4 8 , a 2 = 0 .3 0 3 , a 3 = 0 .2 1 5 2 , a4

= 0 .3 0 3 , a 5 = 0 .0 5 2 ;

c = N ( a1 + a 2 + L + a c - 1) = 261 ´ (0.148 + 0.303 + 0.215 + 0.303 + 0.052 - 1) = 5.481 已知 c 02.0 5 = 9.4877 ,所以 c 2

0.05 2

, 则对于概率论与数理统计这

门课程,两专业学生的分数的差别无显著性。 6.2 问题二:单因素方差分析模型 6.2.1 模型建立 设 A 取 r 个水平 A1 , A2 , L , Ar ,在水平 Ai 下总体 x i 服从正态分布 N ( m i , s 2 ) i = 1, L , r

,这里 m i , s 2 未知, m i 可以互不相同,但假定 x i 有相同的方差。又设

在每个水平 Ai 下作了 n i 次独立试验,即从中抽取容量为 n i 的样本,记作 x ij ,

j = 1, L , n i

, x ij 服从 N ( m i , s 2 ) , i = 1, L , r , j = 1, L , n i

且相互独立。将这些数据

列成表8(单因素试验数据表)的形式。 表8 单因素实验数据表 A1 x1 1 x 21 x1 2 x 22 A2 L L L L x1 n 1 x2 n 2 L Ar L x rn r xr1 xr 2

将第 i 行称为第 i 组数据。判断 A 的 r 个水平对指标有无显著影响,相当于要 作以下的假设检验:

H 0 : m1 = m 2 = L = m r ; H 1 : m1 , m 2 ,L , m r

1 ni 1 n r

不全相等 (2) 记 xig = å j =1 ni x ij x = åå

i =1 j =1 ni x ij (3)

x i g 是是第

i 组数据的组平均值, x

是总平均值。考察全体数据对 x 的偏差平 方和: ST = åå

i =1 j =1 2 r ni

( x ij - x ) 2 (4)

经分解可得: ST = å i =1 r

ni ( xig - x ) + åå

i =1 j =1 2 r ni

( x ij - x i g ) 2 (5) 记 SA =

i =1 r

ni ( xig - x ) (6) SE = åå

i =1 j =1 r ni

( x ij - x i g ) 2

(7) (9) 是各组内的数据对 则

ST = S A + S E

S A 是各组均值对总方差的偏差平方和,称为组间平方和;均值偏差平方和的总和。 S A 反映 A 不同水平间的差异,水平下 随机误差的大小。 注意到 å j =1 ni

( x ij - x i g ) 2

是总体 N ( m i , s 2 ) 的样本方差的 n i ni

- 1 倍,于是有: å (x j =1 ij

- xi g) 2 2 s ~ c 2 ( ni - 1)

由分布的可加性知

SE ö 2 æ ~ c ç å ( ni - 1) ÷ è i =1 ø r s 2 即 SE s

则表示在同一 S E

S E

~ c 2

(n - r) 且有

E S E = ( n - r )s 2

(10)

对做进一步分析可得: E S A = ( r - 1) s 2 + å i =1 r niai 2

(11)

当 H 0 成立时 E S A = ( r - 1)s 2

(12)

可知若 H 0 成立,S A 只反映随机波动,而若 H 0 不成立,那它就还反映了A 的不同 水平的效应 a i 。单从数值上看,当 H 0 成立时,由式子(10)、(12)对于一次 试验应有:

S A / ( r - 1) S E / (n - r ) »1

而当 H 0 不成立时这个比值将远大于1。当 H 0 成立时,该比值服从自由度为 n1 = r - 1, n 2 = n - r 的F 分布,即

F = S A / ( r - 1) S E / (n - r ) g F ( r - 1, n - r ) (13)

为检验 H 0 ,给定显著性水平 a ,记 F 分布的 1 - a 分位数为 F1- a ( r - 1, n - r ) ,检验 规则为 F

方差来源 组间(因 素 A) 组内(误 平方和 SA 自由度 r -1

样本方差

SA r -1 SE n-r F 值

(n - r )S A ( r - 1) S E S

差) 总 和 E n-r ST n -1

a 最后一列给出大于 F 值的概率 p r , F1- P 。 r

6.2.2 模型求解 将本题带入此模型中,各个学生在高数上、下册,线性代数,概率与数理统 计三门课程中所取得的成绩的平均值代表该学生数学水平, 将专业看做对成绩的 影响因素,在两个专业各随机抽取 50 个同学的三个科目的平均成绩作为每个变 量的样本值。建立单因素方差分析表(表 10): 表 10 单因素“专业”方差分析表 专业(水平)

学生成绩(试验观察值)

x 1 1 , x1 2 , x1 3 , L L L L , x1,5 0 x 21 , x 22 , x 23 , L L L L , x 2 ,50 A B

按顺序输入相应数值,分析->比较均值->单因素 ANOVA,进行单因素方差分析, 得到结果如图 3 所示: 图 3 单因素方差分析结果 由图3可知, F

= 1.020 > F0.95 ,拒绝 H 0

,显著性为0.315,所以认为两个专业的

数学水平没有显著性不相同。 6.3 模型三:Pearson 相关系数分析模型 6.3.1 模型建立 Pearson 相关系数用来衡量

两个数据集合定距变量间的线性关系。 当两 个变量都是正态连续变量,而且两者之间呈线性关系时,表现这两个变量 之间相关程度用积差相关系数,主要有 Pearson 简单相关系数。其计算公 式为: r = N N å

xi yi - 2 åxå i yi 2 2 å

xi - (å xi )

2

N

å

yi - (å yi )

(14)

相关系数的绝对值越大,相关性越强,相关系数越接近于 1 或-1,相 关度越强,相关系数越接近于 0,相关度越弱。通常情况下通过以下取值范 围判断变量的相关强度(见表 11):

表 11 相关强度范围表

相关系数 0.8~1.0 0.6~0.8 0.4~0.6 0.2~0.4 0.0~0.2 6.3.2 模型求解 相关关系 极强相关 强相关 中等强度相关 弱相关 极弱相关或无相关

用高数上册和高数下册成绩的均值表示高数的成绩,将高数、线性代数、概 率与数理统计三门课程的成绩看做三个总体、 全体 261 名同学三门课程的成绩作 为样本,然后对这三个总体进行相关性分析。应用 SPSS 软件的相关性分析求解 得到的结果如图 4 所示:

图 4 三门课程成绩相关性分析

由图 4 可以看出,高数、线代与概率在 a = 0.01 水平上互相显著相关,其 中,高数对线代的 Pearson 相关性为 0.557,高数对概率的 Pearson 相关性为 0.509,则都为中等强度相关,换句话说,我们有 99%的把握认为三者之间存在 中等强度的相关性。因此,高等数学成绩的优劣是会影响到线性代数、概率论和 数理统计的得分情况的。

6.4 问题四:对大学数学课程的看法 由问题三的求解结果可知,高数、线代、概率论和数理统计三门课程的分数 互相显著相关, 因此可得知一门课程的掌握程度是会影响到其他相关课程的,各 门大学数学课程之间互相联系, 互为基础。 所以我们在学习这些数学课程的时候, 可以将他们的内容融会贯通起来学习,有助于增强理解,提高学习效率;另外, 在对待这些数学课程的时候, 切不可有偏科的现象, 应给予各门课程同等的重视, 因为课程之间的相关性,一门课程可能是另一门课程的基础,只有在学好这门课 程的基础下才能学好另一门课程,偏科不利于整体水平的提高。

七、模型评价:

7.1 模型的优点:

1、 本文建立了卡方检验分析模型进行显著性分析,该模型以数理统计作为基础, 具有一定的理论依据,并能有效地对于问题进行合理的求解。

2、对于问题二中的单因素方差分析模型,其适用范围较广,可以推广到其他领 域,用来比较任何两组数据之间的差异显著性。

3、由于题中所给数据较多,计算比较困难,运用 SPSS 软件进行求解在很大程度 上减少了计算的冗余度,方便快捷。

7.2 模型的缺点:

1、文中数据的处理没有充分考虑实际情况,欠缺一般性。

2、对于模型一中的卡方检验分析模型,计算冗余度大,计算步骤较为繁琐。

参考文献

[1]《概率论与数理统计》 高等教育出版社,茆诗松、濮晓龙编著,2004 年。

[2]《统计分析与 SPSS 的应用》 中国人民大学出版社 薛微编著。

[3]《数学建模方法及其应用》 高等教育出版社 韩中庚编著,2005 年。

[4]《统计数据分析基础教程》 中国人民大学出版社 叶向编著。

附录

学生成绩分析问题

摘要

本文根据题目的要求,在合理的假设之下,建立了卡方检验、单因素方差分 析和 Pearson 相关性分析三个数学模型, 分别针对课程和专业两个不同的角度对 两个专业的学生成绩进行了差异显著性分析,解决了高等数学与线性代数、概率 论和数理统计得分是否有相关的问题,并根据所作出的分析,提出对于大学数学 课程学习方面的看法。

问题(1),通过对每门课程学生成绩数据的分析,建立卡方检验模型对两 个专业学生的分数进行差异显著性分析, 得到对于高数下册两个专业学生分数的 差别具有显著性, 对于线性代数两者的差别具有高度显著性,而对于高数上册和 概率论课程学生的分数不具有显著性差异。

问题(2),处理和整合数据,将学生三门功课成绩的均值作为该学生数学 水平的量化值,将专业作为影响因子建立单因素方差分析模型,运用 SPSS 软件 随机抽取 50 个同学的三个科目的平均成绩作为每个变量的样本值,进行单因素 方差分析得出两个专业的学生在数学水平上没有明显差异。

问题(3)、(4),将高数、线性代数、概率与数理统计三门课程的成绩看 做三个总体,建立 Pearson 相关系数模型并运用 SPSS 软件求解得出,高数、线 性代数、 概率与数理统计这三门课程之间的成绩互相显著性相关。根据问题三得 到的结论, 提出对于大学数学课程的学习应平等重视各门课程和学会融会贯通等 建议。 关键词 卡方检验 单因素方差分析 SPSS Pearson 相关系数 二、问题重述 请根据表 1、表 2(见附录)中某高校 A 专业和 B 专业的高等数学上册、高 等数学下册、 线性代数、 概率论与数理统计三门公共数学课程的期末考试成绩数 据,试着分析并回答以下几个问题: 问题一:针对每门课程分析,两个专业的学生的分数是否有明显差异? 问题二:针对专业分析,两个专业的学生的数学水平有无明显差异?

问题三:通过数据分析说明:高等数学成绩的优劣是否会影响线性代数、概 率论与数理统计的得分情况? 问题四:根据所作出的以上分析,阐述对于大学数学课程学习方面的看法。 三、符号说明

f R C :第 R 组第 C 个水平的样本频数 (R p R C :第 R 组第 C 个水平样本的百分比 = 1, 2, L ; C = 1, 2, L )

G R :第 R 组各个水平样本的频数之和 N C :各组第 C 水平样本的频数之和 n ¢ :卡方分布的自由度

A1 , A2 , L , Ar :单因素 A 所取得 r 个不同水平 x i g :第 i 组数据的组平均值 x : 全体数据的总平均值

S T :考察全体数据对 x 的偏差平方和 S A :各组均值对总方差的偏差平方和 S E :各组内的数据对均值偏差平方和

四、模型假设

1、假设样本可以看作是来自正态或近似正态总体。 2、假设样本中成绩能充分体现同学们的数学水平。 3、假设学生和学生之间的成绩是相互独立的。

4、假设所有的课程都同样重要,即课程的权重一样。 五、问题分析 5.1 问题一:

问题一要求针对每门课程分析两个专业学生的分数是否具有明显差异, 即要 分别对每门课程在 A、B 两个不同专业内学生的成绩进行差异显著性分析,而卡 方检验模型就是比较两个或两个以上样本率(或比) 之间差别的显著性检验, 因此 可选择建立卡方检验模型来解决此问题。

5.2 问题二: 单因素方差分析的主要目的之一就是根据观测数据推断因素A 对因变量Y 的 影响是否显著,换句话说,就是除去随机因素的干扰,在因素A 的各水平下,y 的取值是否有显著差异。 根据实际情况, 学校评价相关成绩指标时均用平均成绩计算。我们在比较不 同专业学生的数学水平是否显著性不同时,将各个学生在高数上、下册,线性代 数, 概率与数理统计三门课程中所取得的成绩的平均值作为该学生数学水平的量 化值, 将专业作为影响因子, 结合方差分析模型的特点, 建立 “单因素方差分析” 模型。

5.3 问题三: 为研究高等数学成绩的优劣是否会影响线性代数、 概率论与数理统计的得分 情况,高数的成绩用高数上册和高数下册成绩的均值表示,运用 SPSS 软件分别 画出全部学生高数成绩与线性成绩、高数成绩与概率成绩关系的散点图如图 1、 图 2 所示:

图 1 高数成绩与线性成绩关系的散点图 图 2 高数成绩与概率成绩关系的散点图 通过图 1、图 2 的形状,可以判断高数与线代、概率分数之间相关程度的强 弱、方向和性质,但并不能得知其相关的确切程度。为精确了解变量间的相关程 度,还需作进一步统计分析,建立 Pearson 相关系数分析模型,求出其相关性和 任意两变量间的影响程度。 5.4 问题四: 对以上问题所得出的结果进行总结分析, 提出对于大学数学课程学习方面的 看法,并作出合理的建议。 六、模型建立与求解 6.1 问题一:卡方检验模型 6.1.1 模型建立 当相比较样本的差别是由本身内在因素引起而非抽样误差所致时, 卡方值 就大, 相应的 P 值-----反映由抽样误差引起的样本差别的概率就小。这时就称 两样本差别“有显著性”或“有高度显著性”。反之, 卡方值越小, P 值就越大, 则称两样本差别“无显著性”。 在实际操作中, 可利用列联表模式进行预备计算。设有 R 行 C 列的列联表 模式( 见表 3) : 表3 列联表模式

水平 组别 1 2 „ R 合计 1

f 11 ( p11 ) f 21 ( p 21 ) 2

f 1 2 ( p1 2 ) f 22 ( p 22 ) C

f 1 c ( p1 c ) f2c ( p2c )

G1 G2 „

f R1 ( p R1 ) N1 „

fR2 ( pR2 ) N2 „

f RC ( p RC ) NC „ GR N

卡方值则由下式计算:

c = N ( a1 + a 2 + L + a c - 1) 2 (1) 式中, ac =

f1c p1c + f 2 c p 2 c + L + f R C p R C Nc 。计算出卡方值后, 再根据自由度 n ¢ = ( R - 1)( C - 1) 2 2

查有关的卡方值表, 从而判别各组样本间差别的显著性。当 2 差 别 有 高 度 显 著 性 ; 当 c 0.01 c ³ c 0.01 时 , P £ 0.01 , ³ c 2

³ c 0.05 2

时, 0.01 £ P £ 0.05

, 差别有显著性;当 c 2 0.05

, 差别无显著性。

6.1.2 模型求解 根据上述原理, 先将两个专业的高等数学上册、高等数学下册、线性代数、 概率论与数理统计三门公共数学课程的期末考试成绩划分为5 个档次( 水平) , 分别计算各自的百分比率, 汇总在表4、表5、表6、表7中;然后再进行2个专业 (组别) 的对照比较, 计算卡方值; 最后根据卡方值进行差异分析, 判断针对每 门课程两个专业学生的分数是否具有明显差异。 表4 高数上册成绩统计表

成绩 >=90 专业 A 专业 B 专业 合计 80~89

60~69

合计 108 153 261

9(8.3%) 16 (14.8%) 21(19.5%) 57(52.8%) 5(4.6%) 17 (11.1%) 29 (19.0%) 38(24.8%) 60(39.2%) 9(5.9%) 26 (10.0%) 45 (17.2%) 59(22.6%) 117(44.8%) 14(5.4%) 表5 高数下册成绩统计表

成绩 >=90 专业 A 专业 B 专业 合计 80~89 70~79 60~69

3(2.8%) 10(9.3%) 20(18.5%) 64(59.2%) 11 10.2%) 108 ( 5(3.3%) 28 (18.3%) 37(24.2%) 78(51.0%) 5(3.2%) 153 8(3.1%) 38 (14.6%) 57(21.8%) 142(54.4%) 16(6.1%) 261 表6 线性代数成绩统计表

成绩 >=90 专业 A 专业 B 专业 合计 80~89 70~79 60~69

9(8.3%) 15(13.9%) 29(26.9%) 50(46.3%) 5(4.6%) 108 6(3.9%) 38(24.8%) 39(25.5%) 63(41.2%) 7(4.6%) 153 15(5.7%) 53(20.3%) 68(26.1%) 113 (43.3%) 12(4.6%) 261 表7 概率论成绩统计表

成绩 >=90 专业 A 专业 B 专业 合计 80~89 70~79 60~69

合计 108 153 261

10(9.2%) 38 (35.2%) 22(20.4%) 34(31.5%) 4(3.7%) 26 (17.0%) 39 (25.5%) 34(22.2%) 45(29.4%) 9(5.9%) 36 (13.8%) 77 (29.5%) 56(21.4%) 79(30.3%) 13(5.0%)

(1)高数上册成绩分析 根据表4中得到的数据,运用卡方检验模型, 得到如下结果:

a1 = 0 .1 0 1 , a 2 = 0 .1 7 5 , a 3 = 0 .2 2 9 , a 4 = 0 .4 5 8 , a 5 = 0 .0 5 4 ;

c = N ( a1 + a 2 + L + a c - 1) = 261 ´ (0.101 + 0.175 + 0.229 + 0.458 + 0.054 - 1) = 4.437 2

显然, c 2

, 此时 P > 0.05

, 则对于高数上册,两专业学生的分数 的差别无显著性。 (2)高数下册成绩分

析 根据表5中得到的数据,运用卡方检验模型, 得到如下结果: a1 = 0.031 , a 2 = 0 .1 5 9 , a 3 = 0 .2 2 2 2 , a4 = 0.547 , a5

= 0 .0 8 0 ;

c = N ( a1 + a 2 + L + a c - 1) = 261 ´ (0.031 + 0.159 + 0.222 + 0.547 + 0.080 - 1) = 10.179 已知 c 02.0 5

= 9.4877 , c 0.01 =13.2767 2

2 ,所以 c 0.01 ³ c 2

³ c 0.05 ,此时 0.01 £ P £ 0.05 2 ,

则对于高数下册,两专业学生的分数的差别具有显著性。 (3) 线性代数成绩分析 根据表6中得到的数据,运用卡方检验模型, 得到如下结果:

a1 = 0 .0 6 5 , a 2 = 0.217 2 , a3

= 0 .2 6 1 , a 4 = 0 .4 3 6 , a 5 = 0 .0 9 2 ;

c = N ( a1 + a 2 + L + a c - 1) = 261 ´ (0.065 + 0.217 + 0.261 + 0.436 + 0.092 - 1) = 18.531

2 已知 c 0.01 =13.2767 ,所以 c 2

³ c 0.01 ,此时 P £ 0.01 ,则对于线性代数这门课程, 2

两专业学生的分数差别具有高度显著性。 (4)概率论与数理统计成绩分析 根据表7中得到的数据,运用卡方检验模型, 得到如下结果:

a1 = 0 .1 4 8 , a 2 = 0 .3 0 3 , a 3 = 0 .2 1 5 2 , a4

= 0 .3 0 3 , a 5 = 0 .0 5 2 ;

c = N ( a1 + a 2 + L + a c - 1) = 261 ´ (0.148 + 0.303 + 0.215 + 0.303 + 0.052 - 1) = 5.481 已知 c 02.0 5 = 9.4877 ,所以 c 2

0.05 2

, 则对于概率论与数理统计这

门课程,两专业学生的分数的差别无显著性。 6.2 问题二:单因素方差分析模型 6.2.1 模型建立 设 A 取 r 个水平 A1 , A2 , L , Ar ,在水平 Ai 下总体 x i 服从正态分布 N ( m i , s 2 ) i = 1, L , r

,这里 m i , s 2 未知, m i 可以互不相同,但假定 x i 有相同的方差。又设

在每个水平 Ai 下作了 n i 次独立试验,即从中抽取容量为 n i 的样本,记作 x ij ,

j = 1, L , n i

, x ij 服从 N ( m i , s 2 ) , i = 1, L , r , j = 1, L , n i

且相互独立。将这些数据

列成表8(单因素试验数据表)的形式。 表8 单因素实验数据表 A1 x1 1 x 21 x1 2 x 22 A2 L L L L x1 n 1 x2 n 2 L Ar L x rn r xr1 xr 2

将第 i 行称为第 i 组数据。判断 A 的 r 个水平对指标有无显著影响,相当于要 作以下的假设检验:

H 0 : m1 = m 2 = L = m r ; H 1 : m1 , m 2 ,L , m r

1 ni 1 n r

不全相等 (2) 记 xig = å j =1 ni x ij x = åå

i =1 j =1 ni x ij (3)

x i g 是是第

i 组数据的组平均值, x

是总平均值。考察全体数据对 x 的偏差平 方和: ST = åå

i =1 j =1 2 r ni

( x ij - x ) 2 (4)

经分解可得: ST = å i =1 r

ni ( xig - x ) + åå

i =1 j =1 2 r ni

( x ij - x i g ) 2 (5) 记 SA =

i =1 r

ni ( xig - x ) (6) SE = åå

i =1 j =1 r ni

( x ij - x i g ) 2

(7) (9) 是各组内的数据对 则

ST = S A + S E

S A 是各组均值对总方差的偏差平方和,称为组间平方和;均值偏差平方和的总和。 S A 反映 A 不同水平间的差异,水平下 随机误差的大小。 注意到 å j =1 ni

( x ij - x i g ) 2

是总体 N ( m i , s 2 ) 的样本方差的 n i ni

- 1 倍,于是有: å (x j =1 ij

- xi g) 2 2 s ~ c 2 ( ni - 1)

由分布的可加性知

SE ö 2 æ ~ c ç å ( ni - 1) ÷ è i =1 ø r s 2 即 SE s

则表示在同一 S E

S E

~ c 2

(n - r) 且有

E S E = ( n - r )s 2

(10)

对做进一步分析可得: E S A = ( r - 1) s 2 + å i =1 r niai 2

(11)

当 H 0 成立时 E S A = ( r - 1)s 2

(12)

可知若 H 0 成立,S A 只反映随机波动,而若 H 0 不成立,那它就还反映了A 的不同 水平的效应 a i 。单从数值上看,当 H 0 成立时,由式子(10)、(12)对于一次 试验应有:

S A / ( r - 1) S E / (n - r ) »1

而当 H 0 不成立时这个比值将远大于1。当 H 0 成立时,该比值服从自由度为 n1 = r - 1, n 2 = n - r 的F 分布,即

F = S A / ( r - 1) S E / (n - r ) g F ( r - 1, n - r ) (13)

为检验 H 0 ,给定显著性水平 a ,记 F 分布的 1 - a 分位数为 F1- a ( r - 1, n - r ) ,检验 规则为 F

方差来源 组间(因 素 A) 组内(误 平方和 SA 自由度 r -1

样本方差

SA r -1 SE n-r F 值

(n - r )S A ( r - 1) S E S

差) 总 和 E n-r ST n -1

a 最后一列给出大于 F 值的概率 p r , F1- P 。 r

6.2.2 模型求解 将本题带入此模型中,各个学生在高数上、下册,线性代数,概率与数理统 计三门课程中所取得的成绩的平均值代表该学生数学水平, 将专业看做对成绩的 影响因素,在两个专业各随机抽取 50 个同学的三个科目的平均成绩作为每个变 量的样本值。建立单因素方差分析表(表 10): 表 10 单因素“专业”方差分析表 专业(水平)

学生成绩(试验观察值)

x 1 1 , x1 2 , x1 3 , L L L L , x1,5 0 x 21 , x 22 , x 23 , L L L L , x 2 ,50 A B

按顺序输入相应数值,分析->比较均值->单因素 ANOVA,进行单因素方差分析, 得到结果如图 3 所示: 图 3 单因素方差分析结果 由图3可知, F

= 1.020 > F0.95 ,拒绝 H 0

,显著性为0.315,所以认为两个专业的

数学水平没有显著性不相同。 6.3 模型三:Pearson 相关系数分析模型 6.3.1 模型建立 Pearson 相关系数用来衡量

两个数据集合定距变量间的线性关系。 当两 个变量都是正态连续变量,而且两者之间呈线性关系时,表现这两个变量 之间相关程度用积差相关系数,主要有 Pearson 简单相关系数。其计算公 式为: r = N N å

xi yi - 2 åxå i yi 2 2 å

xi - (å xi )

2

N

å

yi - (å yi )

(14)

相关系数的绝对值越大,相关性越强,相关系数越接近于 1 或-1,相 关度越强,相关系数越接近于 0,相关度越弱。通常情况下通过以下取值范 围判断变量的相关强度(见表 11):

表 11 相关强度范围表

相关系数 0.8~1.0 0.6~0.8 0.4~0.6 0.2~0.4 0.0~0.2 6.3.2 模型求解 相关关系 极强相关 强相关 中等强度相关 弱相关 极弱相关或无相关

用高数上册和高数下册成绩的均值表示高数的成绩,将高数、线性代数、概 率与数理统计三门课程的成绩看做三个总体、 全体 261 名同学三门课程的成绩作 为样本,然后对这三个总体进行相关性分析。应用 SPSS 软件的相关性分析求解 得到的结果如图 4 所示:

图 4 三门课程成绩相关性分析

由图 4 可以看出,高数、线代与概率在 a = 0.01 水平上互相显著相关,其 中,高数对线代的 Pearson 相关性为 0.557,高数对概率的 Pearson 相关性为 0.509,则都为中等强度相关,换句话说,我们有 99%的把握认为三者之间存在 中等强度的相关性。因此,高等数学成绩的优劣是会影响到线性代数、概率论和 数理统计的得分情况的。

6.4 问题四:对大学数学课程的看法 由问题三的求解结果可知,高数、线代、概率论和数理统计三门课程的分数 互相显著相关, 因此可得知一门课程的掌握程度是会影响到其他相关课程的,各 门大学数学课程之间互相联系, 互为基础。 所以我们在学习这些数学课程的时候, 可以将他们的内容融会贯通起来学习,有助于增强理解,提高学习效率;另外, 在对待这些数学课程的时候, 切不可有偏科的现象, 应给予各门课程同等的重视, 因为课程之间的相关性,一门课程可能是另一门课程的基础,只有在学好这门课 程的基础下才能学好另一门课程,偏科不利于整体水平的提高。

七、模型评价:

7.1 模型的优点:

1、 本文建立了卡方检验分析模型进行显著性分析,该模型以数理统计作为基础, 具有一定的理论依据,并能有效地对于问题进行合理的求解。

2、对于问题二中的单因素方差分析模型,其适用范围较广,可以推广到其他领 域,用来比较任何两组数据之间的差异显著性。

3、由于题中所给数据较多,计算比较困难,运用 SPSS 软件进行求解在很大程度 上减少了计算的冗余度,方便快捷。

7.2 模型的缺点:

1、文中数据的处理没有充分考虑实际情况,欠缺一般性。

2、对于模型一中的卡方检验分析模型,计算冗余度大,计算步骤较为繁琐。

参考文献

[1]《概率论与数理统计》 高等教育出版社,茆诗松、濮晓龙编著,2004 年。

[2]《统计分析与 SPSS 的应用》 中国人民大学出版社 薛微编著。

[3]《数学建模方法及其应用》 高等教育出版社 韩中庚编著,2005 年。

[4]《统计数据分析基础教程》 中国人民大学出版社 叶向编著。

附录


相关文章

  • 职业教育考核中知识与能力的关系研究
  • [摘要] 本文从职业教育考核中知识与能力的关系出发,指出高职教育现行考试中存在很多问题,给出考试改革的若干建议,并以<人力资源开发与管理>课程考试改革为例进行分析. [关键词] 职业教育考核 知识 能力 人力资源开发与管理 考试 ...查看


  • 帮扶目标责任书
  • 党员与初三"边缘生"结对帮扶目标责任书 为了深入开展创先争优活动,增强党员服务意识,进一步密切党群关系,提高学校的教育教学质量,挖掘我校"边缘生"的最大潜力,使他们顺利考入高中,特制定党员教师与&qu ...查看


  • 如何分析试卷
  • 学校的教学质量分析是站在全局和纵向发展的角度进行的.学校领导的质量分析主要也是四个方面.一是对试卷内容的分析,二是成绩统计和对成绩情况的分析,三是成绩问题的分析,四是建议及措施.重点是后三个. 1.对试卷内容的分析.主要分析试卷特点.试卷考 ...查看


  • 月考质量分析会
  • 月考质量分析会 --七八年级 时间过得很快,转眼间一个多月的时间已经过去了,我们刚刚在一个星期前结束了七八年级第一次月考,在整个考试过程中,秩序井然,纪律严明,组织严密,大部分监考教师都能认真监考,考试结束后,各个任课教师也都对本学科进行了 ...查看


  • 奖学金分配制度
  • 一.问题重述 奖学金制度是高校普遍采用的一种对学生进行奖励.激励的制度,评定奖学金成为高校每年工作的一个重要环节.奖学金评定有其明确的标准,这些标准是学校培养目标的具体化,奖学金评定对学生的行为具有导向功能. 目前,高校奖学金主要有综合奖学 ...查看


  • 谈如何发展学生的数据分析观念
  • 谈如何发展学生的数据分析观念 数据分析观念是统计思想的一个重要组成部分.我们可以通过数据分析的教学,使学生体会到统计时需要收集数据,整理数据,然后进行数据分析,这样就能解决日常生活中很多实际问题,从而感受统计的实际价值,发展学生的应用意识. ...查看


  • 中学生数学焦虑及相关因素的调查研究
  • 第17卷第3期 数学教育学报 V01.17.No.32008年6月 JOURNALoFMATHEMATICSEDUCATION Jun..2008 中学生数学焦虑及相关因素的调查研究 熊建华 (江苏经贸职业技术学院信息技术系,江苏南京210 ...查看


  • 三年级学生学情分析
  • 三年级学情分析 一.基本情况 本人名叫邢爱云,现任三年级数学,本班学生人数53人,期中男生33人,女生20人, 二.现状分析 1.结合本班数学课堂教学,从以下以下几个方面进行分析: 学习实效性情况分析 学生课前准备不够充分. 学习比较浮躁, ...查看


  • 大学数学与高中数学衔接问题的研究
  • 大学数学与高中数学衔接问题的研究 倪诗婷.高瑜婷.孙于惠.金梦蝶 导师:李金其 摘要:大学数学和高中数学在教学内容.教学方式.学习方式等方面的脱节,会直接影响大学数学的教学质量.本文从浙江师范大学在校大学生角度研究高中数学与大学数学的衔接问 ...查看


热门内容