一、单项选择题
1.根据样本计算的用于推断总体特征的概括性度量值称作(参数)
A.参数 B.总体 C.样本 D.统计量
2.只能归于某一类别的非数字型数据称为(分类数据) A.分类数据 B.顺序数据 C.数值型数据 D.数值型变量 3.只能归于某一有序类别的非数字型数据称为(顺序数据) A.分类数据 B.顺序数据 C.数值型数据 D.数值型变量 4.用来描述样本特征的概括性数字度量称为(统计量) A.参数 B.统计量 C.变量 D.变量值
5.为了调查某校学生的购书费用支出,从全校抽取4个班级的学生进行调查,这种调查方法是(整群抽样)
A.简单随机抽样 B.系统抽样 C.分层抽样 D.整群抽样 6.为了调查某校学生的购书费用支出,从男生中抽取60名学生调查,从女生中抽取40名学生进行调查,这种调查方法是(分层抽样)
A.简单随机抽样 B.整群抽样 C.系统抽样 D.分层抽样 7.经验法则表明,当一组数据对称分布时,在平均数加减1个标准差的范围之内大约有(68%) A.68% B.95% C.99% D.100%
8.经验法则表明,当一组数据对称分布时,在平均数加减2个标准差的范围内大约有(95%) A.68% B.95% C.99% D.100%
9.离散系数的主要用途是(比较多组数据的离散程度)
A.反映一组数据的离散程度 B.反映一组数据的平均水平 C.比较多组数据的离散程度 D.比较多组数据的平均水平 10.比较两组数据的离散程度最适合的统计量是(离散系数) A.极差 B.平均差 C.标准差 D.离散系数 11.峰态通常是与标准正态分布相比较而言的,如果一组数据服从标准正态分布,则峰态系数的值(等于0) A.等于0 B.大于0 C.小于0 D.等于1
12.如果峰态系数k>0,表明该组数据是(尖峰分布) A.尖峰分布 B.扁平分布 C.左偏分布 D.右偏分布 13.某居民小区准备采取一项新的物业管理措施,为此,随机抽取了100户居民进行调查,其中表示赞成的有69户,表示中立的有22户,表示反对的有9户,则该组数据的中位数是(赞成)
A.赞成 B.69 C.中立 D.22
14.某班共有25名学生,期未统计学课程的考试分数分别为68、73、66、76、86、74、61、89、65、90、69、67、76、62、81、63、68、81、70、73、60、87、75、64、56,那么该班考试分数的下四分位数和上四分位数分别是(64.5和78.5)
A.64.5和78.5 B.67.5和71.5 C.64.5和71.5 D.64.5和67.5 15.某行业中随机抽取10家企业,第一季度的利润额(单位:万元)分别是:72、63.1、54.7、54.3、29、26.9、25、23.9、23、20,该组数据的中位数为(27.95) A.28.46 B.30.20 C.27.95 D.28.12 16.一组数据的离散系数为0.4,平均数为20,则标准差为(8) A.80 B.0.02 C.4 D.8
n
(xi
)
2
方差:s2
i1
n1
;离散系数:vs
s 17.根据中心极限定理可知,当样本容量充分大时,样本均值的抽样分布服从正态分布,其分布的均值为(µ)
2
A.µ B.X C.2
D.n
18. 根据中心极限定理可知,当样本容量充分大时,样本均
值的抽样分布服从正态分布,其分布的方差为(2
n
)
2A.µ B.X C.2
D.
n
19.假设总体服从均匀分布,从此总体中抽取容量为36的样本,则样本均值的抽样分布(近似正态分布)
A.服从非正态分布 B.近似正态分布 C.服从均匀分布 D.服从2分布
20.总体均值为50,标准差为8,从此总体中随机抽取容量为
64的样本,则样本均值的抽样分布的均值和标准误差分别为(50,1)
A.50,8 B.50,1 C.50,4 D.8,8
21.当正态总体的方差未知时,在大样本条件下,估计总体均值使用的分布是(正态分布)
A.正态分布 B.t分布 C.2
分布 D.F分布 22.当正态总体的方差未知时,在小样本条件下,估计总体均值使用的分布是(t分布)
A.正态分布 B.t分布 C.2分布 D.F分布
23.根据两个匹配的小样本估计两个总体均值之差时,使用的
分布是(t分布)
A.正态分布 B.t分布 C.2分布 D.F分布
24.估计两个总体方差比的置信区间时,使用的分布是(F分
布)
A.正态分布 B.t分布 C.2分布 D.F分布
25.一种零件的标准长度5cm,要检验某天生产的零件是否符
合标准要求,建立的原假设和备择假设应为(H0:µ=5,H1: µ≠5) A.H0:µ=5,H1: µ≠5 B.H0:µ≠5,H1: µ=5 C.H0:µ≤5,H1: µ≥5 D.H0:µ≥5,H1: µ≤5
26.一项研究表明,中学生中吸烟的比例高达30%,为检验这一说法是否属实,建立的原假设和备择假设应为(H0:=30%,H1:≠30%) A.H0:µ=30%,H1: µ≠30% B.H0:=30%,H1:≠30% C.H0:≥30%,H1:≤30% D. H0:≤30%,H1:≥30% 27.列联分析是利用列联表来研究(两个分类变量的关系)
A.两个分类变量的关系 B.两个数值型变量的关系 C.一个分类变量和一个数值型变量的关系 D.两个数值型变量的分布
28.设R为列联表的行数,C为列联表的列数,则2分布的
自由度为((R-1)×(C-1))
A.R B.C C.R×C D.(R-1)×(C-1) 29.方差分析的主要目的是判断(分类型自变量对数值型因变量的影响是否显著) A.各总体是否存在方差
B.各样本数据之间是否有显著差异
C.分类型自变量对数值型因变量的影响是否显著 D.分类型因变量对数值型自变量的影响是否显著
30.组间误差是衡量不同水平下各样本数据之间的误差,它(既包括随机误差,又包括系统误差)
A.只包括随机误差 B.只包括系统误差 C.既包括随机误差,又包括系统误差 D.有时包括随机误差,有时包括系统误差 31.组内误差是衡量某一水平下样本数据之间的误差,它(只包括随机误差)
A.只包括随机误差 B.只包括系统误差 C.既包括随机误差,又包括系统误差 D.有时包括随机误差,有时包括系统误差 32.单因素方差分析是指只涉及(一个分类型自变量)
A.一个分类型自变量 B.一个数值型自变量 C.两个分类型自变量 D.两个数值型因变量
33.双因素方差分析涉及(两个分类型自变量)
A.两个分类型自变量 B.两个数值型自变量 C.两个分类型因变量 D.两个数值型因变量
34.在方差分析中,数据的误差用平方和来表示的,其中反映一个样本中各观测值误差大小的平方和称为(组内平方和) A.组间平方和 B.组内平方和 C.总平方和 D.水平项平方和 35.在方差分析中,数据的误差用平方和来表示的,其中反映各个样本均值之间误差大小的平方和称为(组间平方和) A.误差项平方和 B.组内平方和 C.组间平方和 D.总平方和 36.如果一个变量的取值完全依赖于另一个变量,各观测点落在一条直线上,称为两个变量之间为(完全相关关系)
A.完全相关关系 B.正线性相关关系 C.非线性相关关系 D.负线性相关关系
37.如果相关系数r=0,则表明两个变量之间(不存在线性相关关系)
A.相关程度很低 B.不存在任何关系 C.不存在线性相关关系 D.存在非线性相关关系 38.在一元线性回归方程中,回归系数
i的实际意义是(当x
变量1个单位时,y增加的总数量)
A.当x=0时,y的平均变动数量
B.当x变动1个单位时,y的平均变动数量 C.当x变动1个单位时,y增加的总数量 D.当y变动1个单位时,x的平均变动数量
39.对不同年份的产品成本拟合的直线方程为
y2801.75x,回归系数11.75表示(时间每增加
1个单位,产品成本平均下降1.75个单位)
A.时间每增加1个单位,产品成本平均增加1.75个单位
B.时间每增加1个单位,产品成本平均下降1.75个单位 C.产品成本每变动1个单位,平均需要1.75年时间
D.时间每减少1个单位,产品成本平均增加1.75个单位 40.说明回归方程拟合优度的统计量是(判定系数)
A.相关系数 B.回归系数 C.判定系数 D.估计标准误差 41.各实际观测值(yi)与回归值(
yˆi)的离差平方和称为(残
差平方和)
A.总变差平方和 B.残差平方和 C.回归平方和 D.判定系数 42.回归平方和占总平方和的比例称为(判定系数)
A.相关系数 B.回归系数 C.判定系数 D.估计标准误差 43.若两个变量存在负线性相关关系,则建立的一元线性回归方程的判定系数R2的取值范围是([0,1])
A.[0,1] B.[-1,0] C.[-1,1] D.小于0的任意数 44.若变量x与y之间的相关系数r=0,则下列结论中正确的是(判定系数R2=0)
A.判定系数R2=1 B.判定系数R2=0 C.回归系数ˆ
11 D.估计标准误差se=0
45.在多元线性回归方程
yˆiˆ0ˆ1x1ˆkxk中,回归系数ˆi表示(其他变量不变的条件下,自变量xi变动1
个单位时,因变量y的平均变动额为
ˆi)
A.自变量xi变动1个单位时,因变量y的平均变动额为
ˆi
B.其他变量不变的条件下,自变量xi变动1个单位时,因变
量y的平均变动额为ˆi
C.其他变量不变的条件下,自变量xi变动1个单位时,因变量y的变动总额为
ˆi
D.因变量y变动1个单位时,因变量xi的变动总额为ˆi
46.设在多元线性回归方程
yˆiˆ0ˆ1x1ˆkxk中,若自变量xi的回归系数
ˆi的取值接近0,这表明(自变量
xi对因变量y的影响不显著)
A.因变量y对自变量xi的影响不显著 B.因变量y对自变量xi的影响显著 C.自变量xi对因变量y的影响不显著 D.自变量xi对因变量y的影响显著
47.指数平滑法适合于预测(平稳序列)
A.平稳序列 B.非平稳序列 C.有趋势成分的序列 D.有季节成分的序列
48.移动平均法适合于预测(平稳序列)
A.平稳序列 B.非平稳序列 C.有趋势成分的序列 D.有季节成分的序列
ˆbbt,若b1为49.用最小二乘法拟合直线趋势方程为Y01
负数,表明该现象随着时间的推移呈现(下降趋势)
A.上升趋势 B.下降趋势 C.水平趋势 D.随机波动 50.对某一时间序列拟合的直线趋势方程为
ˆbbxYt01,如
果b1的值等于0,则表明该序列(没有趋势)
A.没有趋势 B.有上升趋势 C.有下降趋势 D,有非线性趋势
二、简答题
1.简要区别描述统计与推断统计?
答:描述统计研究的是数据收集、处理、汇总、图表描述、(1)从一组样本数据出发,确定变量之间的数学关系式。
(2)对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著。
(3)利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的可靠程度。
9.回归分析与相关分析的区别?
(1)相关分析中,变量x 变量y 处于平等的地位;回归分析中,变量y 称为因变量,处在被解释的地位,变量x 称为自变量,用于预测因变量的变化。
(2)相关分析中所涉及的变量x和y都是随机变量;回归概括与分析等方法。推断统计是研究如何利用样本数据来推断总体特征的统计方法。
2.一组数据的分布特征可以从哪几个方面进行测度?
答:数据分布特征一般可从集中趋势、离散程度、偏态和峰度几方面来测度。常用的指标有均值、中位数、众数、极差、方差、标准差、离散系数、偏态系数和峰度系数。
3.在列联分析中,简述2统计量的计算步骤?
4.简述单因素方差分析的基本步骤? (1)提出原假设
(2)构造检验的统计量
计算各样本的均值
计算全部观测值的总均值 计算各误差平方和: 总平方和(SST)=组间平方和(SSA)+组内平方和(SSE) 计算统计量 (3)统计决策 (4)方差分析表
(5)用Excel进行方差分析
5.简述双因素方差分析的基本步骤? (1)提出假设
(2)构造检验的统计量
(3)统计决策
6.简述方差分析的基本思路和原理? (1)图形描述 (2)误差分解
(3)误差分析
7.简述2分布、t分布、F分布及正态分布之间的关系?
8.回归分析主要解决哪几方面的问题?
分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量。
(3)相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。 10.简述一元线性关系的检验步骤? (1)提出假设
(2)计算检验统计量F (3)作出决策
三、名词解释
1.拉氏价格指数:以现期价格购买一个基期选定的商品组合的成本相对于以基期价格购买同一组合的成本的比值。 2.帕氏价格指数:以现期价格购买一个现期选定的商品组合的成本相对于以基期价格购买同一组合的成本的比值。 3.集中趋势:指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。
4.置信区间:由样本统计量所构造的总体参数的估计区间。 5.置信水平:将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例。
6.弃真错误:当原假设为真时拒绝原假设,所犯的就称为第一类错误,又称弃真错误,即α错误。
7.取伪错误:当原假设为假时没有拒绝原假设,所犯的就是第二类错误,又称取伪错误,即β错误。
8.多重共线性:当回归模型中两个或两个以上的自变量彼此相关时,则称回归模型中存在多重共线性。
9.趋势:是时间序列在长期内呈现出来的某种持续上升或持续下降的变动。 10.线性趋势:指现象随着时间的推移而呈现出稳定增长或下降的线性变化规律。 11.回归方程:描述因变量y的期望值如何依赖于自变量x的方程方程。
12.最小二乘估计:通过使因变量的观测值yi与估计值y
ˆi之间的离差平方和达到最小来估计0和1的方法。 13.判定系数:回归平方和占总平方和的比例。
14.估计标准误差:说明实际值与其估计值之间相对偏离程度的指标。
15.残差:是因变量的观测值yi与根据估计的回归方程求出的预测值yˆ
i之差。
16.拟合优度:指回归直线对观测值的拟合程度。 17.组内误差:来自水平内部的数据误差。 18.间接误差:间接测量的误差。
19.系统误差:在重复性条件下,对同一被测量进行无限多次测量所得结果的平均值与被测量的真值之差。 20.回归模型:描述因变量y如何依赖于自变量x和误差项ε的方程。
四、计算题
4.2
(
1)计算众数、中位数:M0=19和23;Me=23 (2)根据定义公式计算四分位数:Q1=19;Q3=26.5
(3)计算平均数和标准差:=24;
s=(x2
i
)
n
1
=6.65
(4)计算偏态系数和峰态系数: SK=
n(xi)3(n1)(n2)s
3
=1.08
K=
n(
n1)(xi)43[(xi)2]
2(n1)
(n1)(n2)(n3)s4
=0.773
(5)对网民年龄的分布特征进行综合分析:
样本数据的均值为24岁,但标准差较大,说明网民年龄之间差异较大。从偏态和峰度系数来看,网民年龄呈现右偏尖峰分布。
7.11某企业生产的袋装食品采用自动打包机包装,每袋标准重量为l00g。现从某天生产的一批产品中按重复抽样随机抽
已知食品包重量服从正态分布,要求:
(1)确定该种食品平均重量的95%的置信区间。 解:大样本,总体方差未知,用z统计量
z
N0,1;=101.4,s=1.829
置信区间:zs,zs2
1=0.95,z2=z0.025=1.96
zss2z2
=101.41.961.96 =(100.89,101.91)
(2)如果规定食品重量低于l00g属于不合格,确定该批食品合格率的95%的置信区间。 解:总体比率的估计
大样本,总体方差未知,用z统计量
z
N0,1;p=(50-5)/50=0.9
置信区间:pzpz 1=0.95,z2=z0.025=1.96
pzpz2 =0.91.961.96 =(0.8168,0.9832)
7.18某居民小区共有居民500户,小区管理者准备采取一项新的供水设施,想了解居民是否赞成。采取重复抽样方法随机抽取了50户,其中有32户赞成,18户反对。 (1)求总体中赞成新措施的户数比例的置信区间(α=0.05)
已知:n50,p
32
50
0.64,0.05,z0.05/21.96,总体中赞成该项改革的户数比例的95%的置信区间为:pzp(1-p)α/2
n0.641.0.64(1-0.64)
50
0.640.13即(0.51,0.77)
(2)如果小区管理者预计赞成的比例能达到80%,要求估计误差不超过10%。应抽取多少户进行调查(α=0.05)?
已知:0.80,0.05,z0.05/21.96应抽取的样本量为:
2
2
n
(z/2)(1)1.960.80(10.80E2)
0.1
2
62
7.20顾客到银行办理业务时往往需要等待一段时间,而等待时间的长短与许多因素有关,比如,银行业务员办理业务的速度,顾客等待排队的方式等。为此,某银行准备采取两种排队方式进行试验,第一种排队方式是:所有顾客都进入一个等待队列;第二种排队方式是:顾客在三个业务窗口处列队三排等待。为比较哪种排队方式使顾客等待的时间更短,银行各随机抽取10名顾客,他们在办理业务时所等待的时
要求: (1)构建第一种排队方式等待时间标准差的95%置信区间。
解:估计统计量:n1S2
2
~2n1 样本标准差:s2
2=0.2272
置信区间:n1S22n1S2
212
2n12n11=0.95,n=10,
2
2n1=
20.025
9=19.02,
21=2
12n0.9759=2.7
n1S2n1S22,2 2n11n1
=
90.227219.02,90.2272
2.7
=(0.1075,0.7574)
因此,标准差的置信区间为(0.3279,0.8703) (2)构建第二种排队方式等待时间标准差的95%置信区间。
n1S2
解:估计统计量:
2
2
~
n1
样本标准差s2
1=3.318
置信区间:n1S22n12n1S2
2
212n11=0.95,n=10,
22n1=20.0259=19.02,
2=2
1n10.9759=2.7
n1S2n
1S22,2 n1
12n1
=
93.318919.02,3.318
2.7
=(1.57,11.06)
因此,标准差的置信区间为(1.25,3.33)
(3)根据(1)和(2)的结果,你认为哪种排队方式更好? 答:第一种方式好,标准差小!
8.4糖厂用自动打包机打包,每包标准重量是100千克。每天开工后需要检验一次打包机工作是否正常。某日开工后测得9包重量(单位:千克)如下:99.3 98.7 100.5 101.2 98.3 99.7 99.5 102.1 100.5 已知包重服从正态分布,试检验该日打包机工作是否正常(a=0.05)? 解:H0:μ=100;H1:μ≠100
经计算得:=99.9778;S=1.21221 检验统计量:
t
-0.055 当α=0.05,自由度n-1=8时,查表得tα/2=2。 因为t<t2,样本统计量落在接受区域,故接受原假设,拒绝备择假设,说明打包机工作正常。
8.10装配一个部件时可以采用不同的方法,所关心的问题是哪一个方法的效率更高。劳动效率可以用平均装配时间反映。现从不同的装配方法中各抽取12件产品,记录各自的装配时间(单位:分钟)如下:
甲:31 34 29 32 35 38 34 30 29 32 31 26 乙:26 24 28 29 30 29 32 26 31 29 32 28 两总体为正态总体,且方差相同。问两种方法的装配时间有无显著不同(a=0.05)?
解:建立假设H0:μ1-μ2=0;H1:μ1-μ2≠0
总体正态,小样本抽样,方差未知,方差相等,检验统计量
t
根据样本数据计算,得
n1=12,n2=12, 1=31.75,s1=3.19446, 2=28.6667,s2=2.46183。
2s
2
n2
11s1n11s2p
n2
1n2 =1210.9221621210.71067212122
=8.1326
t
=2.648
当α=0.05时,临界点为t2n1n22=t0.02522=
2.074,此题中t>t2,故拒绝原假设,认为两种方法的装配时间有显著差异。
8.14某工厂制造螺栓,规定螺栓口径为7.0cm,方差为0.03cm。今从一批螺栓中抽取80个测量其口径,得平均值为6.97cm,方差为0.0375cm。假定螺栓口径为正态分布,问这批螺栓是否达到规定的要求?(α=0.05)
H0:2=7;H1:27
0/n6.977
.03/1.5490.0025
不能拒绝原假设。
8.15有人说在大学中男生的学习成绩比女生的学习成绩好。现从一个学校中随机抽取了25名男生和16名女生,对他们进行了同样题目的测试。测试结果表明,男生的平均成绩为82分,方差为56分,女生的平均成绩为78分,方差为49分。假设显著性水平α=0.02,从上述数据中能得到什么结论?
解:首先进行方差是否相等的检验:
建立假设H0:2222
1=2;H1:1≠2 n1=25,s221=56,n2=16,s2=49,
Fs2
156s2==1.143 2
49当α=0.02时,F24,15=3.294,F124,15=0.346。由于F1224,15<F<F24,15,检验统计量的值落在接受域中,所以接受原假设,说明总体方差无显著差异。
检验均值差:
建立假设H0:μ1-μ2=0;H1:μ1-μ2=0
总体正态,小样本抽样,方差未知,方差相等,
检验统计量
t
,
根据样本数据计算,得n1=25,n2=16,
22
1=82,s1=56,2=78,s2
=49 s
2
n1s21s2
11n12p
n=53.308
1n22
t
=1.711
α=0.02时,临界点为tn1n22=t0.0239=2.125,t<t,故不能拒绝原假设,不能认为大学中男生的学习成绩比女生的学习成绩好。
一、单项选择题
1.根据样本计算的用于推断总体特征的概括性度量值称作(参数)
A.参数 B.总体 C.样本 D.统计量
2.只能归于某一类别的非数字型数据称为(分类数据) A.分类数据 B.顺序数据 C.数值型数据 D.数值型变量 3.只能归于某一有序类别的非数字型数据称为(顺序数据) A.分类数据 B.顺序数据 C.数值型数据 D.数值型变量 4.用来描述样本特征的概括性数字度量称为(统计量) A.参数 B.统计量 C.变量 D.变量值
5.为了调查某校学生的购书费用支出,从全校抽取4个班级的学生进行调查,这种调查方法是(整群抽样)
A.简单随机抽样 B.系统抽样 C.分层抽样 D.整群抽样 6.为了调查某校学生的购书费用支出,从男生中抽取60名学生调查,从女生中抽取40名学生进行调查,这种调查方法是(分层抽样)
A.简单随机抽样 B.整群抽样 C.系统抽样 D.分层抽样 7.经验法则表明,当一组数据对称分布时,在平均数加减1个标准差的范围之内大约有(68%) A.68% B.95% C.99% D.100%
8.经验法则表明,当一组数据对称分布时,在平均数加减2个标准差的范围内大约有(95%) A.68% B.95% C.99% D.100%
9.离散系数的主要用途是(比较多组数据的离散程度)
A.反映一组数据的离散程度 B.反映一组数据的平均水平 C.比较多组数据的离散程度 D.比较多组数据的平均水平 10.比较两组数据的离散程度最适合的统计量是(离散系数) A.极差 B.平均差 C.标准差 D.离散系数 11.峰态通常是与标准正态分布相比较而言的,如果一组数据服从标准正态分布,则峰态系数的值(等于0) A.等于0 B.大于0 C.小于0 D.等于1
12.如果峰态系数k>0,表明该组数据是(尖峰分布) A.尖峰分布 B.扁平分布 C.左偏分布 D.右偏分布 13.某居民小区准备采取一项新的物业管理措施,为此,随机抽取了100户居民进行调查,其中表示赞成的有69户,表示中立的有22户,表示反对的有9户,则该组数据的中位数是(赞成)
A.赞成 B.69 C.中立 D.22
14.某班共有25名学生,期未统计学课程的考试分数分别为68、73、66、76、86、74、61、89、65、90、69、67、76、62、81、63、68、81、70、73、60、87、75、64、56,那么该班考试分数的下四分位数和上四分位数分别是(64.5和78.5)
A.64.5和78.5 B.67.5和71.5 C.64.5和71.5 D.64.5和67.5 15.某行业中随机抽取10家企业,第一季度的利润额(单位:万元)分别是:72、63.1、54.7、54.3、29、26.9、25、23.9、23、20,该组数据的中位数为(27.95) A.28.46 B.30.20 C.27.95 D.28.12 16.一组数据的离散系数为0.4,平均数为20,则标准差为(8) A.80 B.0.02 C.4 D.8
n
(xi
)
2
方差:s2
i1
n1
;离散系数:vs
s 17.根据中心极限定理可知,当样本容量充分大时,样本均值的抽样分布服从正态分布,其分布的均值为(µ)
2
A.µ B.X C.2
D.n
18. 根据中心极限定理可知,当样本容量充分大时,样本均
值的抽样分布服从正态分布,其分布的方差为(2
n
)
2A.µ B.X C.2
D.
n
19.假设总体服从均匀分布,从此总体中抽取容量为36的样本,则样本均值的抽样分布(近似正态分布)
A.服从非正态分布 B.近似正态分布 C.服从均匀分布 D.服从2分布
20.总体均值为50,标准差为8,从此总体中随机抽取容量为
64的样本,则样本均值的抽样分布的均值和标准误差分别为(50,1)
A.50,8 B.50,1 C.50,4 D.8,8
21.当正态总体的方差未知时,在大样本条件下,估计总体均值使用的分布是(正态分布)
A.正态分布 B.t分布 C.2
分布 D.F分布 22.当正态总体的方差未知时,在小样本条件下,估计总体均值使用的分布是(t分布)
A.正态分布 B.t分布 C.2分布 D.F分布
23.根据两个匹配的小样本估计两个总体均值之差时,使用的
分布是(t分布)
A.正态分布 B.t分布 C.2分布 D.F分布
24.估计两个总体方差比的置信区间时,使用的分布是(F分
布)
A.正态分布 B.t分布 C.2分布 D.F分布
25.一种零件的标准长度5cm,要检验某天生产的零件是否符
合标准要求,建立的原假设和备择假设应为(H0:µ=5,H1: µ≠5) A.H0:µ=5,H1: µ≠5 B.H0:µ≠5,H1: µ=5 C.H0:µ≤5,H1: µ≥5 D.H0:µ≥5,H1: µ≤5
26.一项研究表明,中学生中吸烟的比例高达30%,为检验这一说法是否属实,建立的原假设和备择假设应为(H0:=30%,H1:≠30%) A.H0:µ=30%,H1: µ≠30% B.H0:=30%,H1:≠30% C.H0:≥30%,H1:≤30% D. H0:≤30%,H1:≥30% 27.列联分析是利用列联表来研究(两个分类变量的关系)
A.两个分类变量的关系 B.两个数值型变量的关系 C.一个分类变量和一个数值型变量的关系 D.两个数值型变量的分布
28.设R为列联表的行数,C为列联表的列数,则2分布的
自由度为((R-1)×(C-1))
A.R B.C C.R×C D.(R-1)×(C-1) 29.方差分析的主要目的是判断(分类型自变量对数值型因变量的影响是否显著) A.各总体是否存在方差
B.各样本数据之间是否有显著差异
C.分类型自变量对数值型因变量的影响是否显著 D.分类型因变量对数值型自变量的影响是否显著
30.组间误差是衡量不同水平下各样本数据之间的误差,它(既包括随机误差,又包括系统误差)
A.只包括随机误差 B.只包括系统误差 C.既包括随机误差,又包括系统误差 D.有时包括随机误差,有时包括系统误差 31.组内误差是衡量某一水平下样本数据之间的误差,它(只包括随机误差)
A.只包括随机误差 B.只包括系统误差 C.既包括随机误差,又包括系统误差 D.有时包括随机误差,有时包括系统误差 32.单因素方差分析是指只涉及(一个分类型自变量)
A.一个分类型自变量 B.一个数值型自变量 C.两个分类型自变量 D.两个数值型因变量
33.双因素方差分析涉及(两个分类型自变量)
A.两个分类型自变量 B.两个数值型自变量 C.两个分类型因变量 D.两个数值型因变量
34.在方差分析中,数据的误差用平方和来表示的,其中反映一个样本中各观测值误差大小的平方和称为(组内平方和) A.组间平方和 B.组内平方和 C.总平方和 D.水平项平方和 35.在方差分析中,数据的误差用平方和来表示的,其中反映各个样本均值之间误差大小的平方和称为(组间平方和) A.误差项平方和 B.组内平方和 C.组间平方和 D.总平方和 36.如果一个变量的取值完全依赖于另一个变量,各观测点落在一条直线上,称为两个变量之间为(完全相关关系)
A.完全相关关系 B.正线性相关关系 C.非线性相关关系 D.负线性相关关系
37.如果相关系数r=0,则表明两个变量之间(不存在线性相关关系)
A.相关程度很低 B.不存在任何关系 C.不存在线性相关关系 D.存在非线性相关关系 38.在一元线性回归方程中,回归系数
i的实际意义是(当x
变量1个单位时,y增加的总数量)
A.当x=0时,y的平均变动数量
B.当x变动1个单位时,y的平均变动数量 C.当x变动1个单位时,y增加的总数量 D.当y变动1个单位时,x的平均变动数量
39.对不同年份的产品成本拟合的直线方程为
y2801.75x,回归系数11.75表示(时间每增加
1个单位,产品成本平均下降1.75个单位)
A.时间每增加1个单位,产品成本平均增加1.75个单位
B.时间每增加1个单位,产品成本平均下降1.75个单位 C.产品成本每变动1个单位,平均需要1.75年时间
D.时间每减少1个单位,产品成本平均增加1.75个单位 40.说明回归方程拟合优度的统计量是(判定系数)
A.相关系数 B.回归系数 C.判定系数 D.估计标准误差 41.各实际观测值(yi)与回归值(
yˆi)的离差平方和称为(残
差平方和)
A.总变差平方和 B.残差平方和 C.回归平方和 D.判定系数 42.回归平方和占总平方和的比例称为(判定系数)
A.相关系数 B.回归系数 C.判定系数 D.估计标准误差 43.若两个变量存在负线性相关关系,则建立的一元线性回归方程的判定系数R2的取值范围是([0,1])
A.[0,1] B.[-1,0] C.[-1,1] D.小于0的任意数 44.若变量x与y之间的相关系数r=0,则下列结论中正确的是(判定系数R2=0)
A.判定系数R2=1 B.判定系数R2=0 C.回归系数ˆ
11 D.估计标准误差se=0
45.在多元线性回归方程
yˆiˆ0ˆ1x1ˆkxk中,回归系数ˆi表示(其他变量不变的条件下,自变量xi变动1
个单位时,因变量y的平均变动额为
ˆi)
A.自变量xi变动1个单位时,因变量y的平均变动额为
ˆi
B.其他变量不变的条件下,自变量xi变动1个单位时,因变
量y的平均变动额为ˆi
C.其他变量不变的条件下,自变量xi变动1个单位时,因变量y的变动总额为
ˆi
D.因变量y变动1个单位时,因变量xi的变动总额为ˆi
46.设在多元线性回归方程
yˆiˆ0ˆ1x1ˆkxk中,若自变量xi的回归系数
ˆi的取值接近0,这表明(自变量
xi对因变量y的影响不显著)
A.因变量y对自变量xi的影响不显著 B.因变量y对自变量xi的影响显著 C.自变量xi对因变量y的影响不显著 D.自变量xi对因变量y的影响显著
47.指数平滑法适合于预测(平稳序列)
A.平稳序列 B.非平稳序列 C.有趋势成分的序列 D.有季节成分的序列
48.移动平均法适合于预测(平稳序列)
A.平稳序列 B.非平稳序列 C.有趋势成分的序列 D.有季节成分的序列
ˆbbt,若b1为49.用最小二乘法拟合直线趋势方程为Y01
负数,表明该现象随着时间的推移呈现(下降趋势)
A.上升趋势 B.下降趋势 C.水平趋势 D.随机波动 50.对某一时间序列拟合的直线趋势方程为
ˆbbxYt01,如
果b1的值等于0,则表明该序列(没有趋势)
A.没有趋势 B.有上升趋势 C.有下降趋势 D,有非线性趋势
二、简答题
1.简要区别描述统计与推断统计?
答:描述统计研究的是数据收集、处理、汇总、图表描述、(1)从一组样本数据出发,确定变量之间的数学关系式。
(2)对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著。
(3)利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的可靠程度。
9.回归分析与相关分析的区别?
(1)相关分析中,变量x 变量y 处于平等的地位;回归分析中,变量y 称为因变量,处在被解释的地位,变量x 称为自变量,用于预测因变量的变化。
(2)相关分析中所涉及的变量x和y都是随机变量;回归概括与分析等方法。推断统计是研究如何利用样本数据来推断总体特征的统计方法。
2.一组数据的分布特征可以从哪几个方面进行测度?
答:数据分布特征一般可从集中趋势、离散程度、偏态和峰度几方面来测度。常用的指标有均值、中位数、众数、极差、方差、标准差、离散系数、偏态系数和峰度系数。
3.在列联分析中,简述2统计量的计算步骤?
4.简述单因素方差分析的基本步骤? (1)提出原假设
(2)构造检验的统计量
计算各样本的均值
计算全部观测值的总均值 计算各误差平方和: 总平方和(SST)=组间平方和(SSA)+组内平方和(SSE) 计算统计量 (3)统计决策 (4)方差分析表
(5)用Excel进行方差分析
5.简述双因素方差分析的基本步骤? (1)提出假设
(2)构造检验的统计量
(3)统计决策
6.简述方差分析的基本思路和原理? (1)图形描述 (2)误差分解
(3)误差分析
7.简述2分布、t分布、F分布及正态分布之间的关系?
8.回归分析主要解决哪几方面的问题?
分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量。
(3)相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。 10.简述一元线性关系的检验步骤? (1)提出假设
(2)计算检验统计量F (3)作出决策
三、名词解释
1.拉氏价格指数:以现期价格购买一个基期选定的商品组合的成本相对于以基期价格购买同一组合的成本的比值。 2.帕氏价格指数:以现期价格购买一个现期选定的商品组合的成本相对于以基期价格购买同一组合的成本的比值。 3.集中趋势:指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。
4.置信区间:由样本统计量所构造的总体参数的估计区间。 5.置信水平:将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例。
6.弃真错误:当原假设为真时拒绝原假设,所犯的就称为第一类错误,又称弃真错误,即α错误。
7.取伪错误:当原假设为假时没有拒绝原假设,所犯的就是第二类错误,又称取伪错误,即β错误。
8.多重共线性:当回归模型中两个或两个以上的自变量彼此相关时,则称回归模型中存在多重共线性。
9.趋势:是时间序列在长期内呈现出来的某种持续上升或持续下降的变动。 10.线性趋势:指现象随着时间的推移而呈现出稳定增长或下降的线性变化规律。 11.回归方程:描述因变量y的期望值如何依赖于自变量x的方程方程。
12.最小二乘估计:通过使因变量的观测值yi与估计值y
ˆi之间的离差平方和达到最小来估计0和1的方法。 13.判定系数:回归平方和占总平方和的比例。
14.估计标准误差:说明实际值与其估计值之间相对偏离程度的指标。
15.残差:是因变量的观测值yi与根据估计的回归方程求出的预测值yˆ
i之差。
16.拟合优度:指回归直线对观测值的拟合程度。 17.组内误差:来自水平内部的数据误差。 18.间接误差:间接测量的误差。
19.系统误差:在重复性条件下,对同一被测量进行无限多次测量所得结果的平均值与被测量的真值之差。 20.回归模型:描述因变量y如何依赖于自变量x和误差项ε的方程。
四、计算题
4.2
(
1)计算众数、中位数:M0=19和23;Me=23 (2)根据定义公式计算四分位数:Q1=19;Q3=26.5
(3)计算平均数和标准差:=24;
s=(x2
i
)
n
1
=6.65
(4)计算偏态系数和峰态系数: SK=
n(xi)3(n1)(n2)s
3
=1.08
K=
n(
n1)(xi)43[(xi)2]
2(n1)
(n1)(n2)(n3)s4
=0.773
(5)对网民年龄的分布特征进行综合分析:
样本数据的均值为24岁,但标准差较大,说明网民年龄之间差异较大。从偏态和峰度系数来看,网民年龄呈现右偏尖峰分布。
7.11某企业生产的袋装食品采用自动打包机包装,每袋标准重量为l00g。现从某天生产的一批产品中按重复抽样随机抽
已知食品包重量服从正态分布,要求:
(1)确定该种食品平均重量的95%的置信区间。 解:大样本,总体方差未知,用z统计量
z
N0,1;=101.4,s=1.829
置信区间:zs,zs2
1=0.95,z2=z0.025=1.96
zss2z2
=101.41.961.96 =(100.89,101.91)
(2)如果规定食品重量低于l00g属于不合格,确定该批食品合格率的95%的置信区间。 解:总体比率的估计
大样本,总体方差未知,用z统计量
z
N0,1;p=(50-5)/50=0.9
置信区间:pzpz 1=0.95,z2=z0.025=1.96
pzpz2 =0.91.961.96 =(0.8168,0.9832)
7.18某居民小区共有居民500户,小区管理者准备采取一项新的供水设施,想了解居民是否赞成。采取重复抽样方法随机抽取了50户,其中有32户赞成,18户反对。 (1)求总体中赞成新措施的户数比例的置信区间(α=0.05)
已知:n50,p
32
50
0.64,0.05,z0.05/21.96,总体中赞成该项改革的户数比例的95%的置信区间为:pzp(1-p)α/2
n0.641.0.64(1-0.64)
50
0.640.13即(0.51,0.77)
(2)如果小区管理者预计赞成的比例能达到80%,要求估计误差不超过10%。应抽取多少户进行调查(α=0.05)?
已知:0.80,0.05,z0.05/21.96应抽取的样本量为:
2
2
n
(z/2)(1)1.960.80(10.80E2)
0.1
2
62
7.20顾客到银行办理业务时往往需要等待一段时间,而等待时间的长短与许多因素有关,比如,银行业务员办理业务的速度,顾客等待排队的方式等。为此,某银行准备采取两种排队方式进行试验,第一种排队方式是:所有顾客都进入一个等待队列;第二种排队方式是:顾客在三个业务窗口处列队三排等待。为比较哪种排队方式使顾客等待的时间更短,银行各随机抽取10名顾客,他们在办理业务时所等待的时
要求: (1)构建第一种排队方式等待时间标准差的95%置信区间。
解:估计统计量:n1S2
2
~2n1 样本标准差:s2
2=0.2272
置信区间:n1S22n1S2
212
2n12n11=0.95,n=10,
2
2n1=
20.025
9=19.02,
21=2
12n0.9759=2.7
n1S2n1S22,2 2n11n1
=
90.227219.02,90.2272
2.7
=(0.1075,0.7574)
因此,标准差的置信区间为(0.3279,0.8703) (2)构建第二种排队方式等待时间标准差的95%置信区间。
n1S2
解:估计统计量:
2
2
~
n1
样本标准差s2
1=3.318
置信区间:n1S22n12n1S2
2
212n11=0.95,n=10,
22n1=20.0259=19.02,
2=2
1n10.9759=2.7
n1S2n
1S22,2 n1
12n1
=
93.318919.02,3.318
2.7
=(1.57,11.06)
因此,标准差的置信区间为(1.25,3.33)
(3)根据(1)和(2)的结果,你认为哪种排队方式更好? 答:第一种方式好,标准差小!
8.4糖厂用自动打包机打包,每包标准重量是100千克。每天开工后需要检验一次打包机工作是否正常。某日开工后测得9包重量(单位:千克)如下:99.3 98.7 100.5 101.2 98.3 99.7 99.5 102.1 100.5 已知包重服从正态分布,试检验该日打包机工作是否正常(a=0.05)? 解:H0:μ=100;H1:μ≠100
经计算得:=99.9778;S=1.21221 检验统计量:
t
-0.055 当α=0.05,自由度n-1=8时,查表得tα/2=2。 因为t<t2,样本统计量落在接受区域,故接受原假设,拒绝备择假设,说明打包机工作正常。
8.10装配一个部件时可以采用不同的方法,所关心的问题是哪一个方法的效率更高。劳动效率可以用平均装配时间反映。现从不同的装配方法中各抽取12件产品,记录各自的装配时间(单位:分钟)如下:
甲:31 34 29 32 35 38 34 30 29 32 31 26 乙:26 24 28 29 30 29 32 26 31 29 32 28 两总体为正态总体,且方差相同。问两种方法的装配时间有无显著不同(a=0.05)?
解:建立假设H0:μ1-μ2=0;H1:μ1-μ2≠0
总体正态,小样本抽样,方差未知,方差相等,检验统计量
t
根据样本数据计算,得
n1=12,n2=12, 1=31.75,s1=3.19446, 2=28.6667,s2=2.46183。
2s
2
n2
11s1n11s2p
n2
1n2 =1210.9221621210.71067212122
=8.1326
t
=2.648
当α=0.05时,临界点为t2n1n22=t0.02522=
2.074,此题中t>t2,故拒绝原假设,认为两种方法的装配时间有显著差异。
8.14某工厂制造螺栓,规定螺栓口径为7.0cm,方差为0.03cm。今从一批螺栓中抽取80个测量其口径,得平均值为6.97cm,方差为0.0375cm。假定螺栓口径为正态分布,问这批螺栓是否达到规定的要求?(α=0.05)
H0:2=7;H1:27
0/n6.977
.03/1.5490.0025
不能拒绝原假设。
8.15有人说在大学中男生的学习成绩比女生的学习成绩好。现从一个学校中随机抽取了25名男生和16名女生,对他们进行了同样题目的测试。测试结果表明,男生的平均成绩为82分,方差为56分,女生的平均成绩为78分,方差为49分。假设显著性水平α=0.02,从上述数据中能得到什么结论?
解:首先进行方差是否相等的检验:
建立假设H0:2222
1=2;H1:1≠2 n1=25,s221=56,n2=16,s2=49,
Fs2
156s2==1.143 2
49当α=0.02时,F24,15=3.294,F124,15=0.346。由于F1224,15<F<F24,15,检验统计量的值落在接受域中,所以接受原假设,说明总体方差无显著差异。
检验均值差:
建立假设H0:μ1-μ2=0;H1:μ1-μ2=0
总体正态,小样本抽样,方差未知,方差相等,
检验统计量
t
,
根据样本数据计算,得n1=25,n2=16,
22
1=82,s1=56,2=78,s2
=49 s
2
n1s21s2
11n12p
n=53.308
1n22
t
=1.711
α=0.02时,临界点为tn1n22=t0.0239=2.125,t<t,故不能拒绝原假设,不能认为大学中男生的学习成绩比女生的学习成绩好。