1. 统计数据类型及其特点:①分类数据,只能归于某一类别的非数字型数据,对事物进行
分类的结果,数据表现为类别,用文字来表述②顺序数据,只能归于某一有序类别的非数字型数据,对事物类别顺序的测度,数据表现为类别,用文字来表述③数值型数据,按数字尺度测量的观察值,结果表现为具体的数值,对事物的精确测度。
2. 概率抽样:按一定的概率以随机原则抽取样本,每个单位被抽中的概率是已知的,或是
可以计算出来的,当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率;非概率抽样:抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
3. 茎叶图类似横置的直方图, 与直方图相比, 茎叶图能够给出数据的分布状态,又能给出每
一个原始数值,即保留了原始数据的信息。在应用方面,直方图通常适用于大批量数据,茎叶图通常适用于小批量数据。
4. 众数,不受极端值影响,具有不惟一性。数据分布偏斜程度较大且有明显峰值时应用。
中位数,不受极端值影响。数据分布偏斜程度较大时应用。平均数,易受极端值影响,数学性质优良。数据对称分布或接近对称分布时应用P95
5. 当n 趋向于正无穷大,X^2的极限分布就是正太分布;随着自由度n 的增加,t 分布的
密度函数越来越接近于标准正太分布的密度函数。一般n ≥30时,t 分布与标准正太分布就非常接近;如果随机变量X 服从t(n)分布,则X^2服从F (1,n )的F 分布。
6. 由100个样本构造的总体参数的100个置信区间中,有95%的区间包含了总体参
数的真值,则95%的这个值被称为置信水平,即95%置信区间。
7. 参数估计和假设检验是统计推断的两个组成部分,它们都是利用样本对总体进行某种推
断。然而推断的角度不同。参数估计讨论的是利用样本统计量估计总体参数的方法,总体参数μ在估计前是未知的。而在假设检验中,则是先对μ的值提供一个假设,然后利用样本信息去检验这个假设是否成立。
8. 相关系数的性质①r 的取值范围是 [-1,1]②r 具有对称性。③r 数值大小与x 和y 原点
及尺度无关④仅仅是x 与y 之间线性关系的一个度量,它不能用于描述非线性关系⑤r 虽然是两个变量之间线性关系的一个度量,却不一定意味着x 与y 一定有因果关系
9. 判定系数R 2 ,回归平方和占总误差平方和的比例。反映回归直线的拟合程度
10. 预测步骤:确定并分离季节成本;建立预测模型并进行预测;计算最后的预测值
11. 加权综合指数和加权平均指数的相同只是形式上的,本质上还是有区别的,主要表现在是全面资料还是样本资料。如果是全面资料,可以采用加权综合指数;而计算价格指数时,只能采取选样方法,若采用加权综合指数,其结果就仅仅计算了代表规格品的价格变化。
4.8 一项关于大学生体重状况的研究发现.男生的平均体重为60kg ,标准差为5kg ;女生
的平均体重为50kg ,标准差为5kg 。请回答下面的问题:
(1)是男生的体重差异大还是女生的体重差异大? 为什么? (2)以磅为单位(1ks=
2.2lb) ,求体重的平均数和标准差。(3)粗略地估计一下,男生中有百分之几的人体重在55kg 一65kg 之间? (4)粗略地估计一下,女生中有百分之几的人体重在40kg ~60kg 之间? 解:(1)女生,因为标准差一样,而均值男生大,所以,离散系数是男生的小,离散程度是男生的小。(2)都是各乘以2.21,男生的平均体重为60kg ×2.21=132.6磅,标准差为5kg ×
2.21=11.05磅;女生的平均体重为50kg ×2.21=110.5磅,标准差为5kg ×2.21=11.05磅。
x -55-60x -65-60==-1;Z2===1,根据经验规则,男生大s 5s 5
x -40-50约有68%的人体重在55kg 一65kg 之间。(4)计算标准分数:Z1===-2;s 5
x -60-50Z2===2,根据经验规则,女生大约有95%的人体重在40kg 一60kg 之间。 s 5(3)计算标准分数:Z1=
4.11 对10名成年人和10名幼儿的身高进行抽样调查,结果如下:
成年组 166 169 l72 177 180 170 172 174 168 173 幼儿组 68 69 68 70 7l 73 72 73 74 75
要求:(1)如果比较成年组和幼儿组的身高差异,你会采用什么样的统计量? 为什么? (2)比较分析哪一组的身高差异大
解:(1)均值不相等,用离散系数衡量身高差异。(2)
成年组平均 172.1标准差 4.201851离散系数0.024415 幼儿组平均 71.3标准差
2.496664离散系数 0.035016 幼儿组的身高差异大。
7.15 在一项家电市场调查中.随机抽取了200个居民户,调查他们是否拥有某一品牌的电视机。其中拥有该品牌电视机的家庭占23%。求总体比例的置信区间,置信水平分别为90%和95%。
解:总体比率的估计
大样本,总体方差未知,用z 统计量
z = N (0,1)样本比率=0.23置信
⎛
区间: p -z α2。1-α=0.90,z α=z
0.025=1.645 p +z α2 ⎝⎛
p -z αp +z α2 ⎝⎛
= 0.23-1.645=(0.1811,0.2789) +1.645 ⎝⎛1-α=0.95,z α2=z 0.025=1.96
。 p -z α2
p +z α2
⎝= 0.23-1.96⎛
⎝
=(0.1717,0.2883) +1.968.6 某厂家在广告中声称, 该厂生产的汽车轮胎在正常行驶条件下超过目前的平均水平25000公里, 对一个由15个轮胎组成的随机样本做了试验, 得到样本均值和标准差分别27000公里和5000公里. 假定轮胎寿命服从状态分布, 问该厂家的广告是否真实?
H 0:μ≤25000; H 1:μ>25000
如果原假设为真,则t = t(n-1)。
给定显著性水平α=0.05,查t 分布表,得临界值
t α(n -1) =t 0.05(14)=1.7709。
所以,拒绝域为(1.7709,+∞)。解
:t ==1.549t =1.549
所以,不拒绝原假设,即认为该厂家的广告是不真实的。
11.5 一家物流公司的管理人员想研究货物的运输距离和运输时间的关系,为此,他抽出了公司最近10个卡车运货记录的随机样本,得到运送距离(单位:km) 和运送时间(单位:天)
要求:(1)绘制运送距离和运送时间的散点图,判断二者之间的关系形态:(2)计算线性相关系数,说明两个变量之间的关系强度。(3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。 解:(1)可能存在线性关系。(2) x 运送距离(km ) Pearson 相关性 1 0.949(**)
显著性(双侧) 0.000
N 10 10
y 运送时间(天) Pearson 相关性 0.949(**) 1
显著性(双侧) 0.000 有很强的线性关系。(3) 非标准化系数 系数
模型 B 标准误 Beta t 显著性
1 (常量) 0.118 0.355 0.333 0.748 回归系数的含义:每公里增加0.004天。
11.9 某汽车生产商欲了解广告费用(x)对销售量(y)的影响,收集了过去12年的有关数据。通过计算得到下面的有关结果:
起的?(3)销售量与广告费用之间的相关系数是多少? (4)写出估计的回归方程并解释回归系数的实际意义。(5)检验线性关系的显著性(a=0.05) 。
2解:(2)R =1602708.6/1642866.67=0.9756,汽车销售量的变差中有97.56%是由于广告费
用的变动引起的。(3)r=0.9877。(4)回归方程=363.68+1.42x。回归系数的意义:广告费用每增加一个单位,汽车销量就增加1.42个单位。(5)回归系数的检验:p=2.17E—09<α,回归系数不等于0
,显著。回归直线的检验:p=2.17E—09<α,回归直线显著。 而增加的生产费用(3)计算两种产品单位成本总指数以及由于成本降低而节约的生产费用。 解:(1)甲产品产量指数为:I q 甲=q1甲/q0甲=2200/2000=110.00% 甲产品单位成本指数为:I p 甲=p1甲/p0甲=12.5/12.0=104.17% 乙产品产量指数为:I q 乙=q1乙/q0乙=6000/5000=120.00% 乙产品单位成本指数为:I p 乙=p1乙/p0乙=6.0/6.2=96.77%
(2)拉氏产量指数计算结果为:I q =∑p 0q 1/∑p 0q 0=(2200*12.0+6000*6.2)/
(2000*12.0+5000*6.2)=115.64% 帕氏产量指数计算结果为:I q =∑p 1q 1/∑p 1q 0=(2200*12.5+6000*6.0)/(2000*12.5+5000*6.0)=115.45% 由于产量增加而增加的生产费用为:∑p 0q 1-∑p 0q 0=(2200*12.0+6000*6.2)-(2000*12.0+5000*6.2)=8600(元)(3)拉氏产品单位成本指数计算结果为:I p =∑p 1q 0/∑p 0q 0=(2000*12.5+5000*6.0)/(2000*12.0+5000*6.2)=100.00% 帕氏产品单位成本指数计算结果为:I p =∑p 1q 1/∑p 0q 1=(2200*12.5+6000*6.0)/(2200*12.0+6000*6.2)=99.84% 由于成本降低而节省的费用为:∑p 0q 1-∑p 1q 1=(2200*12.0+6000*6.2)-(2200*12.5+6000*6.0)=100(元)
和相对值。
解:三种商品的销售额总指数为:I 丙=∑p 1q 1/∑p 0q 0=(115*100+220*55+315*25)/(100*100+200*50+300*20)=121.06% 销售量和价格变动对销售额影响的绝对值为:∑p 1q 1-∑p 0q 0=(115*100+220*55+315*25)-(100*100+200*50+300*20)=5475(元)销售量变动对销售额影响的相对值为:∑p 0q 1-∑p 0q 0=(115*100+220*50+315*20)-(100*100+200*50+300*20)=2800(元)价格变动对销售额影响的相对值为:∑p 1q 1-∑p 0q 1=(115*100+220*55+315*25)-(115*100+220*50+315*20)=2800(元)
14.9某工厂有三个生产车间,基期和报告期各车间的职工人数和劳动生产率资料如下表。
00011f 1=6.18(万元/人)该企业平均劳动生产率=∑x 0f 1/∑f 1=6.02(万元/人)
总平均水平指数=6.18/6.32=97.79% 劳动生产率变动额=6.18-6.32=-0.14(万元/人) 其中(1)三个车间劳动生产率的变动对平均劳动生产率的影响:组水平变动指数I x =6.18/6.02=102.58% 各车间劳动生产率的变动对全厂劳动生产率的影响:
6.18-6.02=0.16(万元/人) (2)各车间人数变动对劳动生产率的影响:结构变动指数I f =6.02/6.32=95.32%
各车间人数结构的变动对全厂劳动生产率的影响:6.02-6.32=-0.3(万元/人)
计算结果表明,全厂平均劳动生产率下降了2.21%,由于各车间劳动生产率提高使得全厂劳动生产率提高2.58%,各车间人数结构变动使得全厂劳动生产率下降4.68%,即97.79%=102.58*95.32%。才绝对数上看,全厂劳动生产率降低了0.14(万元/人), 由于各车间劳动生产率提高使得全厂劳动生产率提高0.16(万元/人),各车间人数结构变动使全厂劳动生产率降低0.3(万元/人),即-0.14=0.16+(-0.3)
1. 统计数据类型及其特点:①分类数据,只能归于某一类别的非数字型数据,对事物进行
分类的结果,数据表现为类别,用文字来表述②顺序数据,只能归于某一有序类别的非数字型数据,对事物类别顺序的测度,数据表现为类别,用文字来表述③数值型数据,按数字尺度测量的观察值,结果表现为具体的数值,对事物的精确测度。
2. 概率抽样:按一定的概率以随机原则抽取样本,每个单位被抽中的概率是已知的,或是
可以计算出来的,当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率;非概率抽样:抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
3. 茎叶图类似横置的直方图, 与直方图相比, 茎叶图能够给出数据的分布状态,又能给出每
一个原始数值,即保留了原始数据的信息。在应用方面,直方图通常适用于大批量数据,茎叶图通常适用于小批量数据。
4. 众数,不受极端值影响,具有不惟一性。数据分布偏斜程度较大且有明显峰值时应用。
中位数,不受极端值影响。数据分布偏斜程度较大时应用。平均数,易受极端值影响,数学性质优良。数据对称分布或接近对称分布时应用P95
5. 当n 趋向于正无穷大,X^2的极限分布就是正太分布;随着自由度n 的增加,t 分布的
密度函数越来越接近于标准正太分布的密度函数。一般n ≥30时,t 分布与标准正太分布就非常接近;如果随机变量X 服从t(n)分布,则X^2服从F (1,n )的F 分布。
6. 由100个样本构造的总体参数的100个置信区间中,有95%的区间包含了总体参
数的真值,则95%的这个值被称为置信水平,即95%置信区间。
7. 参数估计和假设检验是统计推断的两个组成部分,它们都是利用样本对总体进行某种推
断。然而推断的角度不同。参数估计讨论的是利用样本统计量估计总体参数的方法,总体参数μ在估计前是未知的。而在假设检验中,则是先对μ的值提供一个假设,然后利用样本信息去检验这个假设是否成立。
8. 相关系数的性质①r 的取值范围是 [-1,1]②r 具有对称性。③r 数值大小与x 和y 原点
及尺度无关④仅仅是x 与y 之间线性关系的一个度量,它不能用于描述非线性关系⑤r 虽然是两个变量之间线性关系的一个度量,却不一定意味着x 与y 一定有因果关系
9. 判定系数R 2 ,回归平方和占总误差平方和的比例。反映回归直线的拟合程度
10. 预测步骤:确定并分离季节成本;建立预测模型并进行预测;计算最后的预测值
11. 加权综合指数和加权平均指数的相同只是形式上的,本质上还是有区别的,主要表现在是全面资料还是样本资料。如果是全面资料,可以采用加权综合指数;而计算价格指数时,只能采取选样方法,若采用加权综合指数,其结果就仅仅计算了代表规格品的价格变化。
4.8 一项关于大学生体重状况的研究发现.男生的平均体重为60kg ,标准差为5kg ;女生
的平均体重为50kg ,标准差为5kg 。请回答下面的问题:
(1)是男生的体重差异大还是女生的体重差异大? 为什么? (2)以磅为单位(1ks=
2.2lb) ,求体重的平均数和标准差。(3)粗略地估计一下,男生中有百分之几的人体重在55kg 一65kg 之间? (4)粗略地估计一下,女生中有百分之几的人体重在40kg ~60kg 之间? 解:(1)女生,因为标准差一样,而均值男生大,所以,离散系数是男生的小,离散程度是男生的小。(2)都是各乘以2.21,男生的平均体重为60kg ×2.21=132.6磅,标准差为5kg ×
2.21=11.05磅;女生的平均体重为50kg ×2.21=110.5磅,标准差为5kg ×2.21=11.05磅。
x -55-60x -65-60==-1;Z2===1,根据经验规则,男生大s 5s 5
x -40-50约有68%的人体重在55kg 一65kg 之间。(4)计算标准分数:Z1===-2;s 5
x -60-50Z2===2,根据经验规则,女生大约有95%的人体重在40kg 一60kg 之间。 s 5(3)计算标准分数:Z1=
4.11 对10名成年人和10名幼儿的身高进行抽样调查,结果如下:
成年组 166 169 l72 177 180 170 172 174 168 173 幼儿组 68 69 68 70 7l 73 72 73 74 75
要求:(1)如果比较成年组和幼儿组的身高差异,你会采用什么样的统计量? 为什么? (2)比较分析哪一组的身高差异大
解:(1)均值不相等,用离散系数衡量身高差异。(2)
成年组平均 172.1标准差 4.201851离散系数0.024415 幼儿组平均 71.3标准差
2.496664离散系数 0.035016 幼儿组的身高差异大。
7.15 在一项家电市场调查中.随机抽取了200个居民户,调查他们是否拥有某一品牌的电视机。其中拥有该品牌电视机的家庭占23%。求总体比例的置信区间,置信水平分别为90%和95%。
解:总体比率的估计
大样本,总体方差未知,用z 统计量
z = N (0,1)样本比率=0.23置信
⎛
区间: p -z α2。1-α=0.90,z α=z
0.025=1.645 p +z α2 ⎝⎛
p -z αp +z α2 ⎝⎛
= 0.23-1.645=(0.1811,0.2789) +1.645 ⎝⎛1-α=0.95,z α2=z 0.025=1.96
。 p -z α2
p +z α2
⎝= 0.23-1.96⎛
⎝
=(0.1717,0.2883) +1.968.6 某厂家在广告中声称, 该厂生产的汽车轮胎在正常行驶条件下超过目前的平均水平25000公里, 对一个由15个轮胎组成的随机样本做了试验, 得到样本均值和标准差分别27000公里和5000公里. 假定轮胎寿命服从状态分布, 问该厂家的广告是否真实?
H 0:μ≤25000; H 1:μ>25000
如果原假设为真,则t = t(n-1)。
给定显著性水平α=0.05,查t 分布表,得临界值
t α(n -1) =t 0.05(14)=1.7709。
所以,拒绝域为(1.7709,+∞)。解
:t ==1.549t =1.549
所以,不拒绝原假设,即认为该厂家的广告是不真实的。
11.5 一家物流公司的管理人员想研究货物的运输距离和运输时间的关系,为此,他抽出了公司最近10个卡车运货记录的随机样本,得到运送距离(单位:km) 和运送时间(单位:天)
要求:(1)绘制运送距离和运送时间的散点图,判断二者之间的关系形态:(2)计算线性相关系数,说明两个变量之间的关系强度。(3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。 解:(1)可能存在线性关系。(2) x 运送距离(km ) Pearson 相关性 1 0.949(**)
显著性(双侧) 0.000
N 10 10
y 运送时间(天) Pearson 相关性 0.949(**) 1
显著性(双侧) 0.000 有很强的线性关系。(3) 非标准化系数 系数
模型 B 标准误 Beta t 显著性
1 (常量) 0.118 0.355 0.333 0.748 回归系数的含义:每公里增加0.004天。
11.9 某汽车生产商欲了解广告费用(x)对销售量(y)的影响,收集了过去12年的有关数据。通过计算得到下面的有关结果:
起的?(3)销售量与广告费用之间的相关系数是多少? (4)写出估计的回归方程并解释回归系数的实际意义。(5)检验线性关系的显著性(a=0.05) 。
2解:(2)R =1602708.6/1642866.67=0.9756,汽车销售量的变差中有97.56%是由于广告费
用的变动引起的。(3)r=0.9877。(4)回归方程=363.68+1.42x。回归系数的意义:广告费用每增加一个单位,汽车销量就增加1.42个单位。(5)回归系数的检验:p=2.17E—09<α,回归系数不等于0
,显著。回归直线的检验:p=2.17E—09<α,回归直线显著。 而增加的生产费用(3)计算两种产品单位成本总指数以及由于成本降低而节约的生产费用。 解:(1)甲产品产量指数为:I q 甲=q1甲/q0甲=2200/2000=110.00% 甲产品单位成本指数为:I p 甲=p1甲/p0甲=12.5/12.0=104.17% 乙产品产量指数为:I q 乙=q1乙/q0乙=6000/5000=120.00% 乙产品单位成本指数为:I p 乙=p1乙/p0乙=6.0/6.2=96.77%
(2)拉氏产量指数计算结果为:I q =∑p 0q 1/∑p 0q 0=(2200*12.0+6000*6.2)/
(2000*12.0+5000*6.2)=115.64% 帕氏产量指数计算结果为:I q =∑p 1q 1/∑p 1q 0=(2200*12.5+6000*6.0)/(2000*12.5+5000*6.0)=115.45% 由于产量增加而增加的生产费用为:∑p 0q 1-∑p 0q 0=(2200*12.0+6000*6.2)-(2000*12.0+5000*6.2)=8600(元)(3)拉氏产品单位成本指数计算结果为:I p =∑p 1q 0/∑p 0q 0=(2000*12.5+5000*6.0)/(2000*12.0+5000*6.2)=100.00% 帕氏产品单位成本指数计算结果为:I p =∑p 1q 1/∑p 0q 1=(2200*12.5+6000*6.0)/(2200*12.0+6000*6.2)=99.84% 由于成本降低而节省的费用为:∑p 0q 1-∑p 1q 1=(2200*12.0+6000*6.2)-(2200*12.5+6000*6.0)=100(元)
和相对值。
解:三种商品的销售额总指数为:I 丙=∑p 1q 1/∑p 0q 0=(115*100+220*55+315*25)/(100*100+200*50+300*20)=121.06% 销售量和价格变动对销售额影响的绝对值为:∑p 1q 1-∑p 0q 0=(115*100+220*55+315*25)-(100*100+200*50+300*20)=5475(元)销售量变动对销售额影响的相对值为:∑p 0q 1-∑p 0q 0=(115*100+220*50+315*20)-(100*100+200*50+300*20)=2800(元)价格变动对销售额影响的相对值为:∑p 1q 1-∑p 0q 1=(115*100+220*55+315*25)-(115*100+220*50+315*20)=2800(元)
14.9某工厂有三个生产车间,基期和报告期各车间的职工人数和劳动生产率资料如下表。
00011f 1=6.18(万元/人)该企业平均劳动生产率=∑x 0f 1/∑f 1=6.02(万元/人)
总平均水平指数=6.18/6.32=97.79% 劳动生产率变动额=6.18-6.32=-0.14(万元/人) 其中(1)三个车间劳动生产率的变动对平均劳动生产率的影响:组水平变动指数I x =6.18/6.02=102.58% 各车间劳动生产率的变动对全厂劳动生产率的影响:
6.18-6.02=0.16(万元/人) (2)各车间人数变动对劳动生产率的影响:结构变动指数I f =6.02/6.32=95.32%
各车间人数结构的变动对全厂劳动生产率的影响:6.02-6.32=-0.3(万元/人)
计算结果表明,全厂平均劳动生产率下降了2.21%,由于各车间劳动生产率提高使得全厂劳动生产率提高2.58%,各车间人数结构变动使得全厂劳动生产率下降4.68%,即97.79%=102.58*95.32%。才绝对数上看,全厂劳动生产率降低了0.14(万元/人), 由于各车间劳动生产率提高使得全厂劳动生产率提高0.16(万元/人),各车间人数结构变动使全厂劳动生产率降低0.3(万元/人),即-0.14=0.16+(-0.3)