第1章 统计与统计数据
一 学习指导
统计学是处理和分析数据的方法和技术,它几乎被应用到所有的学科检验领域。本章首先介绍统计学的含义和应用领域,然后介绍统计数据的类型及其来源,最后介绍统计中常用的一些基本概念。本章各节的主要内容和学习要点如下表所示。
二、主要术语
1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
统计学:收集、处理、分析、解释数据并从数据中得出结论的科学。 描述统计:研究数据收集、处理和描述的统计学分支。
推断统计:研究如何利用样本数据来推断总体特征的统计学分支。 分类数据:只能归于某一类别的非数字型数据。 顺序数据:只能归于某一有序类别的非数字型数据。 数值型数据:按数字尺度测量的观察值。 观测数据:通过调查或观测而收集到的数据。
实验数据:在实验中控制实验对象而收集到的数据。 截面数据:在相同或近似相同的时间点上收集的数据。 时间序列数据:在不同时间上收集到的数据。
11. 抽样调查:从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推
断总体特征的数据收集方法。
12. 普查:为特定目的而专门组织的全面调查。 13. 总体:包含所研究的全部个体(数据)的集合。 14. 样本:从总体中抽取的一部分元素的集合。
15. 样本容量:也称样本量,是构成样本的元素数目。 16. 参数:用来描述总体特征的概括性数字度量。 17. 统计量:用来描述样本特征的概括性数字度量。 18. 变量:说明现象某种特征的概念。 19. 分类变量:说明事物类别的一个名称。 20. 顺序变量:说明事物有序类别的一个名称。 21. 数值型变量:说明事物数字特征的一个名称。 22. 离散型变量:只能取可数值的变量。
23. 连续型变量:可以在一个或多个区间中取任何值的变量。
四、习题答案
1. D 12. C 23. C 34. A 2. D 13. B 24. B 35. A 3. A 14. A 25. D 36. A 4. B 15. C 26. C 37. D 5. A 16. D 27. B 38. B 6. D 17. C 28. D 39. B 7. C 18. A 29. A 40. C 8. B 19. C 30. D 41. C 9. A 20. D 31. A 42. D 10. A 21. A 32. B 43. C 11. C、
22. C
33. C
44. D
45. A 46. B 47. C 48. A 49. C 50. D 51. A 52. C 53. D 54. A 55. B
第2章 数据的图表展示
一、学习指导
数据的图表展示是应用统计的基本技能。本章首先介绍数据的预处理方法,然后介绍不同类型数据的整理与图示方法,最后介绍图表的合理使用问题。本章各节的主要内容和学习要点如下表所示。
二、主要术语
24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35.
频数:落在某一特定类别(或组)中的数据个数。 频数分布:数据在各类别(或组)中的分配。
比例:一个样本(或总体)中各个部分的数据与全部数据之比。 比率:样本(或总体)中各不同类别数值之间的比值。
累积频数:将各有序类别或组的频数逐级累加起来得到的频数。
数据分组:根据统计研究的需要,将原始数据按照某种标准划分成不同的组别。 组距分组:将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。 组距:一个组的上限与下限的差。
组中值:每一组的下限和上限之间的中点值,即组中值=(下限值+上限值)/2。 直方图:用矩形的宽度和高度(即面积)来表示频数分布的图形。 茎叶图:由“茎”和“叶”两部分组成的、反应原始数据分布的图形。 箱线图:由一组数据的最大值、最小值、中位数和两个四分位数5个特征值绘制而成的、反应原始数据分布的图形。
四、习题答案
1. C 2. A 3. B 4. C 5. D 6. B 7. C
8. B 9. B 10. C 11. A 12. B 13. B 14. C
15. C 16. B 17. D 18. D 19. C 20. B 21. C
22. D 23. D 24. B 25. D 26. B 27. B 28. D
29. D 30. C 31. B 32. C 33. C 34. A 35. B
第3章 数据的概括性度量
一、学习指导
数据分布的特征可以从三个方面进行描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布偏斜程度和峰度。本章将从数据的不同类型出发,分别介绍集中趋势测度值的计算方法、特点及其应用场合。本章各节的主要内容和学习要点如下表所示。
二、主要术语和公式
(一)主要术语
1. 众数:一组数据中出现频数最多的变量值,用Mo表示。 2. 中位数:一组数据排序后处于中间位置上的变量值,用Me表示。 3. 四分位数:一组数据排序后处于25%和75%位置上的值。 4. 平均数:一组数据相加后除以数据的个数而得到的结果。 5. 几何平均数:n个变量值乘积的n次方根,用Gm表示。
6. 异众比率:非众数组的频数占总频数的比率。
7. 四分位差:也称为内距或四分间距,上四分位数与下四分位数之差。 8. 极差:也称全距,一组数据的最大值与最小值之差。
9. 平均差:也称平均绝对离差,各变量值与其平均数离差绝对值的平均数。 10. 方差:各变量值与其平均数离差平方的平均数。 11. 标准差:方差的平方根。
12. 标准分数:变量值与其平均数的离差除以标准差后的值。
13. 离散系数:也称为变异系数,一组数据的标准差与其相应的平均数之比。 14. 偏态:数据分布的不对称性。
15. 偏态系数:对数据分布不对称性的度量值。 16. 峰态:数据分布的平峰或尖峰程度。 17. 峰态系数:对数据分布峰态的度量值。
(二)主要公式
四、习题答案
1. A
2. C 3. B 4. C 5. D 6. B 7. D 8. A 9. A 10. C 11. B 12. C 13. A 14. B 15. A 16. B 17. A 18. B
19. C 20. A 21. B 22. C 23. C 24. C 25. C 26. D 27. A 28. A 29. B 30. B 31. A 32. A 33. B 34. B 35. A 36. B
37. A 38. C 39. B 40. A 41. A 42. B 43. B 44. A 45. B 46. A 47. C 48. D 49. B 50. A 51. C 52. D 53. B 54. D
55. B 56. A 57. B 58. D 59. A 60. B 61. C 62. D 63. A 64. C 65. D 66. D 67. C 68. B 69. D 70. D 71. A 72. B
73. D 74. C 75. A 76. D 77. D 78. A 79. A 80. C 81. D 82. D 83. A 84. A 85. A 86. D
第4章 抽样与参数估计
一、学习指导
参数估计是推断统计的重要内容之一,它是在抽样及抽样分布的基础上,根据样本统计量来推断我们所关心的总体参数。本章首先介绍抽样分布的有关知识,然后讨论参数估计的一般问题,最后介绍一个总体参数估计的基本方法和参
二、主要术语和公式
(一)主要术语
36. 简单随机抽样:也称纯随机抽样,它是从含有N个元素的总体中,抽取n个
元素作为样本,使得总体中的每一个元素都有相同的机会(概率)被抽中。 37. 简单随机样本:从含有N个元素的总体中,抽取n个元素作为样本,使得总
体中每一个样本量为n的样本都有相同的机会(概率)被抽中。
38. 重复抽样:从总体中抽取一个元素后,把这个元素放回到总体中再抽取第二
个元素,直至抽取n个元素为止。
39. 不重复抽样:一个元素被抽中后不再放回总体,而是从所剩元素中抽取第二
个元素,直到抽取n个元素为止。
40. 分层抽样:也称分类抽样,它是在抽样之前先将总体的元素划分为若干层
(类),然后从各个层中抽取一定数量的元素组成一个样本。
41. 系统抽样:也称等距抽样或机械抽样,它是先将总体中的各元素按某种顺序
排列,并按某种规则确定一个随机起点;然后,每隔一定的间隔抽取一个元素,直至抽取n个元素形成一个样本。 42. 整群抽样:先将总体划分成若干群,然后以群作为抽样单位从中抽取部分群,
随后再对抽中的各个群中所包含的所有元素进行观察。
43. 抽样分布:在重复选取样本量为n的样本时,由样本统计量的所有可能取值
形成的相对频数分布。
44. 样本均值的抽样分布:在重复选取样本量为n的样本时,由样本均值的所有
可能取值形成的相对频数分布。
45. 样本比例抽样分布:在重复选取样本量为n的样本时,由样本比例的所有可
能取值形成的相对频数分布。
46. 标准误差:也称为标准误,它是样本统计量的抽样分布的标准差。
47. 估计标准误差:若计算标准误时所涉及的总体参数未知,可用样本统计量代
替计算的标准误。 48. 估计量:用来估计总体参数的统计量的名称,用符号ˆ表示。 49. 估计值:用来估计总体参数时计算出来的估计量的具体数值。 50. 点估计:用样本统计量ˆ的某个取值直接作为总体参数的估计值。 51. 区间估计:在点估计的基础上,给出总体参数估计的一个范围。 52. 臵信区间:由样本统计量所构造的总体参数的估计区间。
53. 臵信水平:也称为臵信系数,它是将构造臵信区间的步骤重复多次后,臵信
区间中包含总体参数真值的次数所占的比率。
四、习题答案
87. A 88. B 89. A 90. B 91. B 92. C 93. D 94. C 95. A 96. C 97. A 98. A 99. C 100. A 101. D
121. 122. 123. 124. 125. 126. 127. 128. 129. 130. 131. 132. 133. 134. 135. B A B D B A C A B A C D C B D 155. 156. 157. 158. 159. 160. 161. 162. 163. 164. 165. 166. 167. 168. 169.
A B C C D B D D C C B C D D A 189. 190. 191. 192. 193. 194. 195. 196. 197. 198. 199. 200. 201. 202. 203. C A B C A D A B C A A A A A C 223. 224. 225. 226. 227. 228. 229. 230. 231. 232. 233. 234. 235. 236. 237. B A A D C B A A B B B C B B D
102. 103. 104. 105. 106. 107. 108. 109. 110. 111. 112. 113. 114. 115. 116. 117. 118. 119. 120.
B D B B B A A A D D B C C B B B D D C 136. 137. 138. 139. 140. 141. 142. 143. 144. 145. 146. 147. 148. 149. 150. 151. 152. 153. 154. C A A D A B C A C B A A A A A A A B A 170. 171. 172. 173. 174. 175. 176. 177. 178. 179. 180. 181. 182. 183. 184. 185. 186. 187. 188. B C A A C C C B A B B A D C A B B C B 204. 205. 206. 207. 208. 209. 210. 211. 212. 213. 214. 215. 216. 217. 218. 219. 220. 221. 222. B B A C C B C C B C B A B A A A C C D
238. 239. 240. 241. 242. A B B C D
第5章 假设检验
一、学习指导
假设检验是推断统计的另一项重要内容,它是利用样本信息判断假设是否成立的一种统计方法。本章首先介绍有关假设检验的一些基本问题,然后介绍一个总体参数的检验方法。
二、主要术语和公式
(一)主要术语
18. 假设:对总体参数的具体数值所做的陈述。
19. 假设检验:先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程。 20. 备择假设:也称研究假设,是研究者想收集证据予以支持的假设,用H1或Ha表示。 21. 原假设:也称零假设,是研究者想收集证据予以反对的假设,用H0表示。
22. 单侧检验:也称单尾检验,是指备择假设具有特定的方向性,并含有符号“>”或“
的假设检验。
23. 双侧检验:也称双尾检验,是指备择假设没有特定的方向性,并含有符号“”的假设
检验。
24. 第Ⅰ类错误:当原假设为正确时拒绝原假设,犯第Ⅰ类错误的概率记为。 25. 第Ⅱ类错误:当原假设为错误时没有拒绝原假设,犯第Ⅱ类错误的概率通常记为。 26. 显著性水平:假设检验中发生第Ⅰ类错误的概率,记为。 27. 检验统计量:根据样本观测结果计算得到的,并据以对原假设和备择假设做出决策的某
个样本统计量。
28. 拒绝域:能够拒绝原假设的检验统计量的所有可能取值的集合。
29. 临界值:根据给定的显著性水平确定的拒绝域的边界值。
30. P值:也称观察到的显著性水平,如果原假设H0是正确的,那么所得的样本结果出现
实际观测结果那么极端的概率。
(二)主要公式
四、习题答案
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33.
A D C A B C A B A B A C A C D C A B A B B A B B A D D D A B B C B
34. 35. 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. 53. 54. 55. 56. 57. 58. 59. 60. 61. 62. 63. 64. 65.
A C B A D D C C C C A B A B D A A B D C A B C A C D C C A D B A
66. 67. 68. 69. 70. 71. 72. 73. 74. 75. 76. 77. 78. 79. 80. 81. 82. 83. 84. 85. 86. 87. 88. 89. 90. 91. 92. 93. 94. 95. 96. 97. 98.
D D A C D A C B A A B C D A C D B A A C B A C A A A A A B C B A A
99. A 100. B 101. D 102. C 103. B 104. D 105. B 106. B 107. A 108. A 109. B 110. A 111. B 112. A 113. A 114. B 115. B 116. B 117. B 118. A 119. B 120. B 121. B 122. D 123. A
第6章 方差分析
一、学习指导
本章主要介绍检验多个总体均值是否相等的一种统计方法,即方差分析。它
是通过对各观察数据误差来源的分析来判断多个总体均值是否相等。本章首先介绍方差分析中的一些基本问题,包括方差分析中的一些术语、方差分析的基本思想和基本假设,然后介绍单因素方差分析方法,最后介绍方差分析中的多重比较。
二、主要术语和公式
(一)主要术语
31. 方差分析( ANOVA):检验多个总体均值是否相等的统计方法。 32. 因素:也称因子,是方差分析中所要检验的对象。 33. 水平:也称处理,是因素的不同表现。 34. 组内误差:来自水平内部的数据误差。 35. 组间误差:来自不同水平之间的数据误差。
36. 总平方和:反映全部数据误差大小的平方和,记为SST。 37. 组内平方和:反映组内误差大小的平方和,记为SSE。 38. 组间平方和:反映组间误差大小的平方和,记为SSA。 39. 单因素方差分析:只涉及一个分类型自变量的方差分析。
40. 组内方差:组内平方和除以相应的自由度。 41. 组间方差:组间平方和除以相应的自由度。
四、习题答案
1. C 2. B 3. B 4. D 5. A 6. A 7. C 8. D 9. D 10.C 11.C 12.A 13.A 14.B 15.A 16.A 17.A 18.A 19.D
20.D 21.B 22.A 23.B 24.C 25.D 26.C 27.A 28.B 29.A 30.C 31.A 32.C 33.B 34.C 35.C 36.B 37.D 38.D 39.C 40.A 41.A 42.B 43.A 44.A 45.B 46.A 47.D 48.C 49.B 50.B 51.D 52.B 53.B 54.A 55.D 56.A 57.B
58.A 59.B 60.C 61.D 62.B 63.A
第7章 相关与回归分析
一、学习指导
相关与回归是研究变量之间关系的统计方法,该方法广泛应用于自然科学和社会科学的各个领域。本章首先介绍相关分析方法,然后介绍一元线性回归和多元线性回归分析方法。本章各节的主要内容和学习要点如下表所示。
二、主要术语和公式
(一)主要术语
42. 相关关系:变量之间存在的不确定的数量关系。 43. 相关系数:也称Pearson相关系数,是根据样本数据计算的度量两个变量之间线性关系
强度的统计量。
44. 因变量:被预测或被解释的变量,用y表示。
45. 自变量:用来预测或用来解释因变量的一个或多个变量,用x表示。 46. 回归模型:描述因变量y如何依赖于自变量x和误差项的方程。 47. 回归方程:描述因变量y的期望值如何依赖于自变量x的方程。 48. 估计的回归方程:根据样本数据求出的回归方程的估计。
ˆi之间的离差平方和达49. 最小二乘法:也称最小平方法,使因变量的观察值yi与估计值y
ˆ和ˆ的方法。 到最小来求得01
50. 判定系数:回归平方和占总平方和的比例,记为R。
51. 估计量的标准误差:均方残差(MSE)的平方根,用se来表示。
2
52. y的平均值的点估计:利用估计的回归方程,对于x的一个特定值x0,求出y的平均
值的一个估计值E(y0)。
53. y的个别值的估计值:利用估计的回归方程,对于x的一个特定值x0,求出y的一个
ˆ0。 个别值的估计值y
54. y的平均值的置信区间估计:对x的一个给定值x0,求出y的平均值的区间估计。 55. y的个别值的预测区间估计:对x的一个给定值x0,求出y的一个个别值的区间估计。
,xk和误差项的方56. 多元线性回归模型:描述因变量y如何依赖于自变量x1,x2,
程。
,xk的方程。 57. 多元线性回归方程:描述y的期望值如何依赖于x1,x2,
58. 估计的多元线性回归方程:根据样本数据得到的多元线性回归方程的估计。
59. 多重判定系数:在多元回归中,回归平方和占总平方和的比例。 60. 修正的多重判定系数:用模型中自变量的个数和样本量进行调整的多重判定系数,记为
2
Ra。
(二)主要公式
四、习题答案
36. D 37. D 38. A 39. B 40. B 41. A 42. B 43. C 44. C 45. A 46. A 47. B 48. D 49. C 50. A 51. C
52. C 53. A 54. A 55. D 56. B 57. A 58. B 59. A 60. C 61. C 62. A 63. A 64. B 65. B 66. B 67. C
68. C 69. B 70. D 71. D 72. C 73. B 74. D 75. A 76. B 77. B 78. A 79. B 80. A 81. B 82. A 83. A
84. A 85. C 86. C 87. C 88. B 89. D 90. B 91. C 92. A 93. A 94. C 95. A 96. A 97. B 98. D 99. C
100. 101. 102. 103. 104. 105. 106. 107. 108. 109. 110. 111. 112. 113. 114. 115.
B B A C A A C A D B C A D B B D
21
第8章 时间序列分析和预测
一、学习指导
分析时间序列数据的主要目的是对未来的观测值进行预测。本章在给出时间序列概念及分类的基础上,首先介绍了时间序列的描述性分析方法,然后介绍了平稳序列和非平稳序列的一些简单预测方法。本章各节的主要内容和学习要点如下表所示。
22
二、主要术语和公式
(一)主要术语
61. 时间序列:同一现象在不同时间上的相继观察值排列而成的序列。 62. 平稳序列:基本上不存在趋势的序列。
63. 非平稳序列:包含趋势性、季节性或周期性的序列。 64. 趋势:也称长期趋势,是指时间序列在长时期内呈现出来的某种持续向上或持续下降的
变动。
65. 季节性:也称季节变动,是指时间序列在一年内重复出现的周期性波动。 66. 周期性:也称循环波动,是指时间序列中呈现出来的围绕长期趋势的一种波浪形或振荡
式变动。
67. 随机性:也称不规则波动,是指时间序列中除去趋势、周期性和季节性之后的偶然性波
动。 68. 增长率:也称增长速度,是指时间序列中报告期观察值与基期观察值之比减1后的结果,
用%表示。
69. 平均增长率:也称平均发展速度,是指时间序列中各逐期环比值(也称环比发展速度)
的几何平均数减1后的结果。
70. 增长1%绝对值:增长率每增长一个百分点而增加的绝对数量。
71. 简单平均法预测:根据过去已有的t期观察值通过简单平均来预测下一期的数值。 72. 移动平均法预测:通过对时间序列逐期递移求得平均数作为预测值的一种预测方法。 73. 指数平滑法预测:对过去的观察值加权平均进行预测的一种方法,该方法使得第t+1
期的预测值等于t期的实际观察值与第t期指数预测值的加权平均值。
(二)主要公式
23
24
四、习题答案
116. 117. 118. 119. 120. 121. 122. 123. 124. 125. 126. 127. 128.
A D A B C D B A B A C C D
129. 130. 131. 132. 133. 134. 135. 136. 137. 138. 139. 140. 141.
D D B D B A A A D D C D B
142. 143. 144. 145. 146. 147. 148. 149. 150. 151. 152. 153. 154.
A C B B A C D B C B A B B
155. 156. 157. 158. 159. 160. 161. 162. 163. 164. 165. 166. 167.
D C A A C A B C A A C D B
168. 169. 170. 171. 172. 173. 174. 175. 176. 177. 178. 179.
B C D C B D D C A A B B
25
第9章 指数
一、学习指导
指数是应用于经济领域的一种特殊统计方法。本章首先介绍指数的概念和分类,然后介绍加权指数的编制方法,最后介绍实际中几种常用的价格指数。本章各节的主要内容和学习要点如下表所示。
二、主要术语和公式
(一)主要术语
74. 指数:测定多个项目在不同场合下综合变动的相对数。
75. 加权综合指数:通过加权来测定一组项目的综合变动状况的指数。
76. 加权平均指数:以某一时期的价值总量为权数对个体指数加权平均计算的指数。 77. 价值指数:由两个不同时期的价值总量对比形成的指数。
78. 指数体系:由价值指数及其若干个因素指数构成的数量关系式。 79. 零售价格指数:反映城乡商品零售价格变动趋势的一种经济指数。 80. 居民消费价格指数:反映一定时期内城乡居民所购买的生活消费品价格和服务项目价格
的变动趋势和程度的一种相对数。
81. 生产价格指数:测量在初级市场上所售货物(即在非零售市场上首次购买某种商品时)
价格变动的一种价格指数。
82. 股票价格指数:是反映某一股票市场上多种股票价格变动趋势的一种相对数。
26
四、习题答案
1. 2. 3. 4. 5. 6. 7.
A B C D D A C
8. C 9. A 10. B 11. A 12. B 13. B 14. B
15. A 16. A 17. C 18. D 19. A 20. B 21. D
22. B 23. C 24. C 25. D 26. B 27. C
附录:教材各章习题答案
第1章 统计与统计数据
1.1 (1)数值型数据;(2)分类数据;(3)数值型数据;(4)顺序数据;(5)
分类数据。
1.2 (1)总体是“该城市所有的职工家庭”,样本是“抽取的2000个职工家庭”;
(2)城市所有职工家庭的年人均收入,抽取的“2000个家庭计算出的年人均收入。
1.3 (1)所有IT从业者;(2)数值型变量;(3)分类变量;(4)观察数据。 1.4 (1)总体是“所有的网上购物者”;(2)分类变量;(3)所有的网上购物者
的月平均花费;(4)统计量;(5)推断统计方法。 1.5 (略)。 1.6 (略)。
27
第2章 数据的图表展示
(1) 属于顺序数据。
(2)频数分布表如下
(4)帕累托图(略)。 2.2 (1)频数分布表如下
2.3
28
2.1
直方图(略)。
2.5 (1)排序略。
(2)频数分布表如下
2.6
29
(3)食品重量的分布基本上是对称的。 2.7
2.8 (1)属于数值型数据。
2.9 (1)直方图(略)。
(2)自学考试人员年龄的分布为右偏。
30
布比A班分散,
且平均成绩较A班低。
2.11 (略)。 2.12 (略)。 2.13 (略)。 2.14 (略)。 2.15 箱线图如下:(特征请读者自己分析)
第3章 数据的概括性度量 3.1
(1)M010;Me10;9.6。
(2)QL5.5;QU12。 (3)s4.2。
(4)左偏分布。 3.2
(1)
M019
;
Me23
。
(2)QL5.5;QU12。 (3)24;s6.65。 (4)SK1.08;K0.77。 (5)略。 3.3 (1)略。
(2)7;s0.71。
(3)v10.102;v20.274。
(4)选方法一,因为离散程度小。 3.4 (1)=274.1(万元);Me=272.5 。
(2)QL=260.25;QU=291.25。 (3)s21.17(万元)。 3.5 甲企业平均成本=19.41(元),乙企业平均成本=18.29(元);原
因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。 3.6
(1)=426.67(万元);s116.48(万元)。
(2)SK0.203;K0.688。
3.7 (1)(2)两位调查人员所得到的平均身高和标准差应该差不多相
同,因为均值和标准差的大小基本上不受样本大小的影响。
(3)具有较大样本的调查人员有更大的机会取到最高或最低者,因为样本越大,变化的范围就可能越大。 3.8 (1)女生的体重差异大,因为女生其中的离散系数为0.1大于男生
体重的离散系数0.08。 (2) 男生:=27.27(磅),s2.27(磅); 女生:=22.73(磅),s2.27(磅); (3)68%;
(4)95%。 3.9
通过计算标准化值来判断,zA1,zB0.5,说明在A项测试中
该应试者比平均分数高
出1个标准差,而在B项测试中只高出平均分数0.5个标准差,由于A项测试的标准化值高于B项测试,所以A项测试比较理想。 3.10 通过标准化值来判断,各天的标准化值如下表
日期 周一 周二 周三 周四 周五 周六 周日 标准化值Z 3 -0.6 -0.2 0.4 -1.8 -2.2 0 周一和周六两天失去了控制。 3.11 (1)离散系数,因为它消除了不同组数据水平高地的影响。
4.2
(2)成年组身高的离散系数:vs0.024;
172.12.3
幼儿组身高的离散系数:vs0.032;
71.3
由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。 3.12
3.13
第4章 抽样与参数估计
4.1 (1)200。(2)5。(3)正态分布。(4)2(1001)。 4.2 (1)32。(2)0.91。 4.3 0.79。
4.4 (1)25~N(17,22)。(2)100~N(17,1)。
4.5 (1)1.41。(2)1.41,1.41,1.34。 4.6 (1)0.4。(2)0.024 。(3)正态分布。 4.7 (1)0.050,0.035,0.022,016。(2)当样本量增大时,样本比例的标准
差越来越小。 4.8 (1)2.14;(2)E=4.2;(3)(115.8,124.2)。
4.9 (87819,121301)。 4.10(1)81±1.97;(2)81±2.35;(3)81±3.10。 4.11(1)(24.11,25.89);(2)(113.17,126.03);(3)(3.136,3.702) 4.12(1)(8687,9113);(2)(8734,9066);(3)(8761,9039);(4)(8682,
9118)。
4.13(2.88,3.76);(2.80,3.84);(2.63,4.01)。 4.14(7.1,12.9)。 4.15(7.18,11.57)。 4.16(1)(148.9,150.1);(2)中心极限定理。 4.17(1)(100.9,123.7);(2)(0.017,0.183)。 4.18(15.63,16.55)。 4.19(10.36,16.76)。 4.20(1)(0.316,0.704);(2)(0.777,0.863);(3)(0.456,0.504)。 4.21(18.11%,27.89%);(17.17%,22.835)。 4.22167。
4.23(1)2522;(2)601;(3)268。 4.24(1)(51.37%,76.63%);(2)36。 4.25(1)(2.13,2.97);(2)(0.015,0.029);(3)(25.3,42.5)。 4.26(1)(0.33,0.87);(2)(1.25,3.33);(3)第一种排队方式更好。 4.27 48。 4.28 139。 第5章 假设检验
5.1 研究者想要寻找证据予以支持的假设是“新型弦线的平均抗拉强度相对于以
前提高了”,所以原假设与备择假设应为:H0:1035,H1:1035。 5.2 =“某一品种的小鸡因为同类相残而导致的死亡率”,H0:0.04,
H1:0.04。
5.3 H0:65,H1:65。
5.4 (1)第一类错误是该供应商提供的这批炸土豆片的平均重量的确大于等于
60克,但检验结果却提供证据支持店方倾向于认为其重量少于60克; (2)第二类错误是该供应商提供的这批炸土豆片的平均重量其实少于60克,但检验结果却没有提供足够的证据支持店方发现这一点,从而拒收这批产品;
(3)连锁店的顾客们自然看重第二类错误,而供应商更看重第一类错误。 5.5 (1)检验统计量z
s/n
,在大样本情形下近似服从标准正态分布;
(2)如果zz0.05,就拒绝H0;
(3)检验统计量z=2.94>1.645,所以应该拒绝H0。 5.6 z=3.11,拒绝H0。 5.7 t1.66,不拒绝H0。 5.8 z2.39,拒绝H0。 5.9 t1.04,不拒绝H0 5.10z2.44,拒绝H0。 5.11z=1.93,不拒绝H0。 5.12z=7.48,拒绝H0。 5.132=206.22,拒绝H0。 5.14F2.42,拒绝H0。 第6章 方差分析
6.1 F4.6574F0.018.0215(或Pvalue0.04090.01),不能拒绝原假
设。
6.2 F15.8234F0.014.579(或Pvalue0.000010.01),拒绝原假设。 6.3 F10.0984F0.015.4170(或Pvalue0.0006850.01),拒绝原假设。 6.4 F11.7557F0.053.6823(或Pvalue0.0008490.05),拒绝原假设。
6.5 F17.0684F0.053.8853(或Pvalue0.00030.05),拒绝原假设。
AB44.43014.4LSD5.85,拒绝原假设; AC44.442.61.8LSD5.85,不能拒绝原假设; BC3042.612.6LSD5.85,拒绝原假设。
6.6
F1.478F0.053.554131(或Pvalue0.2459460.05),不能拒绝原
假设。
第7章 相关与回归分析
7.1 (1)散点图(略),产量与生产费用之间正的线性相关关系。
(2)r0.920232。
(3)检验统计量t14.4222t22.2281,拒绝原假设,相关系数显著。 7.2 (1)散点图(略)。 (2)r0.8621。
ˆ表示当x0时y的期望值。 7.3 (1)0
ˆ表示x每变动一个单位y平均下降0.5个单位。 (2)1
(3)E(y)7。 7.4 (1)R290%。
(2)se1。 7.5 (1)散点图(略)。
(2)r0.9489。
ˆ0.00358表示运送距离每增加1ˆ0.11810.00358x。回归系数(3)y1
公里,运送时间平均增加0.00358天。
7.6 (1) 散点图(略)。二者之间为高度的正线性相关关系。
(2)r0.998128,二者之间为高度的正线性相关关系。
ˆ0.308683ˆ734.69280.308683x。(3)估计的回归方程为:y回归系数1
表示人均GDP每增加1元,人均消费水平平均增加0.308683元。 (4)判定系数R20.996259。表明在人均消费水平的变差中,有99.6259%
是由人均GDP决定的。
(5)检验统计量F1331.692F6.61,拒绝原假设,线性关系显著。
ˆ5000734.69280.30868350002278.1078(元)(6)y。
(7)臵信区间:[1990.749,2565.464];预测区间:[1580.463,2975.750]。
7.7 (1) 散点图(略),二者之间为负的线性相关关系。
ˆ4.7表示航班ˆ430.18924.7x。回归系数(2)估计的回归方程为:y1
正点率每增加1%,顾客投诉次数平均下降4.7次。
(3)检验统计量t4.959t22.3060(P-Value=0.001108
拒绝原假设,回归系数显著。
ˆ80430.18924.78054.1892(次)(4)y。
(5)臵信区间:(37.660,70.619);预测区间:(7.572,100.707)。 7.8 Excel输出的结果如下(解释与分析请读者自己完成)
Multiple R R Square Adjusted R Square 标准误差 观测值 方差分析
回归分析 残差 总计
Intercept X Variable 1
Coefficients
49.3177 0.2492
df
1 18 19
标准误差
3.8050 0.0448
0.7951 0.6322 0.6117 2.6858
20
SS 223.1403 129.8452 352.9855
t Stat 12.9612 5.5618
MS 223.1403 7.2136
P-value 0.0000 0.0000
F 30.9332
Lower 95%
41.3236 0.1551
Significance F 2.79889E-05
Upper 95%
57.3117 0.3434
7.9
(2)R20.866086.60%。表明汽车销售量的变
SST1642866.67
差中有86.60%是由于广告费用的变动引起的。 (3)rR20.86600.9306。
ˆ1.420211表示广告费用每ˆ363.68911.420211x。回归系数(4)y1
增加一个单位,销售量平均增加1.420211个单位。
(5)Significance F=2.17E-09
ˆ13.62542.3029x;R293.74%;se3.8092。 7.10 y
7.11 (1)27。 (2)4.41。
(3)拒绝H0。 (4)r0.7746。 (5)拒绝H0。
7.12 (1)15.95E(y)18.05。
(2)14.651y019.349。
ˆ46.2915.24x;441.555E(y40)685.045。 7.13 y
ˆ25.030.0497x11.928x2;预测28.586。 7.14 y
7.15 (略)。
7.16 (1)显著。 (2)显著。 (3)显著。
ˆ88.63771.6039x1。 7.17 (1)y
ˆ83.23012.2902x11.3010x2。 (2)y
ˆ1.6039表示电视广告费用每增(3)不相同。方程(1)中的回归系数1
加1万元,月销售额平均增加1.6039万元;方程(1)中的回归系数
ˆ2.2902表示在报纸广告费用不变的条件下,电视广告费用每增加1万1
元,月销售额平均增加2.2902万元。
2
88.66%。 (4)R291.91%;Ra
(5)1的P-Value=0.0007,2的P-Value=0.0098,均小于0.05,两个回归系数均显著。
ˆ0.591022.3865x1327.6717x2 7.18 (1)y
ˆ22.3865表示降雨量每增加1毫mm,小麦收获量平均(2)回归系数1ˆ327.6717表示温度每增加10C,增加22.3865kg/hm2;回归系数小麦收2
获量平均增加327.6717kg/mh2。
(3)可能存在。
ˆ148.70050.8147x10.8210x20.1350x3。 7.19 (1)y
2
87.83%。 (2)R289.75%;Ra
(3)Significance F=3.88E-08
P-Value=0.1311>0.05,不显著;2的
P-Value=0.00130.05,不显著。 第8章 时间序列分析和预测 8.1 (1)时间序列图(略)。
(2)13.55%。
(3)1232.90(亿元)。 8.2 (1)时间序列图(略)。
(2)1421.2(公斤/公顷)。
(3)0.3时的预测值:F20011380.18,误差均方=291455; 0.5时的预测值:F20011407.23,误差均方=239123。0.5更合适。 8.3 (1)3期移动平均预测值=630.33(万元)。
(2)0.3时的预测值:F19567.95,误差均方=87514.7; 0.4时的
预测值:F19591.06,误差均方=62662.5;0.5时的预测值:
F19606.54,误差均方=50236。0.5更合适
ˆ239.7321.9288t。估计标准误差s31.6628。 (3)趋势方程YtY
8.4 (1)趋势图(略)。
ˆ145.781.16077t。2001年预测值=3336.89(亿元)。 (2)趋势方程Yt
8.5 (1)趋势图(略)。
ˆ69.520213.9495t,2000年预测值=585.65(万吨) (2)线性趋势方程Y。
8.6 线性趋势:
ˆ374.16130.6137tY
;二次曲线:
ˆ381.64421.8272t0.0337t2Y
;三次曲线:
ˆ372.56171.0030t0.1601t20.0036t3。 Y
8.7 (1)原煤产量趋势图(略)。
ˆ4.58240.9674t0.0309t2,预测值Yˆ11.28(亿吨)(2)趋势方程Y。 t2001
8.8 (1)图形(略)。
(2)移动平均法或指数平滑法。
(3)移动平均预测=72.49(万元);指数平滑法预测=72.5(万元)( 0.4)。 8.9 (1)略。
ˆ2043.92163.7064t。图形计算趋势:分离季节因素后的趋势方程为:Yt
(略)
周期波动图(略)。 8.11各月季节指数如下
1月 2月 3月 0.6744 0.6699 0.7432 7月 8月 9月 0.7552 0.3449 0.9619 季节变动图(略)。
4月
0.7903 10月 1.1992 5月 0.8061 11月 1.8662 6月 0.8510 12月 2.3377
ˆ119.1590.42449t。图形计算趋势:分离季节因素后的趋势方程为:Yt
(略)。
周期波动图(略)。 随机波动图(略)。 第9章 指数
9.1 (1)v110.80%。(2)Ip122.46%。(3)Iq90.48%。(4)13920元=26190元-12270元。 9.2 (1)111.72%。(2)111.60%。(3)100.10%。(4)15.3万元=15.1532
万元+0.1468万元。 9.3 (1)2.62%;8016元。(2)28.42%;124864元。(3)143.37%;132880
元。 9.4 (1)单位成本增长11.11%。(2)Ip111.11%;Iq90.91%。 9.5 结果如下表:
年份 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
缩减后的人均GDP
1584.9 1817.2 2149.4 2562.3 3161.2 4145.2 5148.7 5889.1 6357.9 6640.0 7049.8
9.6 Ip98.52%,下跌1.48%。
第1章 统计与统计数据
一 学习指导
统计学是处理和分析数据的方法和技术,它几乎被应用到所有的学科检验领域。本章首先介绍统计学的含义和应用领域,然后介绍统计数据的类型及其来源,最后介绍统计中常用的一些基本概念。本章各节的主要内容和学习要点如下表所示。
二、主要术语
1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
统计学:收集、处理、分析、解释数据并从数据中得出结论的科学。 描述统计:研究数据收集、处理和描述的统计学分支。
推断统计:研究如何利用样本数据来推断总体特征的统计学分支。 分类数据:只能归于某一类别的非数字型数据。 顺序数据:只能归于某一有序类别的非数字型数据。 数值型数据:按数字尺度测量的观察值。 观测数据:通过调查或观测而收集到的数据。
实验数据:在实验中控制实验对象而收集到的数据。 截面数据:在相同或近似相同的时间点上收集的数据。 时间序列数据:在不同时间上收集到的数据。
11. 抽样调查:从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推
断总体特征的数据收集方法。
12. 普查:为特定目的而专门组织的全面调查。 13. 总体:包含所研究的全部个体(数据)的集合。 14. 样本:从总体中抽取的一部分元素的集合。
15. 样本容量:也称样本量,是构成样本的元素数目。 16. 参数:用来描述总体特征的概括性数字度量。 17. 统计量:用来描述样本特征的概括性数字度量。 18. 变量:说明现象某种特征的概念。 19. 分类变量:说明事物类别的一个名称。 20. 顺序变量:说明事物有序类别的一个名称。 21. 数值型变量:说明事物数字特征的一个名称。 22. 离散型变量:只能取可数值的变量。
23. 连续型变量:可以在一个或多个区间中取任何值的变量。
四、习题答案
1. D 12. C 23. C 34. A 2. D 13. B 24. B 35. A 3. A 14. A 25. D 36. A 4. B 15. C 26. C 37. D 5. A 16. D 27. B 38. B 6. D 17. C 28. D 39. B 7. C 18. A 29. A 40. C 8. B 19. C 30. D 41. C 9. A 20. D 31. A 42. D 10. A 21. A 32. B 43. C 11. C、
22. C
33. C
44. D
45. A 46. B 47. C 48. A 49. C 50. D 51. A 52. C 53. D 54. A 55. B
第2章 数据的图表展示
一、学习指导
数据的图表展示是应用统计的基本技能。本章首先介绍数据的预处理方法,然后介绍不同类型数据的整理与图示方法,最后介绍图表的合理使用问题。本章各节的主要内容和学习要点如下表所示。
二、主要术语
24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35.
频数:落在某一特定类别(或组)中的数据个数。 频数分布:数据在各类别(或组)中的分配。
比例:一个样本(或总体)中各个部分的数据与全部数据之比。 比率:样本(或总体)中各不同类别数值之间的比值。
累积频数:将各有序类别或组的频数逐级累加起来得到的频数。
数据分组:根据统计研究的需要,将原始数据按照某种标准划分成不同的组别。 组距分组:将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。 组距:一个组的上限与下限的差。
组中值:每一组的下限和上限之间的中点值,即组中值=(下限值+上限值)/2。 直方图:用矩形的宽度和高度(即面积)来表示频数分布的图形。 茎叶图:由“茎”和“叶”两部分组成的、反应原始数据分布的图形。 箱线图:由一组数据的最大值、最小值、中位数和两个四分位数5个特征值绘制而成的、反应原始数据分布的图形。
四、习题答案
1. C 2. A 3. B 4. C 5. D 6. B 7. C
8. B 9. B 10. C 11. A 12. B 13. B 14. C
15. C 16. B 17. D 18. D 19. C 20. B 21. C
22. D 23. D 24. B 25. D 26. B 27. B 28. D
29. D 30. C 31. B 32. C 33. C 34. A 35. B
第3章 数据的概括性度量
一、学习指导
数据分布的特征可以从三个方面进行描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布偏斜程度和峰度。本章将从数据的不同类型出发,分别介绍集中趋势测度值的计算方法、特点及其应用场合。本章各节的主要内容和学习要点如下表所示。
二、主要术语和公式
(一)主要术语
1. 众数:一组数据中出现频数最多的变量值,用Mo表示。 2. 中位数:一组数据排序后处于中间位置上的变量值,用Me表示。 3. 四分位数:一组数据排序后处于25%和75%位置上的值。 4. 平均数:一组数据相加后除以数据的个数而得到的结果。 5. 几何平均数:n个变量值乘积的n次方根,用Gm表示。
6. 异众比率:非众数组的频数占总频数的比率。
7. 四分位差:也称为内距或四分间距,上四分位数与下四分位数之差。 8. 极差:也称全距,一组数据的最大值与最小值之差。
9. 平均差:也称平均绝对离差,各变量值与其平均数离差绝对值的平均数。 10. 方差:各变量值与其平均数离差平方的平均数。 11. 标准差:方差的平方根。
12. 标准分数:变量值与其平均数的离差除以标准差后的值。
13. 离散系数:也称为变异系数,一组数据的标准差与其相应的平均数之比。 14. 偏态:数据分布的不对称性。
15. 偏态系数:对数据分布不对称性的度量值。 16. 峰态:数据分布的平峰或尖峰程度。 17. 峰态系数:对数据分布峰态的度量值。
(二)主要公式
四、习题答案
1. A
2. C 3. B 4. C 5. D 6. B 7. D 8. A 9. A 10. C 11. B 12. C 13. A 14. B 15. A 16. B 17. A 18. B
19. C 20. A 21. B 22. C 23. C 24. C 25. C 26. D 27. A 28. A 29. B 30. B 31. A 32. A 33. B 34. B 35. A 36. B
37. A 38. C 39. B 40. A 41. A 42. B 43. B 44. A 45. B 46. A 47. C 48. D 49. B 50. A 51. C 52. D 53. B 54. D
55. B 56. A 57. B 58. D 59. A 60. B 61. C 62. D 63. A 64. C 65. D 66. D 67. C 68. B 69. D 70. D 71. A 72. B
73. D 74. C 75. A 76. D 77. D 78. A 79. A 80. C 81. D 82. D 83. A 84. A 85. A 86. D
第4章 抽样与参数估计
一、学习指导
参数估计是推断统计的重要内容之一,它是在抽样及抽样分布的基础上,根据样本统计量来推断我们所关心的总体参数。本章首先介绍抽样分布的有关知识,然后讨论参数估计的一般问题,最后介绍一个总体参数估计的基本方法和参
二、主要术语和公式
(一)主要术语
36. 简单随机抽样:也称纯随机抽样,它是从含有N个元素的总体中,抽取n个
元素作为样本,使得总体中的每一个元素都有相同的机会(概率)被抽中。 37. 简单随机样本:从含有N个元素的总体中,抽取n个元素作为样本,使得总
体中每一个样本量为n的样本都有相同的机会(概率)被抽中。
38. 重复抽样:从总体中抽取一个元素后,把这个元素放回到总体中再抽取第二
个元素,直至抽取n个元素为止。
39. 不重复抽样:一个元素被抽中后不再放回总体,而是从所剩元素中抽取第二
个元素,直到抽取n个元素为止。
40. 分层抽样:也称分类抽样,它是在抽样之前先将总体的元素划分为若干层
(类),然后从各个层中抽取一定数量的元素组成一个样本。
41. 系统抽样:也称等距抽样或机械抽样,它是先将总体中的各元素按某种顺序
排列,并按某种规则确定一个随机起点;然后,每隔一定的间隔抽取一个元素,直至抽取n个元素形成一个样本。 42. 整群抽样:先将总体划分成若干群,然后以群作为抽样单位从中抽取部分群,
随后再对抽中的各个群中所包含的所有元素进行观察。
43. 抽样分布:在重复选取样本量为n的样本时,由样本统计量的所有可能取值
形成的相对频数分布。
44. 样本均值的抽样分布:在重复选取样本量为n的样本时,由样本均值的所有
可能取值形成的相对频数分布。
45. 样本比例抽样分布:在重复选取样本量为n的样本时,由样本比例的所有可
能取值形成的相对频数分布。
46. 标准误差:也称为标准误,它是样本统计量的抽样分布的标准差。
47. 估计标准误差:若计算标准误时所涉及的总体参数未知,可用样本统计量代
替计算的标准误。 48. 估计量:用来估计总体参数的统计量的名称,用符号ˆ表示。 49. 估计值:用来估计总体参数时计算出来的估计量的具体数值。 50. 点估计:用样本统计量ˆ的某个取值直接作为总体参数的估计值。 51. 区间估计:在点估计的基础上,给出总体参数估计的一个范围。 52. 臵信区间:由样本统计量所构造的总体参数的估计区间。
53. 臵信水平:也称为臵信系数,它是将构造臵信区间的步骤重复多次后,臵信
区间中包含总体参数真值的次数所占的比率。
四、习题答案
87. A 88. B 89. A 90. B 91. B 92. C 93. D 94. C 95. A 96. C 97. A 98. A 99. C 100. A 101. D
121. 122. 123. 124. 125. 126. 127. 128. 129. 130. 131. 132. 133. 134. 135. B A B D B A C A B A C D C B D 155. 156. 157. 158. 159. 160. 161. 162. 163. 164. 165. 166. 167. 168. 169.
A B C C D B D D C C B C D D A 189. 190. 191. 192. 193. 194. 195. 196. 197. 198. 199. 200. 201. 202. 203. C A B C A D A B C A A A A A C 223. 224. 225. 226. 227. 228. 229. 230. 231. 232. 233. 234. 235. 236. 237. B A A D C B A A B B B C B B D
102. 103. 104. 105. 106. 107. 108. 109. 110. 111. 112. 113. 114. 115. 116. 117. 118. 119. 120.
B D B B B A A A D D B C C B B B D D C 136. 137. 138. 139. 140. 141. 142. 143. 144. 145. 146. 147. 148. 149. 150. 151. 152. 153. 154. C A A D A B C A C B A A A A A A A B A 170. 171. 172. 173. 174. 175. 176. 177. 178. 179. 180. 181. 182. 183. 184. 185. 186. 187. 188. B C A A C C C B A B B A D C A B B C B 204. 205. 206. 207. 208. 209. 210. 211. 212. 213. 214. 215. 216. 217. 218. 219. 220. 221. 222. B B A C C B C C B C B A B A A A C C D
238. 239. 240. 241. 242. A B B C D
第5章 假设检验
一、学习指导
假设检验是推断统计的另一项重要内容,它是利用样本信息判断假设是否成立的一种统计方法。本章首先介绍有关假设检验的一些基本问题,然后介绍一个总体参数的检验方法。
二、主要术语和公式
(一)主要术语
18. 假设:对总体参数的具体数值所做的陈述。
19. 假设检验:先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程。 20. 备择假设:也称研究假设,是研究者想收集证据予以支持的假设,用H1或Ha表示。 21. 原假设:也称零假设,是研究者想收集证据予以反对的假设,用H0表示。
22. 单侧检验:也称单尾检验,是指备择假设具有特定的方向性,并含有符号“>”或“
的假设检验。
23. 双侧检验:也称双尾检验,是指备择假设没有特定的方向性,并含有符号“”的假设
检验。
24. 第Ⅰ类错误:当原假设为正确时拒绝原假设,犯第Ⅰ类错误的概率记为。 25. 第Ⅱ类错误:当原假设为错误时没有拒绝原假设,犯第Ⅱ类错误的概率通常记为。 26. 显著性水平:假设检验中发生第Ⅰ类错误的概率,记为。 27. 检验统计量:根据样本观测结果计算得到的,并据以对原假设和备择假设做出决策的某
个样本统计量。
28. 拒绝域:能够拒绝原假设的检验统计量的所有可能取值的集合。
29. 临界值:根据给定的显著性水平确定的拒绝域的边界值。
30. P值:也称观察到的显著性水平,如果原假设H0是正确的,那么所得的样本结果出现
实际观测结果那么极端的概率。
(二)主要公式
四、习题答案
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33.
A D C A B C A B A B A C A C D C A B A B B A B B A D D D A B B C B
34. 35. 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. 53. 54. 55. 56. 57. 58. 59. 60. 61. 62. 63. 64. 65.
A C B A D D C C C C A B A B D A A B D C A B C A C D C C A D B A
66. 67. 68. 69. 70. 71. 72. 73. 74. 75. 76. 77. 78. 79. 80. 81. 82. 83. 84. 85. 86. 87. 88. 89. 90. 91. 92. 93. 94. 95. 96. 97. 98.
D D A C D A C B A A B C D A C D B A A C B A C A A A A A B C B A A
99. A 100. B 101. D 102. C 103. B 104. D 105. B 106. B 107. A 108. A 109. B 110. A 111. B 112. A 113. A 114. B 115. B 116. B 117. B 118. A 119. B 120. B 121. B 122. D 123. A
第6章 方差分析
一、学习指导
本章主要介绍检验多个总体均值是否相等的一种统计方法,即方差分析。它
是通过对各观察数据误差来源的分析来判断多个总体均值是否相等。本章首先介绍方差分析中的一些基本问题,包括方差分析中的一些术语、方差分析的基本思想和基本假设,然后介绍单因素方差分析方法,最后介绍方差分析中的多重比较。
二、主要术语和公式
(一)主要术语
31. 方差分析( ANOVA):检验多个总体均值是否相等的统计方法。 32. 因素:也称因子,是方差分析中所要检验的对象。 33. 水平:也称处理,是因素的不同表现。 34. 组内误差:来自水平内部的数据误差。 35. 组间误差:来自不同水平之间的数据误差。
36. 总平方和:反映全部数据误差大小的平方和,记为SST。 37. 组内平方和:反映组内误差大小的平方和,记为SSE。 38. 组间平方和:反映组间误差大小的平方和,记为SSA。 39. 单因素方差分析:只涉及一个分类型自变量的方差分析。
40. 组内方差:组内平方和除以相应的自由度。 41. 组间方差:组间平方和除以相应的自由度。
四、习题答案
1. C 2. B 3. B 4. D 5. A 6. A 7. C 8. D 9. D 10.C 11.C 12.A 13.A 14.B 15.A 16.A 17.A 18.A 19.D
20.D 21.B 22.A 23.B 24.C 25.D 26.C 27.A 28.B 29.A 30.C 31.A 32.C 33.B 34.C 35.C 36.B 37.D 38.D 39.C 40.A 41.A 42.B 43.A 44.A 45.B 46.A 47.D 48.C 49.B 50.B 51.D 52.B 53.B 54.A 55.D 56.A 57.B
58.A 59.B 60.C 61.D 62.B 63.A
第7章 相关与回归分析
一、学习指导
相关与回归是研究变量之间关系的统计方法,该方法广泛应用于自然科学和社会科学的各个领域。本章首先介绍相关分析方法,然后介绍一元线性回归和多元线性回归分析方法。本章各节的主要内容和学习要点如下表所示。
二、主要术语和公式
(一)主要术语
42. 相关关系:变量之间存在的不确定的数量关系。 43. 相关系数:也称Pearson相关系数,是根据样本数据计算的度量两个变量之间线性关系
强度的统计量。
44. 因变量:被预测或被解释的变量,用y表示。
45. 自变量:用来预测或用来解释因变量的一个或多个变量,用x表示。 46. 回归模型:描述因变量y如何依赖于自变量x和误差项的方程。 47. 回归方程:描述因变量y的期望值如何依赖于自变量x的方程。 48. 估计的回归方程:根据样本数据求出的回归方程的估计。
ˆi之间的离差平方和达49. 最小二乘法:也称最小平方法,使因变量的观察值yi与估计值y
ˆ和ˆ的方法。 到最小来求得01
50. 判定系数:回归平方和占总平方和的比例,记为R。
51. 估计量的标准误差:均方残差(MSE)的平方根,用se来表示。
2
52. y的平均值的点估计:利用估计的回归方程,对于x的一个特定值x0,求出y的平均
值的一个估计值E(y0)。
53. y的个别值的估计值:利用估计的回归方程,对于x的一个特定值x0,求出y的一个
ˆ0。 个别值的估计值y
54. y的平均值的置信区间估计:对x的一个给定值x0,求出y的平均值的区间估计。 55. y的个别值的预测区间估计:对x的一个给定值x0,求出y的一个个别值的区间估计。
,xk和误差项的方56. 多元线性回归模型:描述因变量y如何依赖于自变量x1,x2,
程。
,xk的方程。 57. 多元线性回归方程:描述y的期望值如何依赖于x1,x2,
58. 估计的多元线性回归方程:根据样本数据得到的多元线性回归方程的估计。
59. 多重判定系数:在多元回归中,回归平方和占总平方和的比例。 60. 修正的多重判定系数:用模型中自变量的个数和样本量进行调整的多重判定系数,记为
2
Ra。
(二)主要公式
四、习题答案
36. D 37. D 38. A 39. B 40. B 41. A 42. B 43. C 44. C 45. A 46. A 47. B 48. D 49. C 50. A 51. C
52. C 53. A 54. A 55. D 56. B 57. A 58. B 59. A 60. C 61. C 62. A 63. A 64. B 65. B 66. B 67. C
68. C 69. B 70. D 71. D 72. C 73. B 74. D 75. A 76. B 77. B 78. A 79. B 80. A 81. B 82. A 83. A
84. A 85. C 86. C 87. C 88. B 89. D 90. B 91. C 92. A 93. A 94. C 95. A 96. A 97. B 98. D 99. C
100. 101. 102. 103. 104. 105. 106. 107. 108. 109. 110. 111. 112. 113. 114. 115.
B B A C A A C A D B C A D B B D
21
第8章 时间序列分析和预测
一、学习指导
分析时间序列数据的主要目的是对未来的观测值进行预测。本章在给出时间序列概念及分类的基础上,首先介绍了时间序列的描述性分析方法,然后介绍了平稳序列和非平稳序列的一些简单预测方法。本章各节的主要内容和学习要点如下表所示。
22
二、主要术语和公式
(一)主要术语
61. 时间序列:同一现象在不同时间上的相继观察值排列而成的序列。 62. 平稳序列:基本上不存在趋势的序列。
63. 非平稳序列:包含趋势性、季节性或周期性的序列。 64. 趋势:也称长期趋势,是指时间序列在长时期内呈现出来的某种持续向上或持续下降的
变动。
65. 季节性:也称季节变动,是指时间序列在一年内重复出现的周期性波动。 66. 周期性:也称循环波动,是指时间序列中呈现出来的围绕长期趋势的一种波浪形或振荡
式变动。
67. 随机性:也称不规则波动,是指时间序列中除去趋势、周期性和季节性之后的偶然性波
动。 68. 增长率:也称增长速度,是指时间序列中报告期观察值与基期观察值之比减1后的结果,
用%表示。
69. 平均增长率:也称平均发展速度,是指时间序列中各逐期环比值(也称环比发展速度)
的几何平均数减1后的结果。
70. 增长1%绝对值:增长率每增长一个百分点而增加的绝对数量。
71. 简单平均法预测:根据过去已有的t期观察值通过简单平均来预测下一期的数值。 72. 移动平均法预测:通过对时间序列逐期递移求得平均数作为预测值的一种预测方法。 73. 指数平滑法预测:对过去的观察值加权平均进行预测的一种方法,该方法使得第t+1
期的预测值等于t期的实际观察值与第t期指数预测值的加权平均值。
(二)主要公式
23
24
四、习题答案
116. 117. 118. 119. 120. 121. 122. 123. 124. 125. 126. 127. 128.
A D A B C D B A B A C C D
129. 130. 131. 132. 133. 134. 135. 136. 137. 138. 139. 140. 141.
D D B D B A A A D D C D B
142. 143. 144. 145. 146. 147. 148. 149. 150. 151. 152. 153. 154.
A C B B A C D B C B A B B
155. 156. 157. 158. 159. 160. 161. 162. 163. 164. 165. 166. 167.
D C A A C A B C A A C D B
168. 169. 170. 171. 172. 173. 174. 175. 176. 177. 178. 179.
B C D C B D D C A A B B
25
第9章 指数
一、学习指导
指数是应用于经济领域的一种特殊统计方法。本章首先介绍指数的概念和分类,然后介绍加权指数的编制方法,最后介绍实际中几种常用的价格指数。本章各节的主要内容和学习要点如下表所示。
二、主要术语和公式
(一)主要术语
74. 指数:测定多个项目在不同场合下综合变动的相对数。
75. 加权综合指数:通过加权来测定一组项目的综合变动状况的指数。
76. 加权平均指数:以某一时期的价值总量为权数对个体指数加权平均计算的指数。 77. 价值指数:由两个不同时期的价值总量对比形成的指数。
78. 指数体系:由价值指数及其若干个因素指数构成的数量关系式。 79. 零售价格指数:反映城乡商品零售价格变动趋势的一种经济指数。 80. 居民消费价格指数:反映一定时期内城乡居民所购买的生活消费品价格和服务项目价格
的变动趋势和程度的一种相对数。
81. 生产价格指数:测量在初级市场上所售货物(即在非零售市场上首次购买某种商品时)
价格变动的一种价格指数。
82. 股票价格指数:是反映某一股票市场上多种股票价格变动趋势的一种相对数。
26
四、习题答案
1. 2. 3. 4. 5. 6. 7.
A B C D D A C
8. C 9. A 10. B 11. A 12. B 13. B 14. B
15. A 16. A 17. C 18. D 19. A 20. B 21. D
22. B 23. C 24. C 25. D 26. B 27. C
附录:教材各章习题答案
第1章 统计与统计数据
1.1 (1)数值型数据;(2)分类数据;(3)数值型数据;(4)顺序数据;(5)
分类数据。
1.2 (1)总体是“该城市所有的职工家庭”,样本是“抽取的2000个职工家庭”;
(2)城市所有职工家庭的年人均收入,抽取的“2000个家庭计算出的年人均收入。
1.3 (1)所有IT从业者;(2)数值型变量;(3)分类变量;(4)观察数据。 1.4 (1)总体是“所有的网上购物者”;(2)分类变量;(3)所有的网上购物者
的月平均花费;(4)统计量;(5)推断统计方法。 1.5 (略)。 1.6 (略)。
27
第2章 数据的图表展示
(1) 属于顺序数据。
(2)频数分布表如下
(4)帕累托图(略)。 2.2 (1)频数分布表如下
2.3
28
2.1
直方图(略)。
2.5 (1)排序略。
(2)频数分布表如下
2.6
29
(3)食品重量的分布基本上是对称的。 2.7
2.8 (1)属于数值型数据。
2.9 (1)直方图(略)。
(2)自学考试人员年龄的分布为右偏。
30
布比A班分散,
且平均成绩较A班低。
2.11 (略)。 2.12 (略)。 2.13 (略)。 2.14 (略)。 2.15 箱线图如下:(特征请读者自己分析)
第3章 数据的概括性度量 3.1
(1)M010;Me10;9.6。
(2)QL5.5;QU12。 (3)s4.2。
(4)左偏分布。 3.2
(1)
M019
;
Me23
。
(2)QL5.5;QU12。 (3)24;s6.65。 (4)SK1.08;K0.77。 (5)略。 3.3 (1)略。
(2)7;s0.71。
(3)v10.102;v20.274。
(4)选方法一,因为离散程度小。 3.4 (1)=274.1(万元);Me=272.5 。
(2)QL=260.25;QU=291.25。 (3)s21.17(万元)。 3.5 甲企业平均成本=19.41(元),乙企业平均成本=18.29(元);原
因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。 3.6
(1)=426.67(万元);s116.48(万元)。
(2)SK0.203;K0.688。
3.7 (1)(2)两位调查人员所得到的平均身高和标准差应该差不多相
同,因为均值和标准差的大小基本上不受样本大小的影响。
(3)具有较大样本的调查人员有更大的机会取到最高或最低者,因为样本越大,变化的范围就可能越大。 3.8 (1)女生的体重差异大,因为女生其中的离散系数为0.1大于男生
体重的离散系数0.08。 (2) 男生:=27.27(磅),s2.27(磅); 女生:=22.73(磅),s2.27(磅); (3)68%;
(4)95%。 3.9
通过计算标准化值来判断,zA1,zB0.5,说明在A项测试中
该应试者比平均分数高
出1个标准差,而在B项测试中只高出平均分数0.5个标准差,由于A项测试的标准化值高于B项测试,所以A项测试比较理想。 3.10 通过标准化值来判断,各天的标准化值如下表
日期 周一 周二 周三 周四 周五 周六 周日 标准化值Z 3 -0.6 -0.2 0.4 -1.8 -2.2 0 周一和周六两天失去了控制。 3.11 (1)离散系数,因为它消除了不同组数据水平高地的影响。
4.2
(2)成年组身高的离散系数:vs0.024;
172.12.3
幼儿组身高的离散系数:vs0.032;
71.3
由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。 3.12
3.13
第4章 抽样与参数估计
4.1 (1)200。(2)5。(3)正态分布。(4)2(1001)。 4.2 (1)32。(2)0.91。 4.3 0.79。
4.4 (1)25~N(17,22)。(2)100~N(17,1)。
4.5 (1)1.41。(2)1.41,1.41,1.34。 4.6 (1)0.4。(2)0.024 。(3)正态分布。 4.7 (1)0.050,0.035,0.022,016。(2)当样本量增大时,样本比例的标准
差越来越小。 4.8 (1)2.14;(2)E=4.2;(3)(115.8,124.2)。
4.9 (87819,121301)。 4.10(1)81±1.97;(2)81±2.35;(3)81±3.10。 4.11(1)(24.11,25.89);(2)(113.17,126.03);(3)(3.136,3.702) 4.12(1)(8687,9113);(2)(8734,9066);(3)(8761,9039);(4)(8682,
9118)。
4.13(2.88,3.76);(2.80,3.84);(2.63,4.01)。 4.14(7.1,12.9)。 4.15(7.18,11.57)。 4.16(1)(148.9,150.1);(2)中心极限定理。 4.17(1)(100.9,123.7);(2)(0.017,0.183)。 4.18(15.63,16.55)。 4.19(10.36,16.76)。 4.20(1)(0.316,0.704);(2)(0.777,0.863);(3)(0.456,0.504)。 4.21(18.11%,27.89%);(17.17%,22.835)。 4.22167。
4.23(1)2522;(2)601;(3)268。 4.24(1)(51.37%,76.63%);(2)36。 4.25(1)(2.13,2.97);(2)(0.015,0.029);(3)(25.3,42.5)。 4.26(1)(0.33,0.87);(2)(1.25,3.33);(3)第一种排队方式更好。 4.27 48。 4.28 139。 第5章 假设检验
5.1 研究者想要寻找证据予以支持的假设是“新型弦线的平均抗拉强度相对于以
前提高了”,所以原假设与备择假设应为:H0:1035,H1:1035。 5.2 =“某一品种的小鸡因为同类相残而导致的死亡率”,H0:0.04,
H1:0.04。
5.3 H0:65,H1:65。
5.4 (1)第一类错误是该供应商提供的这批炸土豆片的平均重量的确大于等于
60克,但检验结果却提供证据支持店方倾向于认为其重量少于60克; (2)第二类错误是该供应商提供的这批炸土豆片的平均重量其实少于60克,但检验结果却没有提供足够的证据支持店方发现这一点,从而拒收这批产品;
(3)连锁店的顾客们自然看重第二类错误,而供应商更看重第一类错误。 5.5 (1)检验统计量z
s/n
,在大样本情形下近似服从标准正态分布;
(2)如果zz0.05,就拒绝H0;
(3)检验统计量z=2.94>1.645,所以应该拒绝H0。 5.6 z=3.11,拒绝H0。 5.7 t1.66,不拒绝H0。 5.8 z2.39,拒绝H0。 5.9 t1.04,不拒绝H0 5.10z2.44,拒绝H0。 5.11z=1.93,不拒绝H0。 5.12z=7.48,拒绝H0。 5.132=206.22,拒绝H0。 5.14F2.42,拒绝H0。 第6章 方差分析
6.1 F4.6574F0.018.0215(或Pvalue0.04090.01),不能拒绝原假
设。
6.2 F15.8234F0.014.579(或Pvalue0.000010.01),拒绝原假设。 6.3 F10.0984F0.015.4170(或Pvalue0.0006850.01),拒绝原假设。 6.4 F11.7557F0.053.6823(或Pvalue0.0008490.05),拒绝原假设。
6.5 F17.0684F0.053.8853(或Pvalue0.00030.05),拒绝原假设。
AB44.43014.4LSD5.85,拒绝原假设; AC44.442.61.8LSD5.85,不能拒绝原假设; BC3042.612.6LSD5.85,拒绝原假设。
6.6
F1.478F0.053.554131(或Pvalue0.2459460.05),不能拒绝原
假设。
第7章 相关与回归分析
7.1 (1)散点图(略),产量与生产费用之间正的线性相关关系。
(2)r0.920232。
(3)检验统计量t14.4222t22.2281,拒绝原假设,相关系数显著。 7.2 (1)散点图(略)。 (2)r0.8621。
ˆ表示当x0时y的期望值。 7.3 (1)0
ˆ表示x每变动一个单位y平均下降0.5个单位。 (2)1
(3)E(y)7。 7.4 (1)R290%。
(2)se1。 7.5 (1)散点图(略)。
(2)r0.9489。
ˆ0.00358表示运送距离每增加1ˆ0.11810.00358x。回归系数(3)y1
公里,运送时间平均增加0.00358天。
7.6 (1) 散点图(略)。二者之间为高度的正线性相关关系。
(2)r0.998128,二者之间为高度的正线性相关关系。
ˆ0.308683ˆ734.69280.308683x。(3)估计的回归方程为:y回归系数1
表示人均GDP每增加1元,人均消费水平平均增加0.308683元。 (4)判定系数R20.996259。表明在人均消费水平的变差中,有99.6259%
是由人均GDP决定的。
(5)检验统计量F1331.692F6.61,拒绝原假设,线性关系显著。
ˆ5000734.69280.30868350002278.1078(元)(6)y。
(7)臵信区间:[1990.749,2565.464];预测区间:[1580.463,2975.750]。
7.7 (1) 散点图(略),二者之间为负的线性相关关系。
ˆ4.7表示航班ˆ430.18924.7x。回归系数(2)估计的回归方程为:y1
正点率每增加1%,顾客投诉次数平均下降4.7次。
(3)检验统计量t4.959t22.3060(P-Value=0.001108
拒绝原假设,回归系数显著。
ˆ80430.18924.78054.1892(次)(4)y。
(5)臵信区间:(37.660,70.619);预测区间:(7.572,100.707)。 7.8 Excel输出的结果如下(解释与分析请读者自己完成)
Multiple R R Square Adjusted R Square 标准误差 观测值 方差分析
回归分析 残差 总计
Intercept X Variable 1
Coefficients
49.3177 0.2492
df
1 18 19
标准误差
3.8050 0.0448
0.7951 0.6322 0.6117 2.6858
20
SS 223.1403 129.8452 352.9855
t Stat 12.9612 5.5618
MS 223.1403 7.2136
P-value 0.0000 0.0000
F 30.9332
Lower 95%
41.3236 0.1551
Significance F 2.79889E-05
Upper 95%
57.3117 0.3434
7.9
(2)R20.866086.60%。表明汽车销售量的变
SST1642866.67
差中有86.60%是由于广告费用的变动引起的。 (3)rR20.86600.9306。
ˆ1.420211表示广告费用每ˆ363.68911.420211x。回归系数(4)y1
增加一个单位,销售量平均增加1.420211个单位。
(5)Significance F=2.17E-09
ˆ13.62542.3029x;R293.74%;se3.8092。 7.10 y
7.11 (1)27。 (2)4.41。
(3)拒绝H0。 (4)r0.7746。 (5)拒绝H0。
7.12 (1)15.95E(y)18.05。
(2)14.651y019.349。
ˆ46.2915.24x;441.555E(y40)685.045。 7.13 y
ˆ25.030.0497x11.928x2;预测28.586。 7.14 y
7.15 (略)。
7.16 (1)显著。 (2)显著。 (3)显著。
ˆ88.63771.6039x1。 7.17 (1)y
ˆ83.23012.2902x11.3010x2。 (2)y
ˆ1.6039表示电视广告费用每增(3)不相同。方程(1)中的回归系数1
加1万元,月销售额平均增加1.6039万元;方程(1)中的回归系数
ˆ2.2902表示在报纸广告费用不变的条件下,电视广告费用每增加1万1
元,月销售额平均增加2.2902万元。
2
88.66%。 (4)R291.91%;Ra
(5)1的P-Value=0.0007,2的P-Value=0.0098,均小于0.05,两个回归系数均显著。
ˆ0.591022.3865x1327.6717x2 7.18 (1)y
ˆ22.3865表示降雨量每增加1毫mm,小麦收获量平均(2)回归系数1ˆ327.6717表示温度每增加10C,增加22.3865kg/hm2;回归系数小麦收2
获量平均增加327.6717kg/mh2。
(3)可能存在。
ˆ148.70050.8147x10.8210x20.1350x3。 7.19 (1)y
2
87.83%。 (2)R289.75%;Ra
(3)Significance F=3.88E-08
P-Value=0.1311>0.05,不显著;2的
P-Value=0.00130.05,不显著。 第8章 时间序列分析和预测 8.1 (1)时间序列图(略)。
(2)13.55%。
(3)1232.90(亿元)。 8.2 (1)时间序列图(略)。
(2)1421.2(公斤/公顷)。
(3)0.3时的预测值:F20011380.18,误差均方=291455; 0.5时的预测值:F20011407.23,误差均方=239123。0.5更合适。 8.3 (1)3期移动平均预测值=630.33(万元)。
(2)0.3时的预测值:F19567.95,误差均方=87514.7; 0.4时的
预测值:F19591.06,误差均方=62662.5;0.5时的预测值:
F19606.54,误差均方=50236。0.5更合适
ˆ239.7321.9288t。估计标准误差s31.6628。 (3)趋势方程YtY
8.4 (1)趋势图(略)。
ˆ145.781.16077t。2001年预测值=3336.89(亿元)。 (2)趋势方程Yt
8.5 (1)趋势图(略)。
ˆ69.520213.9495t,2000年预测值=585.65(万吨) (2)线性趋势方程Y。
8.6 线性趋势:
ˆ374.16130.6137tY
;二次曲线:
ˆ381.64421.8272t0.0337t2Y
;三次曲线:
ˆ372.56171.0030t0.1601t20.0036t3。 Y
8.7 (1)原煤产量趋势图(略)。
ˆ4.58240.9674t0.0309t2,预测值Yˆ11.28(亿吨)(2)趋势方程Y。 t2001
8.8 (1)图形(略)。
(2)移动平均法或指数平滑法。
(3)移动平均预测=72.49(万元);指数平滑法预测=72.5(万元)( 0.4)。 8.9 (1)略。
ˆ2043.92163.7064t。图形计算趋势:分离季节因素后的趋势方程为:Yt
(略)
周期波动图(略)。 8.11各月季节指数如下
1月 2月 3月 0.6744 0.6699 0.7432 7月 8月 9月 0.7552 0.3449 0.9619 季节变动图(略)。
4月
0.7903 10月 1.1992 5月 0.8061 11月 1.8662 6月 0.8510 12月 2.3377
ˆ119.1590.42449t。图形计算趋势:分离季节因素后的趋势方程为:Yt
(略)。
周期波动图(略)。 随机波动图(略)。 第9章 指数
9.1 (1)v110.80%。(2)Ip122.46%。(3)Iq90.48%。(4)13920元=26190元-12270元。 9.2 (1)111.72%。(2)111.60%。(3)100.10%。(4)15.3万元=15.1532
万元+0.1468万元。 9.3 (1)2.62%;8016元。(2)28.42%;124864元。(3)143.37%;132880
元。 9.4 (1)单位成本增长11.11%。(2)Ip111.11%;Iq90.91%。 9.5 结果如下表:
年份 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
缩减后的人均GDP
1584.9 1817.2 2149.4 2562.3 3161.2 4145.2 5148.7 5889.1 6357.9 6640.0 7049.8
9.6 Ip98.52%,下跌1.48%。