1、美国人口普查局公布了美国人口的变化信息。下表是2000年7月1日美国人口年龄的百分比频数分布:
试根据上表回答下列问题:
(1)34岁以下人口所占的百分比是多少?
20+5.7+9.6+13.6=48.9%
(2)25和54岁之间的人口百分比是多少?
13.6+16.3+13.5=43.4%
(3)超过34岁的人口百分比是多少?
16.3+13.5+8.7+12.6=51.1%
(4)已知总人口为2.75亿,有多少人年龄低于25岁?
2.75亿×(20.0+5.7+9.6)%=0.97亿
2、为考察大学生的月消费情况,调查者选取了一个班级作为样本,表1是该班学生月消费额的频数分布情况,根据此资料回答下列问题:
解题过程请看《Megastat应用根据样本数据算均值、方差、直方图等等》
表1 学生月消费额的频数分布
Descriptive statistics
(1) 计算此班级的平均月消费额以及月消费额的标准差;
(1) 计算此班级的平均月消费额以及月消费额的标准差;
53 483.96 14,209.00 119.20 350 750 400
count mean
sample variance
sample standard deviation minimum maximum range
此班级的平均月消费额:483.96 月消费额的标准差:14209
(2) 试画出频数分布图,并据此判断数据的偏态分布类型; Frequency Distribution - Quantitative
(2) 试画出频数分布图,并据此判断数据的偏态分布类型; cumulative
lower
upper
midpoint width frequency
375 425 475 525 575 625 675 725 775
50 50 50 50 50 50 50 50 50
percent frequency percent 28.8 0.0 34.6 0.0 19.2 0.0 13.5 0.0 3.8
15 28.8 15 28.8 33 63.5 33 63.5 43 82.7 43 82.7 50 96.2 50 96.2 52 100.0
350 400 450 500 550 600 650 700 750
400 450 500 550 600 650 700 750 800
15 0 18 0 10 0 7 0 2
52 100.0
数据右偏分布
(3) 试分析众数、中位数分别在哪一组。 Descriptive statistics
count mean
1st quartile median 3rd quartile interquartile range mode
low extremes low outliers high outliers high extremes
(3) 试分析众数、中位数分别在哪一组。
51 473.53 350.00 450.00 550.00 200.00 450.00
0 0 0 0
中英文对照:Mode, Median and Mean众数,中位数和均值
众数和中位数均为450,即在400~500这一组
3、假设IQ分数具有正态分布,其均值为100,标准差为15。 解题过程请看《Megastat应用根据样本值、均值、标准差算比例》
(1)IQ分数在85-115之间的人士占多大百分比? Sample size - mean
100 E, error tolerance 15 standard deviation 95% confidence level 1.960 z
0.086 sample size
1 rounded up
normal distribution
100%-低于85的比例-高于115的比例即为85~115所占比例 68.27%
(2)IQ分数超过130的人士占多大百分比?
2.28%
(3)IQ分数超过145的人被认为是天才。请从概率的角度予以解释。
0.13%
概率仅为0.13%,人数很少,故为天才
4、《1997年美国统计摘要》公布了18岁及以上人群中吸烟者的百分比。假定要设计一项调查以收集吸烟者和非吸烟者的新的数据,原来对吸烟者的总体比例最好的初步估计是30%。
解题过程请看《Megastat应用样本容量、极限误差、比例的相互关系》 (1)为了在极限误差为0.02时估计18岁及以上人群中吸烟者的总体比例,应该选择多大的样本容量?(置信水平95%) Sample size - proportion
0.02 E, error tolerance
0.3 estimated population proportion 95% confidence level 1.960 z
2016.766 sample size
2017 rounded up
样本容量2017
(2)假定该研究使用了你在(1)中建议的样本容量,并且在其中发现了520名吸烟者。吸烟者总体比例的点估计及区间估计是多少?(置信水平95%)
比例的点估计是520/2017=25.78% Confidence interval - proportion
95% confidence level
0.257808627 proportion
2017 n 1.960 z 0.019 half-width
0.277 upper confidence limit 0.239 lower confidence limit
置信区间:[23.9%,27.7%]
5、消费者调查公司为很多企业调查消费者意向和消费者行为。在一项调查中,某个客户为了预测信用卡用户的年支付数额,要求调查消费者的行为特性。一个含有50个消费者所组成的样本收集了年收入(千美元)、家庭成员的人数、信用卡年支付数额(美元)的数据,建立回归模型,估计结果如下所示:
(1)在α=0.05的显著性水平下,家庭成员人数是否是影响信用卡支付数额的一个显著因素?解释原因;
在α=0.05的显著性水平下,家庭成员人数是影响信用卡支付数额的一个显著因素,p值为3.12342E-14,远小于0.05。
(2)写出估计的回归方程,并解释各变量系数的涵义; 估计的回归方程为:
ˆ=1304.9+33.133x1+356.3x2y
,在其他因素不变的情况
下,年收入每增加1千美元,信用卡年支付额平均将增加33.133美元;家庭成员人数每增加1人,将使得信用卡年支付额平均增加356.3美元。
(3)某个家庭,其人数为3人,年收入40000美元,则这个家庭信用卡年支付额的预测值为多少?
将自变量数值代入回归方程中,可算出这个家庭信用卡年支付额约为3699.12美元。
6、美国航空公司的波音737客机的平均小时运营成本为2701美元。假定飞机的小时运营成本服从正态分布。
(1)小时运营成本小于1800美元的比例为11%,试求小时运营成本的标准差;
⎧x-27011800-2701⎫
P{x≤1800}=p⎨≤⎬=0.11
σ⎩σ⎭
-901901901
φ()=0.11 φ()=0.89 =1.23
σσσ
σ=732.5
(2)737客机的小时运营成本在2000-2500之间的比例是多少?(百分号上取整数)
解题过程请看《Megastat应用根据均值、标准差、样本值计算区间》
100%-低于2000的比例-高于2500的比例即为2000~2500所占比例
737客机的小时运营成本在2000-2500之间的比例是22%
7、某学校经济学专业研究生招生考试分数统计结果如表2所示,报考人数为362人。假如一位同学的成绩为:英语:
67分;
微观经济学:72分;宏观经济学74分。假设成绩均服从正态分布,请你根据统计学的相关知识估计一下该同学各科考试成绩及总成绩在所有报考人中的位置。
英语
84.32785
英语排在第85位
微观经济学
106.2109
宏观经济学
微观经济学排在第107位
65.27925
总分
宏观经济学排在第66位
normal distribution
71.02893
总分排在第72位
8、虽然航班时刻和费用是商务旅行者在选择航班时的重要考虑因素,但《今日美国》的一项调查发现,商务旅行者把航空公司的常旅客优惠计划列为重要因素。在一个n=1993名商务旅行者的样本中,有618人把常客优惠计划作为首要因素。
解题过程请看《Megastat应用根据比例和样本数做置信区间估计》
(1)总体中认为常客优惠是首要因素的商务旅行者所占比例的点估计是多少?(百分号上取整数) 618÷1993=31%
(2)建立总体比例的95%置信区间估计。(百分号上取整数) Confidence interval - proportion
95% confidence level 0.31 proportion 1993 n 1.960 z 0.020 half-width
0.330 upper confidence limit 0.290 lower confidence limit
建立总体比例的95%置信区间估计
29%~33%
9、为了检验某英语辅导班的效果,从某学校随机抽取50名学生参加该辅导
班,在辅导班开始前和结束后分别进行一次难度相当的综合考试。令X为参加辅导班之后与参加辅导班前英语成绩的差,且服从正态分布,其样本均值为2.95,标准差为5.8,试在α=0.05的显著性水平下,检验该辅导班是否有效果。
解题过程请看《Megastat应用通过均值、标准差、N验证假说》 标签 均值
标准差 N
英语成绩差值
2.95 5.8 50
根据题意提出假设,
H0:μ≤0,H1:μ>0
Hypothesis Test: Mean vs. Hypothesized Value
0.0000 hypothesized value 2.9500 mean 英语成绩差值 5.8000 std. dev. 0.8202 std. error
50 n
3.60 z
.0002 p-value (one-tailed, upper)
1.3424 confidence interval 95.% lower 4.5576 confidence interval 95.% upper 1.6076 margin of error
z值的绝对值大于1.96均为小概率事件
概率值>α,不拒绝原假设 概率值
所以拒绝原假设,即说明该辅导班有效。
10
(1)利用指标间的关系将表中所缺数字补齐(保留一位小数);
(2)计算投资额的年平均增长速度(百分号上保留一位小数);
平均发展速度=
==102.6%
平均增长速度=102.6%-1=2.6%
(3)根据年平均增长速度推算2000年的投资额。(保留整数)
9500*1.026^5= 10800.9≈10801
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& 欢迎来信讨论Megastat的应用问题,[email protected]
为避免作为垃圾邮件筛选,请在来信标题栏注明:“Megastat应用”
1、美国人口普查局公布了美国人口的变化信息。下表是2000年7月1日美国人口年龄的百分比频数分布:
试根据上表回答下列问题:
(1)34岁以下人口所占的百分比是多少?
20+5.7+9.6+13.6=48.9%
(2)25和54岁之间的人口百分比是多少?
13.6+16.3+13.5=43.4%
(3)超过34岁的人口百分比是多少?
16.3+13.5+8.7+12.6=51.1%
(4)已知总人口为2.75亿,有多少人年龄低于25岁?
2.75亿×(20.0+5.7+9.6)%=0.97亿
2、为考察大学生的月消费情况,调查者选取了一个班级作为样本,表1是该班学生月消费额的频数分布情况,根据此资料回答下列问题:
解题过程请看《Megastat应用根据样本数据算均值、方差、直方图等等》
表1 学生月消费额的频数分布
Descriptive statistics
(1) 计算此班级的平均月消费额以及月消费额的标准差;
(1) 计算此班级的平均月消费额以及月消费额的标准差;
53 483.96 14,209.00 119.20 350 750 400
count mean
sample variance
sample standard deviation minimum maximum range
此班级的平均月消费额:483.96 月消费额的标准差:14209
(2) 试画出频数分布图,并据此判断数据的偏态分布类型; Frequency Distribution - Quantitative
(2) 试画出频数分布图,并据此判断数据的偏态分布类型; cumulative
lower
upper
midpoint width frequency
375 425 475 525 575 625 675 725 775
50 50 50 50 50 50 50 50 50
percent frequency percent 28.8 0.0 34.6 0.0 19.2 0.0 13.5 0.0 3.8
15 28.8 15 28.8 33 63.5 33 63.5 43 82.7 43 82.7 50 96.2 50 96.2 52 100.0
350 400 450 500 550 600 650 700 750
400 450 500 550 600 650 700 750 800
15 0 18 0 10 0 7 0 2
52 100.0
数据右偏分布
(3) 试分析众数、中位数分别在哪一组。 Descriptive statistics
count mean
1st quartile median 3rd quartile interquartile range mode
low extremes low outliers high outliers high extremes
(3) 试分析众数、中位数分别在哪一组。
51 473.53 350.00 450.00 550.00 200.00 450.00
0 0 0 0
中英文对照:Mode, Median and Mean众数,中位数和均值
众数和中位数均为450,即在400~500这一组
3、假设IQ分数具有正态分布,其均值为100,标准差为15。 解题过程请看《Megastat应用根据样本值、均值、标准差算比例》
(1)IQ分数在85-115之间的人士占多大百分比? Sample size - mean
100 E, error tolerance 15 standard deviation 95% confidence level 1.960 z
0.086 sample size
1 rounded up
normal distribution
100%-低于85的比例-高于115的比例即为85~115所占比例 68.27%
(2)IQ分数超过130的人士占多大百分比?
2.28%
(3)IQ分数超过145的人被认为是天才。请从概率的角度予以解释。
0.13%
概率仅为0.13%,人数很少,故为天才
4、《1997年美国统计摘要》公布了18岁及以上人群中吸烟者的百分比。假定要设计一项调查以收集吸烟者和非吸烟者的新的数据,原来对吸烟者的总体比例最好的初步估计是30%。
解题过程请看《Megastat应用样本容量、极限误差、比例的相互关系》 (1)为了在极限误差为0.02时估计18岁及以上人群中吸烟者的总体比例,应该选择多大的样本容量?(置信水平95%) Sample size - proportion
0.02 E, error tolerance
0.3 estimated population proportion 95% confidence level 1.960 z
2016.766 sample size
2017 rounded up
样本容量2017
(2)假定该研究使用了你在(1)中建议的样本容量,并且在其中发现了520名吸烟者。吸烟者总体比例的点估计及区间估计是多少?(置信水平95%)
比例的点估计是520/2017=25.78% Confidence interval - proportion
95% confidence level
0.257808627 proportion
2017 n 1.960 z 0.019 half-width
0.277 upper confidence limit 0.239 lower confidence limit
置信区间:[23.9%,27.7%]
5、消费者调查公司为很多企业调查消费者意向和消费者行为。在一项调查中,某个客户为了预测信用卡用户的年支付数额,要求调查消费者的行为特性。一个含有50个消费者所组成的样本收集了年收入(千美元)、家庭成员的人数、信用卡年支付数额(美元)的数据,建立回归模型,估计结果如下所示:
(1)在α=0.05的显著性水平下,家庭成员人数是否是影响信用卡支付数额的一个显著因素?解释原因;
在α=0.05的显著性水平下,家庭成员人数是影响信用卡支付数额的一个显著因素,p值为3.12342E-14,远小于0.05。
(2)写出估计的回归方程,并解释各变量系数的涵义; 估计的回归方程为:
ˆ=1304.9+33.133x1+356.3x2y
,在其他因素不变的情况
下,年收入每增加1千美元,信用卡年支付额平均将增加33.133美元;家庭成员人数每增加1人,将使得信用卡年支付额平均增加356.3美元。
(3)某个家庭,其人数为3人,年收入40000美元,则这个家庭信用卡年支付额的预测值为多少?
将自变量数值代入回归方程中,可算出这个家庭信用卡年支付额约为3699.12美元。
6、美国航空公司的波音737客机的平均小时运营成本为2701美元。假定飞机的小时运营成本服从正态分布。
(1)小时运营成本小于1800美元的比例为11%,试求小时运营成本的标准差;
⎧x-27011800-2701⎫
P{x≤1800}=p⎨≤⎬=0.11
σ⎩σ⎭
-901901901
φ()=0.11 φ()=0.89 =1.23
σσσ
σ=732.5
(2)737客机的小时运营成本在2000-2500之间的比例是多少?(百分号上取整数)
解题过程请看《Megastat应用根据均值、标准差、样本值计算区间》
100%-低于2000的比例-高于2500的比例即为2000~2500所占比例
737客机的小时运营成本在2000-2500之间的比例是22%
7、某学校经济学专业研究生招生考试分数统计结果如表2所示,报考人数为362人。假如一位同学的成绩为:英语:
67分;
微观经济学:72分;宏观经济学74分。假设成绩均服从正态分布,请你根据统计学的相关知识估计一下该同学各科考试成绩及总成绩在所有报考人中的位置。
英语
84.32785
英语排在第85位
微观经济学
106.2109
宏观经济学
微观经济学排在第107位
65.27925
总分
宏观经济学排在第66位
normal distribution
71.02893
总分排在第72位
8、虽然航班时刻和费用是商务旅行者在选择航班时的重要考虑因素,但《今日美国》的一项调查发现,商务旅行者把航空公司的常旅客优惠计划列为重要因素。在一个n=1993名商务旅行者的样本中,有618人把常客优惠计划作为首要因素。
解题过程请看《Megastat应用根据比例和样本数做置信区间估计》
(1)总体中认为常客优惠是首要因素的商务旅行者所占比例的点估计是多少?(百分号上取整数) 618÷1993=31%
(2)建立总体比例的95%置信区间估计。(百分号上取整数) Confidence interval - proportion
95% confidence level 0.31 proportion 1993 n 1.960 z 0.020 half-width
0.330 upper confidence limit 0.290 lower confidence limit
建立总体比例的95%置信区间估计
29%~33%
9、为了检验某英语辅导班的效果,从某学校随机抽取50名学生参加该辅导
班,在辅导班开始前和结束后分别进行一次难度相当的综合考试。令X为参加辅导班之后与参加辅导班前英语成绩的差,且服从正态分布,其样本均值为2.95,标准差为5.8,试在α=0.05的显著性水平下,检验该辅导班是否有效果。
解题过程请看《Megastat应用通过均值、标准差、N验证假说》 标签 均值
标准差 N
英语成绩差值
2.95 5.8 50
根据题意提出假设,
H0:μ≤0,H1:μ>0
Hypothesis Test: Mean vs. Hypothesized Value
0.0000 hypothesized value 2.9500 mean 英语成绩差值 5.8000 std. dev. 0.8202 std. error
50 n
3.60 z
.0002 p-value (one-tailed, upper)
1.3424 confidence interval 95.% lower 4.5576 confidence interval 95.% upper 1.6076 margin of error
z值的绝对值大于1.96均为小概率事件
概率值>α,不拒绝原假设 概率值
所以拒绝原假设,即说明该辅导班有效。
10
(1)利用指标间的关系将表中所缺数字补齐(保留一位小数);
(2)计算投资额的年平均增长速度(百分号上保留一位小数);
平均发展速度=
==102.6%
平均增长速度=102.6%-1=2.6%
(3)根据年平均增长速度推算2000年的投资额。(保留整数)
9500*1.026^5= 10800.9≈10801
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& 欢迎来信讨论Megastat的应用问题,[email protected]
为避免作为垃圾邮件筛选,请在来信标题栏注明:“Megastat应用”