第二章习题
2.1判断下列抽样方法是否是等概的:
(1)总体编号1~64,在0~99中产生随机数r,若r=0或r>64则舍弃重抽。 (2)总体编号1~64,在0~99中产生随机数r,r处以64的余数作为抽中的数,若余数为0则抽中64.
(3)总体20000~21000,从1~1000中产生随机数r。然后用r+19999作为被抽选的数。
解析:等概抽样属于概率抽样,概率抽样具有一些几个特点:第一,按照一定的概率以随机原则抽取样本。第二,每个单元被抽中的概率是已知的,或者是可以计算的。第三,当用样本对总体目标进行估计时,要考虑到该样本被抽中的概率。 因此(1)中只有1~64是可能被抽中的,故不是等概的。(2)不是等概的【原因】(3)是等概的。 2.2抽样理论和数理统计中关于样本均值y的定义和性质有哪些不同?
2.3为了合理调配电力资源,某市欲了解50000户居民的日用电量,从中简单随机抽取了300户进行,现得到其日用电平均值y=9.5(千瓦时),s2=206.试估计该市居民用电量的95%置信区间。如果希望相对误差限不超过10%,则样本量至少应为多少?
解:由已知可得,N=50000,n=300,=9.5,s2=206
ˆ)=v(N)=N21-fs2=500002V(Y
n
1-
300
*206=1706366666 300
v(==41308.19 该市居民用电量的95%置信区间为
[[Ny±zα(y)]=[475000±1.96*41308.19]
2
即为(394035.95,555964.05) 由相对误差公式
uα2v()
≤10%
可得1.96*
-n*206≤9.5*10% n
即n≥862
欲使相对误差限不超过10%,则样本量至少应为862
2.4某大学10000名本科生,现欲估计爱暑假期间参加了各类英语培训的学生所占的比例。随机抽取了两百名学生进行调查,得到P=0.35,是估计该大学所有本科生中暑假参加培训班的比例的95%置信区间。
n
解析:由已知得:N=10000 n=200 p=0.35 f==0.02
N
∧∧1-f
又有:E(p)=E(p)=p=0.35 V(p)=p(1-p)=0.0012
n-1
该大学所有本科学生中暑假参加培训班的比例95%的置信区间为:
[E(P)±Zα(P)]
2
∧
∧
代入数据计算得:该区间为[0.2843,0.4157]
2.5研究某小区家庭用于文化方面(报刊、电视、网络、书籍等)的支出,N=200,现抽取一个容量为20的样本,调查结果列于下表:
编号 1 2 3 4 5 6 7 8
文化支出 200 150 170 150 160 130 140 100
编号 11 12 13 14 15 16 17 18
文化支出 150 160 180 130 100 180 100 180
9 10 110 240 19 20 170 120
估计该小区平均的文化支出Y,并给出置信水平95%的置信区间。 解析:由已知得:N=200 n=20
120
根据表中数据计算得:y=∑yi=144.5
20i=1
2120
s=y-y=827.06842 ∑i
20-1i=1
2
()
V(y)=
∴ 该小区平均文化支出Y的
[132.544 ,156.456]
1n
(1-)s2=37.21808 (y)=6.10015 nN
95%置信区间为:[y±zα(y)]即是:
2
故估计该小区平均的文化支出Y=144.5,置信水平95%的置信区间为[132.544 ,156.456]。
2.6某地区350个乡为了获得粮食总产量的估计,调查了50个乡当年的粮食产量,得到y=1120(吨),S2=2560,据此估计该地区今年的粮食总产量,并给出置信水平95%的置信区间。 解析:由题意知:y=1120 f=
n50
==0.1429 S2=2560⇒s=160 N350
1-f
s] 代入数据得: n
置信水平95%的置信区间为:[y±zα
2
置信水平95%的置信区间为:[1079.872,1160.872]
2.7某次关于1000个家庭人均住房面积的调查中,委托方要求绝对误差限为2平方千米,置信水平95%,现根据以前的调查结果,认为总体方差S2=68,是确定简单随机抽样所需的样本量。若预计有效回答率为70%,则样本量最终为多少?
NZαS2
2
解析:简单随机抽样所需的样本量n1=
2
Nd2+ZαS2
2
2
n2=
n1
70%
由题意知:N=1000 d=2 S=68 代入并计算得:n1=61.3036≈61
n2=
2
Zα=1.96
2
n1
=87.142≈8770%
故知:简单随机抽样所需的样本量为61,若预计有效回答率为70%,则样本量最终为87
2.8某地区对本地100家化肥生产企业的尿素产量进行调查,一直去年的总产量为2135吨,抽取10个企业调查今年的产量,得到y=25,这些企业去年的平均产量为x=22。试估计今年该地区化肥总产量。
=
X2135==21.35N100,=25
∧
解析:由题可知=22,
则,该地区化肥产量均值的比率估计量为
Y=X
y25
=21.35=24.26
24x
=100*24.26=2426ˆ=NYR 该地区化肥产量总值Y的比率估计量为
所以,今年该地区化肥总产量的估计值为2426吨。
2.9如果在解决习题2.5的问题时可以得到这些家庭月总支出,得到如下表:
置信水平95%的置信区间,并比较比估计和简单估计的效率。
1n1
=∑xi=2300+1700+ +1300)=1580
ni=120解析:由题可知
=144.5
ˆ=r==144.5=≈0.091R
1580
又
R=144.5=1600*=146.3291580
1n
S=(yi-)2=826.053∑n-1i=1
2
Sxy
1n
=∑(yi-)(xi-)=3463.158n-1i=1
1n2=(x-)=8831.579∑i
n-1i=1
Sx
2
故平均文化支出的95%的置信区间为
[R-Zα2
-f21-f2
ˆS+Rˆ2S2),+ZˆS+Rˆ2S2)](S-2R(S-2RyxxRα2yxx
nn
代入数据得(146.329±1.96*1.892)
即为[142.621,150.037]
2.10某养牛场购进了120头肉牛,购进时平均体重100千克。现从中抽取10头,记录重量,3个月后再次测量,结果如下:
的结果进行比较。
1n1
=102.6 解:由题可知,=∑xi=95+ +105)
ni=110
1n1
150+ 170)=163 =∑yi=ni=110
1n12
S=(y-)=*1910=212.222 ∑i
n-1i=19
2
Sxy
1n1=(y-)(x-)=*1317=146.333 ∑ii
n-1i=19
Sx
2
1n1=(xi-)2=*926.4=106.933 ∑n-1i=19SxySx
2
故有β0=
=
146.333
=1.368
106.933
所以总体均值的回归估计量为
lr=+β0(-)=163+1.368*(100-102.6)=159.443 其方差估计为:
ˆ()=1-f(S2+β2S2-2βS)Vlr0x0xy
n101-
=(212.222+1.3682*106.933-2*1.368*146.333)
10=1.097 1-f2
ˆ()而V=S
n
=
1-*212.222 10
=19.454
ˆ()
所以,回归估计的结果要优于简单估
第三单元习题答案(仅供参考) 1解:(1)不合适 (2)不合适 (3)合适 (4)不合适
2.将800名同学平均分成8组,在每一级中抽取一名“幸运星”。
=
=20.1
V()=-
=9.7681-0.2962
=9.4719
=3.0777
(2)置信区间为95%相对误差为10%,则有
按比例分配的总量:n=
=185.4407
185
=n=56,=92,=37
按内曼分配:n=
=175
=33,=99,=43
=
=0.924
根据各层层权及抽样比的结果,可得
()==0.000396981
=1.99%
估计量的标准差为1.99%,比例为9.24% 按比例分配:
n=2663
=479,
=559,
=373,
=240,
=426,
=586
内曼分配:
n=2565
=536,
=520,
=417,
=304,
=396,
=392
5.解:由题意,有
=
=75.79
购买冷冻食品的平均支出为75.79元
又由V()=+
又n=
V()
=53.8086
=7.3354
95%的置信区间为[60.63,90.95]。 7.解:(1)对 (2)错 (3)错 (4)错 (5)对
8.解:(1)差错率的估计值=
70%+
30%=0.027
估计的方差v()==3.1967
标准差为S()=0.0179。
(2)用事后分层的公式计算差错率为==0.03
估计的方差为;v()=-=2.5726
=0.4,
(2)用分别比估计,有=0.65,所以用分别比估计可计算得=6.4。
用联合比估计,有
=0.5,=0.625,所以用联合比估计可计算得=6.5。
第四章习题
4.1
邮局欲估计每个家庭的平均订报份数,该辖区共有4000户,划分为400个
解:由题意得到N=400,n=4,M=10,f=
1故==
Mn
n4==0.01 N400
∑
i=1
n
yi=
19+20+16+20
=1.875(份)
10⨯4
=M⋅=10⨯1.875=18.75(份) ˆ=M⋅N⋅=10⨯400=7500(份) Y
2sb
M=
n-1
∑(i=1
n
i
-)2
n
1-f21-f1v()=sb=
nMnM2n-1
∑(i=1
i
-)2
1-0.01(19-18.75)2+ +(20-18.75)2
=⨯
4-14⨯102
=0.00391875
ˆ)=N2M2v()=4002⨯102⨯0.00391875=62700 v(Y
于是由以上的计算结果得到平均每户的订报份数为1.875,估计量方差为
0.00391875。该辖区总的订阅份数为7500,估计量方差为62700。
4.2 某工业系统准备实行一项改革措施。该系统共有87个单位,现采用整群抽
样,用简单随机抽样抽取15个单位做样本,征求入选单位中每个工人对政
(2) 在调查的基础上对方案作了修改,拟再一次征求意见,要求估计比例的允
许误差不超过8%,则应抽取多少个单位做样本?
解:题目已知N=87,n=15,f=1)由已知估计同意改革的比例
n15
=
N87
ˆ=p
∑y
i=1
ni=1
n
i
=
i
∑M
1=
n
n
646
≈0.709 911
∑M
i=1
i
=60.733
n
11-f1ˆ)=2v(p
nn-1∑(y
i=1
i
ˆMi)2=0.008687 -p
此估计量的标准差为
ˆ)=v(pˆ)=.008687=0.9321 s(p
4.3 某集团的财务处共有48个抽屉,里面装有各种费用支出的票据。财务人员
欲估计办公费用支出的数额,随机抽取了其中的10个抽屉,经过清点,整
)。
nn
n10
解:已知N=48, n=10, f==, 由题意得∑yi=736,∑Mi=365,
N48i=1i=1
ˆ=N则办公费用的总支出的估计为Y
n
∑yi=
i=1
n
48
⨯736=3532.8(元) 10
1n1
群总和均值=∑yi=⨯736=73.6(元)
ni=110
ˆ)=N(1-f)⋅v(Y
n
2
∑(y
i=1
n
i
-)2
n-1
10)
(83-73.6)2+(62-73.6)2+...+(80-73.6)2= ⨯
109
1
= 182.4⨯⨯3590.4
9
= 72765.44 482⨯(1-)=269.7507 v(Y
ˆ的置信度为95%的置信区间为3532.8±1.96⨯269.7507,即[3004.089,则Y
4061.511].
4.4 为了便于管理,将某林区划分为386个小区域。现采用简单随机抽样方法,
估计整个林区树的平均高度及95%的置信区间。
解:由已知得N=386,n=20,f=
n20==0.0518 N3866180.8
=5.909 1046
整体的平均高度==
∑M
i=1ni-1
n
i
i
=
i
∑M
1M=
n
∑M
i=1
n
i
=52.3
n
方差估计值v()=v()=
=0.02706
1-fn2
∑(y
i=1
i
-Mi)2
n-1
标准方差s()=v()=0.02706=0.1644
在置信度95%下,该林区的树木的平均高度的置信区间为
(±tα/2⋅s())=(5.909±1.96⨯0.1644)=(5.5868,6.2312)
4.5 某高校学生会欲对全校女生拍摄过个人艺术照的比例进行调查。全校共有女
生宿舍200间,每间6人。学生会的同学运用两阶段抽样法设计了抽样方案,从200间宿舍中抽取了10间样本宿舍,在每间样本宿舍中抽取3位同学进
解:题目已知N=200,n=10,M=6,m=3,f1=
n10m==0.05,f2==0.5 N200M
ˆ=p
∑y
i=1
n
i
nm
=
9
=0.3 10⨯3
11-f1ˆ)=2⋅v(p⋅
nn-1m
∑(y
i=1
n
i
-p⋅m)=0.005747
ˆ)=v(p)=.005747=0.0758 s(p
在置信度95%下,p的置信区间为
ˆ±tα/2v(pˆ))=(0.3±1.96⨯0.0758)=(0.151432,0.448568(p)
4.6 上题中,学生会对女生勤工助学月收入的一项调查中,根据以往同类问题的
调查,宿舍间的标准差为S1=326元,宿舍内同学之间的标准差为S2=188元。以一位同学进行调查来计算,调查每个宿舍的时间c1为1分钟,为了调查需要做各方面的准备及数据计算等工作,所花费的时间为c0是4小时,如果总时间控制在8小时以内,则最优的样本宿舍和样本学生是多少?
解:由已知条件得到以下信息:
S1=326(元)S2=188(元)c1=10(分钟)c2=1(分钟)c0=4⨯60=240
(分钟) 由此得到
2S1
=106276,
S22
=35344,
S2u
2
S235344=S1-=106276-=100385.33
M6
mopt=
S2c188⋅1=⨯≈1.82 S1c23261
因而取最优的m=2,进一步计算nopt 由于总时间的限制C=480,由关系式
C=c0+c1n+c2nm得到480=240+10nopt+2nopt
计算方程得到nopt=20,因而取n=20
则最优的样本宿舍数为20间,最优样本学生数为2。
4.7 某居委会欲了解居民健身活动情况,如果一直该居委会有500名居民,居住
在10个单元中。现先抽取4个单元,然后再样本单元中分别抽出若干居民,两个阶段的抽样都是简单随机抽样,调查了样本居民每天用于健身锻炼的时
(1) 简单估计量 (2) 比率估计量
(3) 对两种估计方法及结果进行评价。 解:(1)简单估计
ˆ=NYu
n
N
Mii=∑ni=1
n
∑Yˆ
ii=1
n
10
⨯(32⨯3.75+45⨯3.4+36⨯4.5+54⨯4.17) 4
=1650,
=
ˆY1650
=3.3, 则u=u=
M0500
1nˆ1 又u=∑Yi=⨯660=165, ni=14
ˆ)=所以v(Yu
N
2
)ˆ-(Y∑(1-f)
i
u
1
i=1
n
2
nn-1
N
+n
Mi(1-f2i)s2i
∑mi=1i
n
22
分别计算
∑(Yˆ-)
i
u
i=1
n
2
n-1
5778==1926
3
1
=⨯[(120-165)2+(153-165)2+(162-165)2+(225-165)2]
3
Mi(1-f2i)s2i
=∑mi=1i
n
22
322⨯(1-
454
)⨯2.92452⨯(1-)⨯2.8362⨯(1-)⨯7++454
542⨯(1-+
6
)⨯2.254=4628.486
n
⎡)2ˆ-(Y∑iu2⎢1N(1-f1)i=1N⎢v(u)=+
所以,M0⎢nn-1n
⎢⎣
⎤
22n
Mi(1-f2i)s2i⎥
⎥∑mi⎥ i=1
⎥⎦
=0.11556+0.046285≈0.162
所以标准差s(u)=v(u)=0.402 (2) 比率估计
n
ˆR=y
∑M
i=1
ni=1
i
i
=
i
∑M
N
2
32⨯3.75+45⨯3.4+36⨯4.5+54⨯4.17
=3.9532
32+45+36+54
ˆR)=v(y
)ˆ-(Y∑(1-f)
i
u
1
i=1
n
2
nn-1
N
+n
Mi(1-f2i)s2i
∑mi=1i
n
22
ˆY其中R=R=
M0
ˆ)v(YRM0
2
∑M
i=1
ni=1
n
i
i
i
∑M
ˆR)=v(y
=0.0715
ˆR)=v(yˆR)=0.0715=0.2647 s(y
ˆR)=0.2647 (3) 简单估计标准差s(u)=0.402,比率估计标准差s(y
∴比率估计更好
第五章不等概抽样习题答案
5.1解:
分析题目可知“代码法”与“拉希里法”都是PPS抽样(放回的与规模大小
成比例的不等概抽样)的实施方法,而此题需要用此两种方法进行不放回抽样,故需进一步进行改进:即采用重抽法抽取,如果抽到重复单元,则放弃此样本单元,重新抽取,直到抽到规定的样本量且所有样本党员不重复: (1) 代码法:由Zi=
MiM
=Ni可假设M0=1000000,则Mi=ZiM0列成数据表
M0
∑Mi
i=1
随机数为444703, 615432, 791937, 921813 , 738207, 176266, 405706 935470, 916904, 57891按照范围我们可以知道抽取的PSU9, PSU16, PSU19, PSU24, PSU18, PSU2, PSU8 PSU24 PSU23 PSU2,我们看到第2组和24组重复抽取了,故进行重新抽取,抽到4组和6组; 综上所述,抽取的样本为2,4,6,8,9,16,18,19,23,24组
(2)拉希里法:M⨯=78216,N=25,在[1, 25]和[1, 78216]中分别产生(n,m): (13,38678),M13=40654≥38678,入样; (8, 57764),M8=38981
以此类推,当得到重复入样情况时,同上重新抽取,得到抽取结果为: 2,3,5,6,7,12 ,13,16, 19,24组 5.2解:
由数据可得:
t1=∑y1j=20, t2=∑y2j=25,t3=38, t4=24, t5=21;
j=1
j=1
Mi
M2
结合t值数据,我们可以推得Z的值 Z1=
M15
==0.2,Z2=0.16,Z3=0.32,Z4=0.2,Z5=0.12, M025
由公式πij=
4ZiZj(1-Zi-Zj)
N
⎛Zi
(1-2Zi)(1-2Zj) 1+ ∑1-2Z
i=1i⎝
⎫
⎪⎪⎭
5.3 解:
设:M0=1,则有:Mi=Zi,得到下表:
为103,最后在[1,1000]中产生第三个随机数为982,则它们所对应的第7、1、10号单元被抽中。 5.4 解:
利用汉森-赫维茨估计量对总体总值进行估计:
YHH
∧
∧
1nyi1320120290=∑=⨯[++]=2217.006ni=1Zi30.1380.0620.121
n
⎛yi∧⎫11 -YHH⎪=∑ ⎭nn-1i=1⎝Zi
⎛
v YHH⎝
⎫1⎛320⎫⎪=⨯[-2217.006 ⎪⎪6⎝0.138⎭⎭
2
2
2
2
1⎛120⎫⎛290⎫
+ -2217.006⎪+ -2217.006⎪]=⨯(10370.3+79254.7+32287.9)
6⎝0.062⎭⎝0.121⎭
=20318.8
∴
⎛∧
s YHH⎝
⎫⎛∧⎫
⎪=v YHH⎪=142.5 ⎭⎝⎭
5.5解:由题可知
X0=∑Xi=∑Xi=2+9+3+2+1+6=23
i=1
i=1
N
6
由πi=n
Xi
得下表:
X0
由上表显然有Zi<1/2,于是我们可以采用布鲁尔方法:
πij=
4ZiZj(1-Zi-Zj)
N
⎛Zi
(1-2Zi)(
1-2Zj) 1+ ∑1-2Z
i=1i⎝
⎫
⎪⎪⎭
(1) ∑XHH
∧
Zi
=0.1053+1.7999+0.1764+0.1053+0.0476+0.5455=2.78
1-2Zi=1i
N
n∧x1nxi
=∑ XHT=∑i
ni=1Zii=1πi
πi=nZi
∴另外:
XHH=XHT
N
2
∧∧
⎛Xi⎫⎛⎫1⎪V XHH⎪=∑Zi -X ⎪⎝⎭ni=1⎝Zi⎭
∧
⎛XXj⎫⎛⎫⎪ V XHT⎪=∑∑(πiπj-πij) i-
⎪⎝⎭i=1j>i
⎝πiπj⎭
∧
N
N
2
代入数据,经计算得到:
⎛∧
V XHH⎝⎫⎛∧⎪=0=V XHT⎭⎝⎫
⎪ ⎭
1N
Y=6 S=∑Yi-Y
N-1i=1
2
()
2
=11.5
所以有:Vy=
∧
)
1-f2
S=10.0625 n
P=y
∧
Y=yY=Ny
∧
R=
∧
y x
⎛∧⎫∴V Y⎪⎪=Vy=10.
0625
⎝⎭
)
⎛∧⎫
V Y⎪=N2Vy=251.5625 ⎝⎭
)
(2)
由定义有:
∧
YR
∧1
=XRN
YR=XRSyx
∧∧
1N
S=Yi-Y∑N-1i=1
2
()
2
=11.5
2
Sx=5.8
1N
=Yi-YXi-X=32∑N-1i=1
()()
∧∧211-f⎛2⎛∧⎫2⎫ S-2RSyx+RSx⎪ V R⎪=2
⎪n⎝⎝⎭X⎭
⎛⎫⎛⎫
∴V YRi⎪=X2V R⎪
⎝⎭⎝⎭
∧∧
⎛⎫⎛X⎫⎛⎫
V YV R⎪Ri⎪= ⎪⎝N⎪⎭⎝⎭⎝⎭
∧
∧
2
结合题目已知条件,我们选择的包含概率与Xi成正比: πi=Zi=P(第i项被选中) 2
7⨯18.49+5⨯5.76+3⨯0+1⨯36+2⨯36⎛∧⎫N⎛∧⎫
∴V Y⎪=∑Zi YHH-Y⎪==254.71
18⎝⎭i=1⎝⎭⎛∧⎫⎛∧⎫⎛∧⎫
由以上计算结果可以看出:V YR⎪>V YHH⎪>V Y⎪,比估计在样本量很小的情
⎝⎭⎝⎭⎝⎭
况下即使是最小的方差也远比另外两种估计的方差大,而简单估计又比PPS汉森
-赫维茨估计略好。
5.7 解:已知 n=2 m=5 ∑∑yij=340 设公司总人数为M0
i=1j=1n
m
由于这个样本是自加权的,所以有:
M0nmM0
y=⨯340=34M0(分钟) Y=∑∑ij
nmi=1j=110
∧
∴y=
Y
=34(分钟) M0
∧
所以该公司职工上班交通平均所需时间为34分钟。
1nm
νy=∑∑yij-y
nmi=1j=1=
1
⨯2440=24410
)(
1)=10⨯[(40-34)+(10-34)+^+(60-34)+(30-34)]
2
2
2
2
2
∴sy=y=15.62(分钟)
5.8 说明:y6=2561 解:由题可知:YHH
∧
-Yi1110yi110
=∑=∑=∑186yi=495299.4(吨) ni=1Zi10i=1Zi10i=1
n
∧
-
)所以,全集团季度总运量为495299.4吨.
⎛∧⎫
V YHH⎪的一个无偏估计为: ⎝⎭⎛∧ν YHH⎝
∧n⎛∧ Yi⎫11
⎪=∑ Z-YHH⎭nn-1i=1
⎝i
2⎫-∧110⎛⎪⎫
= 186yi-YHH⎪=95183360 ∑⎪90⎭⎪i=1⎝⎭2
因为 tα/2=2.306 所以 tα/2=22497.8 所以置信度95%的置信区间为[472894.6 , 517890.2]
第6章
第2题
⑴证明:将总体平方和按照全部可能的系统样本进行分解,可以得到 (N-1)S=∑∑(yrj-Y)=∑∑(yrj-yr)+∑∑(Yr-Y)2
2
2
2
r=1j=1
k
kn__kn__kn____
r=1j=1
n
r=1j=1
=n∑(yr-Y)+∑∑(yrj-yr)2
2
r=1
____k__
r=1j=1
__
nkk____2kn
=(yr-Y)+∑∑(yrj-yr)2 ∑kr=1r=1j=1
1k____21 ∑(yr-Y)=(N-1)S2-
kr=1nk
[
∑∑(y
r=1j=1
kn
rj
-yr)2
__
]
根据V(ysy)的定义,且nk=N,有
1k____2(N-1)21
V(ysy)=∑(yr-Y)=S-
Nkr=1N
__
__
∑∑(y
r=1j=1
kn
rj
-yr)2
__
令S
2
wsy
kn__
1=(yrj-yr)2 ∑∑k(n-1)r=1j=1
则有V(ysy)=
__
(N-1)2k(n-1)2
S-Swsy NN
⑵证明:在样本量相同的情况下
____
(N-1)2k(n-1)21-f2
V(ysy)-V(ysys)=S-Swsy-S
NNn
(N-1)2N-n2k(n-1)2
=S-S-Swsy
NNnN(N-Nn)2k(n-1)2
=S-Swsy
NNN-k2k(n-1)2k(n-1)22
=S-Swsy=(S-Swsy)
NNN
2
>S2时,系统抽样优于简单随机抽样。 立即可得到当且仅当Swsy
第3题
⎡N⎤⎡40⎤
解:⑴k=⎢⎥=⎢⎥=[5.7],k取最接近于5.7而不大于5.7的整数5,则将该
⎣n⎦⎣7⎦
班同学编号1~40,随机起点r=5,则该样本单元序号为5,10,15,20,25,30,35。
N
⑵N=35,n=7,k==5。
n
Sethi对称系统抽样:r=5,入样单元为:5,6,10,16,15,26,20 Singh对称系统抽样:由于n为奇数,则从两个断点开始分层,最后中间
的半层取中间位置的单元,r=5,入样单元为:5,31,10,26,15,21,18
第4题
解:由题,N=360,k=8,则n=N/k=45
⎧⎪1 第45(r-1)+j号住户的户主为汉族
取Yrj=⎨,
⎪⎩0 第45(r-1)+j号住户的户主不为汉族
r=1,2, ,8,j=1,2, ,45,
总体均值Y=0.1972
1845
Yrj-Y总体方差S=∑∑N-1r=1j=1
2
()
2
=0.1588
1
(0.1343+0.2101+0.1768⨯4+0.2+0.1636)=0.1769 8
N-12k(n-1)2
则:Vysy=S-S∙r≈0
NN
451-f2
运用简单随机抽样:n=45,f==0.125,Vysys=S=0.0031
360n
平均样本内方差S∙r2=
()
()
显然:Vysys>Vysy,说明等距样本的精确度较简单随机样本的精确度要高。
()()
第5题
答:⑴欲估计汉族所占比例,选择第⑴种系统抽样的方法好。按照题给条件排序,
在户口册中每5人中抽1人,且平均每户有5口人,分布较均匀,且如此抽样,每户人家基本均有1人入样。
⑵男性所占比例与孩子所占比例。采用简单随机抽样的方法较合适,因为按
题条件排序后,采用等距抽样,若抽得初始单元为1,则男生比例为1,孩子比例为0,如此,则有较大误差。
第6题
⎧1,若总体中第r"群"第j个单元具有所研究的特征
解:取Yrj=⎨
0,若总体中第r"群"第j个单元不具有所研究的特征⎩
__
1n
则总体比例P的简单估计量为P=P=∑yrj=ysy,即对总体比例的估计可化
nj=1
^
成对总体均值的估计。
⎧1,第r"群"第j个单元为男性
① 估计男性所占比例:则,取Yrj=⎨
0,其他⎩
由题意,系统抽样 K=5,n=10,则所有可能样本如下表:
1
总体均值Y=
N
__
∑∑Y
r=1j=1
510
rj
=0.48
__
1510
(Yrj-Y)2=0.2547, 总体方差S=∑∑N-1r=1j=1
2
152
平均群内方差S=∑Srj=0.2489
5j=1
2.r
以行为“系统样本”的系统抽样:k=5,n=10
__
N-12k(n-1)2N-12k(n-1)2
V(ysy)=S-Swsy=S-S.r=0.02559≈0.0256
NNNN
简单随机抽样:n=10,f=20%=0.2 __
1-f21-0.2
V(y)=S=⨯0.2547≈0.0204
n10
V(ysy)>V(y),说明简单随机抽样精度较高。
⎧1,第r"群"第j个单元为小孩
② 估计孩子所占比例:取Yrj=⎨
0,其他⎩
__
__
由题意,系统抽样:k=5,n=10,则所有可能样本如下表:
__
5
=0.48
1
总体均值Y=
N
2
∑∑Y
r=1j=1
10
rj
__
1510
(Yrj-Y)2=0.2547 总体方差S=∑∑N-1r=1j=1
152
平均群内方差S=∑Srj≈0.2134
5j=1
2.r
以行为“系统样本”的系统抽样:k=5,n=10
__
N-12k(n-1)2N-12k(n-1)2
V(ysy)=S-Swsy=S-S.r≈0.0576
NNNN
简单随机抽样:n=10,f=20%=0.2 __
1-f21-0.2
V(y)=S=⨯0.2547≈0.0204
n10
V(ysy)>V(y),说明简单随机抽样精度较高。
__
__
⎧1,满足条件
③ 估计具体某种职业的住户人员的比例:取Yrj=⎨
⎩0,不满足条件
由题意,系统抽样 K=5,n=10,则所有可能样本如下表:
__
5
1
总体均值Y=
N
2
∑∑Y
r=1j=1
10
rj
=0.38
__
1510
(Yrj-Y)2=0.2404 总体方差S=∑∑N-1r=1j=1
152
平均群内方差S=∑Srj≈0.26
5j=1
2.r
以行为“系统样本”的系统抽样:k=5,n=10
__
N-12k(n-1)2N-12k(n-1)2
V(ysy)=S-Swsy=S-S.r≈0.0016
NNNN
简单随机抽样:n=10,f=20%=0.2 __
1-f2
V(y)=S=0.01923>0.0016
n
V(ysy)
__
__
第7题
⎡N⎤
解:①由题,N=15,n=3,直线等距抽样k=⎢⎥=5,则所有可能样本如下:
⎣n⎦
__
N
1
总体均值Y=
N
2
∑Y
i=1
i
=8
__
1N
总体方差S=(Yi-Y)2=20 ∑N-1i=1
152
平均样本方差S=∑Sri=25
5i=1
2.r
则以直线等距抽样:
__
N-12k(n-1)2N-12k(n-1)2
V(ysy)=S-Swsy=S-S.r=2
NNNN
n
简单随机抽样:n=3,f==1/5=0.2
N
__
1-f2
V(y)=S=5.3334>2
n
V(ysy)
__
__
②由题,要求抽样间距k=4,n=3,nk=12
__
1n
=∑yi ni=1
__
11k__1kn1kn
yrj>∑∑yrj=Y E(ysy)=∑yr()=∑yr=∑∑kknkNr=1j=1r=1r=1r=1j=1
__
k__
所以样本均值不是总体均值的无偏估计。
1kn1
当nk=N时,∑∑yrj=
nkr=1j=1N
∑∑y
r=1j=1
kn
rj
, E(ysy)=Y。
____
即当nk=N时,样本均值为总体均值的无偏估计。
第8题
解:由题,N=30,k=5,则n=30/5=6
则按照所给顺序等距抽样,可能样本如下:
由上表数据可得:
1562
总体方差S=∑∑Yrj-Y
N-1r=1j=1
()
2
=11.8575
平
S∙r2=
均样本内方差
1
(17.4667+7.4667+6.5667+11.4667+18.9667)=12.3867 5
N-12k(n-1)2
则:Vysy=S-S∙r=1.14
NN
第七章(仅供参考)
1、根据题中所给表格,可计算各层的权重:
85125140''
w1'==0.17 w2==0.25 w3==0.28
[1**********]040''
w4==0.22 w5==0.08
500500(1)根据式(7.1),可得该县棉花平均种植面积为:
()
'
stD=∑whh=0.17⨯
h=1
L
[***********]1
+0.25⨯+0.28⨯+0.22⨯+0.08⨯ 172528228
=164.27
该县共有2000个村,帮全县的棉花种植总面积为: =NstD=2000⨯164.27=328540
(2)根据式(7.4),Dts的方差估计为:
11'211L'
v(stD)=∑(-')whsh+('-)∑wh(h-stD)2
nhnNh=1h=1nh
nh1nh122
(yhj-h)=(∑yhj-nh),由表中数据可得: 由公式 sh=∑nh-1j=1nh-1j=1
L
s1=90.6544 s2=195.7733 s3=1335.6773 s4=855.5519 s5=14334.1429
第一项:
∑(
h=1
L
11'21111-')whsh=(-)⨯0.172⨯90.6544+(-)⨯0.252⨯195.7733nhnh178525125
111111-)⨯0.282⨯1335.6773+(-)⨯0.222⨯855.5519+(-)⨯0.082
[1**********]40
⨯14334.1429=14.1864
第二项: +(
11L'
('-)∑wh(h-stD)2nNh=1
[1**********]23=(-)⨯[0.17⨯(-164.27)2+0.25⨯(-164.27)2+0.28⨯(-[1**********]28
56074101
164.27)2+0.22⨯(-164.27)2+0.08⨯(-164.27)2]
228
=16760.9705
因此 v(stD)=14.1864+16760.9705=16775.1569
该县种植总面积的抽样标准误差估计为
s()=N∙s(ystD)=Nv(ystD)=259037.8883
2
,S2进行估计 2、解:本题首先对S12,S2
由于比例估计的方差 S2=
N
P(1-P) N-1
故我们可以取 S2≈P(1-P)进行估计。
根据题意知:W1=W2=0.5 P1=0.2 P2=0.8 c1=0.25 c2h=10 故总体比例 P=W1P1+W2P2=0.5 从而: S12=P1(1-P1)=0.2⨯0.8=0.16
2
=P2(1-P2)=0.8⨯0.2=0.16 S2
S2=P(1-P)=0.5⨯0.5=0.25 (1)根据式(7.10)及式(7.7)
⎧c1f=S⎪hDhL
22⎪c2h(S-∑WhSh)
⎪h=1
⎨
*CT⎪'
n=L⎪
c1+∑c2hWhfhD⎪
h=1⎩
*
由题意有CT =300(元)
代入上式有 f1D=0.16⨯
0.25
=0.2108
10⨯(0.25-0.16)
0.25
=0.2108
10⨯(0.25-0.16)
f2D=0.16⨯
n'=
300
=1272
0.25+(10⨯0.5⨯0.2108⨯2)
'
n1=f1Dn1=f1Dn'W1=0.2108⨯1272⨯0.5=134 '
n2=f2Dn2=f2Dn'W2=0.2108⨯1272⨯0.5=134
2
112LWhSh1
(-1),依题意 此时 V(PstD)=(-)S+∑'n'Nnfh=1hD
S20.25n'S2n'
由于亦可忽略不计 =
NNNNN
2L
WhShS21+∑(-1) 故 V(PstD)≈''nnfhDh=1
0.250.5⨯0.161
+[⨯(-1)]⨯2 127212720.2108
=0.000667462
(2)不分层的简单随机抽样,样本量为n=268
1-f111
V(P)=NP(1-P)≈P(1-P)=⨯0.5⨯0.5=0.000932835
nN-1n268
因此二重分层抽样比不分层的简单随机抽样效率高。 (3)略
3、解:由题知,'=602,由表,计算
=
ˆ=0.9994 =568.25,=568.5833,R
22=278836.89,sx=256154.86,syx=256262.02 sy
所以,该地区年末牛的总头数估计为:
ˆ=N=N'=1238⨯568.25⨯602=744839.1(头) Y RDRD
568.5833
ˆ的方差估计为: 根据式(7.15),YRD
ˆ)=v(N)=N2v()≈N2[1s2+(1-1)(Rˆ2s2-2Rs)] v(YRDRDRDyxyx
nnn'278836.8911
≈12382⨯[+(-)(0.99942⨯256154.86
2424500
-2⨯0.9994⨯256262.02)] =2220650080
)=47123.7740。 ˆ的标准差为v(Y 所以YRDRD
4、解:(1)根据式(7.10)及式(7.7)
⎧c1f=S⎪hDhL
22⎪c2h(S-∑WhSh)
⎪h=1
⎨
*CT⎪'
n=L⎪
c1+∑c2hWhfhD⎪
h=1⎩
代入数据计算得: f1D=17.7⨯
1
=0.1329
100⨯[620-(0.786⨯312+0.214⨯922)]
1
=0.2282
100⨯[620-(0.786⨯312+0.214⨯922)]
f2D=30.4⨯
n'=
100
=612
0.01+(1⨯0.786⨯0.1329+1⨯0.214⨯0.2282)
'
n1=f1Dn1=f1Dn'W1=0.1329⨯612⨯0.786=64 '
n2=f2Dn2=f2Dn'W2=0.2282⨯612⨯0.214=30
2
112LWhSh1
(-1) 此时, V(stD)=(-)S+∑'n'Nnfh=1hD
≈
6200.786⨯312⎛1⎫0.214⨯922⎛1⎫
+[⨯ -1⎪+⨯ -1⎪]612620620⎝0.1329⎭⎝0.2282⎭
≈4.6700
(2)略
5、解:由题意可知
n1=300 n2=200 m=62
~(n+1)(n2+1)
由式(7.21) N=1-1=959.33
m+1
由式(7.22)
(n+1)(n2+1)(n1-m)(n2-m)301⨯201⨯238⨯138~
v(N)=1=≈7822.7
(m+1)2(m+2)632⨯62
6、解:(1)由题意 n1=7 n2=12 m=4
~(n+1)(n2+1)
由式(7.21) N=1-1=19.8
m+1
由式(7.22)
(n+1)(n2+1)(n1-m)(n2-m)8⨯13⨯3⨯8~
v(N)=1==16.64
(m+1)2(m+2)52⨯6
~ 其95%的置信区间为 N±1.96v(N) 即 (8.64,24.64)
(2)由题意 n1=16 n2=19 m=11
17⨯20~(n+1)(n2+1)
由式(7.21) N=1-1=-1=27.33
m+112
由式(7.22)
(n+1)(n2+1)(n1-m)(n2-m)17⨯20⨯5⨯8~
v(N)=1==7.26
(m+1)2(m+2)122⨯13
~ 其95%的置信区间为 N±1.96v(N) 即 (24.63,30.03)
(3)
1、总体是封闭的——两次抽样间没有人进入或离开湖心塘地区。 ○
2、每个样本都是来自总体的简单随机抽样。即湖心塘地区的每一个人 ○
都有同样的机会被找到。
3、两个样本是独立的。即第一次找到的人混合到了湖心塘地区后,跟 ○
第二次被找到的概率没有关系。
4、不会丢失人找到过的人的信息。 ○
7、(1)略
~(n+1)(n2+1) (2)由题意 由式(7.21) N=1-1
m+1
由表中数据n11=45 n21=15 m1=2代入公式得
~
N1=244.33
同理有
~~~~~~
N2=95 N3=48 N4=79.5 N5=44.5 N6=114 N7=41.67
~~~~~~
N8=30.5 N9=62.33 N10=159 N11=31.5N12=4 N13=35 ~~~
N14=3 N15=3 N16=1
(3)累积所有年份的数据,有n1=263 n2=93 m=19
~(263+1)⨯(93+1)
代入公式,有N=-1=1239.8
19+1
16
~~
(2)中得到的1970-1985年间的先天性风疹的总病例数为N'=∑Ni=996.33
i=1
(4)略
第二章习题
2.1判断下列抽样方法是否是等概的:
(1)总体编号1~64,在0~99中产生随机数r,若r=0或r>64则舍弃重抽。 (2)总体编号1~64,在0~99中产生随机数r,r处以64的余数作为抽中的数,若余数为0则抽中64.
(3)总体20000~21000,从1~1000中产生随机数r。然后用r+19999作为被抽选的数。
解析:等概抽样属于概率抽样,概率抽样具有一些几个特点:第一,按照一定的概率以随机原则抽取样本。第二,每个单元被抽中的概率是已知的,或者是可以计算的。第三,当用样本对总体目标进行估计时,要考虑到该样本被抽中的概率。 因此(1)中只有1~64是可能被抽中的,故不是等概的。(2)不是等概的【原因】(3)是等概的。 2.2抽样理论和数理统计中关于样本均值y的定义和性质有哪些不同?
2.3为了合理调配电力资源,某市欲了解50000户居民的日用电量,从中简单随机抽取了300户进行,现得到其日用电平均值y=9.5(千瓦时),s2=206.试估计该市居民用电量的95%置信区间。如果希望相对误差限不超过10%,则样本量至少应为多少?
解:由已知可得,N=50000,n=300,=9.5,s2=206
ˆ)=v(N)=N21-fs2=500002V(Y
n
1-
300
*206=1706366666 300
v(==41308.19 该市居民用电量的95%置信区间为
[[Ny±zα(y)]=[475000±1.96*41308.19]
2
即为(394035.95,555964.05) 由相对误差公式
uα2v()
≤10%
可得1.96*
-n*206≤9.5*10% n
即n≥862
欲使相对误差限不超过10%,则样本量至少应为862
2.4某大学10000名本科生,现欲估计爱暑假期间参加了各类英语培训的学生所占的比例。随机抽取了两百名学生进行调查,得到P=0.35,是估计该大学所有本科生中暑假参加培训班的比例的95%置信区间。
n
解析:由已知得:N=10000 n=200 p=0.35 f==0.02
N
∧∧1-f
又有:E(p)=E(p)=p=0.35 V(p)=p(1-p)=0.0012
n-1
该大学所有本科学生中暑假参加培训班的比例95%的置信区间为:
[E(P)±Zα(P)]
2
∧
∧
代入数据计算得:该区间为[0.2843,0.4157]
2.5研究某小区家庭用于文化方面(报刊、电视、网络、书籍等)的支出,N=200,现抽取一个容量为20的样本,调查结果列于下表:
编号 1 2 3 4 5 6 7 8
文化支出 200 150 170 150 160 130 140 100
编号 11 12 13 14 15 16 17 18
文化支出 150 160 180 130 100 180 100 180
9 10 110 240 19 20 170 120
估计该小区平均的文化支出Y,并给出置信水平95%的置信区间。 解析:由已知得:N=200 n=20
120
根据表中数据计算得:y=∑yi=144.5
20i=1
2120
s=y-y=827.06842 ∑i
20-1i=1
2
()
V(y)=
∴ 该小区平均文化支出Y的
[132.544 ,156.456]
1n
(1-)s2=37.21808 (y)=6.10015 nN
95%置信区间为:[y±zα(y)]即是:
2
故估计该小区平均的文化支出Y=144.5,置信水平95%的置信区间为[132.544 ,156.456]。
2.6某地区350个乡为了获得粮食总产量的估计,调查了50个乡当年的粮食产量,得到y=1120(吨),S2=2560,据此估计该地区今年的粮食总产量,并给出置信水平95%的置信区间。 解析:由题意知:y=1120 f=
n50
==0.1429 S2=2560⇒s=160 N350
1-f
s] 代入数据得: n
置信水平95%的置信区间为:[y±zα
2
置信水平95%的置信区间为:[1079.872,1160.872]
2.7某次关于1000个家庭人均住房面积的调查中,委托方要求绝对误差限为2平方千米,置信水平95%,现根据以前的调查结果,认为总体方差S2=68,是确定简单随机抽样所需的样本量。若预计有效回答率为70%,则样本量最终为多少?
NZαS2
2
解析:简单随机抽样所需的样本量n1=
2
Nd2+ZαS2
2
2
n2=
n1
70%
由题意知:N=1000 d=2 S=68 代入并计算得:n1=61.3036≈61
n2=
2
Zα=1.96
2
n1
=87.142≈8770%
故知:简单随机抽样所需的样本量为61,若预计有效回答率为70%,则样本量最终为87
2.8某地区对本地100家化肥生产企业的尿素产量进行调查,一直去年的总产量为2135吨,抽取10个企业调查今年的产量,得到y=25,这些企业去年的平均产量为x=22。试估计今年该地区化肥总产量。
=
X2135==21.35N100,=25
∧
解析:由题可知=22,
则,该地区化肥产量均值的比率估计量为
Y=X
y25
=21.35=24.26
24x
=100*24.26=2426ˆ=NYR 该地区化肥产量总值Y的比率估计量为
所以,今年该地区化肥总产量的估计值为2426吨。
2.9如果在解决习题2.5的问题时可以得到这些家庭月总支出,得到如下表:
置信水平95%的置信区间,并比较比估计和简单估计的效率。
1n1
=∑xi=2300+1700+ +1300)=1580
ni=120解析:由题可知
=144.5
ˆ=r==144.5=≈0.091R
1580
又
R=144.5=1600*=146.3291580
1n
S=(yi-)2=826.053∑n-1i=1
2
Sxy
1n
=∑(yi-)(xi-)=3463.158n-1i=1
1n2=(x-)=8831.579∑i
n-1i=1
Sx
2
故平均文化支出的95%的置信区间为
[R-Zα2
-f21-f2
ˆS+Rˆ2S2),+ZˆS+Rˆ2S2)](S-2R(S-2RyxxRα2yxx
nn
代入数据得(146.329±1.96*1.892)
即为[142.621,150.037]
2.10某养牛场购进了120头肉牛,购进时平均体重100千克。现从中抽取10头,记录重量,3个月后再次测量,结果如下:
的结果进行比较。
1n1
=102.6 解:由题可知,=∑xi=95+ +105)
ni=110
1n1
150+ 170)=163 =∑yi=ni=110
1n12
S=(y-)=*1910=212.222 ∑i
n-1i=19
2
Sxy
1n1=(y-)(x-)=*1317=146.333 ∑ii
n-1i=19
Sx
2
1n1=(xi-)2=*926.4=106.933 ∑n-1i=19SxySx
2
故有β0=
=
146.333
=1.368
106.933
所以总体均值的回归估计量为
lr=+β0(-)=163+1.368*(100-102.6)=159.443 其方差估计为:
ˆ()=1-f(S2+β2S2-2βS)Vlr0x0xy
n101-
=(212.222+1.3682*106.933-2*1.368*146.333)
10=1.097 1-f2
ˆ()而V=S
n
=
1-*212.222 10
=19.454
ˆ()
所以,回归估计的结果要优于简单估
第三单元习题答案(仅供参考) 1解:(1)不合适 (2)不合适 (3)合适 (4)不合适
2.将800名同学平均分成8组,在每一级中抽取一名“幸运星”。
=
=20.1
V()=-
=9.7681-0.2962
=9.4719
=3.0777
(2)置信区间为95%相对误差为10%,则有
按比例分配的总量:n=
=185.4407
185
=n=56,=92,=37
按内曼分配:n=
=175
=33,=99,=43
=
=0.924
根据各层层权及抽样比的结果,可得
()==0.000396981
=1.99%
估计量的标准差为1.99%,比例为9.24% 按比例分配:
n=2663
=479,
=559,
=373,
=240,
=426,
=586
内曼分配:
n=2565
=536,
=520,
=417,
=304,
=396,
=392
5.解:由题意,有
=
=75.79
购买冷冻食品的平均支出为75.79元
又由V()=+
又n=
V()
=53.8086
=7.3354
95%的置信区间为[60.63,90.95]。 7.解:(1)对 (2)错 (3)错 (4)错 (5)对
8.解:(1)差错率的估计值=
70%+
30%=0.027
估计的方差v()==3.1967
标准差为S()=0.0179。
(2)用事后分层的公式计算差错率为==0.03
估计的方差为;v()=-=2.5726
=0.4,
(2)用分别比估计,有=0.65,所以用分别比估计可计算得=6.4。
用联合比估计,有
=0.5,=0.625,所以用联合比估计可计算得=6.5。
第四章习题
4.1
邮局欲估计每个家庭的平均订报份数,该辖区共有4000户,划分为400个
解:由题意得到N=400,n=4,M=10,f=
1故==
Mn
n4==0.01 N400
∑
i=1
n
yi=
19+20+16+20
=1.875(份)
10⨯4
=M⋅=10⨯1.875=18.75(份) ˆ=M⋅N⋅=10⨯400=7500(份) Y
2sb
M=
n-1
∑(i=1
n
i
-)2
n
1-f21-f1v()=sb=
nMnM2n-1
∑(i=1
i
-)2
1-0.01(19-18.75)2+ +(20-18.75)2
=⨯
4-14⨯102
=0.00391875
ˆ)=N2M2v()=4002⨯102⨯0.00391875=62700 v(Y
于是由以上的计算结果得到平均每户的订报份数为1.875,估计量方差为
0.00391875。该辖区总的订阅份数为7500,估计量方差为62700。
4.2 某工业系统准备实行一项改革措施。该系统共有87个单位,现采用整群抽
样,用简单随机抽样抽取15个单位做样本,征求入选单位中每个工人对政
(2) 在调查的基础上对方案作了修改,拟再一次征求意见,要求估计比例的允
许误差不超过8%,则应抽取多少个单位做样本?
解:题目已知N=87,n=15,f=1)由已知估计同意改革的比例
n15
=
N87
ˆ=p
∑y
i=1
ni=1
n
i
=
i
∑M
1=
n
n
646
≈0.709 911
∑M
i=1
i
=60.733
n
11-f1ˆ)=2v(p
nn-1∑(y
i=1
i
ˆMi)2=0.008687 -p
此估计量的标准差为
ˆ)=v(pˆ)=.008687=0.9321 s(p
4.3 某集团的财务处共有48个抽屉,里面装有各种费用支出的票据。财务人员
欲估计办公费用支出的数额,随机抽取了其中的10个抽屉,经过清点,整
)。
nn
n10
解:已知N=48, n=10, f==, 由题意得∑yi=736,∑Mi=365,
N48i=1i=1
ˆ=N则办公费用的总支出的估计为Y
n
∑yi=
i=1
n
48
⨯736=3532.8(元) 10
1n1
群总和均值=∑yi=⨯736=73.6(元)
ni=110
ˆ)=N(1-f)⋅v(Y
n
2
∑(y
i=1
n
i
-)2
n-1
10)
(83-73.6)2+(62-73.6)2+...+(80-73.6)2= ⨯
109
1
= 182.4⨯⨯3590.4
9
= 72765.44 482⨯(1-)=269.7507 v(Y
ˆ的置信度为95%的置信区间为3532.8±1.96⨯269.7507,即[3004.089,则Y
4061.511].
4.4 为了便于管理,将某林区划分为386个小区域。现采用简单随机抽样方法,
估计整个林区树的平均高度及95%的置信区间。
解:由已知得N=386,n=20,f=
n20==0.0518 N3866180.8
=5.909 1046
整体的平均高度==
∑M
i=1ni-1
n
i
i
=
i
∑M
1M=
n
∑M
i=1
n
i
=52.3
n
方差估计值v()=v()=
=0.02706
1-fn2
∑(y
i=1
i
-Mi)2
n-1
标准方差s()=v()=0.02706=0.1644
在置信度95%下,该林区的树木的平均高度的置信区间为
(±tα/2⋅s())=(5.909±1.96⨯0.1644)=(5.5868,6.2312)
4.5 某高校学生会欲对全校女生拍摄过个人艺术照的比例进行调查。全校共有女
生宿舍200间,每间6人。学生会的同学运用两阶段抽样法设计了抽样方案,从200间宿舍中抽取了10间样本宿舍,在每间样本宿舍中抽取3位同学进
解:题目已知N=200,n=10,M=6,m=3,f1=
n10m==0.05,f2==0.5 N200M
ˆ=p
∑y
i=1
n
i
nm
=
9
=0.3 10⨯3
11-f1ˆ)=2⋅v(p⋅
nn-1m
∑(y
i=1
n
i
-p⋅m)=0.005747
ˆ)=v(p)=.005747=0.0758 s(p
在置信度95%下,p的置信区间为
ˆ±tα/2v(pˆ))=(0.3±1.96⨯0.0758)=(0.151432,0.448568(p)
4.6 上题中,学生会对女生勤工助学月收入的一项调查中,根据以往同类问题的
调查,宿舍间的标准差为S1=326元,宿舍内同学之间的标准差为S2=188元。以一位同学进行调查来计算,调查每个宿舍的时间c1为1分钟,为了调查需要做各方面的准备及数据计算等工作,所花费的时间为c0是4小时,如果总时间控制在8小时以内,则最优的样本宿舍和样本学生是多少?
解:由已知条件得到以下信息:
S1=326(元)S2=188(元)c1=10(分钟)c2=1(分钟)c0=4⨯60=240
(分钟) 由此得到
2S1
=106276,
S22
=35344,
S2u
2
S235344=S1-=106276-=100385.33
M6
mopt=
S2c188⋅1=⨯≈1.82 S1c23261
因而取最优的m=2,进一步计算nopt 由于总时间的限制C=480,由关系式
C=c0+c1n+c2nm得到480=240+10nopt+2nopt
计算方程得到nopt=20,因而取n=20
则最优的样本宿舍数为20间,最优样本学生数为2。
4.7 某居委会欲了解居民健身活动情况,如果一直该居委会有500名居民,居住
在10个单元中。现先抽取4个单元,然后再样本单元中分别抽出若干居民,两个阶段的抽样都是简单随机抽样,调查了样本居民每天用于健身锻炼的时
(1) 简单估计量 (2) 比率估计量
(3) 对两种估计方法及结果进行评价。 解:(1)简单估计
ˆ=NYu
n
N
Mii=∑ni=1
n
∑Yˆ
ii=1
n
10
⨯(32⨯3.75+45⨯3.4+36⨯4.5+54⨯4.17) 4
=1650,
=
ˆY1650
=3.3, 则u=u=
M0500
1nˆ1 又u=∑Yi=⨯660=165, ni=14
ˆ)=所以v(Yu
N
2
)ˆ-(Y∑(1-f)
i
u
1
i=1
n
2
nn-1
N
+n
Mi(1-f2i)s2i
∑mi=1i
n
22
分别计算
∑(Yˆ-)
i
u
i=1
n
2
n-1
5778==1926
3
1
=⨯[(120-165)2+(153-165)2+(162-165)2+(225-165)2]
3
Mi(1-f2i)s2i
=∑mi=1i
n
22
322⨯(1-
454
)⨯2.92452⨯(1-)⨯2.8362⨯(1-)⨯7++454
542⨯(1-+
6
)⨯2.254=4628.486
n
⎡)2ˆ-(Y∑iu2⎢1N(1-f1)i=1N⎢v(u)=+
所以,M0⎢nn-1n
⎢⎣
⎤
22n
Mi(1-f2i)s2i⎥
⎥∑mi⎥ i=1
⎥⎦
=0.11556+0.046285≈0.162
所以标准差s(u)=v(u)=0.402 (2) 比率估计
n
ˆR=y
∑M
i=1
ni=1
i
i
=
i
∑M
N
2
32⨯3.75+45⨯3.4+36⨯4.5+54⨯4.17
=3.9532
32+45+36+54
ˆR)=v(y
)ˆ-(Y∑(1-f)
i
u
1
i=1
n
2
nn-1
N
+n
Mi(1-f2i)s2i
∑mi=1i
n
22
ˆY其中R=R=
M0
ˆ)v(YRM0
2
∑M
i=1
ni=1
n
i
i
i
∑M
ˆR)=v(y
=0.0715
ˆR)=v(yˆR)=0.0715=0.2647 s(y
ˆR)=0.2647 (3) 简单估计标准差s(u)=0.402,比率估计标准差s(y
∴比率估计更好
第五章不等概抽样习题答案
5.1解:
分析题目可知“代码法”与“拉希里法”都是PPS抽样(放回的与规模大小
成比例的不等概抽样)的实施方法,而此题需要用此两种方法进行不放回抽样,故需进一步进行改进:即采用重抽法抽取,如果抽到重复单元,则放弃此样本单元,重新抽取,直到抽到规定的样本量且所有样本党员不重复: (1) 代码法:由Zi=
MiM
=Ni可假设M0=1000000,则Mi=ZiM0列成数据表
M0
∑Mi
i=1
随机数为444703, 615432, 791937, 921813 , 738207, 176266, 405706 935470, 916904, 57891按照范围我们可以知道抽取的PSU9, PSU16, PSU19, PSU24, PSU18, PSU2, PSU8 PSU24 PSU23 PSU2,我们看到第2组和24组重复抽取了,故进行重新抽取,抽到4组和6组; 综上所述,抽取的样本为2,4,6,8,9,16,18,19,23,24组
(2)拉希里法:M⨯=78216,N=25,在[1, 25]和[1, 78216]中分别产生(n,m): (13,38678),M13=40654≥38678,入样; (8, 57764),M8=38981
以此类推,当得到重复入样情况时,同上重新抽取,得到抽取结果为: 2,3,5,6,7,12 ,13,16, 19,24组 5.2解:
由数据可得:
t1=∑y1j=20, t2=∑y2j=25,t3=38, t4=24, t5=21;
j=1
j=1
Mi
M2
结合t值数据,我们可以推得Z的值 Z1=
M15
==0.2,Z2=0.16,Z3=0.32,Z4=0.2,Z5=0.12, M025
由公式πij=
4ZiZj(1-Zi-Zj)
N
⎛Zi
(1-2Zi)(1-2Zj) 1+ ∑1-2Z
i=1i⎝
⎫
⎪⎪⎭
5.3 解:
设:M0=1,则有:Mi=Zi,得到下表:
为103,最后在[1,1000]中产生第三个随机数为982,则它们所对应的第7、1、10号单元被抽中。 5.4 解:
利用汉森-赫维茨估计量对总体总值进行估计:
YHH
∧
∧
1nyi1320120290=∑=⨯[++]=2217.006ni=1Zi30.1380.0620.121
n
⎛yi∧⎫11 -YHH⎪=∑ ⎭nn-1i=1⎝Zi
⎛
v YHH⎝
⎫1⎛320⎫⎪=⨯[-2217.006 ⎪⎪6⎝0.138⎭⎭
2
2
2
2
1⎛120⎫⎛290⎫
+ -2217.006⎪+ -2217.006⎪]=⨯(10370.3+79254.7+32287.9)
6⎝0.062⎭⎝0.121⎭
=20318.8
∴
⎛∧
s YHH⎝
⎫⎛∧⎫
⎪=v YHH⎪=142.5 ⎭⎝⎭
5.5解:由题可知
X0=∑Xi=∑Xi=2+9+3+2+1+6=23
i=1
i=1
N
6
由πi=n
Xi
得下表:
X0
由上表显然有Zi<1/2,于是我们可以采用布鲁尔方法:
πij=
4ZiZj(1-Zi-Zj)
N
⎛Zi
(1-2Zi)(
1-2Zj) 1+ ∑1-2Z
i=1i⎝
⎫
⎪⎪⎭
(1) ∑XHH
∧
Zi
=0.1053+1.7999+0.1764+0.1053+0.0476+0.5455=2.78
1-2Zi=1i
N
n∧x1nxi
=∑ XHT=∑i
ni=1Zii=1πi
πi=nZi
∴另外:
XHH=XHT
N
2
∧∧
⎛Xi⎫⎛⎫1⎪V XHH⎪=∑Zi -X ⎪⎝⎭ni=1⎝Zi⎭
∧
⎛XXj⎫⎛⎫⎪ V XHT⎪=∑∑(πiπj-πij) i-
⎪⎝⎭i=1j>i
⎝πiπj⎭
∧
N
N
2
代入数据,经计算得到:
⎛∧
V XHH⎝⎫⎛∧⎪=0=V XHT⎭⎝⎫
⎪ ⎭
1N
Y=6 S=∑Yi-Y
N-1i=1
2
()
2
=11.5
所以有:Vy=
∧
)
1-f2
S=10.0625 n
P=y
∧
Y=yY=Ny
∧
R=
∧
y x
⎛∧⎫∴V Y⎪⎪=Vy=10.
0625
⎝⎭
)
⎛∧⎫
V Y⎪=N2Vy=251.5625 ⎝⎭
)
(2)
由定义有:
∧
YR
∧1
=XRN
YR=XRSyx
∧∧
1N
S=Yi-Y∑N-1i=1
2
()
2
=11.5
2
Sx=5.8
1N
=Yi-YXi-X=32∑N-1i=1
()()
∧∧211-f⎛2⎛∧⎫2⎫ S-2RSyx+RSx⎪ V R⎪=2
⎪n⎝⎝⎭X⎭
⎛⎫⎛⎫
∴V YRi⎪=X2V R⎪
⎝⎭⎝⎭
∧∧
⎛⎫⎛X⎫⎛⎫
V YV R⎪Ri⎪= ⎪⎝N⎪⎭⎝⎭⎝⎭
∧
∧
2
结合题目已知条件,我们选择的包含概率与Xi成正比: πi=Zi=P(第i项被选中) 2
7⨯18.49+5⨯5.76+3⨯0+1⨯36+2⨯36⎛∧⎫N⎛∧⎫
∴V Y⎪=∑Zi YHH-Y⎪==254.71
18⎝⎭i=1⎝⎭⎛∧⎫⎛∧⎫⎛∧⎫
由以上计算结果可以看出:V YR⎪>V YHH⎪>V Y⎪,比估计在样本量很小的情
⎝⎭⎝⎭⎝⎭
况下即使是最小的方差也远比另外两种估计的方差大,而简单估计又比PPS汉森
-赫维茨估计略好。
5.7 解:已知 n=2 m=5 ∑∑yij=340 设公司总人数为M0
i=1j=1n
m
由于这个样本是自加权的,所以有:
M0nmM0
y=⨯340=34M0(分钟) Y=∑∑ij
nmi=1j=110
∧
∴y=
Y
=34(分钟) M0
∧
所以该公司职工上班交通平均所需时间为34分钟。
1nm
νy=∑∑yij-y
nmi=1j=1=
1
⨯2440=24410
)(
1)=10⨯[(40-34)+(10-34)+^+(60-34)+(30-34)]
2
2
2
2
2
∴sy=y=15.62(分钟)
5.8 说明:y6=2561 解:由题可知:YHH
∧
-Yi1110yi110
=∑=∑=∑186yi=495299.4(吨) ni=1Zi10i=1Zi10i=1
n
∧
-
)所以,全集团季度总运量为495299.4吨.
⎛∧⎫
V YHH⎪的一个无偏估计为: ⎝⎭⎛∧ν YHH⎝
∧n⎛∧ Yi⎫11
⎪=∑ Z-YHH⎭nn-1i=1
⎝i
2⎫-∧110⎛⎪⎫
= 186yi-YHH⎪=95183360 ∑⎪90⎭⎪i=1⎝⎭2
因为 tα/2=2.306 所以 tα/2=22497.8 所以置信度95%的置信区间为[472894.6 , 517890.2]
第6章
第2题
⑴证明:将总体平方和按照全部可能的系统样本进行分解,可以得到 (N-1)S=∑∑(yrj-Y)=∑∑(yrj-yr)+∑∑(Yr-Y)2
2
2
2
r=1j=1
k
kn__kn__kn____
r=1j=1
n
r=1j=1
=n∑(yr-Y)+∑∑(yrj-yr)2
2
r=1
____k__
r=1j=1
__
nkk____2kn
=(yr-Y)+∑∑(yrj-yr)2 ∑kr=1r=1j=1
1k____21 ∑(yr-Y)=(N-1)S2-
kr=1nk
[
∑∑(y
r=1j=1
kn
rj
-yr)2
__
]
根据V(ysy)的定义,且nk=N,有
1k____2(N-1)21
V(ysy)=∑(yr-Y)=S-
Nkr=1N
__
__
∑∑(y
r=1j=1
kn
rj
-yr)2
__
令S
2
wsy
kn__
1=(yrj-yr)2 ∑∑k(n-1)r=1j=1
则有V(ysy)=
__
(N-1)2k(n-1)2
S-Swsy NN
⑵证明:在样本量相同的情况下
____
(N-1)2k(n-1)21-f2
V(ysy)-V(ysys)=S-Swsy-S
NNn
(N-1)2N-n2k(n-1)2
=S-S-Swsy
NNnN(N-Nn)2k(n-1)2
=S-Swsy
NNN-k2k(n-1)2k(n-1)22
=S-Swsy=(S-Swsy)
NNN
2
>S2时,系统抽样优于简单随机抽样。 立即可得到当且仅当Swsy
第3题
⎡N⎤⎡40⎤
解:⑴k=⎢⎥=⎢⎥=[5.7],k取最接近于5.7而不大于5.7的整数5,则将该
⎣n⎦⎣7⎦
班同学编号1~40,随机起点r=5,则该样本单元序号为5,10,15,20,25,30,35。
N
⑵N=35,n=7,k==5。
n
Sethi对称系统抽样:r=5,入样单元为:5,6,10,16,15,26,20 Singh对称系统抽样:由于n为奇数,则从两个断点开始分层,最后中间
的半层取中间位置的单元,r=5,入样单元为:5,31,10,26,15,21,18
第4题
解:由题,N=360,k=8,则n=N/k=45
⎧⎪1 第45(r-1)+j号住户的户主为汉族
取Yrj=⎨,
⎪⎩0 第45(r-1)+j号住户的户主不为汉族
r=1,2, ,8,j=1,2, ,45,
总体均值Y=0.1972
1845
Yrj-Y总体方差S=∑∑N-1r=1j=1
2
()
2
=0.1588
1
(0.1343+0.2101+0.1768⨯4+0.2+0.1636)=0.1769 8
N-12k(n-1)2
则:Vysy=S-S∙r≈0
NN
451-f2
运用简单随机抽样:n=45,f==0.125,Vysys=S=0.0031
360n
平均样本内方差S∙r2=
()
()
显然:Vysys>Vysy,说明等距样本的精确度较简单随机样本的精确度要高。
()()
第5题
答:⑴欲估计汉族所占比例,选择第⑴种系统抽样的方法好。按照题给条件排序,
在户口册中每5人中抽1人,且平均每户有5口人,分布较均匀,且如此抽样,每户人家基本均有1人入样。
⑵男性所占比例与孩子所占比例。采用简单随机抽样的方法较合适,因为按
题条件排序后,采用等距抽样,若抽得初始单元为1,则男生比例为1,孩子比例为0,如此,则有较大误差。
第6题
⎧1,若总体中第r"群"第j个单元具有所研究的特征
解:取Yrj=⎨
0,若总体中第r"群"第j个单元不具有所研究的特征⎩
__
1n
则总体比例P的简单估计量为P=P=∑yrj=ysy,即对总体比例的估计可化
nj=1
^
成对总体均值的估计。
⎧1,第r"群"第j个单元为男性
① 估计男性所占比例:则,取Yrj=⎨
0,其他⎩
由题意,系统抽样 K=5,n=10,则所有可能样本如下表:
1
总体均值Y=
N
__
∑∑Y
r=1j=1
510
rj
=0.48
__
1510
(Yrj-Y)2=0.2547, 总体方差S=∑∑N-1r=1j=1
2
152
平均群内方差S=∑Srj=0.2489
5j=1
2.r
以行为“系统样本”的系统抽样:k=5,n=10
__
N-12k(n-1)2N-12k(n-1)2
V(ysy)=S-Swsy=S-S.r=0.02559≈0.0256
NNNN
简单随机抽样:n=10,f=20%=0.2 __
1-f21-0.2
V(y)=S=⨯0.2547≈0.0204
n10
V(ysy)>V(y),说明简单随机抽样精度较高。
⎧1,第r"群"第j个单元为小孩
② 估计孩子所占比例:取Yrj=⎨
0,其他⎩
__
__
由题意,系统抽样:k=5,n=10,则所有可能样本如下表:
__
5
=0.48
1
总体均值Y=
N
2
∑∑Y
r=1j=1
10
rj
__
1510
(Yrj-Y)2=0.2547 总体方差S=∑∑N-1r=1j=1
152
平均群内方差S=∑Srj≈0.2134
5j=1
2.r
以行为“系统样本”的系统抽样:k=5,n=10
__
N-12k(n-1)2N-12k(n-1)2
V(ysy)=S-Swsy=S-S.r≈0.0576
NNNN
简单随机抽样:n=10,f=20%=0.2 __
1-f21-0.2
V(y)=S=⨯0.2547≈0.0204
n10
V(ysy)>V(y),说明简单随机抽样精度较高。
__
__
⎧1,满足条件
③ 估计具体某种职业的住户人员的比例:取Yrj=⎨
⎩0,不满足条件
由题意,系统抽样 K=5,n=10,则所有可能样本如下表:
__
5
1
总体均值Y=
N
2
∑∑Y
r=1j=1
10
rj
=0.38
__
1510
(Yrj-Y)2=0.2404 总体方差S=∑∑N-1r=1j=1
152
平均群内方差S=∑Srj≈0.26
5j=1
2.r
以行为“系统样本”的系统抽样:k=5,n=10
__
N-12k(n-1)2N-12k(n-1)2
V(ysy)=S-Swsy=S-S.r≈0.0016
NNNN
简单随机抽样:n=10,f=20%=0.2 __
1-f2
V(y)=S=0.01923>0.0016
n
V(ysy)
__
__
第7题
⎡N⎤
解:①由题,N=15,n=3,直线等距抽样k=⎢⎥=5,则所有可能样本如下:
⎣n⎦
__
N
1
总体均值Y=
N
2
∑Y
i=1
i
=8
__
1N
总体方差S=(Yi-Y)2=20 ∑N-1i=1
152
平均样本方差S=∑Sri=25
5i=1
2.r
则以直线等距抽样:
__
N-12k(n-1)2N-12k(n-1)2
V(ysy)=S-Swsy=S-S.r=2
NNNN
n
简单随机抽样:n=3,f==1/5=0.2
N
__
1-f2
V(y)=S=5.3334>2
n
V(ysy)
__
__
②由题,要求抽样间距k=4,n=3,nk=12
__
1n
=∑yi ni=1
__
11k__1kn1kn
yrj>∑∑yrj=Y E(ysy)=∑yr()=∑yr=∑∑kknkNr=1j=1r=1r=1r=1j=1
__
k__
所以样本均值不是总体均值的无偏估计。
1kn1
当nk=N时,∑∑yrj=
nkr=1j=1N
∑∑y
r=1j=1
kn
rj
, E(ysy)=Y。
____
即当nk=N时,样本均值为总体均值的无偏估计。
第8题
解:由题,N=30,k=5,则n=30/5=6
则按照所给顺序等距抽样,可能样本如下:
由上表数据可得:
1562
总体方差S=∑∑Yrj-Y
N-1r=1j=1
()
2
=11.8575
平
S∙r2=
均样本内方差
1
(17.4667+7.4667+6.5667+11.4667+18.9667)=12.3867 5
N-12k(n-1)2
则:Vysy=S-S∙r=1.14
NN
第七章(仅供参考)
1、根据题中所给表格,可计算各层的权重:
85125140''
w1'==0.17 w2==0.25 w3==0.28
[1**********]040''
w4==0.22 w5==0.08
500500(1)根据式(7.1),可得该县棉花平均种植面积为:
()
'
stD=∑whh=0.17⨯
h=1
L
[***********]1
+0.25⨯+0.28⨯+0.22⨯+0.08⨯ 172528228
=164.27
该县共有2000个村,帮全县的棉花种植总面积为: =NstD=2000⨯164.27=328540
(2)根据式(7.4),Dts的方差估计为:
11'211L'
v(stD)=∑(-')whsh+('-)∑wh(h-stD)2
nhnNh=1h=1nh
nh1nh122
(yhj-h)=(∑yhj-nh),由表中数据可得: 由公式 sh=∑nh-1j=1nh-1j=1
L
s1=90.6544 s2=195.7733 s3=1335.6773 s4=855.5519 s5=14334.1429
第一项:
∑(
h=1
L
11'21111-')whsh=(-)⨯0.172⨯90.6544+(-)⨯0.252⨯195.7733nhnh178525125
111111-)⨯0.282⨯1335.6773+(-)⨯0.222⨯855.5519+(-)⨯0.082
[1**********]40
⨯14334.1429=14.1864
第二项: +(
11L'
('-)∑wh(h-stD)2nNh=1
[1**********]23=(-)⨯[0.17⨯(-164.27)2+0.25⨯(-164.27)2+0.28⨯(-[1**********]28
56074101
164.27)2+0.22⨯(-164.27)2+0.08⨯(-164.27)2]
228
=16760.9705
因此 v(stD)=14.1864+16760.9705=16775.1569
该县种植总面积的抽样标准误差估计为
s()=N∙s(ystD)=Nv(ystD)=259037.8883
2
,S2进行估计 2、解:本题首先对S12,S2
由于比例估计的方差 S2=
N
P(1-P) N-1
故我们可以取 S2≈P(1-P)进行估计。
根据题意知:W1=W2=0.5 P1=0.2 P2=0.8 c1=0.25 c2h=10 故总体比例 P=W1P1+W2P2=0.5 从而: S12=P1(1-P1)=0.2⨯0.8=0.16
2
=P2(1-P2)=0.8⨯0.2=0.16 S2
S2=P(1-P)=0.5⨯0.5=0.25 (1)根据式(7.10)及式(7.7)
⎧c1f=S⎪hDhL
22⎪c2h(S-∑WhSh)
⎪h=1
⎨
*CT⎪'
n=L⎪
c1+∑c2hWhfhD⎪
h=1⎩
*
由题意有CT =300(元)
代入上式有 f1D=0.16⨯
0.25
=0.2108
10⨯(0.25-0.16)
0.25
=0.2108
10⨯(0.25-0.16)
f2D=0.16⨯
n'=
300
=1272
0.25+(10⨯0.5⨯0.2108⨯2)
'
n1=f1Dn1=f1Dn'W1=0.2108⨯1272⨯0.5=134 '
n2=f2Dn2=f2Dn'W2=0.2108⨯1272⨯0.5=134
2
112LWhSh1
(-1),依题意 此时 V(PstD)=(-)S+∑'n'Nnfh=1hD
S20.25n'S2n'
由于亦可忽略不计 =
NNNNN
2L
WhShS21+∑(-1) 故 V(PstD)≈''nnfhDh=1
0.250.5⨯0.161
+[⨯(-1)]⨯2 127212720.2108
=0.000667462
(2)不分层的简单随机抽样,样本量为n=268
1-f111
V(P)=NP(1-P)≈P(1-P)=⨯0.5⨯0.5=0.000932835
nN-1n268
因此二重分层抽样比不分层的简单随机抽样效率高。 (3)略
3、解:由题知,'=602,由表,计算
=
ˆ=0.9994 =568.25,=568.5833,R
22=278836.89,sx=256154.86,syx=256262.02 sy
所以,该地区年末牛的总头数估计为:
ˆ=N=N'=1238⨯568.25⨯602=744839.1(头) Y RDRD
568.5833
ˆ的方差估计为: 根据式(7.15),YRD
ˆ)=v(N)=N2v()≈N2[1s2+(1-1)(Rˆ2s2-2Rs)] v(YRDRDRDyxyx
nnn'278836.8911
≈12382⨯[+(-)(0.99942⨯256154.86
2424500
-2⨯0.9994⨯256262.02)] =2220650080
)=47123.7740。 ˆ的标准差为v(Y 所以YRDRD
4、解:(1)根据式(7.10)及式(7.7)
⎧c1f=S⎪hDhL
22⎪c2h(S-∑WhSh)
⎪h=1
⎨
*CT⎪'
n=L⎪
c1+∑c2hWhfhD⎪
h=1⎩
代入数据计算得: f1D=17.7⨯
1
=0.1329
100⨯[620-(0.786⨯312+0.214⨯922)]
1
=0.2282
100⨯[620-(0.786⨯312+0.214⨯922)]
f2D=30.4⨯
n'=
100
=612
0.01+(1⨯0.786⨯0.1329+1⨯0.214⨯0.2282)
'
n1=f1Dn1=f1Dn'W1=0.1329⨯612⨯0.786=64 '
n2=f2Dn2=f2Dn'W2=0.2282⨯612⨯0.214=30
2
112LWhSh1
(-1) 此时, V(stD)=(-)S+∑'n'Nnfh=1hD
≈
6200.786⨯312⎛1⎫0.214⨯922⎛1⎫
+[⨯ -1⎪+⨯ -1⎪]612620620⎝0.1329⎭⎝0.2282⎭
≈4.6700
(2)略
5、解:由题意可知
n1=300 n2=200 m=62
~(n+1)(n2+1)
由式(7.21) N=1-1=959.33
m+1
由式(7.22)
(n+1)(n2+1)(n1-m)(n2-m)301⨯201⨯238⨯138~
v(N)=1=≈7822.7
(m+1)2(m+2)632⨯62
6、解:(1)由题意 n1=7 n2=12 m=4
~(n+1)(n2+1)
由式(7.21) N=1-1=19.8
m+1
由式(7.22)
(n+1)(n2+1)(n1-m)(n2-m)8⨯13⨯3⨯8~
v(N)=1==16.64
(m+1)2(m+2)52⨯6
~ 其95%的置信区间为 N±1.96v(N) 即 (8.64,24.64)
(2)由题意 n1=16 n2=19 m=11
17⨯20~(n+1)(n2+1)
由式(7.21) N=1-1=-1=27.33
m+112
由式(7.22)
(n+1)(n2+1)(n1-m)(n2-m)17⨯20⨯5⨯8~
v(N)=1==7.26
(m+1)2(m+2)122⨯13
~ 其95%的置信区间为 N±1.96v(N) 即 (24.63,30.03)
(3)
1、总体是封闭的——两次抽样间没有人进入或离开湖心塘地区。 ○
2、每个样本都是来自总体的简单随机抽样。即湖心塘地区的每一个人 ○
都有同样的机会被找到。
3、两个样本是独立的。即第一次找到的人混合到了湖心塘地区后,跟 ○
第二次被找到的概率没有关系。
4、不会丢失人找到过的人的信息。 ○
7、(1)略
~(n+1)(n2+1) (2)由题意 由式(7.21) N=1-1
m+1
由表中数据n11=45 n21=15 m1=2代入公式得
~
N1=244.33
同理有
~~~~~~
N2=95 N3=48 N4=79.5 N5=44.5 N6=114 N7=41.67
~~~~~~
N8=30.5 N9=62.33 N10=159 N11=31.5N12=4 N13=35 ~~~
N14=3 N15=3 N16=1
(3)累积所有年份的数据,有n1=263 n2=93 m=19
~(263+1)⨯(93+1)
代入公式,有N=-1=1239.8
19+1
16
~~
(2)中得到的1970-1985年间的先天性风疹的总病例数为N'=∑Ni=996.33
i=1
(4)略