抽样技术_第三版_全部课后答案

第二章习题

2.1判断下列抽样方法是否是等概的：

（1）总体编号1~64，在0~99中产生随机数r，若r=0或r>64则舍弃重抽。（2）总体编号1~64，在0~99中产生随机数r，r处以64的余数作为抽中的数，若余数为0则抽中64.

（3）总体20000~21000，从1~1000中产生随机数r。然后用r+19999作为被抽选的数。

解析：等概抽样属于概率抽样，概率抽样具有一些几个特点：第一，按照一定的概率以随机原则抽取样本。第二，每个单元被抽中的概率是已知的，或者是可以计算的。第三，当用样本对总体目标进行估计时，要考虑到该样本被抽中的概率。因此（1）中只有1~64是可能被抽中的，故不是等概的。（2）不是等概的【原因】（3）是等概的。 2.2抽样理论和数理统计中关于样本均值y的定义和性质有哪些不同？

2.3为了合理调配电力资源，某市欲了解50000户居民的日用电量，从中简单随机抽取了300户进行，现得到其日用电平均值y=9.5（千瓦时），s2=206.试估计该市居民用电量的95%置信区间。如果希望相对误差限不超过10%，则样本量至少应为多少？

解：由已知可得，N=50000，n=300，=9.5，s2=206

ˆ)=v(N)=N21-fs2=500002V(Y

300

*206=1706366666 300

v(==41308.19 该市居民用电量的95%置信区间为

[[Ny±zα(y)]=[475000±1.96*41308.19]

即为（394035.95，555964.05）由相对误差公式

uα2v()

≤10%

可得1.96*

-n*206≤9.5*10% n

即n≥862

欲使相对误差限不超过10%，则样本量至少应为862

2.4某大学10000名本科生，现欲估计爱暑假期间参加了各类英语培训的学生所占的比例。随机抽取了两百名学生进行调查，得到P=0.35，是估计该大学所有本科生中暑假参加培训班的比例的95%置信区间。

解析：由已知得：N=10000 n=200 p=0.35 f==0.02

∧∧1-f

又有：E(p)=E(p)=p=0.35 V(p)=p(1-p)=0.0012

n-1

该大学所有本科学生中暑假参加培训班的比例95%的置信区间为：

[E(P)±Zα(P)]

∧

代入数据计算得：该区间为[0.2843，0.4157]

2.5研究某小区家庭用于文化方面（报刊、电视、网络、书籍等）的支出，N=200，现抽取一个容量为20的样本，调查结果列于下表：

编号 1 2 3 4 5 6 7 8

文化支出 200 150 170 150 160 130 140 100

编号 11 12 13 14 15 16 17 18

文化支出 150 160 180 130 100 180 100 180

9 10 110 240 19 20 170 120

估计该小区平均的文化支出Y,并给出置信水平95%的置信区间。解析：由已知得：N=200 n=20

120

根据表中数据计算得：y=∑yi=144.5

20i=1

2120

s=y-y=827.06842 ∑i

20-1i=1

()

V(y)=

∴ 该小区平均文化支出Y的

[132.544 ,156.456]

(1-)s2=37.21808 (y)=6.10015 nN

95%置信区间为：[y±zα(y)]即是：

故估计该小区平均的文化支出Y=144.5,置信水平95%的置信区间为[132.544 ,156.456]。

2.6某地区350个乡为了获得粮食总产量的估计，调查了50个乡当年的粮食产量，得到y=1120（吨），S2=2560，据此估计该地区今年的粮食总产量，并给出置信水平95%的置信区间。解析：由题意知：y=1120 f=

n50

==0.1429 S2=2560⇒s=160 N350

1-f

s] 代入数据得： n

置信水平95%的置信区间为：[y±zα

置信水平95%的置信区间为：[1079.872，1160.872]

2.7某次关于1000个家庭人均住房面积的调查中，委托方要求绝对误差限为2平方千米，置信水平95%，现根据以前的调查结果，认为总体方差S2=68，是确定简单随机抽样所需的样本量。若预计有效回答率为70%，则样本量最终为多少?

NZαS2

解析：简单随机抽样所需的样本量n1=

Nd2+ZαS2

n2=

70%

由题意知：N=1000 d=2 S=68 代入并计算得：n1=61.3036≈61

n2=

Zα=1.96

=87.142≈8770%

故知：简单随机抽样所需的样本量为61，若预计有效回答率为70%，则样本量最终为87

2.8某地区对本地100家化肥生产企业的尿素产量进行调查，一直去年的总产量为2135吨，抽取10个企业调查今年的产量，得到y=25，这些企业去年的平均产量为x=22。试估计今年该地区化肥总产量。

X2135==21.35N100,=25

∧

解析：由题可知=22，

则，该地区化肥产量均值的比率估计量为

Y=X

y25

=21.35=24.26

24x

=100*24.26=2426ˆ=NYR 该地区化肥产量总值Y的比率估计量为

所以，今年该地区化肥总产量的估计值为2426吨。

2.9如果在解决习题2.5的问题时可以得到这些家庭月总支出，得到如下表：

置信水平95%的置信区间，并比较比估计和简单估计的效率。

1n1

=∑xi=2300+1700+ +1300）=1580

ni=120解析：由题可知

=144.5

ˆ=r==144.5=≈0.091R

1580

又

R=144.5=1600*=146.3291580

S=(yi-)2=826.053∑n-1i=1

Sxy

=∑(yi-)(xi-)=3463.158n-1i=1

1n2=(x-)=8831.579∑i

n-1i=1

故平均文化支出的95%的置信区间为

[R-Zα2

-f21-f2

ˆS+Rˆ2S2),+ZˆS+Rˆ2S2)](S-2R(S-2RyxxRα2yxx

代入数据得（146.329±1.96*1.892）

即为[142.621,150.037]

2.10某养牛场购进了120头肉牛，购进时平均体重100千克。现从中抽取10头，记录重量，3个月后再次测量，结果如下：

的结果进行比较。

1n1

=102.6 解：由题可知，=∑xi=95+ +105）

ni=110

1n1

150+ 170）=163 =∑yi=ni=110

1n12

S=(y-)=*1910=212.222 ∑i

n-1i=19

Sxy

1n1=(y-)(x-)=*1317=146.333 ∑ii

n-1i=19

1n1=(xi-)2=*926.4=106.933 ∑n-1i=19SxySx

故有β0=

146.333

=1.368

106.933

所以总体均值的回归估计量为

lr=+β0(-)=163+1.368*(100-102.6)=159.443 其方差估计为：

ˆ()=1-f(S2+β2S2-2βS)Vlr0x0xy

n101-

=(212.222+1.3682*106.933-2*1.368*146.333)

10=1.097 1-f2

ˆ(）而V=S

1-*212.222 10

=19.454

ˆ()

所以，回归估计的结果要优于简单估

第三单元习题答案（仅供参考） 1解：（1）不合适（2）不合适（3）合适（4）不合适

2．将800名同学平均分成8组，在每一级中抽取一名“幸运星”。

=20.1

V（）=-

=9.7681-0.2962

=9.4719

=3.0777

（2）置信区间为95%相对误差为10%，则有

按比例分配的总量：n=

=185.4407

185

=n=56，=92，=37

按内曼分配：n=

=175

=33，=99，=43

=0.924

根据各层层权及抽样比的结果，可得

（）==0.000396981

=1.99%

估计量的标准差为1.99%，比例为9.24% 按比例分配：

n=2663

=479，

=559，

=373，

=240，

=426，

=586

内曼分配：

n=2565

=536，

=520，

=417，

=304，

=396，

=392

5．解：由题意，有

=75.79

购买冷冻食品的平均支出为75.79元

又由V（）=+

又n=

V（）

=53.8086

=7.3354

95%的置信区间为[60.63，90.95]。 7．解：（1）对（2）错（3）错（4）错（5）对

8．解：（1）差错率的估计值=

70%+

30%=0.027

估计的方差v（）==3.1967

标准差为S()=0.0179。

（2）用事后分层的公式计算差错率为==0.03

估计的方差为；v（）=-=2.5726

=0.4，

（2）用分别比估计，有=0.65，所以用分别比估计可计算得=6.4。

用联合比估计，有

=0.5，=0.625，所以用联合比估计可计算得=6.5。

第四章习题

4.1

邮局欲估计每个家庭的平均订报份数，该辖区共有4000户，划分为400个

解：由题意得到N=400，n=4，M=10，f=

1故==

n4==0.01 N400

∑

i=1

yi=

19+20+16+20

=1.875（份）

10⨯4

=M⋅=10⨯1.875=18.75（份） ˆ=M⋅N⋅=10⨯400=7500（份） Y

2sb

n-1

∑(i=1

-)2

1-f21-f1v()=sb=

nMnM2n-1

∑(i=1

-)2

1-0.01(19-18.75)2+ +(20-18.75)2

=⨯

4-14⨯102

=0.00391875

ˆ)=N2M2v()=4002⨯102⨯0.00391875=62700 v(Y

于是由以上的计算结果得到平均每户的订报份数为1.875，估计量方差为

0.00391875。该辖区总的订阅份数为7500，估计量方差为62700。

4.2 某工业系统准备实行一项改革措施。该系统共有87个单位，现采用整群抽

样，用简单随机抽样抽取15个单位做样本，征求入选单位中每个工人对政

（2）在调查的基础上对方案作了修改，拟再一次征求意见，要求估计比例的允

许误差不超过8%，则应抽取多少个单位做样本?

解：题目已知N=87，n=15，f=1）由已知估计同意改革的比例

n15

N87

ˆ=p

∑y

i=1

ni=1

∑M

646

≈0.709 911

∑M

i=1

=60.733

11-f1ˆ)=2v(p

nn-1∑(y

i=1

ˆMi)2=0.008687 -p

此估计量的标准差为

ˆ)=v(pˆ)=.008687=0.9321 s(p

4.3 某集团的财务处共有48个抽屉，里面装有各种费用支出的票据。财务人员

欲估计办公费用支出的数额，随机抽取了其中的10个抽屉，经过清点，整

）。

n10

解：已知N=48, n=10, f==, 由题意得∑yi=736，∑Mi=365，

N48i=1i=1

ˆ=N则办公费用的总支出的估计为Y

∑yi=

i=1

⨯736=3532.8（元） 10

1n1

群总和均值=∑yi=⨯736=73.6（元）

ni=110

ˆ)=N(1-f)⋅v(Y

∑(y

i=1

-)2

n-1

10)

(83-73.6)2+(62-73.6)2+...+(80-73.6)2= ⨯

109

= 182.4⨯⨯3590.4

= 72765.44 482⨯(1-)=269.7507 v(Y

ˆ的置信度为95%的置信区间为3532.8±1.96⨯269.7507，即[3004.089，则Y

4061.511].

4.4 为了便于管理，将某林区划分为386个小区域。现采用简单随机抽样方法，

估计整个林区树的平均高度及95%的置信区间。

解：由已知得N=386，n=20，f=

n20==0.0518 N3866180.8

=5.909 1046

整体的平均高度==

∑M

i=1ni-1

∑M

1M=

∑M

i=1

=52.3

方差估计值v()=v()=

=0.02706

1-fn2

∑(y

i=1

-Mi)2

n-1

标准方差s()=v()=0.02706=0.1644

在置信度95%下，该林区的树木的平均高度的置信区间为

（±tα/2⋅s()）=(5.909±1.96⨯0.1644)=(5.5868,6.2312)

4.5 某高校学生会欲对全校女生拍摄过个人艺术照的比例进行调查。全校共有女

生宿舍200间，每间6人。学生会的同学运用两阶段抽样法设计了抽样方案，从200间宿舍中抽取了10间样本宿舍，在每间样本宿舍中抽取3位同学进

解：题目已知N=200，n=10，M=6，m=3，f1=

n10m==0.05，f2==0.5 N200M

ˆ=p

∑y

i=1

=0.3 10⨯3

11-f1ˆ)=2⋅v(p⋅

nn-1m

∑(y

i=1

-p⋅m)=0.005747

ˆ)=v(p)=.005747=0.0758 s(p

在置信度95%下，p的置信区间为

ˆ±tα/2v(pˆ))=(0.3±1.96⨯0.0758)=(0.151432,0.448568(p）

4.6 上题中，学生会对女生勤工助学月收入的一项调查中，根据以往同类问题的

调查，宿舍间的标准差为S1=326元，宿舍内同学之间的标准差为S2=188元。以一位同学进行调查来计算，调查每个宿舍的时间c1为1分钟，为了调查需要做各方面的准备及数据计算等工作，所花费的时间为c0是4小时，如果总时间控制在8小时以内，则最优的样本宿舍和样本学生是多少？

解：由已知条件得到以下信息：

S1=326（元）S2=188（元）c1=10（分钟）c2=1（分钟）c0=4⨯60=240

（分钟）由此得到

2S1

=106276，

S22

=35344，

S2u

S235344=S1-=106276-=100385.33

mopt=

S2c188⋅1=⨯≈1.82 S1c23261

因而取最优的m=2，进一步计算nopt 由于总时间的限制C=480，由关系式

C=c0+c1n+c2nm得到480=240+10nopt+2nopt

计算方程得到nopt=20，因而取n=20

则最优的样本宿舍数为20间，最优样本学生数为2。

4.7 某居委会欲了解居民健身活动情况，如果一直该居委会有500名居民，居住

在10个单元中。现先抽取4个单元，然后再样本单元中分别抽出若干居民，两个阶段的抽样都是简单随机抽样，调查了样本居民每天用于健身锻炼的时

（1）简单估计量（2）比率估计量

（3）对两种估计方法及结果进行评价。解：（1）简单估计

ˆ=NYu

Mii=∑ni=1

∑Yˆ

ii=1

⨯(32⨯3.75+45⨯3.4+36⨯4.5+54⨯4.17) 4

=1650，

ˆY1650

=3.3，则u=u=

M0500

1nˆ1 又u=∑Yi=⨯660=165， ni=14

ˆ)=所以v(Yu

)ˆ-(Y∑(1-f）

i=1

nn-1

Mi(1-f2i)s2i

∑mi=1i

分别计算

∑(Yˆ-)

i=1

n-1

5778==1926

=⨯[(120-165)2+(153-165)2+(162-165)2+(225-165)2]

Mi(1-f2i)s2i

=∑mi=1i

322⨯(1-

454

)⨯2.92452⨯(1-)⨯2.8362⨯(1-)⨯7++454

542⨯(1-+

)⨯2.254=4628.486

⎡)2ˆ-(Y∑iu2⎢1N(1-f1）i=1N⎢v(u)=+

所以，M0⎢nn-1n

⎢⎣

⎤

22n

Mi(1-f2i)s2i⎥

⎥∑mi⎥ i=1

⎥⎦

=0.11556+0.046285≈0.162

所以标准差s(u)=v(u)=0.402 (2) 比率估计

ˆR=y

∑M

i=1

ni=1

∑M

32⨯3.75+45⨯3.4+36⨯4.5+54⨯4.17

=3.9532

32+45+36+54

ˆR)=v(y

)ˆ-(Y∑(1-f）

i=1

nn-1

Mi(1-f2i)s2i

∑mi=1i

ˆY其中R=R=

ˆ)v(YRM0

∑M

i=1

ni=1

∑M

ˆR)=v(y

=0.0715

ˆR)=v(yˆR)=0.0715=0.2647 s(y

ˆR)=0.2647 （3）简单估计标准差s(u)=0.402，比率估计标准差s(y

∴比率估计更好

第五章不等概抽样习题答案

5.1解：

分析题目可知“代码法”与“拉希里法”都是PPS抽样（放回的与规模大小

成比例的不等概抽样）的实施方法，而此题需要用此两种方法进行不放回抽样，故需进一步进行改进：即采用重抽法抽取，如果抽到重复单元，则放弃此样本单元，重新抽取，直到抽到规定的样本量且所有样本党员不重复：（1）代码法：由Zi=

MiM

=Ni可假设M0=1000000，则Mi=ZiM0列成数据表

∑Mi

i=1

随机数为444703， 615432， 791937， 921813 ， 738207， 176266， 405706 935470， 916904， 57891按照范围我们可以知道抽取的PSU9, PSU16, PSU19, PSU24, PSU18, PSU2, PSU8 PSU24 PSU23 PSU2,我们看到第2组和24组重复抽取了，故进行重新抽取，抽到4组和6组；综上所述，抽取的样本为2，4，6，8，9，16，18，19，23，24组

（2）拉希里法：M⨯=78216，N=25，在[1, 25]和[1, 78216]中分别产生（n,m）：（13，38678），M13=40654≥38678,入样；（8， 57764），M8=38981

以此类推，当得到重复入样情况时，同上重新抽取，得到抽取结果为： 2，3，5，6，7，12 ，13，16， 19，24组 5.2解：

由数据可得：

t1=∑y1j=20， t2=∑y2j=25，t3=38， t4=24， t5=21；

j=1

结合t值数据，我们可以推得Z的值 Z1=

M15

==0.2,Z2=0.16，Z3=0.32，Z4=0.2，Z5=0.12， M025

由公式πij=

4ZiZj(1-Zi-Zj)

⎛Zi

(1-2Zi)(1-2Zj) 1+ ∑1-2Z

i=1i⎝

⎫

⎪⎪⎭

5.3 解：

设：M0=1，则有：Mi=Zi，得到下表：

为103，最后在[1,1000]中产生第三个随机数为982，则它们所对应的第7、1、10号单元被抽中。 5.4 解：

利用汉森-赫维茨估计量对总体总值进行估计：

YHH

∧

1nyi1320120290=∑=⨯[++]=2217.006ni=1Zi30.1380.0620.121

⎛yi∧⎫11 -YHH⎪=∑ ⎭nn-1i=1⎝Zi

⎛

v YHH⎝

⎫1⎛320⎫⎪=⨯[-2217.006 ⎪⎪6⎝0.138⎭⎭

1⎛120⎫⎛290⎫

+ -2217.006⎪+ -2217.006⎪]=⨯(10370.3+79254.7+32287.9)

6⎝0.062⎭⎝0.121⎭

=20318.8

∴

⎛∧

s YHH⎝

⎫⎛∧⎫

⎪=v YHH⎪=142.5 ⎭⎝⎭

5.5解：由题可知

X0=∑Xi=∑Xi=2+9+3+2+1+6=23

i=1

由πi=n

得下表：

由上表显然有Zi＜1/2，于是我们可以采用布鲁尔方法：

πij=

4ZiZj(1-Zi-Zj)

⎛Zi

(1-2Zi)(

1-2Zj) 1+ ∑1-2Z

i=1i⎝

⎫

⎪⎪⎭

(1) ∑XHH

∧

=0.1053+1.7999+0.1764+0.1053+0.0476+0.5455=2.78

1-2Zi=1i

n∧x1nxi

=∑ XHT=∑i

ni=1Zii=1πi

πi=nZi

∴另外：

XHH=XHT

∧∧

⎛Xi⎫⎛⎫1⎪V XHH⎪=∑Zi -X ⎪⎝⎭ni=1⎝Zi⎭

∧

⎛XXj⎫⎛⎫⎪ V XHT⎪=∑∑(πiπj-πij) i-

⎪⎝⎭i=1j>i

⎝πiπj⎭

∧

代入数据，经计算得到：

⎛∧

V XHH⎝⎫⎛∧⎪=0=V XHT⎭⎝⎫

⎪ ⎭

Y=6 S=∑Yi-Y

N-1i=1

()

=11.5

所以有：Vy=

∧

)

1-f2

S=10.0625 n

P=y

∧

Y=yY=Ny

∧

y x

⎛∧⎫∴V Y⎪⎪=Vy=10.

0625

⎝⎭

)

⎛∧⎫

V Y⎪=N2Vy=251.5625 ⎝⎭

)

（2）

由定义有：

∧

∧1

=XRN

YR=XRSyx

∧∧

S=Yi-Y∑N-1i=1

()

=11.5

Sx=5.8

=Yi-YXi-X=32∑N-1i=1

()()

∧∧211-f⎛2⎛∧⎫2⎫ S-2RSyx+RSx⎪ V R⎪=2

⎪n⎝⎝⎭X⎭

⎛⎫⎛⎫

∴V YRi⎪=X2V R⎪

⎝⎭⎝⎭

∧∧

⎛⎫⎛X⎫⎛⎫

V YV R⎪Ri⎪= ⎪⎝N⎪⎭⎝⎭⎝⎭

∧

结合题目已知条件，我们选择的包含概率与Xi成正比： πi=Zi=P（第i项被选中） 2

7⨯18.49+5⨯5.76+3⨯0+1⨯36+2⨯36⎛∧⎫N⎛∧⎫

∴V Y⎪=∑Zi YHH-Y⎪==254.71

18⎝⎭i=1⎝⎭⎛∧⎫⎛∧⎫⎛∧⎫

由以上计算结果可以看出：V YR⎪>V YHH⎪>V Y⎪，比估计在样本量很小的情

⎝⎭⎝⎭⎝⎭

况下即使是最小的方差也远比另外两种估计的方差大，而简单估计又比PPS汉森

-赫维茨估计略好。

5.7 解：已知 n=2 m=5 ∑∑yij=340 设公司总人数为M0

i=1j=1n

由于这个样本是自加权的，所以有：

M0nmM0

y=⨯340=34M0（分钟） Y=∑∑ij

nmi=1j=110

∧

∴y=

=34（分钟） M0

∧

所以该公司职工上班交通平均所需时间为34分钟。

1nm

νy=∑∑yij-y

nmi=1j=1=

⨯2440=24410

)(

1)=10⨯[(40-34)+(10-34)+^+(60-34)+(30-34)]

∴sy=y=15.62（分钟）

5.8 说明:y6=2561 解:由题可知:YHH

∧

-Yi1110yi110

=∑=∑=∑186yi=495299.4(吨) ni=1Zi10i=1Zi10i=1

∧

)所以,全集团季度总运量为495299.4吨.

⎛∧⎫

V YHH⎪的一个无偏估计为: ⎝⎭⎛∧ν YHH⎝

∧n⎛∧ Yi⎫11

⎪=∑ Z-YHH⎭nn-1i=1

⎝i

2⎫-∧110⎛⎪⎫

= 186yi-YHH⎪=95183360 ∑⎪90⎭⎪i=1⎝⎭2

因为 tα/2=2.306 所以 tα/2=22497.8 所以置信度95%的置信区间为[472894.6 , 517890.2]

第6章

第2题

⑴证明：将总体平方和按照全部可能的系统样本进行分解，可以得到 (N-1)S=∑∑(yrj-Y)=∑∑(yrj-yr)+∑∑(Yr-Y)2

r=1j=1

kn__kn__kn____

r=1j=1

=n∑(yr-Y)+∑∑(yrj-yr)2

r=1

____k__

r=1j=1

nkk____2kn

=(yr-Y)+∑∑(yrj-yr)2 ∑kr=1r=1j=1

1k____21 ∑(yr-Y)=(N-1)S2-

kr=1nk

[

∑∑(y

r=1j=1

-yr)2

]

根据V(ysy)的定义，且nk=N，有

1k____2(N-1)21

V(ysy)=∑(yr-Y)=S-

Nkr=1N

∑∑(y

r=1j=1

-yr)2

令S

wsy

kn__

1=(yrj-yr)2 ∑∑k(n-1)r=1j=1

则有V(ysy)=

(N-1)2k(n-1)2

S-Swsy NN

⑵证明：在样本量相同的情况下

____

(N-1)2k(n-1)21-f2

V(ysy)-V(ysys)=S-Swsy-S

NNn

(N-1)2N-n2k(n-1)2

=S-S-Swsy

NNnN(N-Nn)2k(n-1)2

=S-Swsy

NNN-k2k(n-1)2k(n-1)22

=S-Swsy=(S-Swsy)

NNN

>S2时，系统抽样优于简单随机抽样。立即可得到当且仅当Swsy

第3题

⎡N⎤⎡40⎤

解：⑴k=⎢⎥=⎢⎥=[5.7]，k取最接近于5.7而不大于5.7的整数5，则将该

⎣n⎦⎣7⎦

班同学编号1~40，随机起点r=5，则该样本单元序号为5，10，15，20，25，30，35。

⑵N=35，n=7，k==5。

Sethi对称系统抽样：r=5，入样单元为:5，6，10，16，15，26，20 Singh对称系统抽样：由于n为奇数，则从两个断点开始分层，最后中间

的半层取中间位置的单元，r=5，入样单元为：5，31，10，26，15，21，18

第4题

解：由题，N=360，k=8，则n=N/k=45

⎧⎪1 第45(r-1)+j号住户的户主为汉族

取Yrj=⎨，

⎪⎩0 第45(r-1)+j号住户的户主不为汉族

r=1,2, ,8，j=1,2, ,45,

总体均值Y=0.1972

1845

Yrj-Y总体方差S=∑∑N-1r=1j=1

()

=0.1588

(0.1343+0.2101+0.1768⨯4+0.2+0.1636)=0.1769 8

N-12k(n-1)2

则：Vysy=S-S∙r≈0

451-f2

运用简单随机抽样：n=45，f==0.125，Vysys=S=0.0031

360n

平均样本内方差S∙r2=

()

显然：Vysys>Vysy，说明等距样本的精确度较简单随机样本的精确度要高。

()()

第5题

答：⑴欲估计汉族所占比例，选择第⑴种系统抽样的方法好。按照题给条件排序，

在户口册中每5人中抽1人，且平均每户有5口人，分布较均匀，且如此抽样，每户人家基本均有1人入样。

⑵男性所占比例与孩子所占比例。采用简单随机抽样的方法较合适，因为按

题条件排序后，采用等距抽样，若抽得初始单元为1，则男生比例为1，孩子比例为0，如此，则有较大误差。

第6题

⎧1，若总体中第r"群"第j个单元具有所研究的特征

解：取Yrj=⎨

0，若总体中第r"群"第j个单元不具有所研究的特征⎩

则总体比例P的简单估计量为P=P=∑yrj=ysy，即对总体比例的估计可化

nj=1

成对总体均值的估计。

⎧1，第r"群"第j个单元为男性

① 估计男性所占比例：则，取Yrj=⎨

0，其他⎩

由题意，系统抽样 K=5，n=10，则所有可能样本如下表：

总体均值Y=

∑∑Y

r=1j=1

510

=0.48

1510

(Yrj-Y)2=0.2547，总体方差S=∑∑N-1r=1j=1

152

平均群内方差S=∑Srj=0.2489

5j=1

2.r

以行为“系统样本”的系统抽样：k=5,n=10

N-12k(n-1)2N-12k(n-1)2

V(ysy)=S-Swsy=S-S.r=0.02559≈0.0256

NNNN

简单随机抽样：n=10，f=20%=0.2 __

1-f21-0.2

V(y)=S=⨯0.2547≈0.0204

n10

V(ysy)>V(y)，说明简单随机抽样精度较高。

⎧1，第r"群"第j个单元为小孩

② 估计孩子所占比例：取Yrj=⎨

0，其他⎩

由题意，系统抽样：k=5，n=10，则所有可能样本如下表：

=0.48

总体均值Y=

∑∑Y

r=1j=1

1510

(Yrj-Y)2=0.2547 总体方差S=∑∑N-1r=1j=1

152

平均群内方差S=∑Srj≈0.2134

5j=1

2.r

以行为“系统样本”的系统抽样：k=5,n=10

N-12k(n-1)2N-12k(n-1)2

V(ysy)=S-Swsy=S-S.r≈0.0576

NNNN

简单随机抽样：n=10，f=20%=0.2 __

1-f21-0.2

V(y)=S=⨯0.2547≈0.0204

n10

V(ysy)>V(y)，说明简单随机抽样精度较高。

⎧1，满足条件

③ 估计具体某种职业的住户人员的比例：取Yrj=⎨

⎩0，不满足条件

由题意，系统抽样 K=5，n=10，则所有可能样本如下表：

总体均值Y=

∑∑Y

r=1j=1

=0.38

1510

(Yrj-Y)2=0.2404 总体方差S=∑∑N-1r=1j=1

152

平均群内方差S=∑Srj≈0.26

5j=1

2.r

以行为“系统样本”的系统抽样：k=5,n=10

N-12k(n-1)2N-12k(n-1)2

V(ysy)=S-Swsy=S-S.r≈0.0016

NNNN

简单随机抽样：n=10，f=20%=0.2 __

1-f2

V(y)=S=0.01923>0.0016

V(ysy)

第7题

⎡N⎤

解：①由题，N=15，n=3，直线等距抽样k=⎢⎥=5,则所有可能样本如下：

⎣n⎦

总体均值Y=

∑Y

i=1

总体方差S=(Yi-Y)2=20 ∑N-1i=1

152

平均样本方差S=∑Sri=25

5i=1

2.r

则以直线等距抽样：

N-12k(n-1)2N-12k(n-1)2

V(ysy)=S-Swsy=S-S.r=2

NNNN

简单随机抽样：n=3，f==1/5=0.2

1-f2

V(y)=S=5.3334>2

V(ysy)

②由题，要求抽样间距k=4，n=3，nk=12

=∑yi ni=1

11k__1kn1kn

yrj>∑∑yrj=Y E(ysy)=∑yr()=∑yr=∑∑kknkNr=1j=1r=1r=1r=1j=1

k__

所以样本均值不是总体均值的无偏估计。

1kn1

当nk=N时，∑∑yrj=

nkr=1j=1N

∑∑y

r=1j=1

， E(ysy)=Y。

____

即当nk=N时，样本均值为总体均值的无偏估计。

第8题

解：由题，N=30，k=5，则n=30/5=6

则按照所给顺序等距抽样，可能样本如下：

由上表数据可得：

1562

总体方差S=∑∑Yrj-Y

N-1r=1j=1

()

=11.8575

平

S∙r2=

均样本内方差

(17.4667+7.4667+6.5667+11.4667+18.9667)=12.3867 5

N-12k(n-1)2

则：Vysy=S-S∙r=1.14

第七章（仅供参考）

１、根据题中所给表格，可计算各层的权重：

85125140''

w1'==0.17 w2==0.25 w3==0.28

[1**********]040''

w4==0.22 w5==0.08

500500（1）根据式（7.1），可得该县棉花平均种植面积为：

()

stD=∑whh=0.17⨯

h=1

[***********]1

+0.25⨯+0.28⨯+0.22⨯+0.08⨯ 172528228

=164.27

该县共有2000个村，帮全县的棉花种植总面积为： =NstD=2000⨯164.27=328540

（2）根据式（7.4），Dts的方差估计为：

11'211L'

v(stD)=∑(-')whsh+('-)∑wh(h-stD)2

nhnNh=1h=1nh

nh1nh122

(yhj-h)=(∑yhj-nh)，由表中数据可得：由公式 sh=∑nh-1j=1nh-1j=1

s1=90.6544 s2=195.7733 s3=1335.6773 s4=855.5519 s5=14334.1429

第一项：

∑(

h=1

11'21111-')whsh=(-)⨯0.172⨯90.6544+(-)⨯0.252⨯195.7733nhnh178525125

111111-)⨯0.282⨯1335.6773+(-)⨯0.222⨯855.5519+(-)⨯0.082

[1**********]40

⨯14334.1429=14.1864

第二项： +(

11L'

('-)∑wh(h-stD)2nNh=1

[1**********]23=(-)⨯[0.17⨯(-164.27)2+0.25⨯(-164.27)2+0.28⨯(-[1**********]28

56074101

164.27)2+0.22⨯(-164.27)2+0.08⨯(-164.27)2]

228

=16760.9705

因此 v(stD)=14.1864+16760.9705=16775.1569

该县种植总面积的抽样标准误差估计为

s()=N∙s(ystD)=Nv(ystD)=259037.8883

,S2进行估计 2、解：本题首先对S12,S2

由于比例估计的方差 S2=

P(1-P) N-1

故我们可以取 S2≈P(1-P)进行估计。

根据题意知：W1=W2=0.5 P1=0.2 P2=0.8 c1=0.25 c2h=10 故总体比例 P=W1P1+W2P2=0.5 从而： S12=P1(1-P1)=0.2⨯0.8=0.16

=P2(1-P2)=0.8⨯0.2=0.16 S2

S2=P(1-P)=0.5⨯0.5=0.25 （1）根据式（7.10）及式（7.7）

⎧c1f=S⎪hDhL

22⎪c2h(S-∑WhSh)

⎪h=1

⎨

*CT⎪'

n=L⎪

c1+∑c2hWhfhD⎪

h=1⎩

由题意有CT =300(元）

代入上式有 f1D=0.16⨯

0.25

=0.2108

10⨯(0.25-0.16)

0.25

=0.2108

10⨯(0.25-0.16)

f2D=0.16⨯

n'=

300

=1272

0.25+(10⨯0.5⨯0.2108⨯2)

n1=f1Dn1=f1Dn'W1=0.2108⨯1272⨯0.5=134 '

n2=f2Dn2=f2Dn'W2=0.2108⨯1272⨯0.5=134

112LWhSh1

(-1)，依题意此时 V(PstD)=(-)S+∑'n'Nnfh=1hD

S20.25n'S2n'

由于亦可忽略不计 =

NNNNN

WhShS21+∑(-1) 故 V(PstD)≈''nnfhDh=1

0.250.5⨯0.161

+[⨯(-1)]⨯2 127212720.2108

=0.000667462

（2）不分层的简单随机抽样，样本量为n=268

1-f111

V(P)=NP(1-P)≈P(1-P)=⨯0.5⨯0.5=0.000932835

nN-1n268

因此二重分层抽样比不分层的简单随机抽样效率高。（3）略

3、解：由题知，'=602，由表，计算

ˆ=0.9994 =568.25，=568.5833，R

22=278836.89，sx=256154.86，syx=256262.02 sy

所以，该地区年末牛的总头数估计为：

ˆ=N=N'=1238⨯568.25⨯602=744839.1(头） Y RDRD

568.5833

ˆ的方差估计为：根据式（7.15），YRD

ˆ)=v(N)=N2v()≈N2[1s2+(1-1)(Rˆ2s2-2Rs)] v(YRDRDRDyxyx

nnn'278836.8911

≈12382⨯[+(-)(0.99942⨯256154.86

2424500

-2⨯0.9994⨯256262.02)] =2220650080

)=47123.7740。 ˆ的标准差为v(Y 所以YRDRD

4、解：（1）根据式（7.10）及式（7.7）

⎧c1f=S⎪hDhL

22⎪c2h(S-∑WhSh)

⎪h=1

⎨

*CT⎪'

n=L⎪

c1+∑c2hWhfhD⎪

h=1⎩

代入数据计算得： f1D=17.7⨯

=0.1329

100⨯[620-(0.786⨯312+0.214⨯922)]

=0.2282

100⨯[620-(0.786⨯312+0.214⨯922)]

f2D=30.4⨯

n'=

100

=612

0.01+(1⨯0.786⨯0.1329+1⨯0.214⨯0.2282)

n1=f1Dn1=f1Dn'W1=0.1329⨯612⨯0.786=64 '

n2=f2Dn2=f2Dn'W2=0.2282⨯612⨯0.214=30

112LWhSh1

(-1) 此时， V(stD)=(-)S+∑'n'Nnfh=1hD

≈

6200.786⨯312⎛1⎫0.214⨯922⎛1⎫

+[⨯ -1⎪+⨯ -1⎪]612620620⎝0.1329⎭⎝0.2282⎭

≈4.6700

（2）略

5、解：由题意可知

n1=300 n2=200 m=62

~(n+1)(n2+1)

由式（7.21） N=1-1=959.33

m+1

由式（7.22）

(n+1)(n2+1)(n1-m)(n2-m)301⨯201⨯238⨯138~

v(N)=1=≈7822.7

(m+1)2(m+2)632⨯62

6、解：（1）由题意 n1=7 n2=12 m=4

~(n+1)(n2+1)

由式（7.21） N=1-1=19.8

m+1

由式（7.22）

(n+1)(n2+1)(n1-m)(n2-m)8⨯13⨯3⨯8~

v(N)=1==16.64

(m+1)2(m+2)52⨯6

~ 其95%的置信区间为 N±1.96v(N) 即 (8.64,24.64)

（2）由题意 n1=16 n2=19 m=11

17⨯20~(n+1)(n2+1)

由式（7.21） N=1-1=-1=27.33

m+112

由式（7.22）

(n+1)(n2+1)(n1-m)(n2-m)17⨯20⨯5⨯8~

v(N)=1==7.26

(m+1)2(m+2)122⨯13

~ 其95%的置信区间为 N±1.96v(N) 即 (24.63,30.03)

（3）

1、总体是封闭的——两次抽样间没有人进入或离开湖心塘地区。 ○

2、每个样本都是来自总体的简单随机抽样。即湖心塘地区的每一个人 ○

都有同样的机会被找到。

3、两个样本是独立的。即第一次找到的人混合到了湖心塘地区后，跟 ○

第二次被找到的概率没有关系。

4、不会丢失人找到过的人的信息。 ○

7、（1）略

~(n+1)(n2+1) （2）由题意由式（7.21） N=1-1

m+1

由表中数据n11=45 n21=15 m1=2代入公式得

N1=244.33

同理有

~~~~~~

N2=95 N3=48 N4=79.5 N5=44.5 N6=114 N7=41.67

~~~~~~

N8=30.5 N9=62.33 N10=159 N11=31.5N12=4 N13=35 ~~~

N14=3 N15=3 N16=1

（3）累积所有年份的数据，有n1=263 n2=93 m=19

~(263+1)⨯(93+1)

代入公式，有N=-1=1239.8

19+1

（2）中得到的1970-1985年间的先天性风疹的总病例数为N'=∑Ni=996.33

i=1

（4）略

第二章习题

2.1判断下列抽样方法是否是等概的：

（3）总体20000~21000，从1~1000中产生随机数r。然后用r+19999作为被抽选的数。

解：由已知可得，N=50000，n=300，=9.5，s2=206

ˆ)=v(N)=N21-fs2=500002V(Y

300

*206=1706366666 300

v(==41308.19 该市居民用电量的95%置信区间为

[[Ny±zα(y)]=[475000±1.96*41308.19]

即为（394035.95，555964.05）由相对误差公式

uα2v()

≤10%

可得1.96*

-n*206≤9.5*10% n

即n≥862

欲使相对误差限不超过10%，则样本量至少应为862

解析：由已知得：N=10000 n=200 p=0.35 f==0.02

∧∧1-f

又有：E(p)=E(p)=p=0.35 V(p)=p(1-p)=0.0012

n-1

该大学所有本科学生中暑假参加培训班的比例95%的置信区间为：

[E(P)±Zα(P)]

∧

代入数据计算得：该区间为[0.2843，0.4157]

2.5研究某小区家庭用于文化方面（报刊、电视、网络、书籍等）的支出，N=200，现抽取一个容量为20的样本，调查结果列于下表：

编号 1 2 3 4 5 6 7 8

文化支出 200 150 170 150 160 130 140 100

编号 11 12 13 14 15 16 17 18

文化支出 150 160 180 130 100 180 100 180

9 10 110 240 19 20 170 120

估计该小区平均的文化支出Y,并给出置信水平95%的置信区间。解析：由已知得：N=200 n=20

120

根据表中数据计算得：y=∑yi=144.5

20i=1

2120

s=y-y=827.06842 ∑i

20-1i=1

()

V(y)=

∴ 该小区平均文化支出Y的

[132.544 ,156.456]

(1-)s2=37.21808 (y)=6.10015 nN

95%置信区间为：[y±zα(y)]即是：

故估计该小区平均的文化支出Y=144.5,置信水平95%的置信区间为[132.544 ,156.456]。

n50

==0.1429 S2=2560⇒s=160 N350

1-f

s] 代入数据得： n

置信水平95%的置信区间为：[y±zα

置信水平95%的置信区间为：[1079.872，1160.872]

NZαS2

解析：简单随机抽样所需的样本量n1=

Nd2+ZαS2

n2=

70%

由题意知：N=1000 d=2 S=68 代入并计算得：n1=61.3036≈61

n2=

Zα=1.96

=87.142≈8770%

故知：简单随机抽样所需的样本量为61，若预计有效回答率为70%，则样本量最终为87

X2135==21.35N100,=25

∧

解析：由题可知=22，

则，该地区化肥产量均值的比率估计量为

Y=X

y25

=21.35=24.26

24x

=100*24.26=2426ˆ=NYR 该地区化肥产量总值Y的比率估计量为

所以，今年该地区化肥总产量的估计值为2426吨。

2.9如果在解决习题2.5的问题时可以得到这些家庭月总支出，得到如下表：

置信水平95%的置信区间，并比较比估计和简单估计的效率。

1n1

=∑xi=2300+1700+ +1300）=1580

ni=120解析：由题可知

=144.5

ˆ=r==144.5=≈0.091R

1580

又

R=144.5=1600*=146.3291580

S=(yi-)2=826.053∑n-1i=1

Sxy

=∑(yi-)(xi-)=3463.158n-1i=1

1n2=(x-)=8831.579∑i

n-1i=1

故平均文化支出的95%的置信区间为

[R-Zα2

-f21-f2

ˆS+Rˆ2S2),+ZˆS+Rˆ2S2)](S-2R(S-2RyxxRα2yxx

代入数据得（146.329±1.96*1.892）

即为[142.621,150.037]

2.10某养牛场购进了120头肉牛，购进时平均体重100千克。现从中抽取10头，记录重量，3个月后再次测量，结果如下：

的结果进行比较。

1n1

=102.6 解：由题可知，=∑xi=95+ +105）

ni=110

1n1

150+ 170）=163 =∑yi=ni=110

1n12

S=(y-)=*1910=212.222 ∑i

n-1i=19

Sxy

1n1=(y-)(x-)=*1317=146.333 ∑ii

n-1i=19

1n1=(xi-)2=*926.4=106.933 ∑n-1i=19SxySx

故有β0=

146.333

=1.368

106.933

所以总体均值的回归估计量为

lr=+β0(-)=163+1.368*(100-102.6)=159.443 其方差估计为：

ˆ()=1-f(S2+β2S2-2βS)Vlr0x0xy

n101-

=(212.222+1.3682*106.933-2*1.368*146.333)

10=1.097 1-f2

ˆ(）而V=S

1-*212.222 10

=19.454

ˆ()

所以，回归估计的结果要优于简单估

第三单元习题答案（仅供参考） 1解：（1）不合适（2）不合适（3）合适（4）不合适

2．将800名同学平均分成8组，在每一级中抽取一名“幸运星”。

=20.1

V（）=-

=9.7681-0.2962

=9.4719

=3.0777

（2）置信区间为95%相对误差为10%，则有

按比例分配的总量：n=

=185.4407

185

=n=56，=92，=37

按内曼分配：n=

=175

=33，=99，=43

=0.924

根据各层层权及抽样比的结果，可得

（）==0.000396981

=1.99%

估计量的标准差为1.99%，比例为9.24% 按比例分配：

n=2663

=479，

=559，

=373，

=240，

=426，

=586

内曼分配：

n=2565

=536，

=520，

=417，

=304，

=396，

=392

5．解：由题意，有

=75.79

购买冷冻食品的平均支出为75.79元

又由V（）=+

又n=

V（）

=53.8086

=7.3354

95%的置信区间为[60.63，90.95]。 7．解：（1）对（2）错（3）错（4）错（5）对

8．解：（1）差错率的估计值=

70%+

30%=0.027

估计的方差v（）==3.1967

标准差为S()=0.0179。

（2）用事后分层的公式计算差错率为==0.03

估计的方差为；v（）=-=2.5726

=0.4，

（2）用分别比估计，有=0.65，所以用分别比估计可计算得=6.4。

用联合比估计，有

=0.5，=0.625，所以用联合比估计可计算得=6.5。

第四章习题

4.1

邮局欲估计每个家庭的平均订报份数，该辖区共有4000户，划分为400个

解：由题意得到N=400，n=4，M=10，f=

1故==

n4==0.01 N400

∑

i=1

yi=

19+20+16+20

=1.875（份）

10⨯4

=M⋅=10⨯1.875=18.75（份） ˆ=M⋅N⋅=10⨯400=7500（份） Y

2sb

n-1

∑(i=1

-)2

1-f21-f1v()=sb=

nMnM2n-1

∑(i=1

-)2

1-0.01(19-18.75)2+ +(20-18.75)2

=⨯

4-14⨯102

=0.00391875

ˆ)=N2M2v()=4002⨯102⨯0.00391875=62700 v(Y

于是由以上的计算结果得到平均每户的订报份数为1.875，估计量方差为

0.00391875。该辖区总的订阅份数为7500，估计量方差为62700。

4.2 某工业系统准备实行一项改革措施。该系统共有87个单位，现采用整群抽

样，用简单随机抽样抽取15个单位做样本，征求入选单位中每个工人对政

（2）在调查的基础上对方案作了修改，拟再一次征求意见，要求估计比例的允

许误差不超过8%，则应抽取多少个单位做样本?

解：题目已知N=87，n=15，f=1）由已知估计同意改革的比例

n15

N87

ˆ=p

∑y

i=1

ni=1

∑M

646

≈0.709 911

∑M

i=1

=60.733

11-f1ˆ)=2v(p

nn-1∑(y

i=1

ˆMi)2=0.008687 -p

此估计量的标准差为

ˆ)=v(pˆ)=.008687=0.9321 s(p

4.3 某集团的财务处共有48个抽屉，里面装有各种费用支出的票据。财务人员

欲估计办公费用支出的数额，随机抽取了其中的10个抽屉，经过清点，整

）。

n10

解：已知N=48, n=10, f==, 由题意得∑yi=736，∑Mi=365，

N48i=1i=1

ˆ=N则办公费用的总支出的估计为Y

∑yi=

i=1

⨯736=3532.8（元） 10

1n1

群总和均值=∑yi=⨯736=73.6（元）

ni=110

ˆ)=N(1-f)⋅v(Y

∑(y

i=1

-)2

n-1

10)

(83-73.6)2+(62-73.6)2+...+(80-73.6)2= ⨯

109

= 182.4⨯⨯3590.4

= 72765.44 482⨯(1-)=269.7507 v(Y

ˆ的置信度为95%的置信区间为3532.8±1.96⨯269.7507，即[3004.089，则Y

4061.511].

4.4 为了便于管理，将某林区划分为386个小区域。现采用简单随机抽样方法，

估计整个林区树的平均高度及95%的置信区间。

解：由已知得N=386，n=20，f=

n20==0.0518 N3866180.8

=5.909 1046

整体的平均高度==

∑M

i=1ni-1

∑M

1M=

∑M

i=1

=52.3

方差估计值v()=v()=

=0.02706

1-fn2

∑(y

i=1

-Mi)2

n-1

标准方差s()=v()=0.02706=0.1644

在置信度95%下，该林区的树木的平均高度的置信区间为

（±tα/2⋅s()）=(5.909±1.96⨯0.1644)=(5.5868,6.2312)

4.5 某高校学生会欲对全校女生拍摄过个人艺术照的比例进行调查。全校共有女

生宿舍200间，每间6人。学生会的同学运用两阶段抽样法设计了抽样方案，从200间宿舍中抽取了10间样本宿舍，在每间样本宿舍中抽取3位同学进

解：题目已知N=200，n=10，M=6，m=3，f1=

n10m==0.05，f2==0.5 N200M

ˆ=p

∑y

i=1

=0.3 10⨯3

11-f1ˆ)=2⋅v(p⋅

nn-1m

∑(y

i=1

-p⋅m)=0.005747

ˆ)=v(p)=.005747=0.0758 s(p

在置信度95%下，p的置信区间为

ˆ±tα/2v(pˆ))=(0.3±1.96⨯0.0758)=(0.151432,0.448568(p）

4.6 上题中，学生会对女生勤工助学月收入的一项调查中，根据以往同类问题的

解：由已知条件得到以下信息：

S1=326（元）S2=188（元）c1=10（分钟）c2=1（分钟）c0=4⨯60=240

（分钟）由此得到

2S1

=106276，

S22

=35344，

S2u

S235344=S1-=106276-=100385.33

mopt=

S2c188⋅1=⨯≈1.82 S1c23261

因而取最优的m=2，进一步计算nopt 由于总时间的限制C=480，由关系式

C=c0+c1n+c2nm得到480=240+10nopt+2nopt

计算方程得到nopt=20，因而取n=20

则最优的样本宿舍数为20间，最优样本学生数为2。

4.7 某居委会欲了解居民健身活动情况，如果一直该居委会有500名居民，居住

在10个单元中。现先抽取4个单元，然后再样本单元中分别抽出若干居民，两个阶段的抽样都是简单随机抽样，调查了样本居民每天用于健身锻炼的时

（1）简单估计量（2）比率估计量

（3）对两种估计方法及结果进行评价。解：（1）简单估计

ˆ=NYu

Mii=∑ni=1

∑Yˆ

ii=1

⨯(32⨯3.75+45⨯3.4+36⨯4.5+54⨯4.17) 4

=1650，

ˆY1650

=3.3，则u=u=

M0500

1nˆ1 又u=∑Yi=⨯660=165， ni=14

ˆ)=所以v(Yu

)ˆ-(Y∑(1-f）

i=1

nn-1

Mi(1-f2i)s2i

∑mi=1i

分别计算

∑(Yˆ-)

i=1

n-1

5778==1926

=⨯[(120-165)2+(153-165)2+(162-165)2+(225-165)2]

Mi(1-f2i)s2i

=∑mi=1i

322⨯(1-

454

)⨯2.92452⨯(1-)⨯2.8362⨯(1-)⨯7++454

542⨯(1-+

)⨯2.254=4628.486

⎡)2ˆ-(Y∑iu2⎢1N(1-f1）i=1N⎢v(u)=+

所以，M0⎢nn-1n

⎢⎣

⎤

22n

Mi(1-f2i)s2i⎥

⎥∑mi⎥ i=1

⎥⎦

=0.11556+0.046285≈0.162

所以标准差s(u)=v(u)=0.402 (2) 比率估计

ˆR=y

∑M

i=1

ni=1

∑M

32⨯3.75+45⨯3.4+36⨯4.5+54⨯4.17

=3.9532

32+45+36+54

ˆR)=v(y

)ˆ-(Y∑(1-f）

i=1

nn-1

Mi(1-f2i)s2i

∑mi=1i

ˆY其中R=R=

ˆ)v(YRM0

∑M

i=1

ni=1

∑M

ˆR)=v(y

=0.0715

ˆR)=v(yˆR)=0.0715=0.2647 s(y

ˆR)=0.2647 （3）简单估计标准差s(u)=0.402，比率估计标准差s(y

∴比率估计更好

第五章不等概抽样习题答案

5.1解：

分析题目可知“代码法”与“拉希里法”都是PPS抽样（放回的与规模大小

MiM

=Ni可假设M0=1000000，则Mi=ZiM0列成数据表

∑Mi

i=1

（2）拉希里法：M⨯=78216，N=25，在[1, 25]和[1, 78216]中分别产生（n,m）：（13，38678），M13=40654≥38678,入样；（8， 57764），M8=38981

以此类推，当得到重复入样情况时，同上重新抽取，得到抽取结果为： 2，3，5，6，7，12 ，13，16， 19，24组 5.2解：

由数据可得：

t1=∑y1j=20， t2=∑y2j=25，t3=38， t4=24， t5=21；

j=1

结合t值数据，我们可以推得Z的值 Z1=

M15

==0.2,Z2=0.16，Z3=0.32，Z4=0.2，Z5=0.12， M025

由公式πij=

4ZiZj(1-Zi-Zj)

⎛Zi

(1-2Zi)(1-2Zj) 1+ ∑1-2Z

i=1i⎝

⎫

⎪⎪⎭

5.3 解：

设：M0=1，则有：Mi=Zi，得到下表：

为103，最后在[1,1000]中产生第三个随机数为982，则它们所对应的第7、1、10号单元被抽中。 5.4 解：

利用汉森-赫维茨估计量对总体总值进行估计：

YHH

∧

1nyi1320120290=∑=⨯[++]=2217.006ni=1Zi30.1380.0620.121

⎛yi∧⎫11 -YHH⎪=∑ ⎭nn-1i=1⎝Zi

⎛

v YHH⎝

⎫1⎛320⎫⎪=⨯[-2217.006 ⎪⎪6⎝0.138⎭⎭

1⎛120⎫⎛290⎫

+ -2217.006⎪+ -2217.006⎪]=⨯(10370.3+79254.7+32287.9)

6⎝0.062⎭⎝0.121⎭

=20318.8

∴

⎛∧

s YHH⎝

⎫⎛∧⎫

⎪=v YHH⎪=142.5 ⎭⎝⎭

5.5解：由题可知

X0=∑Xi=∑Xi=2+9+3+2+1+6=23

i=1

由πi=n

得下表：

由上表显然有Zi＜1/2，于是我们可以采用布鲁尔方法：

πij=

4ZiZj(1-Zi-Zj)

⎛Zi

(1-2Zi)(

1-2Zj) 1+ ∑1-2Z

i=1i⎝

⎫

⎪⎪⎭

(1) ∑XHH

∧

=0.1053+1.7999+0.1764+0.1053+0.0476+0.5455=2.78

1-2Zi=1i

n∧x1nxi

=∑ XHT=∑i

ni=1Zii=1πi

πi=nZi

∴另外：

XHH=XHT

∧∧

⎛Xi⎫⎛⎫1⎪V XHH⎪=∑Zi -X ⎪⎝⎭ni=1⎝Zi⎭

∧

⎛XXj⎫⎛⎫⎪ V XHT⎪=∑∑(πiπj-πij) i-

⎪⎝⎭i=1j>i

⎝πiπj⎭

∧

代入数据，经计算得到：

⎛∧

V XHH⎝⎫⎛∧⎪=0=V XHT⎭⎝⎫

⎪ ⎭

Y=6 S=∑Yi-Y

N-1i=1

()

=11.5

所以有：Vy=

∧

)

1-f2

S=10.0625 n

P=y

∧

Y=yY=Ny

∧

y x

⎛∧⎫∴V Y⎪⎪=Vy=10.

0625

⎝⎭

)

⎛∧⎫

V Y⎪=N2Vy=251.5625 ⎝⎭

)

（2）

由定义有：

∧

∧1

=XRN

YR=XRSyx

∧∧

S=Yi-Y∑N-1i=1

()

=11.5

Sx=5.8

=Yi-YXi-X=32∑N-1i=1

()()

∧∧211-f⎛2⎛∧⎫2⎫ S-2RSyx+RSx⎪ V R⎪=2

⎪n⎝⎝⎭X⎭

⎛⎫⎛⎫

∴V YRi⎪=X2V R⎪

⎝⎭⎝⎭

∧∧

⎛⎫⎛X⎫⎛⎫

V YV R⎪Ri⎪= ⎪⎝N⎪⎭⎝⎭⎝⎭

∧

结合题目已知条件，我们选择的包含概率与Xi成正比： πi=Zi=P（第i项被选中） 2

7⨯18.49+5⨯5.76+3⨯0+1⨯36+2⨯36⎛∧⎫N⎛∧⎫

∴V Y⎪=∑Zi YHH-Y⎪==254.71

18⎝⎭i=1⎝⎭⎛∧⎫⎛∧⎫⎛∧⎫

由以上计算结果可以看出：V YR⎪>V YHH⎪>V Y⎪，比估计在样本量很小的情

⎝⎭⎝⎭⎝⎭

况下即使是最小的方差也远比另外两种估计的方差大，而简单估计又比PPS汉森

-赫维茨估计略好。

5.7 解：已知 n=2 m=5 ∑∑yij=340 设公司总人数为M0

i=1j=1n

由于这个样本是自加权的，所以有：

M0nmM0

y=⨯340=34M0（分钟） Y=∑∑ij

nmi=1j=110

∧

∴y=

=34（分钟） M0

∧

所以该公司职工上班交通平均所需时间为34分钟。

1nm

νy=∑∑yij-y

nmi=1j=1=

⨯2440=24410

)(

1)=10⨯[(40-34)+(10-34)+^+(60-34)+(30-34)]

∴sy=y=15.62（分钟）

5.8 说明:y6=2561 解:由题可知:YHH

∧

-Yi1110yi110

=∑=∑=∑186yi=495299.4(吨) ni=1Zi10i=1Zi10i=1

∧

)所以,全集团季度总运量为495299.4吨.

⎛∧⎫

V YHH⎪的一个无偏估计为: ⎝⎭⎛∧ν YHH⎝

∧n⎛∧ Yi⎫11

⎪=∑ Z-YHH⎭nn-1i=1

⎝i

2⎫-∧110⎛⎪⎫

= 186yi-YHH⎪=95183360 ∑⎪90⎭⎪i=1⎝⎭2

因为 tα/2=2.306 所以 tα/2=22497.8 所以置信度95%的置信区间为[472894.6 , 517890.2]

第6章

第2题

⑴证明：将总体平方和按照全部可能的系统样本进行分解，可以得到 (N-1)S=∑∑(yrj-Y)=∑∑(yrj-yr)+∑∑(Yr-Y)2

r=1j=1

kn__kn__kn____

r=1j=1

=n∑(yr-Y)+∑∑(yrj-yr)2

r=1

____k__

r=1j=1

nkk____2kn

=(yr-Y)+∑∑(yrj-yr)2 ∑kr=1r=1j=1

1k____21 ∑(yr-Y)=(N-1)S2-

kr=1nk

[

∑∑(y

r=1j=1

-yr)2

]

根据V(ysy)的定义，且nk=N，有

1k____2(N-1)21

V(ysy)=∑(yr-Y)=S-

Nkr=1N

∑∑(y

r=1j=1

-yr)2

令S

wsy

kn__

1=(yrj-yr)2 ∑∑k(n-1)r=1j=1

则有V(ysy)=

(N-1)2k(n-1)2

S-Swsy NN

⑵证明：在样本量相同的情况下

____

(N-1)2k(n-1)21-f2

V(ysy)-V(ysys)=S-Swsy-S

NNn

(N-1)2N-n2k(n-1)2

=S-S-Swsy

NNnN(N-Nn)2k(n-1)2

=S-Swsy

NNN-k2k(n-1)2k(n-1)22

=S-Swsy=(S-Swsy)

NNN

>S2时，系统抽样优于简单随机抽样。立即可得到当且仅当Swsy

第3题

⎡N⎤⎡40⎤

解：⑴k=⎢⎥=⎢⎥=[5.7]，k取最接近于5.7而不大于5.7的整数5，则将该

⎣n⎦⎣7⎦

班同学编号1~40，随机起点r=5，则该样本单元序号为5，10，15，20，25，30，35。

⑵N=35，n=7，k==5。

Sethi对称系统抽样：r=5，入样单元为:5，6，10，16，15，26，20 Singh对称系统抽样：由于n为奇数，则从两个断点开始分层，最后中间

的半层取中间位置的单元，r=5，入样单元为：5，31，10，26，15，21，18

第4题

解：由题，N=360，k=8，则n=N/k=45

⎧⎪1 第45(r-1)+j号住户的户主为汉族

取Yrj=⎨，

⎪⎩0 第45(r-1)+j号住户的户主不为汉族

r=1,2, ,8，j=1,2, ,45,

总体均值Y=0.1972

1845

Yrj-Y总体方差S=∑∑N-1r=1j=1

()

=0.1588

(0.1343+0.2101+0.1768⨯4+0.2+0.1636)=0.1769 8

N-12k(n-1)2

则：Vysy=S-S∙r≈0

451-f2

运用简单随机抽样：n=45，f==0.125，Vysys=S=0.0031

360n

平均样本内方差S∙r2=

()

显然：Vysys>Vysy，说明等距样本的精确度较简单随机样本的精确度要高。

()()

第5题

答：⑴欲估计汉族所占比例，选择第⑴种系统抽样的方法好。按照题给条件排序，

在户口册中每5人中抽1人，且平均每户有5口人，分布较均匀，且如此抽样，每户人家基本均有1人入样。

⑵男性所占比例与孩子所占比例。采用简单随机抽样的方法较合适，因为按

题条件排序后，采用等距抽样，若抽得初始单元为1，则男生比例为1，孩子比例为0，如此，则有较大误差。

第6题

⎧1，若总体中第r"群"第j个单元具有所研究的特征

解：取Yrj=⎨

0，若总体中第r"群"第j个单元不具有所研究的特征⎩

则总体比例P的简单估计量为P=P=∑yrj=ysy，即对总体比例的估计可化

nj=1

成对总体均值的估计。

⎧1，第r"群"第j个单元为男性

① 估计男性所占比例：则，取Yrj=⎨

0，其他⎩

由题意，系统抽样 K=5，n=10，则所有可能样本如下表：

总体均值Y=

∑∑Y

r=1j=1

510

=0.48

1510

(Yrj-Y)2=0.2547，总体方差S=∑∑N-1r=1j=1

152

平均群内方差S=∑Srj=0.2489

5j=1

2.r

以行为“系统样本”的系统抽样：k=5,n=10

N-12k(n-1)2N-12k(n-1)2

V(ysy)=S-Swsy=S-S.r=0.02559≈0.0256

NNNN

简单随机抽样：n=10，f=20%=0.2 __

1-f21-0.2

V(y)=S=⨯0.2547≈0.0204

n10

V(ysy)>V(y)，说明简单随机抽样精度较高。

⎧1，第r"群"第j个单元为小孩

② 估计孩子所占比例：取Yrj=⎨

0，其他⎩

由题意，系统抽样：k=5，n=10，则所有可能样本如下表：

=0.48

总体均值Y=

∑∑Y

r=1j=1

1510

(Yrj-Y)2=0.2547 总体方差S=∑∑N-1r=1j=1

152

平均群内方差S=∑Srj≈0.2134

5j=1

2.r

以行为“系统样本”的系统抽样：k=5,n=10

N-12k(n-1)2N-12k(n-1)2

V(ysy)=S-Swsy=S-S.r≈0.0576

NNNN

简单随机抽样：n=10，f=20%=0.2 __

1-f21-0.2

V(y)=S=⨯0.2547≈0.0204

n10

V(ysy)>V(y)，说明简单随机抽样精度较高。

⎧1，满足条件

③ 估计具体某种职业的住户人员的比例：取Yrj=⎨

⎩0，不满足条件

由题意，系统抽样 K=5，n=10，则所有可能样本如下表：

总体均值Y=

∑∑Y

r=1j=1

=0.38

1510

(Yrj-Y)2=0.2404 总体方差S=∑∑N-1r=1j=1

152

平均群内方差S=∑Srj≈0.26

5j=1

2.r

以行为“系统样本”的系统抽样：k=5,n=10

N-12k(n-1)2N-12k(n-1)2

V(ysy)=S-Swsy=S-S.r≈0.0016

NNNN

简单随机抽样：n=10，f=20%=0.2 __

1-f2

V(y)=S=0.01923>0.0016

V(ysy)

第7题

⎡N⎤

解：①由题，N=15，n=3，直线等距抽样k=⎢⎥=5,则所有可能样本如下：

⎣n⎦

总体均值Y=

∑Y

i=1

总体方差S=(Yi-Y)2=20 ∑N-1i=1

152

平均样本方差S=∑Sri=25

5i=1

2.r

则以直线等距抽样：

N-12k(n-1)2N-12k(n-1)2

V(ysy)=S-Swsy=S-S.r=2

NNNN

简单随机抽样：n=3，f==1/5=0.2

1-f2

V(y)=S=5.3334>2

V(ysy)

②由题，要求抽样间距k=4，n=3，nk=12

=∑yi ni=1

11k__1kn1kn

yrj>∑∑yrj=Y E(ysy)=∑yr()=∑yr=∑∑kknkNr=1j=1r=1r=1r=1j=1

k__

所以样本均值不是总体均值的无偏估计。

1kn1

当nk=N时，∑∑yrj=

nkr=1j=1N

∑∑y

r=1j=1

， E(ysy)=Y。

____

即当nk=N时，样本均值为总体均值的无偏估计。

第8题

解：由题，N=30，k=5，则n=30/5=6

则按照所给顺序等距抽样，可能样本如下：

由上表数据可得：

1562

总体方差S=∑∑Yrj-Y

N-1r=1j=1

()

=11.8575

平

S∙r2=

均样本内方差

(17.4667+7.4667+6.5667+11.4667+18.9667)=12.3867 5

N-12k(n-1)2

则：Vysy=S-S∙r=1.14

第七章（仅供参考）

１、根据题中所给表格，可计算各层的权重：

85125140''

w1'==0.17 w2==0.25 w3==0.28

[1**********]040''

w4==0.22 w5==0.08

500500（1）根据式（7.1），可得该县棉花平均种植面积为：

()

stD=∑whh=0.17⨯

h=1

[***********]1

+0.25⨯+0.28⨯+0.22⨯+0.08⨯ 172528228

=164.27

该县共有2000个村，帮全县的棉花种植总面积为： =NstD=2000⨯164.27=328540

（2）根据式（7.4），Dts的方差估计为：

11'211L'

v(stD)=∑(-')whsh+('-)∑wh(h-stD)2

nhnNh=1h=1nh

nh1nh122

(yhj-h)=(∑yhj-nh)，由表中数据可得：由公式 sh=∑nh-1j=1nh-1j=1

s1=90.6544 s2=195.7733 s3=1335.6773 s4=855.5519 s5=14334.1429

第一项：

∑(

h=1

11'21111-')whsh=(-)⨯0.172⨯90.6544+(-)⨯0.252⨯195.7733nhnh178525125

111111-)⨯0.282⨯1335.6773+(-)⨯0.222⨯855.5519+(-)⨯0.082

[1**********]40

⨯14334.1429=14.1864

第二项： +(

11L'

('-)∑wh(h-stD)2nNh=1

[1**********]23=(-)⨯[0.17⨯(-164.27)2+0.25⨯(-164.27)2+0.28⨯(-[1**********]28

56074101

164.27)2+0.22⨯(-164.27)2+0.08⨯(-164.27)2]

228

=16760.9705

因此 v(stD)=14.1864+16760.9705=16775.1569

该县种植总面积的抽样标准误差估计为

s()=N∙s(ystD)=Nv(ystD)=259037.8883

,S2进行估计 2、解：本题首先对S12,S2

由于比例估计的方差 S2=

P(1-P) N-1

故我们可以取 S2≈P(1-P)进行估计。

根据题意知：W1=W2=0.5 P1=0.2 P2=0.8 c1=0.25 c2h=10 故总体比例 P=W1P1+W2P2=0.5 从而： S12=P1(1-P1)=0.2⨯0.8=0.16

=P2(1-P2)=0.8⨯0.2=0.16 S2

S2=P(1-P)=0.5⨯0.5=0.25 （1）根据式（7.10）及式（7.7）

⎧c1f=S⎪hDhL

22⎪c2h(S-∑WhSh)

⎪h=1

⎨

*CT⎪'

n=L⎪

c1+∑c2hWhfhD⎪

h=1⎩

由题意有CT =300(元）

代入上式有 f1D=0.16⨯

0.25

=0.2108

10⨯(0.25-0.16)

0.25

=0.2108

10⨯(0.25-0.16)

f2D=0.16⨯

n'=

300

=1272

0.25+(10⨯0.5⨯0.2108⨯2)

n1=f1Dn1=f1Dn'W1=0.2108⨯1272⨯0.5=134 '

n2=f2Dn2=f2Dn'W2=0.2108⨯1272⨯0.5=134

112LWhSh1

(-1)，依题意此时 V(PstD)=(-)S+∑'n'Nnfh=1hD

S20.25n'S2n'

由于亦可忽略不计 =

NNNNN

WhShS21+∑(-1) 故 V(PstD)≈''nnfhDh=1

0.250.5⨯0.161

+[⨯(-1)]⨯2 127212720.2108

=0.000667462

（2）不分层的简单随机抽样，样本量为n=268

1-f111

V(P)=NP(1-P)≈P(1-P)=⨯0.5⨯0.5=0.000932835

nN-1n268

因此二重分层抽样比不分层的简单随机抽样效率高。（3）略

3、解：由题知，'=602，由表，计算

ˆ=0.9994 =568.25，=568.5833，R

22=278836.89，sx=256154.86，syx=256262.02 sy

所以，该地区年末牛的总头数估计为：

ˆ=N=N'=1238⨯568.25⨯602=744839.1(头） Y RDRD

568.5833

ˆ的方差估计为：根据式（7.15），YRD

ˆ)=v(N)=N2v()≈N2[1s2+(1-1)(Rˆ2s2-2Rs)] v(YRDRDRDyxyx

nnn'278836.8911

≈12382⨯[+(-)(0.99942⨯256154.86

2424500

-2⨯0.9994⨯256262.02)] =2220650080

)=47123.7740。 ˆ的标准差为v(Y 所以YRDRD

4、解：（1）根据式（7.10）及式（7.7）

⎧c1f=S⎪hDhL

22⎪c2h(S-∑WhSh)

⎪h=1

⎨

*CT⎪'

n=L⎪

c1+∑c2hWhfhD⎪

h=1⎩

代入数据计算得： f1D=17.7⨯

=0.1329

100⨯[620-(0.786⨯312+0.214⨯922)]

=0.2282

100⨯[620-(0.786⨯312+0.214⨯922)]

f2D=30.4⨯

n'=

100

=612

0.01+(1⨯0.786⨯0.1329+1⨯0.214⨯0.2282)

n1=f1Dn1=f1Dn'W1=0.1329⨯612⨯0.786=64 '

n2=f2Dn2=f2Dn'W2=0.2282⨯612⨯0.214=30

112LWhSh1

(-1) 此时， V(stD)=(-)S+∑'n'Nnfh=1hD

≈

6200.786⨯312⎛1⎫0.214⨯922⎛1⎫

+[⨯ -1⎪+⨯ -1⎪]612620620⎝0.1329⎭⎝0.2282⎭

≈4.6700

（2）略

5、解：由题意可知

n1=300 n2=200 m=62

~(n+1)(n2+1)

由式（7.21） N=1-1=959.33

m+1

由式（7.22）

(n+1)(n2+1)(n1-m)(n2-m)301⨯201⨯238⨯138~

v(N)=1=≈7822.7

(m+1)2(m+2)632⨯62

6、解：（1）由题意 n1=7 n2=12 m=4

~(n+1)(n2+1)

由式（7.21） N=1-1=19.8

m+1

由式（7.22）

(n+1)(n2+1)(n1-m)(n2-m)8⨯13⨯3⨯8~

v(N)=1==16.64

(m+1)2(m+2)52⨯6

~ 其95%的置信区间为 N±1.96v(N) 即 (8.64,24.64)

（2）由题意 n1=16 n2=19 m=11

17⨯20~(n+1)(n2+1)

由式（7.21） N=1-1=-1=27.33

m+112

由式（7.22）

(n+1)(n2+1)(n1-m)(n2-m)17⨯20⨯5⨯8~

v(N)=1==7.26

(m+1)2(m+2)122⨯13

~ 其95%的置信区间为 N±1.96v(N) 即 (24.63,30.03)

（3）

1、总体是封闭的——两次抽样间没有人进入或离开湖心塘地区。 ○

2、每个样本都是来自总体的简单随机抽样。即湖心塘地区的每一个人 ○

都有同样的机会被找到。

3、两个样本是独立的。即第一次找到的人混合到了湖心塘地区后，跟 ○

第二次被找到的概率没有关系。

4、不会丢失人找到过的人的信息。 ○

7、（1）略

~(n+1)(n2+1) （2）由题意由式（7.21） N=1-1

m+1

由表中数据n11=45 n21=15 m1=2代入公式得

N1=244.33

同理有

~~~~~~

N2=95 N3=48 N4=79.5 N5=44.5 N6=114 N7=41.67

~~~~~~

N8=30.5 N9=62.33 N10=159 N11=31.5N12=4 N13=35 ~~~

N14=3 N15=3 N16=1

（3）累积所有年份的数据，有n1=263 n2=93 m=19

~(263+1)⨯(93+1)

代入公式，有N=-1=1239.8

19+1

（2）中得到的1970-1985年间的先天性风疹的总病例数为N'=∑Ni=996.33

i=1

（4）略

抽样技术_第三版_全部课后答案

相关文章