对分层抽样设计的改进

作者：彭念一陈曜

《统计研究》 2001年03期

　　在社会经济研究中，由于实际条件的限制，往往采用抽样调查的方法获得现象总体的信息，当总体内部差异比较大时，应首先对总体各单位按有关标志加以分层，然后再从各层中按随机原则抽选一定单位构成样本。分层可以大大提高抽样推断的精度，降低工作量和成本，所以实际工作中分层抽样得到了最为广泛的应用。

　　样本分配是分层抽样研究的一个重要方面。影响样本分配的因素主要有：各层方差、各层样本单位数、调查成本等，其中调查成本是与实际工作有密切影响的因素。当存在多个项目同时进行调查时，必须考虑综合成本最小化问题。本文即从理论上考查多项目场合中调查成本与调查精度之间的函数关系，为实际工作中的多目标决策提供思路。

　　一、单目标条件下调查成本与抽样误差之间的函数关系

　　设：全及总体分为k层；

　　全及总体单位数为N，各层单位数为N[,i],(i=1,2,…,k)；

　　各层的层权为W[,i]=N[,i]/N,(i=1,2,…,k)；

　　总样本容量为n，从每个层内抽取的样本数记为n[,i],(i=1,2,…,k)；

　　从各层中抽取一样本单位的成本C[,i],(i=1,2,…,k)；

　　各层内方差为V[,i]，标准差为σ[,i],(i=1,2,…,k)；

　　调查的总成本C=C(C[,0];C[,1];C[,2],…,C[,k];n[,1],n[,2],…,n[,k])，即：C′代表可变成本，即：

　　其中C[,0]代表固定成本，它是指随被调查单位增多而增加的成本部分。

　　按分层抽样规则，抽样平均误差是各层样本数目n[,i]的函数V=V(n[,1],n[,2],…,n[,k])，

　　按最优分配法，当各层所分得样本容量为n[,1],n[,2],…,n[,k]时，对于给定的调查总费用C，令总的抽样平均误差达最小值V[*]，求得：各层单位数最优分配如下（奈曼分配）[1]：

　　注意一旦调查总体确定，W[,i]、V[,i]、C[,i]都是常数，同时C、C[,0]也是定值，所以n[*,1]、n[*,2]，…，n[*,k]和V[*]都是唯一的，即最优解是唯一的。

　　但是，调查经费是如何确定的呢？仅按照以上结论，有没有可能确定这笔调查经费的边际效率是多少？即在此基础上每追加单位经费，可以带来的误差降低量是多少？如果不能，那么经费确定只能依据经验，缺乏科学决策基础。故而笔者认为，成本确定也应是抽样设计的一部分。

　　假如调查的总费用C不是确定的，而是可变的，由式(1)可知，n[*,i]是关于C的函数，n[*,i]=f[,i](C)；而最小抽样平均误差V[*]又是最优分配n[*,i]的函数，即：

　　V[*]=g(n[*,1],n[*,2],…,n[*,k])

　　=g[f[,1](C),f[,2](C),……,f[,k](C)]=h(C)

　　可见给定不同的调查总成本，有不同的抽样最小平均误差。

　　如上式，一旦调查总体确定，W[,i]、V[,i]、C[,i]都是常数，C[,0]也是定值，故而分子是常数T，抽样最小平均误差V[*]与调查的可变成本C′之间成简单的反比关系。其导函数：

　　表示抽样最小平均误差V[*]与调查可变成本C′的边际替代率。调查费用确定的依据在于边际效率递减规律，成本的追加带来的抽样精度提高是递减的。

　　二、多目标条件下成本与误差之间的函数关系

　　对单目标决策而言，上文讨论的成本与误差之间的替代率可以作为决策的一种参考。但现实工作中往往遇到的情况是：总额有限的调查经费用于多个项目的调查。这时，式(2)为经费和样本容量在各项目间合理分配提供了依据。以下分两种情况讨论：

　　1.不同抽样调查项目的抽样总体不一致，同样的总调查经费应如何统筹安排，才能使总的抽样调查误差最低。例如，组织一次农村抽样调查，分平原、丘陵、山区三个层次，要求调查的内容有：粮食亩产量、农户年纯收入、乡镇企业增加值。则须把田块、农户、企业三个抽样总体分别分层，用统一调拨的总经费C开展这三项调查。

　　设共有s个调查项目，用P[,t]代表该项方差对总方差的权重，该权数根据各项调查的等级、期限及其它要求来制定，V[,t]代表各个调查项目的最小可能误差(t=1,2,…,s)，按照式(2)，V[,t]是分配给该项目的经费C[,t]（可变成本）的函数，V[,t]=j(C[,t])，各项目总的方差V则是各项调查误差的综合值，由于各项方差不可直接比较，总的方差V实际上是各项目变异系数的加权和，最后转化为各项目可变成本的函数，V=h(C[,2],C[,2],…,C[,s])。欲使V最小，必须考虑的约束条件有两类：

　　(1)各项成本之和等于总成本，称成本约束；

　　(2)在满足总的方差最小时同时，要保证每个单项调查的方差V[,t]是可接受的，即小于可接受方差上限Vat，称单项误差约束，若首先只考虑成本约束，可引入条件极值：

　　引入拉格朗日方法，设

　　然后逐一检查各单项方差是否在可接受域内，作出降低精度要求或追加调查经费的决策。

　　如果同时考虑两项约束，则可以引入非线性规划：

　　其中单项误差约束的不等式右端数值是从左端推导出来的，没有采用C′，目的是为了尽可能收缩可行解域的范围。这类非线性规划没有解析解形式，但有较成熟的算法，如使用K-T条件[2]或栅格法[3]并运用计算机求解。如果有最优解，表明使用给定的成本C可以得到符合误差范围的经费分配方案(C[,1],C[,2],…,C[,s])，然后再按式(1)便可以得到每个项目的最优样本分配方案(n[*,1],n[*,2],…,n[*,k])，此时可以考虑采用该方案或适当减少经费。若无解，则必须追加经费或降低要求精度。

　　2.不同抽样调查项目的抽样总体一致，但样本分配只能有一种，也就是说对同一总体的同一分层，不同的项目具有不同的层内方差结构，如何综合协调呢？对于不同层内方差，用V[,ti]表示第i层对于第t个调查项目所具有的层内方差。而每一组层内方差，都对应于一个最优样本分配方案，故而三个项目有三个方案，需要统筹规划。例如：调查平原、丘陵、山区各层次一定的样本田块，调查目的是了解平均亩产、平均每亩化肥投入和平均每亩农药投入等。

　　对于平均亩产，存在层内方差：V[,11]V[,12]V[,13]；

　　对于平均化肥投入，存在层内方差：V[,21]V[,22]V[,23]；

　　对于平均农药投入，存在层内方差：V[,31]V[,32]V[,33]。

　　故可以把表示为n[,1],n[,2],…,n[,k]的函数，其中T[,i]为常数。

　　为了使 (n[,i])最小，必须考虑的两类约束条件同样是：(1)各项成本之和等于总成本，称成本约束；(2)该样本分配方案应保证每个单项调查的方差V[,t]是可接受的，即小于可接受方差上限V[,at]，称单项误差约束。

　　如果首先只考虑第一项成本约束，则可以引入条件极值：

　　采用拉格朗日方法，设辅助函数：

　　如果同时考虑两项约束，则可以引入非线性规划：

　　该规划的解法与意义同前一规划近似，这里不再赘述。

　　三、实例分析

　　现有经费1万元用于两个项目的调查，已知资料如下，根据要求进行类型抽样设计：

　　两个项目的误差对总抽样平均误差的权重分别为4和6，按照式(2)有：

　　对于项目一，最小抽样平均误差与调查成本之间的函数关系为：

　　同理，对于项目二，有：

　　综合考虑两项目时有：

　　得到规划：

　　1.57 0.57

　　V[,min]=─────+───────

　　 C[,1] C[,2]

　　引入K-T条件，有：

　　L=1.57/C[,1]+0.57/C[,2]+t(C[,1]+C[,2]-1)

　　+λ[,1](C[,1]-0.4)+λ[,2](0.7-C[,2])

　　+γ[,1](C[,1]-0.3)+γ[,2](0.6-C[,2])

　　判断可行解：

　　(1) C[,1]=0.4,C[,2]=0.6,λ[,2]=γ[,1]=0；

　　找到一组解

　　(2)C[,1]=0.7,C[,2]=0.3,λ[,1]=γ[,2]=0；同理有：γ[,1]=0,t=6.3,λ[,2]=3.1,V[,min]2=4.143；

　　(3)0.4

　　在三个可行解中，最优解是V[*]=min｛V[,min]1,V[,min]2,V[,min]3｝=V[,min]3，所以最优成本分配为：C[,1]=6241元，C[,2]=3759元；

　　引入式(2)，各项目的抽样平均误差为：V[,1]=29.2（公斤），V[,2]=351（元）；

　　引入式(1)，各项目的最优样本分配为：(62,24,12)和(62,21,4)。

作者：彭念一陈曜

《统计研究》 2001年03期

　　一、单目标条件下调查成本与抽样误差之间的函数关系

　　设：全及总体分为k层；

　　全及总体单位数为N，各层单位数为N[,i],(i=1,2,…,k)；

　　各层的层权为W[,i]=N[,i]/N,(i=1,2,…,k)；

　　总样本容量为n，从每个层内抽取的样本数记为n[,i],(i=1,2,…,k)；

　　从各层中抽取一样本单位的成本C[,i],(i=1,2,…,k)；

　　各层内方差为V[,i]，标准差为σ[,i],(i=1,2,…,k)；

　　调查的总成本C=C(C[,0];C[,1];C[,2],…,C[,k];n[,1],n[,2],…,n[,k])，即：C′代表可变成本，即：

　　其中C[,0]代表固定成本，它是指随被调查单位增多而增加的成本部分。

　　按分层抽样规则，抽样平均误差是各层样本数目n[,i]的函数V=V(n[,1],n[,2],…,n[,k])，

　　注意一旦调查总体确定，W[,i]、V[,i]、C[,i]都是常数，同时C、C[,0]也是定值，所以n[*,1]、n[*,2]，…，n[*,k]和V[*]都是唯一的，即最优解是唯一的。

　　假如调查的总费用C不是确定的，而是可变的，由式(1)可知，n[*,i]是关于C的函数，n[*,i]=f[,i](C)；而最小抽样平均误差V[*]又是最优分配n[*,i]的函数，即：

　　V[*]=g(n[*,1],n[*,2],…,n[*,k])

　　=g[f[,1](C),f[,2](C),……,f[,k](C)]=h(C)

　　可见给定不同的调查总成本，有不同的抽样最小平均误差。

　　表示抽样最小平均误差V[*]与调查可变成本C′的边际替代率。调查费用确定的依据在于边际效率递减规律，成本的追加带来的抽样精度提高是递减的。

　　二、多目标条件下成本与误差之间的函数关系

　　(1)各项成本之和等于总成本，称成本约束；

　　引入拉格朗日方法，设

　　然后逐一检查各单项方差是否在可接受域内，作出降低精度要求或追加调查经费的决策。

　　如果同时考虑两项约束，则可以引入非线性规划：

　　对于平均亩产，存在层内方差：V[,11]V[,12]V[,13]；

　　对于平均化肥投入，存在层内方差：V[,21]V[,22]V[,23]；

　　对于平均农药投入，存在层内方差：V[,31]V[,32]V[,33]。

　　故可以把表示为n[,1],n[,2],…,n[,k]的函数，其中T[,i]为常数。

　　如果首先只考虑第一项成本约束，则可以引入条件极值：

　　采用拉格朗日方法，设辅助函数：

　　如果同时考虑两项约束，则可以引入非线性规划：

　　该规划的解法与意义同前一规划近似，这里不再赘述。

　　三、实例分析

　　现有经费1万元用于两个项目的调查，已知资料如下，根据要求进行类型抽样设计：

　　两个项目的误差对总抽样平均误差的权重分别为4和6，按照式(2)有：

　　对于项目一，最小抽样平均误差与调查成本之间的函数关系为：

　　同理，对于项目二，有：

　　综合考虑两项目时有：

　　得到规划：

　　1.57 0.57

　　V[,min]=─────+───────

　　 C[,1] C[,2]

　　引入K-T条件，有：

　　L=1.57/C[,1]+0.57/C[,2]+t(C[,1]+C[,2]-1)

　　+λ[,1](C[,1]-0.4)+λ[,2](0.7-C[,2])

　　+γ[,1](C[,1]-0.3)+γ[,2](0.6-C[,2])

　　判断可行解：

　　(1) C[,1]=0.4,C[,2]=0.6,λ[,2]=γ[,1]=0；

　　找到一组解

　　(2)C[,1]=0.7,C[,2]=0.3,λ[,1]=γ[,2]=0；同理有：γ[,1]=0,t=6.3,λ[,2]=3.1,V[,min]2=4.143；

　　(3)0.4

　　在三个可行解中，最优解是V[*]=min｛V[,min]1,V[,min]2,V[,min]3｝=V[,min]3，所以最优成本分配为：C[,1]=6241元，C[,2]=3759元；

　　引入式(2)，各项目的抽样平均误差为：V[,1]=29.2（公斤），V[,2]=351（元）；

　　引入式(1)，各项目的最优样本分配为：(62,24,12)和(62,21,4)。

对分层抽样设计的改进

相关文章