配额抽样法的重新设计与配额计算模型
2003-12-05 13:47:30
一、配额抽样法及其实施中存在的主要问题
配额抽样又称定额抽样,通常被认为是一种与分层抽样法相对的非随机抽样方法。分层抽样因为仅仅按照总体单位的某一特征分层而造成其先天的缺陷,即只适合简单的抽样调查,适用面窄。在实际抽样调查工作中,通常是按几种控制特征将总体分层,并将几个控制特征交叉起来确定样本,这样所选样本才有代表性,达到抽样调查的目的。例如,某市商业部门要组织一次零售商店的效益状况调查,单纯按行业划分、按所有制划分或者按商店规模划分来抽取样本,恐怕都不妥当。所以,根据调查目的要求,考虑总体各单位的差异情况、所有制性质和商店规模三个控制特征确定样本才比较妥当。总之,运用配额抽样法抽取样本因为不至于偏重某个单一特征而忽视其他重要特征,符合调查目的要求,从而使配额抽样法在市场调查和广告调查中得以广泛应用。
但是,配额抽样法在规定了样本配额后是由调查人员主观抽取调查单位,因而被认为缺乏理论根据,不能由样本调查结果推断总体特征,从而使配额抽样调查结果的客观性大打折扣。
如果说上述问题是配额抽样法存在的先天缺陷,那么配额抽样法在实际运用中也存在着一些不容忽视的问题。首先,在配额抽样法应用过程中,有人(包括某些教科书)是用独立控制表进行配额抽样,将配额抽样这种非随机抽样方法改变为与抽样调查初衷相背离的完全随意的抽样方法。例如,在某市零售商店效益状况的抽样调查中,列有按行业、所有制和规模划分的三个独立控制表,抽样时即按三个控制特征分别抽取样本,最终所选样本并不能真正反映调查总体多重特性,使抽样调查结果缺乏可信性。
其次,在某些教科书使用的交叉控制配额抽样案例中,样本总数都规定得很小,如20或30个。少量的样本分配可以勉强通过心算应付,但是规模稍大一些的样本应如何计算、如何分配,通常没有答案。这里不仅隐含着配额计算技术方面的漏洞,更重要的是这区区20或30个样本是否足以代表总体?进一步问题是,调查设计人员又是如何断定这20或30个样本就是必要的最低限度的样本数目呢?
下面,我们通过计算概率大小来检验一下曾在几本教科书中出现这样一个例子,看看其存在的主要问题。这个例子是对消费者进行调查,采用配额抽样方法确定样本,设有性别、收入、年龄三个控制特征。按性别分,男性45%,女性55%;按收入分,高收入层、中收入层和低收入层所占比例分别为10%、20%和70%;按年龄分,青年、壮年、中年和老年人所占比例分别为20%、30%、35%和15%。这个例子共抽取20样本,样本数额分配如下:
表1:年龄、性别、收入的交叉控制表
这个表格是通过心算、经过反复平衡后完成的。从表面上看,无论是性别、年龄还是收入层次,三个控制特性似乎都很好兼顾到了。但是,在样本数额分配上却存在着很大的偏差,与概率大小相背离的很大偏差。例如,按收入层次分,高收入层有两个样本,应优先分给概率大和较大的壮年女性和中年女性各1个样本,但是该例中却将一个样本分给了概率值极低的青年男性。又如,按性别分,男性样本9人,样本配额应根据概率大小按顺序分配,分配顺序依次是:低收入壮年、低收入中年、低收入青年、低收入老年、中收入壮年、中收入中年、中收入青年、中收入老年、高收入壮年、高收入中年、高收入青年和高收入老年。但是在该例中,中收入壮年、中收入青年和中收入老年等概率值较大者均未分得样本,而该概率值非常小的高收入青年却分得样本。总之,该例中样本数额分配没有按照概率大小来进行,因而会严重影响样本代表性,进而影响抽样调查的结果。
在该例中,另一个明显问题是样本总额的规定。如何研判20个样本就是必要的最低限度的样本数目?根据是什么?正如我们在“交叉控制表”中看到的那样,体现交叉控制特征的许多格是空的,没有一个样本,这说明许多控制特性形同虚设;同时也说明20个样本不足以代表总体。那么,多少个样本才能较好地代表总体,同时又使调查可行呢?以往的教科书都没有对此提供答案。
鉴于配额抽样法的重要性和实施中存在的诸多问题,本文将对配额抽样法进行重新设计并探讨样本配额的计算模型。
二、配额抽样发设计的新思路
首先应该澄清的一个问题是,独立控制配额抽样并不构成一种独立的抽样方法,建立独立控制表仅仅是配额抽样方法中一个必要的步骤。因此,探讨配额抽样设计的新思路并非针对独立控制配额抽样,而是对整个配额抽样方法而言。
(一)科学计算样本额度
交叉控制配额抽样,不论是按三个特征还是四个特征甚至更多的特征设立,均可以运用运筹学方法统筹兼顾所有控制特征,使选定的样本可以更好代表总体。
(二)考虑代表性,首先确定样本分配比例,最后推算样本总数。
从省钱、省时角度考虑,应当将样本数目控制在必要的最低限度。所谓“必要”,是从考虑样本代表性的角度提出的样本数量下限。必要的最低限度的样本数目到底是多少,这是常常使抽样调查设计者感到困惑的事情。 如果总体中个体单位差异不大,那么小样本就可以代表总体;如果总体中个体单位差异很大、乱度很高,那么只有大量样本才可以代表总体。小到几个或大到多少呢?既然考虑问题的出发点是样本的代表性,那么在建立配额计算模型时就应将这一思想贯彻进去,首先确定样本按控制特征分配的比例而不是具体数额,然后在保证达到样本代表性要求的基础上确定所需必要的最低限度的样本数量,而不是相反。 (三)在样本分配时,体现控制特征的重要性,强化对代表性问题的考虑。
代表性本身是一个相对的概念,因为总体中个体单位间总是存在差异,所以用样本特性推断总体特征总存在着或多或少的误差,这是抽样调查方法本身不可避免的。既然如此,在考虑样本代表性的同时,必须将样本总数尽量降低。在交叉控制配额抽样中,降低样本总数必然以忽视某个控制特征为条件,准确说是无法给予这一控制特征以足够重视。如果没有得到足够重视的某一控制特征相对于其它控制特征而言正好不太重要,即基本不损害样本代表性,而且这种“适当忽视”可以达成降低样本总数的目的,那么这种配额抽样设计无疑又趋于完善了一步。
三、配额计算模型
配额抽样中上述问题的解决和设计新思路的实现都有赖于崭新的配额计算模型的建立。建立配额计算模型应该按如下步骤进行:
首先,选定控制特征。调查目的、主题和总体中各单位差异情况是选定控制特征的主要依据。例如“某市商业部门调查零售商店的效益状况”一例,就选定行业类别、所有制性质和商店规模为三个控制特征。又如某城市
进行商业网点销售状况调查,确定商业网点所处地域、商业网点性质和规模为其控制特征。
其次,确定调查总体中各控制特征的比例,列出独立控制分层比例表。分层比例的确定主要依据现成的人口统计资料来进行。例如,按照第一步骤中的第二个例子建立独立控制分层比例表(三表合一)如下:
第三步,设计交叉控制的配额计算模型。设样本总数为 X,区域分层比例为Ai,规模分层比例为Bj,性质分层比例为Ck,则可以建立配额计算模型如下: Min{ Ai· Bj ·Ck ·X} == 1
从独立控制分层比例表中不难看出,处在城市边缘区、大型、批发企业分别是地域、规模和性质三个控制特征分层比例表中最小的比例,其乘积当然也最小。 将上述各最小比例代入配额计算模型中: 15%×5%×10%×X ==1 则 X ==1333
在样本总数确定后,由三个特性联合控制的各种类型的样本配额也都可以计算出来了,从而完成交叉控制样本配合的计算。
第四步,根据调查时间、费用和方便性要求,修正和调整样本总数与配额。上一步骤的计算结果可能存在着两个问题,一是各类样本的配额并不总是整数,但是所抽取样本只能以一个完整的企业为单位,而不可能是1.33或2.44个企业,所以在计算结束后要对类样本的非整数值进行调整和处理。处理原则不是简单的四舍五入,而应考虑各控制特征的重要性、样本代表性以及调查可能性等因素。
另一个问题是,根据配额计算模型计算出来的样本总数可能太大。例如上例中该城市各类商业网点共计2000个,我们根据计算模型确定的样本总数为1333个,这个样本数量就显得比较大了。配额计算模型是确定必要的最低限度的样本数量的一个理论模型,该模型假定必要的最低限度的样本数量是以交叉控制表中没有空格并且最小配额是1为前提。因为这个计算模型追求样本完整的代表性,所以计算所得样本总数有时必然较大。当样本总数大到没有足够时间和金钱去开展这项调查时,样本设计者必须根据时间和金钱的可能按一定步骤将样本总数和配额缩小,直到满足调查需要为止。以上例而言,1333的样本可能太大,那么退一步,在代表性方面做出一点牺牲,放弃从处于城市边缘区的大型批发企业中选取一个样本的考虑,找出三个特征分层比例乘积次小的一类样本,重新计算样本总数。三个控制特征分层比例乘积次小的一类样本是处于城市中心区和中间区的大型批发企业,将其比例代入公式,得到: 42.5%×5%×10%×X == 1 则 X == 470
如果这个样本总数仍然嫌大,设计者可以按照上述原则找出三个特征分成比例乘积第三小的一类样本重新计算样本数量。
第五,按照修正后的样本总数和交叉控制配额抽取样本,实施调查。
鉴于篇幅所限和希望本文中心突出的愿望,对使用配额计算模型检验和评估以往配额抽样案例的内容暂不讨论。
配额抽样法的重新设计与配额计算模型
2003-12-05 13:47:30
一、配额抽样法及其实施中存在的主要问题
配额抽样又称定额抽样,通常被认为是一种与分层抽样法相对的非随机抽样方法。分层抽样因为仅仅按照总体单位的某一特征分层而造成其先天的缺陷,即只适合简单的抽样调查,适用面窄。在实际抽样调查工作中,通常是按几种控制特征将总体分层,并将几个控制特征交叉起来确定样本,这样所选样本才有代表性,达到抽样调查的目的。例如,某市商业部门要组织一次零售商店的效益状况调查,单纯按行业划分、按所有制划分或者按商店规模划分来抽取样本,恐怕都不妥当。所以,根据调查目的要求,考虑总体各单位的差异情况、所有制性质和商店规模三个控制特征确定样本才比较妥当。总之,运用配额抽样法抽取样本因为不至于偏重某个单一特征而忽视其他重要特征,符合调查目的要求,从而使配额抽样法在市场调查和广告调查中得以广泛应用。
但是,配额抽样法在规定了样本配额后是由调查人员主观抽取调查单位,因而被认为缺乏理论根据,不能由样本调查结果推断总体特征,从而使配额抽样调查结果的客观性大打折扣。
如果说上述问题是配额抽样法存在的先天缺陷,那么配额抽样法在实际运用中也存在着一些不容忽视的问题。首先,在配额抽样法应用过程中,有人(包括某些教科书)是用独立控制表进行配额抽样,将配额抽样这种非随机抽样方法改变为与抽样调查初衷相背离的完全随意的抽样方法。例如,在某市零售商店效益状况的抽样调查中,列有按行业、所有制和规模划分的三个独立控制表,抽样时即按三个控制特征分别抽取样本,最终所选样本并不能真正反映调查总体多重特性,使抽样调查结果缺乏可信性。
其次,在某些教科书使用的交叉控制配额抽样案例中,样本总数都规定得很小,如20或30个。少量的样本分配可以勉强通过心算应付,但是规模稍大一些的样本应如何计算、如何分配,通常没有答案。这里不仅隐含着配额计算技术方面的漏洞,更重要的是这区区20或30个样本是否足以代表总体?进一步问题是,调查设计人员又是如何断定这20或30个样本就是必要的最低限度的样本数目呢?
下面,我们通过计算概率大小来检验一下曾在几本教科书中出现这样一个例子,看看其存在的主要问题。这个例子是对消费者进行调查,采用配额抽样方法确定样本,设有性别、收入、年龄三个控制特征。按性别分,男性45%,女性55%;按收入分,高收入层、中收入层和低收入层所占比例分别为10%、20%和70%;按年龄分,青年、壮年、中年和老年人所占比例分别为20%、30%、35%和15%。这个例子共抽取20样本,样本数额分配如下:
表1:年龄、性别、收入的交叉控制表
这个表格是通过心算、经过反复平衡后完成的。从表面上看,无论是性别、年龄还是收入层次,三个控制特性似乎都很好兼顾到了。但是,在样本数额分配上却存在着很大的偏差,与概率大小相背离的很大偏差。例如,按收入层次分,高收入层有两个样本,应优先分给概率大和较大的壮年女性和中年女性各1个样本,但是该例中却将一个样本分给了概率值极低的青年男性。又如,按性别分,男性样本9人,样本配额应根据概率大小按顺序分配,分配顺序依次是:低收入壮年、低收入中年、低收入青年、低收入老年、中收入壮年、中收入中年、中收入青年、中收入老年、高收入壮年、高收入中年、高收入青年和高收入老年。但是在该例中,中收入壮年、中收入青年和中收入老年等概率值较大者均未分得样本,而该概率值非常小的高收入青年却分得样本。总之,该例中样本数额分配没有按照概率大小来进行,因而会严重影响样本代表性,进而影响抽样调查的结果。
在该例中,另一个明显问题是样本总额的规定。如何研判20个样本就是必要的最低限度的样本数目?根据是什么?正如我们在“交叉控制表”中看到的那样,体现交叉控制特征的许多格是空的,没有一个样本,这说明许多控制特性形同虚设;同时也说明20个样本不足以代表总体。那么,多少个样本才能较好地代表总体,同时又使调查可行呢?以往的教科书都没有对此提供答案。
鉴于配额抽样法的重要性和实施中存在的诸多问题,本文将对配额抽样法进行重新设计并探讨样本配额的计算模型。
二、配额抽样发设计的新思路
首先应该澄清的一个问题是,独立控制配额抽样并不构成一种独立的抽样方法,建立独立控制表仅仅是配额抽样方法中一个必要的步骤。因此,探讨配额抽样设计的新思路并非针对独立控制配额抽样,而是对整个配额抽样方法而言。
(一)科学计算样本额度
交叉控制配额抽样,不论是按三个特征还是四个特征甚至更多的特征设立,均可以运用运筹学方法统筹兼顾所有控制特征,使选定的样本可以更好代表总体。
(二)考虑代表性,首先确定样本分配比例,最后推算样本总数。
从省钱、省时角度考虑,应当将样本数目控制在必要的最低限度。所谓“必要”,是从考虑样本代表性的角度提出的样本数量下限。必要的最低限度的样本数目到底是多少,这是常常使抽样调查设计者感到困惑的事情。 如果总体中个体单位差异不大,那么小样本就可以代表总体;如果总体中个体单位差异很大、乱度很高,那么只有大量样本才可以代表总体。小到几个或大到多少呢?既然考虑问题的出发点是样本的代表性,那么在建立配额计算模型时就应将这一思想贯彻进去,首先确定样本按控制特征分配的比例而不是具体数额,然后在保证达到样本代表性要求的基础上确定所需必要的最低限度的样本数量,而不是相反。 (三)在样本分配时,体现控制特征的重要性,强化对代表性问题的考虑。
代表性本身是一个相对的概念,因为总体中个体单位间总是存在差异,所以用样本特性推断总体特征总存在着或多或少的误差,这是抽样调查方法本身不可避免的。既然如此,在考虑样本代表性的同时,必须将样本总数尽量降低。在交叉控制配额抽样中,降低样本总数必然以忽视某个控制特征为条件,准确说是无法给予这一控制特征以足够重视。如果没有得到足够重视的某一控制特征相对于其它控制特征而言正好不太重要,即基本不损害样本代表性,而且这种“适当忽视”可以达成降低样本总数的目的,那么这种配额抽样设计无疑又趋于完善了一步。
三、配额计算模型
配额抽样中上述问题的解决和设计新思路的实现都有赖于崭新的配额计算模型的建立。建立配额计算模型应该按如下步骤进行:
首先,选定控制特征。调查目的、主题和总体中各单位差异情况是选定控制特征的主要依据。例如“某市商业部门调查零售商店的效益状况”一例,就选定行业类别、所有制性质和商店规模为三个控制特征。又如某城市
进行商业网点销售状况调查,确定商业网点所处地域、商业网点性质和规模为其控制特征。
其次,确定调查总体中各控制特征的比例,列出独立控制分层比例表。分层比例的确定主要依据现成的人口统计资料来进行。例如,按照第一步骤中的第二个例子建立独立控制分层比例表(三表合一)如下:
第三步,设计交叉控制的配额计算模型。设样本总数为 X,区域分层比例为Ai,规模分层比例为Bj,性质分层比例为Ck,则可以建立配额计算模型如下: Min{ Ai· Bj ·Ck ·X} == 1
从独立控制分层比例表中不难看出,处在城市边缘区、大型、批发企业分别是地域、规模和性质三个控制特征分层比例表中最小的比例,其乘积当然也最小。 将上述各最小比例代入配额计算模型中: 15%×5%×10%×X ==1 则 X ==1333
在样本总数确定后,由三个特性联合控制的各种类型的样本配额也都可以计算出来了,从而完成交叉控制样本配合的计算。
第四步,根据调查时间、费用和方便性要求,修正和调整样本总数与配额。上一步骤的计算结果可能存在着两个问题,一是各类样本的配额并不总是整数,但是所抽取样本只能以一个完整的企业为单位,而不可能是1.33或2.44个企业,所以在计算结束后要对类样本的非整数值进行调整和处理。处理原则不是简单的四舍五入,而应考虑各控制特征的重要性、样本代表性以及调查可能性等因素。
另一个问题是,根据配额计算模型计算出来的样本总数可能太大。例如上例中该城市各类商业网点共计2000个,我们根据计算模型确定的样本总数为1333个,这个样本数量就显得比较大了。配额计算模型是确定必要的最低限度的样本数量的一个理论模型,该模型假定必要的最低限度的样本数量是以交叉控制表中没有空格并且最小配额是1为前提。因为这个计算模型追求样本完整的代表性,所以计算所得样本总数有时必然较大。当样本总数大到没有足够时间和金钱去开展这项调查时,样本设计者必须根据时间和金钱的可能按一定步骤将样本总数和配额缩小,直到满足调查需要为止。以上例而言,1333的样本可能太大,那么退一步,在代表性方面做出一点牺牲,放弃从处于城市边缘区的大型批发企业中选取一个样本的考虑,找出三个特征分层比例乘积次小的一类样本,重新计算样本总数。三个控制特征分层比例乘积次小的一类样本是处于城市中心区和中间区的大型批发企业,将其比例代入公式,得到: 42.5%×5%×10%×X == 1 则 X == 470
如果这个样本总数仍然嫌大,设计者可以按照上述原则找出三个特征分成比例乘积第三小的一类样本重新计算样本数量。
第五,按照修正后的样本总数和交叉控制配额抽取样本,实施调查。
鉴于篇幅所限和希望本文中心突出的愿望,对使用配额计算模型检验和评估以往配额抽样案例的内容暂不讨论。