第二章 统计资料的搜集与整理
1、统计数据收集
所谓统计数据收集,就是按照统计研究的目的和任务,运用各种科学有效的方式和方法,有针对地收集反映客观现实的统计数据的活动过程。统计数据收集是整个统计活动的基础阶段,通常也称为统计调查阶段。
准确性、及时性和完整性是统计数据收集的基本要求,其中准确性是统计数据收集的核心,及时性是统计数据信息价值的体现,完整性则是统计指标计算和统计分析的需要。
2、统计数据收集方式
统计数据收集方式,是指获取统计数据的组织形式。根据统计数据的来源不同,其收集方式有两种:统计调查方式和实验方式。
2.1 统计调查方式
所谓统计调查方式,就是运用合适的统计调查手段去收集统计调查对象总体的全部或部分个体的原始数据,也即通过对调查对象总体的全部或部分个体的有关标志特征进行调查或观测的方式来获取统计数据。常用的统计调查方式有普查、抽样调查、重点调查等几种,其中抽样调查最为常用。有时,我们还需要进行间接的统计调查,称之为统计推算。
2.1.1 普查
普查是根据特定的统计研究目的而专门组织的一次性的全面调查,用以收集所研究现象总体的全面资料(即总体中的所有个体都是观测单位)。一般而言,普查所要收集的资料大多属于处于一定时点上的社会经济现象的总量及分类数,如全国人口总数及分类数等。但有时,普查也可用来反映一定时期的现象的总量,如某年的出生人口总数及性别分类数等。
2.1.2 抽样调查
抽样调查是一种非全面调查,就是从总体中抽取样本,以样本推断总体。根据抽取样本的方式不同,抽样调查可分为概率抽样和非概率抽样两类。
概率抽样从抽样组织形式上看,可分为简单随机抽样,分层抽样,等距抽样,整群抽样和多阶段抽样五种。简单随机抽样也称纯随机抽样或完全随机抽样,是指未对总体中的个体进行事先分组或组合,直接从总体中完全随机地抽取样本的一种抽样组织形式,是抽样调查最基本的组织形式,具体的样本抽取方式有抽签法和随机数表法等。分层抽样也称类型抽样,是指先将总体的N 个个体按某一标志分为若干层,然后每层分别抽取部分个体作为层内样本,构成总容量为n 的样本,最后以样本的观测结果去估计或推断各层及总体数量特征的一种抽样组织形式。分层抽样的特点是必须具备总体所有个体的名录和至少一个分层标志的全面资料,各层的抽样相互独立,样本对总体的代表性取决于层内差异而与层间差异无关,要尽量把总体差异通过分层而转化为层间差异等。分层抽样适合于差异大的总体。等距抽样也称系统抽样或机械抽样,是指先将总体的N 个个体按某种标志排队并等分成n 段,每段k 个个体,在第一段的k 个个体中随机抽取一个个体后,再每隔k 个个体抽取下一个个体,共n 个个体构成样本的一种抽样组织形式。在将N 个
个体排队时,可以头尾相连,形成一个圆圈。用以排队的标志可以与调查标志有关,也可以与调查标志无关。等距抽样的具体方式又有一般等距抽样、中点等距抽样(即每段都取中间一个个体来构成样本)和对称等距抽样(即排队标志值高的和低的个体在样本中对称出现)之分。等距抽样的特点:依固定的间隔和规定的顺序来抽取个体,属于不重复抽样,有时连对个体进行编号和排队的步骤都可以省却(例如按门牌号每隔20 户抽取一户居民家庭进行收支调查)。整群抽样也称集团抽样,是指当总体的所有个体形成若干群后,从中随机抽取部分群并对抽中群进行全面观测的一种抽样组织形式。整群抽样的特点是群的形成可以自然也可以是人为,可以大小相同也可以大小有别,要尽量把总体差异转化为群内差异等。整群抽样一般属于不重复抽样。多阶段抽样也称多级抽样,它是以整群抽样为基础,先从总体的所有大群中抽取若干大群,抽中的大群中再抽取若干小群,抽中的小群中再抽取若干更小的群,如此下去,最后才抽取所要观测个体的一种抽样组织形式。最简单的多阶段抽样是两阶段抽样,即总体抽群,群抽个体。多阶段抽样的特点是整群抽样和分层抽样两种组织形式的综合(如两阶段抽样,前一阶段为整群抽样,后一阶段则相当于分层抽样)。
样调查具有经济节省、时效性强、准确度高、灵活方便等优点,使之在各个领域得到广泛的应用。一是用于认识那些不能或难以进行全面调查的总体的数量特征,如无限总体、范围过大的有限总体等,以及具有破坏性的产品质量检测等;二是用于认识那些发展变化比较稳定和有规律性而不必进行全面调查的现象总体的数量特征,如人的身高、男女性别比、食盐的消费量等;三是用于收集灵敏度高、时效性强或时间要求紧迫的统计数据,如市场需求信息、生产过程中的产品质量状况、易变化现象的波动情况(物价等)等;四是用于与其他数据收集方式相结合,相互补充和核对(例如与普查相结合,既可以取得普查未能取得的数据,还可以对普查的质量进行抽查验证;与重点调查相结合,可以形成目录抽样,更全面认识总体数量特征);五是用于对总体特征的某种假设进行检验,判断这种假设的真伪,决定方案的取舍,为行动决策提供依据。社会经济领域中常见的抽样调查有人口抽样调场抽样调查,社会问题抽、样调查和民意抽样调查等。
2.1.3. 重点调查
重点调查也是一种非全面调查,是对数据收集对象总体中的部分重点个体进行观测的统计调查方式。所谓重点个体,是就调查标志而言,那些在总体标志总量中占有绝大比重的少数个体。这些重点个体,虽然只是总体全部个体中的一小部分,但就调查标志而言却有举足轻重的作用。通过对重点个体的调查,能够从数量上反映总体的基本情况,抓住重点。例如,我国的钢铁企业有数百家,但钢铁产量的高低差别却很大,其中首都钢铁厂、宝山钢铁厂、鞍山钢铁厂、太原钢铁厂、武汉钢铁厂、包头钢铁厂、攀枝花钢铁厂等大型钢铁企业,虽然在企业数上只是少数,但在全国钢铁总产量中所占的比重却是绝大的,只要对这些重点企业进行观测,就可以八九不离十地了解全国钢铁生产的基本情况。又如,要了解棉花、木材等的生产情况,也只要对主产区进行观测就可以掌握大致的数量情况。
2.1.4 .统计推算
统计推算是以已掌握的各种统计数据为基础,根据事物之间的内在联系或发展规律,对被研究现象数量特征做出估算或测算的一种间接统计调查方式。统计推算具有较强的假定性,推算的过程实际上也是统计
分析的过程。统计推算的方法主要有前提推算法、进度推算法、比例推算法、因素推算法、平衡推算法、插值推算法和回归推算法等。
2.2 实验方式
所谓实验方式,就是运用自然科学的试验法,通过观测人为安排条件下试验产生的各种结果并加以记录的方式来获取数据,或通过人为安排条件下的试验来探求某个或某些因素对所研究事物的数量影响程度和作用方式,凭借实验结果来揭示所考察因素与所研究事物之间的数量因果关系。例如,美国1954 年关于脊髓灰质炎疫苗的随机对照双盲试验,就是一次非常有名的实验,证明了这种疫苗的有效性。
常用的实验设计有以下几种:完全随机试验、随机区组试验、拉丁方试验和正交试验。
3、统计数据整理
所谓统计数据整理,简称统计整理,是指根据统计研究的目的,对统计收集到的数据进行科学的加工处理,使之系统化、条理化和综合化,成为能反映研究对象总体数量特征和满足统计分析需要的统计数据的过程。统计数据整理包括两个方面:一是对原始统计数据的整理,即通过分组(分类)和汇总,使大量的、零散的、反映个体特征的数据,转化为综合的、反映总体特征的数据;二是对次级数据的再整理,即通过新的分组、计算或各种必要的调整,使之满足新的需要。
在整个统计研究过程中,统计数据整理起着承上启下的作用,既是数据收集的继续,又是数据分析的开始,因此要十分强调其科学性、条理性和充分性。所谓科学性,就是数据整理的分组和汇总必须科学合理,注意质的界限,符合客观事实;所谓条理性,就是数据整理的过程要层次分明,条理清楚,逻辑关系严密;所谓充分性,就是运用各种数据整理方法和技术,通过多角度、多方位的加工处理,使整理的结果尽量充分地体现出数据中包含的有用信息,最大程度地满足统计分析的需要。
统计数据整理包括以下几个步骤:整理方案的设计,数据预处理,统计分组和汇总,整理数据的显示和整理数据的保存与公布。
4、统计分组
统计分组就是根据统计研究的目的和事物本身的特点,选择一定的标志(一个或多个),将研究现象总体划分为若干性质不同的组或类的一种统计研究方法。例如,研究人口总体,除了知道人口总数外,我们还经常按照性别、年龄、民族、文化程度、职业等标志进行分组,以便通过不同的人口结构对人口总体有更全面、深入的了解和认识。
统计分组在揭示现象所属类型(例如国民经济行业类型,企业所有制类型),解剖总体内在结构(例如人口结构,产业结构),分析现象之间关系(例如居民收入与消费的关系,施肥量与作物产量的关系)等方面,具有重要的作用。
统计分组具有以下一些重要的性质:首先,统计分组兼有分与合的双重功能,是分与合的对立统一。即对总体而言是“分”,要把总体划分为若干性质不同的部分;对个体而言是“合”,要把性质相同的个体归入同一组中。其次,统计分组必须遵循“穷尽原则”和“互斥原则”,即现象总体中的任何一个个体都必须而且只能归属于某一个组,不能出现遗漏或重复出现的情况。第三,统计分组的目的是要在同质性的
基础上研究总体的内在差异性,即尽量体现出分组标志的组间差异而缩小其组内差异,因此,统计分组无论体现的是空间差异、时间差异、数量差异还是属性差异,归根结底是要客观反映各组之间本质特征的差异。第四,统计分组在体现分组标志的组间差异的同时,却可能掩盖了其他标志的组间差异,因此,任何统计分组的意义都有一定的限定性。如果需要多种角度的分组认识,就应该按多个不同的标志进行分组。第五,统计分组的关键是分组标志的选择和分组界限的确定,如果分组标志选择不当或分组界限不合理,就会混淆事物的性质,难以客观反映现象总体的特征。当然,分组标志的选择是核心问题,因为分组界限的确定取决于分组标志。我们应该根据研究目的,结合具体的历史条件和环境背景,选择最能体现现象本质的标志作为分组的标志。
统计分组按照分组标志的多少不同,可以分为简单分组与复合分组。简单分组是指对总体只按一个标志进行分组,只反映总体某一方面的分布状况和内在结构。例如人口总体只按性别标志,或只按年龄标志。复合分组则是指对总体同时按两个或两个以上的标志进行层叠式的分组,即先按第一个标志进行分组,然后各组再按第二个标志分成小组,各小组再按第三个标志分成更小的组,如此下去,直至完成所有标志的分组。复合分组本身形成复合分组体系,状如树形。复合分组的结果,表明所有分组标志下各界限范围内的个体数或比重。例如某高校教师总体按性别、年龄、职称和学位四个标志的复合分组。
统计分组按分组标志的性质不同,可以分为品质分组和数量分组。品质分组也叫属性分组,是指总体按某一个或某几个品质标志进行分组,并在品质标志变异的范围内,划定各组的性质界限,根据每个个体的标志表现把他们分别归入不同的组中。数量分组也叫变量分组,是指总体按某一个或某几个数量标志进行分组,并在数量标志变异的范围内,划定各组的数量界限,根据每个个体的标志表现(标志值或变量值)把他们分别归入不同的组中。数量分组是反映总体内部数量差异的重要方法之一,并能够通过组间数量差异体现出性质的不同。数量分组的难点是合理确定组间数量界限和分组数,在组距式分组中还要合理确定组距。数量标志分组的结果形成变量数列。
5、分布数列
在统计分组的基础上,将总体中的所有个体按组归类排列,并计算出各组的个体数,就形成为频数分布。分配在各组的个体数,称为频数或次数,各组频数或次数之和称为总频数或总次数,各组频数与总频数之比称为频率。将各组的频数或频率按分组的一定顺序加以排列,就形成为分布数列。分布数列是统计数据整理的重要工具,可以据以表现总体分布的特征。分布数列有两个构成要素:统计分组所形成的各个组和各组的频数或频率。分布数列按分组标志的性质不同可以分为两种:即按品质标志分组的品质分布数列和按数量标志分组的变量分布数列,分别简称为品质数列和变量数列。在统计研究中,变量数列是主要形式,根据各组变量值的确定方法不同,它又分为单项式数列和组距式数列两种。
单项式数列就是以一种变量值表示一个组的变量数列,例如某城市育龄妇女总体按生育子女数分组,其变量值有0、1、2、3、4、5 共6 种,分别列出各生育子女数的妇女人数或比重,就形成单项式数列。单项式数列适合于表现变量值变动范围不大的离散型变量的分布特征。对于某些取整数的连续型变量(例如年龄),如果变量值的种数不多(例如高校学生年龄的变动范围一般不大),也可编制单项式数列。
组距式数列是就以一个变量区间表示一个组的变量数列,变量值处于同一个区间范围的个体属于同一个
组,区间的长度就是组距。组距式数列适合于表现连续型变量和变量值变动范围较大的离散型变量的分布特征,因为当变量数值较多时,如果每一种变量值设为一组,那么组数就会很多,个体过于分散,难以体现总体分布特征,因而需要编制组距式数列。编制组距式数列时,要将所有个体按变量值由小到大排列,根据需要划分为几个区间,确定各区间的最大值和最小值,然后列出各区间所包含的频数(个体数)或频率。编制组距式数列需要处理好以下几个问题:
(1)组距与组数
在组距式数列中,各组变量区间的最大值称为上限,最小值称为下限,上限与下限之差就是组距。所划分的区间数,则称为组数。组距的大小与组数的多少成反比。组距过大过小,或组数过多过少都不能真实反映总体分布特征,因此组距大小与组数多少要以体现组间差异与反映总体分布特征为原则。美国学者斯特杰斯(H.A.Sturges )曾提出一个确定组距与组数的经验公式,即如果总体大致呈正态分布,那么就有:
n = 1+ 3.322lg N
d = R/n
其中n 为组数, N 为总体容量(总频数), R 为总体全距即总体中最大变量值与最小变量值之差。 在组距式数列中,如果各组的组距相等,称为等距数列;如果各组的组距不相等,则称为异距数列。一般地,当变量分布比较均匀时,可采用等距数列,因为等距数列简单明了,便于计算分析,也便于绘制统计图。当变量分布很不均匀,或者变量分布具有某种自身特殊规律时,应该采用异距数列,以便客观反映总体分布特征。例如,生命的一定时段(例如5 年)对于成年人与未成年人、中青年人与老年人是很不一样的,其生理特征有很大差别,因此人口疾病或死亡率的年龄分组就必须采用异距分组,例如1 岁以下可按月分组,1~10 岁按年分组,11~20岁按5 年分组,21~60 岁按10 年分组,60 岁以上按5 年分组。在异距数列中,各组频数或频率不能直接比较。为消除各组组距不同所造成的影响,需要计算频数密度或频率密度。频数密度是频数与组距之比,频率密度是频率与组距之比。各组的频数密度或频率密度可以进行比较。
(2)组限与组中值
在组距式数列中,必须划定各组的数量界限即组限。组限的确定除了要区分事物的性质和体现总体分布特征外,还需要注意以下几点:一是最小组的下限应略低于总体的最小变量值,最大组的上限应略高于总体的最大变量值。二是连续型变量的各组组限必须重叠,以防分组时出现遗漏某些个体的现象。但为了明确变量值正好等于组限的个体的归属问题,我们采用“上限不在内”原则,即各组包含下限变量值的个体而不包含上限变量值的个体。对于离散型变量,习惯上也采用组限重叠的分组方法。三是有时最小组只有上限而没有下限,最大组只有下限而没有上限,这样的组称为开口组。开口组的组距一般按相邻组的组距加以确定,并进而确定相应的下限或上限。当然,如果中间的非开口组的组距呈现某种规律(例如各组组距相等,呈等差变化,呈等比变化),则应该按规律来确定开口组的组距与组限。组中值是代表各组变量值一般水平的数值,是各组上限与下限的简单算术平均数。组距数列在体现各组组间差异、反映总体分布特征和结构的同时,也掩盖了各组内部的差异,所以组中值是在假定各组内均匀分布时的一个近似值。开口组的组中值在按上述原则确定组距、组限后再加以计算。
(3)频率分布
按顺序列出各组的组别及相应的频率,就构成频率分布。频率分布可以比频
数分布更好地体现出总体分布特征。频率分布有两个基本性质:一是各组频率都是一个介于0 与1 之间的分数,即大于0 而小于1;二是各组频率之和等于1。
累计频率分布:在频数分布的基础上,将各组频数依次累计,就形成累计频数分布。各组累计频数与总频数之比,就形成累计频率分布。累计分布有向上累计分布与向下累计分布两种。向上累计分布是将各组的频数或频率由变量值小的组向变量值大的组累计,累计结果分别说明各组上限以下的累计频数或累计频率的分布状况。当累计到最后一组时,其累计频数或累计频率等于总频数或100%。向下累计分布是将各组的频数或频率由变量值大的组向变量值小的组累计,累计结果分别说明各组下限以上的累计频数或累计频率的分布状况。当累计到最后一组时,其累计频数或累计频率等于总频数或100%。
【例2-1】根据表2-3 作累计频率分布,结果如表2-4 所示。
6、统计数据的显示
6.1 统计表
统计表是一种用以表现统计数据的重要形式。经过汇总整理的统计数据,按一定的顺序排列在相应的表格内,就形成为统计表。广义的统计表还包括统计调查表和统计分析表。统计表具有简明扼要、一目了然的特点,可以清楚地显示统计数据,直观地反映统计分布特征和各部分之间的关系,便于进行对比、计算和开展统计分析,便于保存统计数据。
统计表的设计必须目的明确,内容具体,美观简洁,清晰明了,科学实用。
统计表按照主词是否分组,以及分组标志多少,可以分为未分组表、简单分组表和复合分组表三种。
6.2 统计图
统计图是直观、形象、生动地表现统计数据的方式,种类很多,Excel 提供了14 种标准的统计
图形,例如直方图(柱形图)、折线图、散点图、圆饼图、圆环图、雷达图等。此外,有时还使用茎叶图、箱形图等。
第二章 统计资料的搜集与整理
1、统计数据收集
所谓统计数据收集,就是按照统计研究的目的和任务,运用各种科学有效的方式和方法,有针对地收集反映客观现实的统计数据的活动过程。统计数据收集是整个统计活动的基础阶段,通常也称为统计调查阶段。
准确性、及时性和完整性是统计数据收集的基本要求,其中准确性是统计数据收集的核心,及时性是统计数据信息价值的体现,完整性则是统计指标计算和统计分析的需要。
2、统计数据收集方式
统计数据收集方式,是指获取统计数据的组织形式。根据统计数据的来源不同,其收集方式有两种:统计调查方式和实验方式。
2.1 统计调查方式
所谓统计调查方式,就是运用合适的统计调查手段去收集统计调查对象总体的全部或部分个体的原始数据,也即通过对调查对象总体的全部或部分个体的有关标志特征进行调查或观测的方式来获取统计数据。常用的统计调查方式有普查、抽样调查、重点调查等几种,其中抽样调查最为常用。有时,我们还需要进行间接的统计调查,称之为统计推算。
2.1.1 普查
普查是根据特定的统计研究目的而专门组织的一次性的全面调查,用以收集所研究现象总体的全面资料(即总体中的所有个体都是观测单位)。一般而言,普查所要收集的资料大多属于处于一定时点上的社会经济现象的总量及分类数,如全国人口总数及分类数等。但有时,普查也可用来反映一定时期的现象的总量,如某年的出生人口总数及性别分类数等。
2.1.2 抽样调查
抽样调查是一种非全面调查,就是从总体中抽取样本,以样本推断总体。根据抽取样本的方式不同,抽样调查可分为概率抽样和非概率抽样两类。
概率抽样从抽样组织形式上看,可分为简单随机抽样,分层抽样,等距抽样,整群抽样和多阶段抽样五种。简单随机抽样也称纯随机抽样或完全随机抽样,是指未对总体中的个体进行事先分组或组合,直接从总体中完全随机地抽取样本的一种抽样组织形式,是抽样调查最基本的组织形式,具体的样本抽取方式有抽签法和随机数表法等。分层抽样也称类型抽样,是指先将总体的N 个个体按某一标志分为若干层,然后每层分别抽取部分个体作为层内样本,构成总容量为n 的样本,最后以样本的观测结果去估计或推断各层及总体数量特征的一种抽样组织形式。分层抽样的特点是必须具备总体所有个体的名录和至少一个分层标志的全面资料,各层的抽样相互独立,样本对总体的代表性取决于层内差异而与层间差异无关,要尽量把总体差异通过分层而转化为层间差异等。分层抽样适合于差异大的总体。等距抽样也称系统抽样或机械抽样,是指先将总体的N 个个体按某种标志排队并等分成n 段,每段k 个个体,在第一段的k 个个体中随机抽取一个个体后,再每隔k 个个体抽取下一个个体,共n 个个体构成样本的一种抽样组织形式。在将N 个
个体排队时,可以头尾相连,形成一个圆圈。用以排队的标志可以与调查标志有关,也可以与调查标志无关。等距抽样的具体方式又有一般等距抽样、中点等距抽样(即每段都取中间一个个体来构成样本)和对称等距抽样(即排队标志值高的和低的个体在样本中对称出现)之分。等距抽样的特点:依固定的间隔和规定的顺序来抽取个体,属于不重复抽样,有时连对个体进行编号和排队的步骤都可以省却(例如按门牌号每隔20 户抽取一户居民家庭进行收支调查)。整群抽样也称集团抽样,是指当总体的所有个体形成若干群后,从中随机抽取部分群并对抽中群进行全面观测的一种抽样组织形式。整群抽样的特点是群的形成可以自然也可以是人为,可以大小相同也可以大小有别,要尽量把总体差异转化为群内差异等。整群抽样一般属于不重复抽样。多阶段抽样也称多级抽样,它是以整群抽样为基础,先从总体的所有大群中抽取若干大群,抽中的大群中再抽取若干小群,抽中的小群中再抽取若干更小的群,如此下去,最后才抽取所要观测个体的一种抽样组织形式。最简单的多阶段抽样是两阶段抽样,即总体抽群,群抽个体。多阶段抽样的特点是整群抽样和分层抽样两种组织形式的综合(如两阶段抽样,前一阶段为整群抽样,后一阶段则相当于分层抽样)。
样调查具有经济节省、时效性强、准确度高、灵活方便等优点,使之在各个领域得到广泛的应用。一是用于认识那些不能或难以进行全面调查的总体的数量特征,如无限总体、范围过大的有限总体等,以及具有破坏性的产品质量检测等;二是用于认识那些发展变化比较稳定和有规律性而不必进行全面调查的现象总体的数量特征,如人的身高、男女性别比、食盐的消费量等;三是用于收集灵敏度高、时效性强或时间要求紧迫的统计数据,如市场需求信息、生产过程中的产品质量状况、易变化现象的波动情况(物价等)等;四是用于与其他数据收集方式相结合,相互补充和核对(例如与普查相结合,既可以取得普查未能取得的数据,还可以对普查的质量进行抽查验证;与重点调查相结合,可以形成目录抽样,更全面认识总体数量特征);五是用于对总体特征的某种假设进行检验,判断这种假设的真伪,决定方案的取舍,为行动决策提供依据。社会经济领域中常见的抽样调查有人口抽样调场抽样调查,社会问题抽、样调查和民意抽样调查等。
2.1.3. 重点调查
重点调查也是一种非全面调查,是对数据收集对象总体中的部分重点个体进行观测的统计调查方式。所谓重点个体,是就调查标志而言,那些在总体标志总量中占有绝大比重的少数个体。这些重点个体,虽然只是总体全部个体中的一小部分,但就调查标志而言却有举足轻重的作用。通过对重点个体的调查,能够从数量上反映总体的基本情况,抓住重点。例如,我国的钢铁企业有数百家,但钢铁产量的高低差别却很大,其中首都钢铁厂、宝山钢铁厂、鞍山钢铁厂、太原钢铁厂、武汉钢铁厂、包头钢铁厂、攀枝花钢铁厂等大型钢铁企业,虽然在企业数上只是少数,但在全国钢铁总产量中所占的比重却是绝大的,只要对这些重点企业进行观测,就可以八九不离十地了解全国钢铁生产的基本情况。又如,要了解棉花、木材等的生产情况,也只要对主产区进行观测就可以掌握大致的数量情况。
2.1.4 .统计推算
统计推算是以已掌握的各种统计数据为基础,根据事物之间的内在联系或发展规律,对被研究现象数量特征做出估算或测算的一种间接统计调查方式。统计推算具有较强的假定性,推算的过程实际上也是统计
分析的过程。统计推算的方法主要有前提推算法、进度推算法、比例推算法、因素推算法、平衡推算法、插值推算法和回归推算法等。
2.2 实验方式
所谓实验方式,就是运用自然科学的试验法,通过观测人为安排条件下试验产生的各种结果并加以记录的方式来获取数据,或通过人为安排条件下的试验来探求某个或某些因素对所研究事物的数量影响程度和作用方式,凭借实验结果来揭示所考察因素与所研究事物之间的数量因果关系。例如,美国1954 年关于脊髓灰质炎疫苗的随机对照双盲试验,就是一次非常有名的实验,证明了这种疫苗的有效性。
常用的实验设计有以下几种:完全随机试验、随机区组试验、拉丁方试验和正交试验。
3、统计数据整理
所谓统计数据整理,简称统计整理,是指根据统计研究的目的,对统计收集到的数据进行科学的加工处理,使之系统化、条理化和综合化,成为能反映研究对象总体数量特征和满足统计分析需要的统计数据的过程。统计数据整理包括两个方面:一是对原始统计数据的整理,即通过分组(分类)和汇总,使大量的、零散的、反映个体特征的数据,转化为综合的、反映总体特征的数据;二是对次级数据的再整理,即通过新的分组、计算或各种必要的调整,使之满足新的需要。
在整个统计研究过程中,统计数据整理起着承上启下的作用,既是数据收集的继续,又是数据分析的开始,因此要十分强调其科学性、条理性和充分性。所谓科学性,就是数据整理的分组和汇总必须科学合理,注意质的界限,符合客观事实;所谓条理性,就是数据整理的过程要层次分明,条理清楚,逻辑关系严密;所谓充分性,就是运用各种数据整理方法和技术,通过多角度、多方位的加工处理,使整理的结果尽量充分地体现出数据中包含的有用信息,最大程度地满足统计分析的需要。
统计数据整理包括以下几个步骤:整理方案的设计,数据预处理,统计分组和汇总,整理数据的显示和整理数据的保存与公布。
4、统计分组
统计分组就是根据统计研究的目的和事物本身的特点,选择一定的标志(一个或多个),将研究现象总体划分为若干性质不同的组或类的一种统计研究方法。例如,研究人口总体,除了知道人口总数外,我们还经常按照性别、年龄、民族、文化程度、职业等标志进行分组,以便通过不同的人口结构对人口总体有更全面、深入的了解和认识。
统计分组在揭示现象所属类型(例如国民经济行业类型,企业所有制类型),解剖总体内在结构(例如人口结构,产业结构),分析现象之间关系(例如居民收入与消费的关系,施肥量与作物产量的关系)等方面,具有重要的作用。
统计分组具有以下一些重要的性质:首先,统计分组兼有分与合的双重功能,是分与合的对立统一。即对总体而言是“分”,要把总体划分为若干性质不同的部分;对个体而言是“合”,要把性质相同的个体归入同一组中。其次,统计分组必须遵循“穷尽原则”和“互斥原则”,即现象总体中的任何一个个体都必须而且只能归属于某一个组,不能出现遗漏或重复出现的情况。第三,统计分组的目的是要在同质性的
基础上研究总体的内在差异性,即尽量体现出分组标志的组间差异而缩小其组内差异,因此,统计分组无论体现的是空间差异、时间差异、数量差异还是属性差异,归根结底是要客观反映各组之间本质特征的差异。第四,统计分组在体现分组标志的组间差异的同时,却可能掩盖了其他标志的组间差异,因此,任何统计分组的意义都有一定的限定性。如果需要多种角度的分组认识,就应该按多个不同的标志进行分组。第五,统计分组的关键是分组标志的选择和分组界限的确定,如果分组标志选择不当或分组界限不合理,就会混淆事物的性质,难以客观反映现象总体的特征。当然,分组标志的选择是核心问题,因为分组界限的确定取决于分组标志。我们应该根据研究目的,结合具体的历史条件和环境背景,选择最能体现现象本质的标志作为分组的标志。
统计分组按照分组标志的多少不同,可以分为简单分组与复合分组。简单分组是指对总体只按一个标志进行分组,只反映总体某一方面的分布状况和内在结构。例如人口总体只按性别标志,或只按年龄标志。复合分组则是指对总体同时按两个或两个以上的标志进行层叠式的分组,即先按第一个标志进行分组,然后各组再按第二个标志分成小组,各小组再按第三个标志分成更小的组,如此下去,直至完成所有标志的分组。复合分组本身形成复合分组体系,状如树形。复合分组的结果,表明所有分组标志下各界限范围内的个体数或比重。例如某高校教师总体按性别、年龄、职称和学位四个标志的复合分组。
统计分组按分组标志的性质不同,可以分为品质分组和数量分组。品质分组也叫属性分组,是指总体按某一个或某几个品质标志进行分组,并在品质标志变异的范围内,划定各组的性质界限,根据每个个体的标志表现把他们分别归入不同的组中。数量分组也叫变量分组,是指总体按某一个或某几个数量标志进行分组,并在数量标志变异的范围内,划定各组的数量界限,根据每个个体的标志表现(标志值或变量值)把他们分别归入不同的组中。数量分组是反映总体内部数量差异的重要方法之一,并能够通过组间数量差异体现出性质的不同。数量分组的难点是合理确定组间数量界限和分组数,在组距式分组中还要合理确定组距。数量标志分组的结果形成变量数列。
5、分布数列
在统计分组的基础上,将总体中的所有个体按组归类排列,并计算出各组的个体数,就形成为频数分布。分配在各组的个体数,称为频数或次数,各组频数或次数之和称为总频数或总次数,各组频数与总频数之比称为频率。将各组的频数或频率按分组的一定顺序加以排列,就形成为分布数列。分布数列是统计数据整理的重要工具,可以据以表现总体分布的特征。分布数列有两个构成要素:统计分组所形成的各个组和各组的频数或频率。分布数列按分组标志的性质不同可以分为两种:即按品质标志分组的品质分布数列和按数量标志分组的变量分布数列,分别简称为品质数列和变量数列。在统计研究中,变量数列是主要形式,根据各组变量值的确定方法不同,它又分为单项式数列和组距式数列两种。
单项式数列就是以一种变量值表示一个组的变量数列,例如某城市育龄妇女总体按生育子女数分组,其变量值有0、1、2、3、4、5 共6 种,分别列出各生育子女数的妇女人数或比重,就形成单项式数列。单项式数列适合于表现变量值变动范围不大的离散型变量的分布特征。对于某些取整数的连续型变量(例如年龄),如果变量值的种数不多(例如高校学生年龄的变动范围一般不大),也可编制单项式数列。
组距式数列是就以一个变量区间表示一个组的变量数列,变量值处于同一个区间范围的个体属于同一个
组,区间的长度就是组距。组距式数列适合于表现连续型变量和变量值变动范围较大的离散型变量的分布特征,因为当变量数值较多时,如果每一种变量值设为一组,那么组数就会很多,个体过于分散,难以体现总体分布特征,因而需要编制组距式数列。编制组距式数列时,要将所有个体按变量值由小到大排列,根据需要划分为几个区间,确定各区间的最大值和最小值,然后列出各区间所包含的频数(个体数)或频率。编制组距式数列需要处理好以下几个问题:
(1)组距与组数
在组距式数列中,各组变量区间的最大值称为上限,最小值称为下限,上限与下限之差就是组距。所划分的区间数,则称为组数。组距的大小与组数的多少成反比。组距过大过小,或组数过多过少都不能真实反映总体分布特征,因此组距大小与组数多少要以体现组间差异与反映总体分布特征为原则。美国学者斯特杰斯(H.A.Sturges )曾提出一个确定组距与组数的经验公式,即如果总体大致呈正态分布,那么就有:
n = 1+ 3.322lg N
d = R/n
其中n 为组数, N 为总体容量(总频数), R 为总体全距即总体中最大变量值与最小变量值之差。 在组距式数列中,如果各组的组距相等,称为等距数列;如果各组的组距不相等,则称为异距数列。一般地,当变量分布比较均匀时,可采用等距数列,因为等距数列简单明了,便于计算分析,也便于绘制统计图。当变量分布很不均匀,或者变量分布具有某种自身特殊规律时,应该采用异距数列,以便客观反映总体分布特征。例如,生命的一定时段(例如5 年)对于成年人与未成年人、中青年人与老年人是很不一样的,其生理特征有很大差别,因此人口疾病或死亡率的年龄分组就必须采用异距分组,例如1 岁以下可按月分组,1~10 岁按年分组,11~20岁按5 年分组,21~60 岁按10 年分组,60 岁以上按5 年分组。在异距数列中,各组频数或频率不能直接比较。为消除各组组距不同所造成的影响,需要计算频数密度或频率密度。频数密度是频数与组距之比,频率密度是频率与组距之比。各组的频数密度或频率密度可以进行比较。
(2)组限与组中值
在组距式数列中,必须划定各组的数量界限即组限。组限的确定除了要区分事物的性质和体现总体分布特征外,还需要注意以下几点:一是最小组的下限应略低于总体的最小变量值,最大组的上限应略高于总体的最大变量值。二是连续型变量的各组组限必须重叠,以防分组时出现遗漏某些个体的现象。但为了明确变量值正好等于组限的个体的归属问题,我们采用“上限不在内”原则,即各组包含下限变量值的个体而不包含上限变量值的个体。对于离散型变量,习惯上也采用组限重叠的分组方法。三是有时最小组只有上限而没有下限,最大组只有下限而没有上限,这样的组称为开口组。开口组的组距一般按相邻组的组距加以确定,并进而确定相应的下限或上限。当然,如果中间的非开口组的组距呈现某种规律(例如各组组距相等,呈等差变化,呈等比变化),则应该按规律来确定开口组的组距与组限。组中值是代表各组变量值一般水平的数值,是各组上限与下限的简单算术平均数。组距数列在体现各组组间差异、反映总体分布特征和结构的同时,也掩盖了各组内部的差异,所以组中值是在假定各组内均匀分布时的一个近似值。开口组的组中值在按上述原则确定组距、组限后再加以计算。
(3)频率分布
按顺序列出各组的组别及相应的频率,就构成频率分布。频率分布可以比频
数分布更好地体现出总体分布特征。频率分布有两个基本性质:一是各组频率都是一个介于0 与1 之间的分数,即大于0 而小于1;二是各组频率之和等于1。
累计频率分布:在频数分布的基础上,将各组频数依次累计,就形成累计频数分布。各组累计频数与总频数之比,就形成累计频率分布。累计分布有向上累计分布与向下累计分布两种。向上累计分布是将各组的频数或频率由变量值小的组向变量值大的组累计,累计结果分别说明各组上限以下的累计频数或累计频率的分布状况。当累计到最后一组时,其累计频数或累计频率等于总频数或100%。向下累计分布是将各组的频数或频率由变量值大的组向变量值小的组累计,累计结果分别说明各组下限以上的累计频数或累计频率的分布状况。当累计到最后一组时,其累计频数或累计频率等于总频数或100%。
【例2-1】根据表2-3 作累计频率分布,结果如表2-4 所示。
6、统计数据的显示
6.1 统计表
统计表是一种用以表现统计数据的重要形式。经过汇总整理的统计数据,按一定的顺序排列在相应的表格内,就形成为统计表。广义的统计表还包括统计调查表和统计分析表。统计表具有简明扼要、一目了然的特点,可以清楚地显示统计数据,直观地反映统计分布特征和各部分之间的关系,便于进行对比、计算和开展统计分析,便于保存统计数据。
统计表的设计必须目的明确,内容具体,美观简洁,清晰明了,科学实用。
统计表按照主词是否分组,以及分组标志多少,可以分为未分组表、简单分组表和复合分组表三种。
6.2 统计图
统计图是直观、形象、生动地表现统计数据的方式,种类很多,Excel 提供了14 种标准的统计
图形,例如直方图(柱形图)、折线图、散点图、圆饼图、圆环图、雷达图等。此外,有时还使用茎叶图、箱形图等。