统计学原理复习重点概述 本课程主要包括三部分知识。第一部分统计基础知识第一章和第二章数据收集部分。第二部分描述统计第二章统计数据整理部分(表格与图形法)、第三章数据分布特征的描述(静态数据描述法)和动态数据描述法,即第六章时间数列分析和第八章统计指数。第三部分推断统计第四章抽样估计和第五章假设检验与方差分析。
第一章 绪论。本章介绍统计学及相关概念,勾勒了本课程的框架结构——描述统计学和推断统计学。是统计的三层含义,总体、样本及指标等概念。 统计的三层含义及相互关系
统计学是一门关于数据的科学,是一门关于数据的收集、整理、分析、解释和推断的科学。
(一)统计工作(统计的基本含义)
即统计实践活动,是人们对客观事物的数据资料进行搜集、整理、分析的工作活动的总称。
(二)统计资料
是统计工作的成果,包括各种统计报表、统计图形及文字资料等。 (三)统计学
是一门收集、整理、描述、显示和分析统计数据的方法论的科学,其目的是探索事物的内在数量规律性,以达到对客观事物的科学认识。 (四)三者关系
统计学与统计实践活动的关系是理论与实践的关系,理论源于实践,理论又高于实践,反过来又指导实践 。统计工作和统计数据是工作和工作成果关系。 统计实践活动的产生与发展 三个主要的统计学派 1、政治算术学派
代表人物:英国的威廉·配第(1623-1687)、约翰·格朗特(1620-1674)等。 威廉·配第的代表著《政治算术》对当时的英、荷、法等国的― 国富和力量‖进行了数量的计算和比较;格朗特写出了第一本关于人口统计的著作。他们开创了从数量方面研究社会经济现象的先例。 可以说,威廉·配第是统计学的创始人。 2、记述学派(国势学派〕
代表人物:德国的康令(1606-1681)
阿亨瓦尔(1719-1772; 1764年首创统计学一词)
他们在大学中开设― 国势学‖课程,采用记述性材料,讲述国家― 显著事项‖,籍以说明管理国家的方法。特点是偏重于事物质的解释而忽视量的分析。 3、数理统计学派
代表人物:比利时的凯特勒(1796-1874)
他把古典概率论引进统计学,发展了概率论,推广了概率论在统计中的应用。 凯特勒把德国的国势学派、英国的政治算术学派和意大利、法国的古典概率论家以融合改造为近代意义的统计学。他是数理统计学派的奠定人。 代表著作:社会物理学 有的教材分类
古典统计学时期(17世纪中后期~18世纪中后期)
1.政治算术学派:代表人物威廉·配第(政治经济学之父),首次运用数量对比分析法,又称―有名无实‖的统计学。
2.记述学派/国势学派:―统计学是研究一国或多国的显著事项之学‖,以文字描述为主,又称―有实无名‖的统计学。
3.图表学派:用统计图和统计表表现和保存统计资料。 近代统计学时期(18世纪末~19世纪末) 1.数理统计学派:创始人阿道夫·凯特勒,第一次将概率论引入社会经济现象的研究中,被誉为―近代统计学之父‖。
2.社会统计学派:代表人物恩格尔,采用大量观察法研究社会经济现象总体。 现代统计学时期(20世纪初至今)
1.主要成果:在随机抽样基础上建立了推断统计学。 2.数理统计学的发展特点与趋势 (1)数学方法的广泛应用。 (2)边缘统计学的形成。
(3)借助计算机手段,统计学的应用日益广泛和深入。 统计学的分类
从统计方法的构成角度分:
1、描述统计学(descriptive statistics)
研究如何取得、整理和表现数据资料,进而通过综合、概括与分析反映客观现象的数量特征。包括数据的收集与整理、数据的显示方法、数据分布特征的描述与分析方法等。
2、推断统计学(inferential statistics)
研究如何根据样本数据去推断总体数量特征的方法。包括抽样估计、假设检验、方差分析及相关和回归分析等。 描述统计学和推断统计学的关系
描述统计学是统计学的基础和统计研究工作的前提,推断统计学则是现代统计学的核心和统计工作的关键。
从统计方法的研究和应用角度分: 1、理论统计学(theoretical statistics)
利用数学原理研究统计学的一般理论和方法的统计学,如概率论与数理统计 2、应用统计学(applied statistics)*
研究如何应用统计方法解决实际问题,大多是以数理统计为基础形成的边缘学科。如自然科学领域的生物统计学、社会科学领域的社会经济统计学等。 统计学与其他学科的关系 (一)统计学与数学的关系 1、区别
(1)研究对象不同:数学研究抽象的量, 统计研究具体的量。
(2)研究方法不同:数学是演绎,统计是归纳和演绎的结合。 2.、联系
数学为统计研究提供数学公式、模型和分析方法。 (二、)统计学与其他学科的关系 统计几乎与所有学科都有联系。统计方法可以帮助其他学科探索学科内的数量规律性,但对这种数量规律性的解释与进一步的研究,只能由各学科自已的研究完
成。
统计的研究对象、特点、作用 统计的研究对象 、特点:
社会经济统计,也可称为经济统计,其研究对象是社会经济现象总体的数量规律,即通过对(社会)经济现象的规模、水平、结构、比例和速度等数量关系的调查研究,说明国民经济和社会发展在一定时间、地点、条件下的数量表现及变化规律,其中涉及到数量的多少、现象间的数量关系以及质量互变的数量界限等。社会经济统计学研究的就是在一定的质的规定下具体的不是抽象的数量表现与变化规律。
社会经济统计的特点:
1、数量性: 统计研究对象是客观事物的数量方面。
2、总体性: 社会经济统计认识社会经济现象时,主要是研究社会经济现象的总体数量规律,即通过大量的观察,获得足够多的统计资料,说明、认知总体现象的变化情况及规律。
3、具体性: 社会经济统计的研究对象是具体事物的数量,不是抽象的量。它与数学研究的数量是不尽相同的。
4、社会性:社会经济统计认识的对象是社会经济现象,它包括人类经济社会活动的各种条件(自然条件、社会条件)、人类各种活动的过程与结果(生产活动、交换活动、分配活动、消费活动等)。
统计的职能:信息职能、咨询职能、监督职能。
统计学中几个基本概念 统计总体和总体单位
总体 即统计总体,是指客观存在的、在同一性质基础上结合起来的许多个别事物的整体。 例如:要研究全国城镇居民的收支情况,就以全国城镇居民作为一个总体。 特点:
同质性 是确定总体的前提和基础。它是根据统计的研究目的而定的。 研究目的不同,则所确定的总体也不同,其同质性的意义也随之变化。例如,研究城镇居民贫困户的生活状况,那么,贫困线下的城镇居民户则构成了统计总体,贫困线下的城镇居民户是同质的,而贫困线上的城镇居民户是非同质的。
大量性 统计总体应该由足够数量的同质性单位构成。实现统计研究目的的必要条件
差异性 构成总体的各个同质性单位的特征存在着差异。它是统计研究的前提和内容。
总体单位(简称单位)是组成总体的各个个体。根据研究目的的不同,单位可以是人、物、机构等实物单位,也可以是一种现象或活动等非实物单位。
总体和单位的概念是相对而言的,随研究目的不同,总体范围不同而变化。同一研究对象,在一种情况下为总体,但在另一情况下又可能变成单位。 根据总体所包含的单位数量,总体可以分为有限总体和无限总体两类。有限总体是由有限量的单位构成的总体。当总体单位数难以确定,其数量可能是无限时,便构成无限总体。
样本 由总体的部分单位组成的集合称为样本(又称子样)。 当总体单位数量很多甚至无限时,不必要或不可能对构成总体的所有单位都进行调查。这时,需要采用一定的方式,从由作为研究对象的事物全体构成的总体(又称全及总体、母体)中,抽取一部分单位,作为总体的代表加以研究。 样本也由一定数量的单位构成的,符合总体的概念;由样本单位组成的总体称为抽样总体,样本所包含的总体单位数称为样本容量。 标志和变量
总体各单位普遍具有的属性或特征称为标志。 标志分类:
品质标志:品质属性方面的特征,只能用文字、符号或数字代码来表现 。 数量标志:数量方面的特征,用数值来表现。
不变标志: 一个总体中各单位某标志的具体表现都相同,称之为不变标志。不变标志是总体同质性的基础。 一个总体至少要有一个不变标志,才能够使各单 位结合成一个总体。 变异标志:亦称可变标志,在一个总体中,当一个标志在各单位的具体表现有可能不同时,这个标志便称为可变标志。作为总体,同时必须存在变异标志,这表示所研究的现象在各单位之间存在着差异,才需要进行统计研究。
统计指标
统计指标是反映统计总体数量特征的概念和数值。如2002年我国国内生产总值104790.6亿元。
– 统计指标由两项基本要素构成,即指标的概念(名称)和指标的取
值。
– 指标的概念(名称)是对所研究现象本质的抽象概括,也是对总体
数量特征的质的规定性。确定统计指标必须有一定的理论依据,使之与社会经济或科学技术的范畴相吻合。同时,又必须对理论范畴和计算口径加以具体化。
– 指标的数值反映所研究现象在具体时间、地点、条件下的规模和水
平。在观察指标数值时,必须了解其具体的时间状态、空间范围、计量单位、计量方法等限定,同时注意由于上述条件的变化而引起数值的可比性问题。
特性:数量性、具体性、综合性 指标与标志的关系
– 标志反映总体单位的属性和特征,而指标则反映总体的数量特征。
标志和指标的关系是个别和整体的关系。需要通过对各单位标志的具体表现进行汇总和计算才能得到相应的指标。 – 总体和单位的概念会随着研究目的不同而变化,因此指标与标志的
概念也是相对而言的。例如,所要研究的是全国工业企业的情况,则各企业的职工人数、固定资产、工业增加值等都是总体单位(即各个企业)的标志,如果研究目的变成研究某一企业的职工状况,则该企业变成一个总体,企业职工人数变成了统计指标,每个职工的文化程度、技术等级、性别等就成为标志。
统计数据
(一)变量与变量值
说明现象的某一数量特征的概念也被称为变量,变量的具体取值是变量值,统计数据就是统计变量的具体表现。
例如,固定资产是一个变量,各企业固定资产的具体数值是变量值。 为了区别,在本书中,凡是变量均用大写的英文字母表示,而变量值则用小写英文字母表示。 连续型变量是指变量的取值在数轴上连续不断,无法一一列举,即在一个区间内可以取任意实数值。
例如,气象上的温度、湿度,零件的尺寸等。
离散型变量是指变量的其取值是整数值,可以一一列举。 例如,企业数,职工人数等。
确定性变量是受确定性因素影响的变量,即影响变量值变化的因素是明确的,是可解释和可控制的。
随机变量则是受许多微小的不确定因素(又称随机因素)影响的变量。变量的取值无法事先确定。
社会经济现象既有确定性变量也有随机变量。统计学所研究的主要是随机变量。 (二)数据的计量尺度
统计数据是总体单位标志或统计指标的具体数量表现。 根据对研究对象计量的不同精确程度,人们将计量尺度由低到高、由粗略到精确分为四个层次:定类尺度、定序尺度、定距尺度和定比尺度。 (三)数据的类型
横截面数据又称为静态数据,它是指在同一时间对同一总体内不同单位的数量进行观察而获得的数据。
时间序列数据又称为动态数据,它是指在不同时间对同一总体的数量表现进行观察而获得的数据。
例如,2005年全国各省市自治区的国内生产总值就属于横截面数据。而―十五‖期间我国历年的国内生产总值就属于时间序列数据。 (四)数据的表现形式
绝对数。现象的规模、水平一般以绝对数形式表现。绝对数的计量单位一般为实物单位或价值单位,有时也采用复合单位。实物单位可以是自然计量单位,也可以是物理计量单位,如人口数用人计量,机器数用台计量,对于一些化工产品和燃料,常常还折合成标准实物单位计量。复合计量单位是由两种或两种以上计量单位复合而成的,如以―吨公里‖为货物周转量的计量单位,以―千瓦时‖为用电量的计量单位。
相对数。相对数由2个互相联系的数值对比求得。常用的相对数包括:结构相对数、动态相对数、比较相对数、强度相对数、利用程度相对数、计划完成相对数等。
平均数。平均数反映现象总体的一般水平或分布的集中趋势。关于这部分的内容,将在第三章作详细介绍。
第二章统计数据的收集与整理。本章介绍统计数据的搜集及整理。重点在于统计调查方式和统计数据整理(分组)。 统计调查方式: 1、普查:
为某一特定目的而专门组织的一次性全面调查 如:人口普查、工业普查等 ●特点:
(1)通常是周期性的或一次性的,涉及面广、耗时、费力,一般需间隔较长时间;
(2)一般需要规定统一的标准调查时间,以避免调查数据的重复或遗漏; (3)准确性一般较高,较规范;
(4)适用的对象较窄,只能调查一些最基本、最一般的现象。 2、抽样调查:
从调查对象的总体中随机抽取一部分单位作为样本进行调查,并根据样本调查
结果推断总体数量特征。 ●特点:
(1)经济性强:工作量小、可节省人、财、物力 (2)时效性高:可迅速、及时地获得所需要的信息
(3)适应面广:可获得更广泛的信息,适用于各个领域、各种问题的调查; (4)准确性高:用工量小,从而工作可做得更细,误差往往很小。 3、统计报表
按国家有关法规规定,自上而下地统一布置,自下而上地逐级提供基本统计数据。
●特点:
统一的表式、统一的指标、统一的报送时间、统一的报送程序。 ●类型:
(1)按报送调查范围分:
全面报表:调查对象中的每一个单位都填报
非全面报表:只要求调查对象中的一部分单位填报 (2)按报送时间间隔分
日报、月报、季报、年报 (3)按报送地域(机构)范围分: 国家报表、地方报表、部门报表 4、重点调查
从调查对象的全部单位中选择少数重点单位进行调查(适用于“同类”中的“大户”)。
5、典型调查
从调查对象的全部单位中选择一个或几个有代表性的单位进行调查。(不一定针对“大户”) ▼注意:
1、抽样调查是随机抽取调查单位,不存在对调查对象选择的主观性,因此可以根据抽样结果推断总体的数量特征;
2、重点调查和典型调查不是随机取样,具有一定的主观性,因此调查结果不能推断总体。 数据的搜集方法
1、访问调查(派员调查):调查者与被调查者通过面对面的交谈获取调查资料; 2、邮寄调查:通过邮寄或其他方式将问卷送至被调查者,由被调查者填写问卷并寄回或投放到指定收集点;
3、电话调查:调查者利用电话同受访者进行语言交流以获取信息; 4、座谈会(集体访谈):将受访者集中在调查现场,使其对调查主题发表意见以获取调查资料;
5、个别深度访问:一次只有一名受访者参加的特殊的定性研究。
统计数据的整理(summarizing data)是指对所搜集的数据进行加工整理、使之系统化、条理化,以符合分析的需要。 统计数据的整理通常包括: 数据的预处理 分类或分组
汇总 数据分组与频数分布
统计分组是将预处理过的数据按照某种特征或标准分成不同的组别。
◎统计分组标志:分组时所依据的特征或标准,有品质标志和数量标志。
◎频数分布表:对分组后的数据,计算各组中数据出现的次数或频数所形成的汇总表。 概念:频数/次数分布;相对频数;百分数频数
◎ 频数分布或次数分布(Frequency distribution):全部数据按其分组标志在各组内的分布状况。
分布在各组内的数据个数称为频数或次数。
A frequency distribution is a tabular summary of a set of data showing the frequency (or number) of items in each of several nonoverlapping classes.
◎相对频数(Relative frequency)/频率/比重:各组频数与全部频数之和的比重。 The relative frequency of a class is the proportion of the total number of data items belonging to the class.(=Frequency of the class/n)
◎百分数频数(Percentage frequency):is the relative frequency multiplied by 100.
数值数据的分组与频数分布 分组计频基本步骤:
确定组数 确定组距(按组)整理成分布频数表
第一步,确定组数(Number of classes)。组数的确定一般视数据本身的特点及数据的多少而定
经验上以5~20之间为好,尤其注意不要确定太多的组数,使得每组包含的数据太少。
实际分组时常按斯特格斯(Sturges)提出的经验公式来确定组数K:
第二步,确定组距(Width of classes):组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定: 组距=(最大值 - 最小值)/组数
第三步,确定各组组限(Class limits)并据此整理频数分布表。 1、分组所遵循的主要原则是“不重不漏”(each data value belongs to one class and only one class)。因此,
最低组限(The lower class limit) 数据的最小值, 最大组限(The upper class limit) 数据的最大值;
另外,数据在每组中的归属习惯上采用“上组限不在内”。 2、对离散型数据,可采用相邻两组组限间断的办法解决“不重”的问题(如6~10,11~15,16~20等); 3、对连续型数据,往往采用相邻两组组限重叠,根据“上限不在内原则”解决“不重”问题(如[5,10),[10,15),[15,20)等)。 注意:
1
、在最大值与最小值与其他数据相差悬殊时,为避免空白组出现,第一
组和最后一组可采用―XX以下‖及―XX以上‖这样的开口组;
2、在组距分组时,如果各组组距相等则称为等距分组,否则为不等距分组。 不等距分组各组的频数受组距大小不同的影响,因此需要计算频数密度(=频数/组距),才能准确反映频数分布的实际;
3、有时为了统计需要,需进一步计算累积频数(某数值以上或以下的频之数和)。
统计分组的概念、原则、则和方法统计表(补充讲义14页word文档)。
分配数列/次数分布数列
由两个要素构成,一是组别,二是各组次数或频率。根据需要,可以编制简单次数分布表和累计次数分布表。 次数分布
主要有钟形分布、U形分布和J形分布。 统计表和统计图
统计表和统计图是显示统计数据的两种重要形式。统计表的结构从形式看可分为总标题、横表目、纵标目和指标数值;从内容上看可分为主词和宾词两部分。统计图主要有条形图、直方图、圆形图等。
第三章、数据分布特征的描述。本章主要介绍数据的集中趋势和离散趋势。重点是各种平均指标及离散指标概念、计算方法和适用条件。
统计学中刻划数据分布特征的最主要的代表有二:数据分布的集中趋势与数据分布的离散程度。
集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势就是寻找数据一般水平的代表值或中心值。
均值(Mean) 均值就是一组数据的平均值(average value),用来测度中心位置(central location)。
1、算术平均数
简单算术平均数 加权算术平均
加权算术平均往往适用于对分组后的数据求均值,这时Xi为各组变量代表值(往往取组中值),Fi 为各组变量值出现的频数。 算术均值具有如下性质:
(1)各变量值与其均值的离差和为零: (2)各变量值与其均值的离差平方和最小:
(3)对被平均的变量实施某种线性变换后,新变量的算术平均数等于对原变量的算术平均数实施同样的线性变换的结果。
(4)对于任意两个变量x和y
,它们的代数和的算术平均数等于两个变量的算术平均数的
代数和。
均值容易受到统计数据中个别极端数据的影响,从而使均值代表某组统计数据的“平均水平”时失去意义,这时往往用“剔除极端值”的方法加以修正。 2、几何平均数
(1)几何平均数是N个变量值乘积的N次方根 (2)加权几何平均数
几何平均数的对数是各变量值对数的算术平均。 几何平均主要用于计算比率或速度的平均 几何平均数的应用及特点 :
我国国内生产总值2001年、2002年、2003年的环比发展速度分别是107.5%,108.3%,109.3%,则各年的平均发展速度是
G.0751.0831.0931.084108.4%
某人有一笔款项存入银行10年,前2年的年利率为6%,第3至5年的年利率是5%,后5年的年利率3%,如果按复利计算,这笔款项的平均年利率为多少?
G.0621.0531.0351.0421.04210.0424.2%
这笔款项的平均年利率为4.2%。 ①应用条件
a.变量值是相对数据,如比率或发展速度。 b.变量值的连乘积等于总比率或总发展速度。 ②特点
a.如果数列中有一个标志值等于零或负值,则无法计算。 b.受极端值影响较小,故较稳健。
(3)调和平均数,是各数据倒数的(简单)算术平均数的倒数: 价格=金额/购买量
由相对数和平均数计算平均数
根据相对数和平均数计算平均数时,如何正确选择和应用算术平均数与调和平均数,
在缺少被平均标志x的分子资料时,要采用算术平均数,即“缺分子,用算术”
。如上述平均计划完成程度,其分子是实际利润额,分母是计划利润额,当已知各企业的利润计划完成程度和计划利润额时(缺少实际利润额),则采用算术平均数。
xf85500951600105800
96.03% f5001600800
在缺少被平均标志的分母资料时,要采用调和平均数,即“缺分母,用调和。”如例4.6中,
当已知各企业的利润计划完成程度和实际利润额时(缺少计划利润额资料),则采用调和平均数。
中位数(Median)
中位数是一组数据按大小排序后,处于中间位置上的变量值。 1、 对于未分组数据:
(1)如果数据个数为奇数,则中位数恰为处于中间位置的数: MeXN1
2
(2)如果数据个数为偶数,则为中间位置两个数的平均数
(2)单项数列的中位数
计算各组的累计频数(向上累计或向下累计);根据中位数位置确定中位数。
对于分组后的数据
下限公式:
f
Sm1
MeLd
fm
上限公式:
f
Sm1
MeUd
fm
式中:m为中位数所在的组,d为该组组距,
L、U分别为该组的下限值与上限值, fm为该组的频数,
Sm-1 为该组以下各组的频数总和, Sm+1为该组以上各组的频数总和, 显然 Sm1fmSm1f
众数(Mode)
众数是一组数据中出现次数最多的变量值。 在分组数据中,众数可按下式计算: 下限公式:
上限公式:
式中: fm为某数值出现次数(频数)最多的组(第m组)的频数, fm-1与fm+1分别为第m-1组与m+1组的频数,
L、U分别为第m组的下限与上限值,d为该组组距。
1
MeXNXN
1222
1、如果某组统计数据中没有哪个数值出现较多的频率(次数),则可认为该组数无众数;如果有多个数据出现的次数(频率)较多,则认为有多个众数。 在有多个众数的情况下,则对众数的关注度下降,因为多众数对描述数据位置无多大帮助。
2、对描述品质数据的分布特征的―位置‖测度只能用众数。 中位数、众数与算术平均数的关系
• 众数、中位数和均值都是对数据集中趋势的测度,
1、均值由全部数据计算,包含了全部数据的信息,具有良好的数学性质,当数据接近对称分布时,具有较好的代表性;但对于偏态分布,其代表性较差。
2、中位数是一组数据中间位置上的代表值,不受数据极端值的影响,对于偏态分布的数据,其代表性要比均值好。
3、众数是一组数据分布的峰值,是一种位置的代表,当数据的分布具有明显的集中趋势时,尤其对于偏态分布,众数的代表性比均值好。
4、对接近正态的分布数据,常用均值描述数据的集中趋势;对偏态分布,常用众数或中位数描述数据的集中趋势。
5、均值只适用于定距或定比尺度的数据;定序尺度数据可用中位数或众数进行描述,而对定类尺度数据,只能用众数进行描述。
分布离散程度的测度
对数据分布特征的另一个测度指标是数据分布离散程度。 它反映各数据远离其中心值的程度,因此,也称离中趋势。 集中趋势反映的是各变量值向其中心值聚集的程度, 离中趋势反映各变量值之间的差异状况。 注意:
数据的离散水平。
数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差。 极差(Range)
极差是最简单的测度离中趋势(分散程度)的指标,也称全距,是一组数据最大值与最小值之差:
Range=Largest Value - Smallest Value 对于组距分组数据,极差可近似地表示为: R=最高组上限 - 最低组下限 ▲注意:
1、极差易受极端值的影响;
2、由于极差只利用了数据两端的信息,没有反映中间数据的分散状况,因而不能准确描述数据的分散程度。 方差(Variance)
方差是各变量值与其均值离差(deviation about the mean)平方的平均数。 总体方差(Population Variance) 总体方差用2表示
其中:Fi为第i组数据的频数Xi为第i个数(未分组)或第i 组组中值(分组) 样本方差(Sample Variance) 样本方差用S2表示
其中:fi为第i组数据的频数xi为第i个数(未分组)或第i 组组中值(分组) 标准差:方差的平方根(正)。
1、由于方差计算中使用了平方运算,因此方差的单位也是平方,如上述班级规模例中方差为64(学生)2,其具体意义不明确。因此方差只有在比较不同组数据的离散程度时才有数量大小上的意义。
2、标准差是对方差的开方运算,因此,其单位与原始数据的单位一致,它与均值及其他用同一单位测度的数据相比较也容易一些。
(标准差就是指数据“离散程度的测度值”距“均值”的距离)。 离散系数(Coefficient of Variation)
离散系数:一组数据标准差与其均值的比,也称为标准差系数,是测度数据离散程度的相对指标:
四、离散系数
(Coefficient of Variation)
离散系数:一组数据标准差与其均值的比,也称为标准差系数,是测度数据离散程度的相对指标:
例:五个班级规模的例中,
若视为总体,离散系数为:7.15/44=0.16,若视为样本,则离散系数为:8/44=0.182。
1、对不同组数据,其离散程度既受其数据本身的水平的影响,也受数据计量单位的影响,因此对不同(性质)组别的数据,不好用离差或标准差来比较它们的离散程度;
2、由于离散系数消除了来自这两方面的影响,因此可以用它进行不同数据组的比较。
分布偏态与峰度的测度
偏态(Skewness)和峰度(Kurtosis)是对数据分布特征的进一步描述。
平均数与标准差相同的数据组,其频数分配(分布)也可能不同,如果频数分布是对称的,则称为对称分布,否则为偏态分布。 偏态及其测度
测定偏态的方法主要有两种: (1)算术平均数与众数比较法, (2)动差法。
算术平均数与众数比较法
完全对称分布:算术平均数、中位数、众数重合 非对称分布:三者相互分离,
算术平均数
可用算术平均数与众数之间的距离作为测度偏态的一个尺度: 偏态 = 算术平均数 - 众数
这是偏态的绝对数,它以原有数据的单位为单位。
峰度及其测度
峰度是频数分布的另一重要特点。
其测度的是: 或平的程度如何。
峰度就是频数分布曲线顶端的尖峭程度。
峰度的测度,往往以中心4阶动差为基础进行;
第四章抽样估计。本章主要介绍了抽样估计的基本概念及抽样估计。点估计和区间估计。其中区间估计是主要方法。应理解置信区间、置信度、显著性水平的含义,领会区间估计精确度和可靠度之间的关系,重点掌握总体均值和总体比例的区间估计方法、样本容量的确定方法。
一般所讲的抽样调查,即指狭义的抽样调查(随机抽样):按照随机原则从总体中抽取一部分单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体作出数量上的推断分析。
抽样估计的特点
按随机原则抽取样本单位 目的是推断总体的数量特征
抽样推断的结果具有一定的可靠程度,抽样误差可以事先计算并控制
抽样推断中的基本概念 全及总体和样本
1.全及总体:是由被调查对象的全部单位所构成的集合体,简称总体。 总体容量:总体中的单位数,用N表示。
2.样本:样本是从总体中抽取的进行调查的部分单位的集合体,又称抽样总体。 样本容量:样本中的单位数,用n表示。
大样本和小样本:n≥30时称大样本,n<30称小样本。
**应用:在班级40名学生中随机选取15人进行健康状况调查,说明其中的总体、样本及容量。 概率抽样与非概率抽样
1.概率抽样:又称随机抽样,是按随机原则抽取样本单位。本章所指的均为概率抽样。 2.非概率抽样:又称非随机抽样,是指从研究的目的和需要出发,根据调查者的经验或判断,从总体中有意识地抽取部分单位构成样本。
**应用举例:重点调查、典型调查应为非概率抽样。
重复抽样和不重复抽样
1.重复抽样:又称有放回的抽样,从总体中抽取样本时,每次被抽中的单位都再被放回总体中参与下一次抽样。
2.不重复抽样:又称无放回的抽样,总体中随机抽选的单位经观察后不放回到总体中,即不再参加下次抽样。
总体参数和样本统计量
1.总体参数:是反映总体数量特征的数值。在抽样推断
中,参数是未知的、待估计的确定值。
2.样本统计量:是根据样本资料计算的反映样本数量特征的变量,它的值随着样本的不同而变化,因此是一个随机变量。
抽样误差的概念及其影响程度
第三节抽样平均误差
一、抽样误差的概念及其影响程度
在统计调查中,调查资料与实际情况不一致,两者的偏离称为统计误差。
登记误差
系统性误差
统计误差
代表性误差随机误差实际误差
抽样平均误差
抽样误差即指随机误差,这种误差是抽样调查固有的误差,是无法避免的。
四、影响抽样误差大小的因素
•抽样平均误差受以下几方面的因素影响:
•总体各单位的差异程度(即标准差的大小):越大,抽样误差越大;
•样本单位数的多少:越大,抽样误差越小;•抽样方法:不重复抽样的抽样误差比重复抽样的抽样误差小;
•抽样组织方式:简单随机抽样的误差最大。
简单随机抽样的抽样平均误差
只要在样本代表性大,且对全及指标精确性要求不高的情况下,可采用点估计法。如能满足下列三个准则:
无偏性一致性有效性就会得到合理的估计
(二)区间估计
是根据样本指标和抽样误差去推断
全及指标的可能范围,它能说清楚估计的准确程度和把握程度。
根据中心极限定理,得知当n足够大时,抽样总体为正态分布,根据正态分布规律可知,样本指标是以一定的概率落在某一特定的区间内,统计上把这个给定的区间叫抽样极限误差,也称臵信区间,即在概率F(t)的保证下:
抽样极限误差△=tμ,(t为概率度)可见,抽样极限误差,即扩大或缩小了以后的抽样误差范围。
区间估计的步骤
区间估计根据给定的条件不同,有两种估计方法:
• ⑴ 给出允许误差(Δ),求概率保证程度F(t)。 • ⑵ 给出概率保证程度F(t),求估计区间。 ⑴ 给出Δ,求F(t)
• ① 抽取样本,计算样本指标(样本平均数、样本方差、抽样平均误差); • ② 根据给定的抽样误差——允许误差Δ计算估计区间的上、下限; • ③ 求出概率度t,F(t),对总体参数作区间估计。 ⑵ 给出概率保证程度F(t),求估计区间。
• ① 抽取样本,计算样本指标(样本平均数、样本方差、抽样平均误差); • ② 根据给定的F(t),查表求出t;
• ③ 求出抽样极限误差Δ和估计区间的上、下限,对总体参数作区间估计。 区间估计注意
• 首先确定被估计总体指标的种类,是平均数还是成数; • 其次取定抽样方法,是重置抽样还是不重置抽样;
• 然后再根据给定的样本资料和抽样条件(给定概率保证程度还是给定抽样极限误
差),确定计算步骤,进行计算。
3、影响必要抽样数目的因素
1)总体内部差异程度。越大则要求的必要必要抽样数目越多;
2)抽样极限误差。越小则必要抽样数目越多;3)概率保证程度。越大则必要抽样数目越多;4)抽样方法。不重复抽样比重复抽样所需的样本容量要多;
5)抽样组织形式。不同的抽样组织形式所需的样本容量不同。
4、确定样本容量应注意的问题
•
计算样本容量时,一般总体的方差与成数都是未知的,可用有关资料替代:
–一是用历史资料已有的方差与成数代替;
–二是在进行正式抽样调查前进行几次试验性调查,用试验中方差的最大值代替总体方差;–三是成数方差在完全缺乏资料的情况下,就用成数方差的最大值0.25代替。•
如果进行一次抽样调查,同时估计总体均值与成数,用上面的公式同时计算出两个样本容量,可取一个最大的结果,同时满足两方面的需要。
上面的公式计算结果如果带小数,这时样本容量不按四舍五入法则取整数,取比这个数大的最小整数代替。例如计算得到:n=56.03,那么,样本容量取57,而不是56。
•
抽样组织方式设计类型概念。
第五章 假设检验与方差分析。理解原假设、备择假设、两类错误、单侧检验、双侧检验、方差分析等概念。掌握总体方差已知或未知时正态总体的均值假设检验和总体比例的假设检验。重点是三种不同情况下的假设检验方法,总体方差已知时正态总体均值和总体比例的假设检验。难点是总体方差未知时正态总体均值的假设检验和方差分析。 假设检验的概念
假设(hypothesis),又称统计假设,是对总体参数的具体数值所作的陈述。
假设检验(hypothesis test) 是先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程。 (一)原假设与备择假设
原假设(null hypothesis),又称零假设,用 表示,是指研究者想收集证据予以反对的假设。
备择假设(alternative hypothesis),用 或 表示,是指研究者想收集证据予以支持的假设,它与原假设陈述的内容相反。
假设检验的三种形式
设0表示在原假设和备择假设中考虑的某一特定数值,表示总体的实际值。对总体的假设检验一定要采取下面的三种形式之一:H0:0H1:0⑴
H0:0
⑵
H1:0
H0:0⑶
H1:0
(二)拒绝域与检验统计量
拒绝域是指能够作出拒绝原假设这一结论的所有可能的样本取值范围。
检验统计量是根据样本数据计算出来的,并据以对原假设和备择假设作出决策的某种样本统计量。
(三)单侧检验与双侧检验
单侧检验是指检验统计量的取值位于其抽样分布的某一侧范围内时拒绝原假设,也就是说抽样分布的某一侧构成了拒绝域。双侧检验是指检验统计量的取值位于其抽样分布的任何一侧范围内时拒绝原假设,也就是说抽样分布的左右两侧共同构成了拒绝域。
二、假设检验中的两类错误**
第Ⅰ类错误/弃真错误(type Ⅰerror)
当原假设为真时拒绝原假设。犯第Ⅰ类错误的概率通常记为。
第Ⅱ类错误/取伪错误(type Ⅱerror)
当原假设为假时没有拒绝原假设。犯第Ⅱ类错误的概率通常记为。
在统计实践中,进行假设检验时一般先控制第Ⅰ类错误发生的概率,并确定犯第Ⅰ类错误的概率最大值,称为检验的显著性水平。显著性水平一般选择为0.05和0.01。
三、几种常见的假设检验 (一)假设检验的步骤 1.确定原假设和备择假设。 2.选择检验统计量。
3.确定检验的显著性水平 。
4.用显著性水平来确定拒绝原假设 的检验统计量的临界值、拒绝域。 5.根据样本数据,计算检验统计量的值。 6.⑴将统计量的值与临界值进行比较,并作出决策:若统计量的值落在拒绝域内,
拒绝原假设 ,否则不拒绝原假设 。
或⑵根据第5步的检验统计量的值计算 值。运用 值来确定是否拒绝。
(二)总体方差已知时正态总体均值的假设
检验
当总体方差已知,用正态分布来检验总体均值的假设值的情况如下:
⑴当样本数n30(大样本)时的任意分布总体(根据中心极限定理);
⑵当样本数n30(小样本)但是总体是正态分布的。
2
(四)总体比例的假设检验
总体比例又称总体成数,是指总体中具有某种相同特征的单位数所占的比例。一般用P
来表示总体比例,P0表示总体比例的某一特定假设值。总体中的某种特征可以是数值型的,如一定的重量、一定的长度或一定的规格等;也可以是品质型的,如男女性别、学历等级、城市农村等。
例:
区间估计与假设检验的关系
一、方差分析的内容
方差分析主要用来对多个总体均值是否相等作出假设检验。
例5:某饮料制造商生产一种新型饮料,共有四种颜色:(1)橘黄、(2)粉红、(3)绿色、(4)无色。
该制造商想知道颜色是否对销售量有显著影响,随机抽取了5家超市前一期的销售量(表4.1)进行分析。
二、方差分析的假设
1、相关术语
因素:是一个独立的变量,是方差分析的研究对象
(例5中的饮料颜色);水平:因素中的内容
(例5中饮料的四种颜色:无色、粉色、橘黄色、绿色)
单因素方差分析:只针对一个因素进行分析;多因素方差分析:同时针对多个因素进行分析。
2、进行方差分析必须满足如下假设
(1)每个总体的相应变量(因素)服从正态分布(2)所有总体相应变量(因素)的方差相等2(3)不同观察值(水平)相互独立(每个样本点的取值不影响其他样本点的取值)
第五节单因素方差分析与多因素方差分析
一、单因素方差分析(一)离差平方和的计算
方差分析需考察某因素的影响是否具有系统性,因此,需要将样本总体离差分解为两部分:(1)反映系统性影响(因素水平影响)的组间离差;
(2)反映随机性影响(其他随机因素影响)的组内离差。
统计学原理复习重点概述 本课程主要包括三部分知识。第一部分统计基础知识第一章和第二章数据收集部分。第二部分描述统计第二章统计数据整理部分(表格与图形法)、第三章数据分布特征的描述(静态数据描述法)和动态数据描述法,即第六章时间数列分析和第八章统计指数。第三部分推断统计第四章抽样估计和第五章假设检验与方差分析。
第一章 绪论。本章介绍统计学及相关概念,勾勒了本课程的框架结构——描述统计学和推断统计学。是统计的三层含义,总体、样本及指标等概念。 统计的三层含义及相互关系
统计学是一门关于数据的科学,是一门关于数据的收集、整理、分析、解释和推断的科学。
(一)统计工作(统计的基本含义)
即统计实践活动,是人们对客观事物的数据资料进行搜集、整理、分析的工作活动的总称。
(二)统计资料
是统计工作的成果,包括各种统计报表、统计图形及文字资料等。 (三)统计学
是一门收集、整理、描述、显示和分析统计数据的方法论的科学,其目的是探索事物的内在数量规律性,以达到对客观事物的科学认识。 (四)三者关系
统计学与统计实践活动的关系是理论与实践的关系,理论源于实践,理论又高于实践,反过来又指导实践 。统计工作和统计数据是工作和工作成果关系。 统计实践活动的产生与发展 三个主要的统计学派 1、政治算术学派
代表人物:英国的威廉·配第(1623-1687)、约翰·格朗特(1620-1674)等。 威廉·配第的代表著《政治算术》对当时的英、荷、法等国的― 国富和力量‖进行了数量的计算和比较;格朗特写出了第一本关于人口统计的著作。他们开创了从数量方面研究社会经济现象的先例。 可以说,威廉·配第是统计学的创始人。 2、记述学派(国势学派〕
代表人物:德国的康令(1606-1681)
阿亨瓦尔(1719-1772; 1764年首创统计学一词)
他们在大学中开设― 国势学‖课程,采用记述性材料,讲述国家― 显著事项‖,籍以说明管理国家的方法。特点是偏重于事物质的解释而忽视量的分析。 3、数理统计学派
代表人物:比利时的凯特勒(1796-1874)
他把古典概率论引进统计学,发展了概率论,推广了概率论在统计中的应用。 凯特勒把德国的国势学派、英国的政治算术学派和意大利、法国的古典概率论家以融合改造为近代意义的统计学。他是数理统计学派的奠定人。 代表著作:社会物理学 有的教材分类
古典统计学时期(17世纪中后期~18世纪中后期)
1.政治算术学派:代表人物威廉·配第(政治经济学之父),首次运用数量对比分析法,又称―有名无实‖的统计学。
2.记述学派/国势学派:―统计学是研究一国或多国的显著事项之学‖,以文字描述为主,又称―有实无名‖的统计学。
3.图表学派:用统计图和统计表表现和保存统计资料。 近代统计学时期(18世纪末~19世纪末) 1.数理统计学派:创始人阿道夫·凯特勒,第一次将概率论引入社会经济现象的研究中,被誉为―近代统计学之父‖。
2.社会统计学派:代表人物恩格尔,采用大量观察法研究社会经济现象总体。 现代统计学时期(20世纪初至今)
1.主要成果:在随机抽样基础上建立了推断统计学。 2.数理统计学的发展特点与趋势 (1)数学方法的广泛应用。 (2)边缘统计学的形成。
(3)借助计算机手段,统计学的应用日益广泛和深入。 统计学的分类
从统计方法的构成角度分:
1、描述统计学(descriptive statistics)
研究如何取得、整理和表现数据资料,进而通过综合、概括与分析反映客观现象的数量特征。包括数据的收集与整理、数据的显示方法、数据分布特征的描述与分析方法等。
2、推断统计学(inferential statistics)
研究如何根据样本数据去推断总体数量特征的方法。包括抽样估计、假设检验、方差分析及相关和回归分析等。 描述统计学和推断统计学的关系
描述统计学是统计学的基础和统计研究工作的前提,推断统计学则是现代统计学的核心和统计工作的关键。
从统计方法的研究和应用角度分: 1、理论统计学(theoretical statistics)
利用数学原理研究统计学的一般理论和方法的统计学,如概率论与数理统计 2、应用统计学(applied statistics)*
研究如何应用统计方法解决实际问题,大多是以数理统计为基础形成的边缘学科。如自然科学领域的生物统计学、社会科学领域的社会经济统计学等。 统计学与其他学科的关系 (一)统计学与数学的关系 1、区别
(1)研究对象不同:数学研究抽象的量, 统计研究具体的量。
(2)研究方法不同:数学是演绎,统计是归纳和演绎的结合。 2.、联系
数学为统计研究提供数学公式、模型和分析方法。 (二、)统计学与其他学科的关系 统计几乎与所有学科都有联系。统计方法可以帮助其他学科探索学科内的数量规律性,但对这种数量规律性的解释与进一步的研究,只能由各学科自已的研究完
成。
统计的研究对象、特点、作用 统计的研究对象 、特点:
社会经济统计,也可称为经济统计,其研究对象是社会经济现象总体的数量规律,即通过对(社会)经济现象的规模、水平、结构、比例和速度等数量关系的调查研究,说明国民经济和社会发展在一定时间、地点、条件下的数量表现及变化规律,其中涉及到数量的多少、现象间的数量关系以及质量互变的数量界限等。社会经济统计学研究的就是在一定的质的规定下具体的不是抽象的数量表现与变化规律。
社会经济统计的特点:
1、数量性: 统计研究对象是客观事物的数量方面。
2、总体性: 社会经济统计认识社会经济现象时,主要是研究社会经济现象的总体数量规律,即通过大量的观察,获得足够多的统计资料,说明、认知总体现象的变化情况及规律。
3、具体性: 社会经济统计的研究对象是具体事物的数量,不是抽象的量。它与数学研究的数量是不尽相同的。
4、社会性:社会经济统计认识的对象是社会经济现象,它包括人类经济社会活动的各种条件(自然条件、社会条件)、人类各种活动的过程与结果(生产活动、交换活动、分配活动、消费活动等)。
统计的职能:信息职能、咨询职能、监督职能。
统计学中几个基本概念 统计总体和总体单位
总体 即统计总体,是指客观存在的、在同一性质基础上结合起来的许多个别事物的整体。 例如:要研究全国城镇居民的收支情况,就以全国城镇居民作为一个总体。 特点:
同质性 是确定总体的前提和基础。它是根据统计的研究目的而定的。 研究目的不同,则所确定的总体也不同,其同质性的意义也随之变化。例如,研究城镇居民贫困户的生活状况,那么,贫困线下的城镇居民户则构成了统计总体,贫困线下的城镇居民户是同质的,而贫困线上的城镇居民户是非同质的。
大量性 统计总体应该由足够数量的同质性单位构成。实现统计研究目的的必要条件
差异性 构成总体的各个同质性单位的特征存在着差异。它是统计研究的前提和内容。
总体单位(简称单位)是组成总体的各个个体。根据研究目的的不同,单位可以是人、物、机构等实物单位,也可以是一种现象或活动等非实物单位。
总体和单位的概念是相对而言的,随研究目的不同,总体范围不同而变化。同一研究对象,在一种情况下为总体,但在另一情况下又可能变成单位。 根据总体所包含的单位数量,总体可以分为有限总体和无限总体两类。有限总体是由有限量的单位构成的总体。当总体单位数难以确定,其数量可能是无限时,便构成无限总体。
样本 由总体的部分单位组成的集合称为样本(又称子样)。 当总体单位数量很多甚至无限时,不必要或不可能对构成总体的所有单位都进行调查。这时,需要采用一定的方式,从由作为研究对象的事物全体构成的总体(又称全及总体、母体)中,抽取一部分单位,作为总体的代表加以研究。 样本也由一定数量的单位构成的,符合总体的概念;由样本单位组成的总体称为抽样总体,样本所包含的总体单位数称为样本容量。 标志和变量
总体各单位普遍具有的属性或特征称为标志。 标志分类:
品质标志:品质属性方面的特征,只能用文字、符号或数字代码来表现 。 数量标志:数量方面的特征,用数值来表现。
不变标志: 一个总体中各单位某标志的具体表现都相同,称之为不变标志。不变标志是总体同质性的基础。 一个总体至少要有一个不变标志,才能够使各单 位结合成一个总体。 变异标志:亦称可变标志,在一个总体中,当一个标志在各单位的具体表现有可能不同时,这个标志便称为可变标志。作为总体,同时必须存在变异标志,这表示所研究的现象在各单位之间存在着差异,才需要进行统计研究。
统计指标
统计指标是反映统计总体数量特征的概念和数值。如2002年我国国内生产总值104790.6亿元。
– 统计指标由两项基本要素构成,即指标的概念(名称)和指标的取
值。
– 指标的概念(名称)是对所研究现象本质的抽象概括,也是对总体
数量特征的质的规定性。确定统计指标必须有一定的理论依据,使之与社会经济或科学技术的范畴相吻合。同时,又必须对理论范畴和计算口径加以具体化。
– 指标的数值反映所研究现象在具体时间、地点、条件下的规模和水
平。在观察指标数值时,必须了解其具体的时间状态、空间范围、计量单位、计量方法等限定,同时注意由于上述条件的变化而引起数值的可比性问题。
特性:数量性、具体性、综合性 指标与标志的关系
– 标志反映总体单位的属性和特征,而指标则反映总体的数量特征。
标志和指标的关系是个别和整体的关系。需要通过对各单位标志的具体表现进行汇总和计算才能得到相应的指标。 – 总体和单位的概念会随着研究目的不同而变化,因此指标与标志的
概念也是相对而言的。例如,所要研究的是全国工业企业的情况,则各企业的职工人数、固定资产、工业增加值等都是总体单位(即各个企业)的标志,如果研究目的变成研究某一企业的职工状况,则该企业变成一个总体,企业职工人数变成了统计指标,每个职工的文化程度、技术等级、性别等就成为标志。
统计数据
(一)变量与变量值
说明现象的某一数量特征的概念也被称为变量,变量的具体取值是变量值,统计数据就是统计变量的具体表现。
例如,固定资产是一个变量,各企业固定资产的具体数值是变量值。 为了区别,在本书中,凡是变量均用大写的英文字母表示,而变量值则用小写英文字母表示。 连续型变量是指变量的取值在数轴上连续不断,无法一一列举,即在一个区间内可以取任意实数值。
例如,气象上的温度、湿度,零件的尺寸等。
离散型变量是指变量的其取值是整数值,可以一一列举。 例如,企业数,职工人数等。
确定性变量是受确定性因素影响的变量,即影响变量值变化的因素是明确的,是可解释和可控制的。
随机变量则是受许多微小的不确定因素(又称随机因素)影响的变量。变量的取值无法事先确定。
社会经济现象既有确定性变量也有随机变量。统计学所研究的主要是随机变量。 (二)数据的计量尺度
统计数据是总体单位标志或统计指标的具体数量表现。 根据对研究对象计量的不同精确程度,人们将计量尺度由低到高、由粗略到精确分为四个层次:定类尺度、定序尺度、定距尺度和定比尺度。 (三)数据的类型
横截面数据又称为静态数据,它是指在同一时间对同一总体内不同单位的数量进行观察而获得的数据。
时间序列数据又称为动态数据,它是指在不同时间对同一总体的数量表现进行观察而获得的数据。
例如,2005年全国各省市自治区的国内生产总值就属于横截面数据。而―十五‖期间我国历年的国内生产总值就属于时间序列数据。 (四)数据的表现形式
绝对数。现象的规模、水平一般以绝对数形式表现。绝对数的计量单位一般为实物单位或价值单位,有时也采用复合单位。实物单位可以是自然计量单位,也可以是物理计量单位,如人口数用人计量,机器数用台计量,对于一些化工产品和燃料,常常还折合成标准实物单位计量。复合计量单位是由两种或两种以上计量单位复合而成的,如以―吨公里‖为货物周转量的计量单位,以―千瓦时‖为用电量的计量单位。
相对数。相对数由2个互相联系的数值对比求得。常用的相对数包括:结构相对数、动态相对数、比较相对数、强度相对数、利用程度相对数、计划完成相对数等。
平均数。平均数反映现象总体的一般水平或分布的集中趋势。关于这部分的内容,将在第三章作详细介绍。
第二章统计数据的收集与整理。本章介绍统计数据的搜集及整理。重点在于统计调查方式和统计数据整理(分组)。 统计调查方式: 1、普查:
为某一特定目的而专门组织的一次性全面调查 如:人口普查、工业普查等 ●特点:
(1)通常是周期性的或一次性的,涉及面广、耗时、费力,一般需间隔较长时间;
(2)一般需要规定统一的标准调查时间,以避免调查数据的重复或遗漏; (3)准确性一般较高,较规范;
(4)适用的对象较窄,只能调查一些最基本、最一般的现象。 2、抽样调查:
从调查对象的总体中随机抽取一部分单位作为样本进行调查,并根据样本调查
结果推断总体数量特征。 ●特点:
(1)经济性强:工作量小、可节省人、财、物力 (2)时效性高:可迅速、及时地获得所需要的信息
(3)适应面广:可获得更广泛的信息,适用于各个领域、各种问题的调查; (4)准确性高:用工量小,从而工作可做得更细,误差往往很小。 3、统计报表
按国家有关法规规定,自上而下地统一布置,自下而上地逐级提供基本统计数据。
●特点:
统一的表式、统一的指标、统一的报送时间、统一的报送程序。 ●类型:
(1)按报送调查范围分:
全面报表:调查对象中的每一个单位都填报
非全面报表:只要求调查对象中的一部分单位填报 (2)按报送时间间隔分
日报、月报、季报、年报 (3)按报送地域(机构)范围分: 国家报表、地方报表、部门报表 4、重点调查
从调查对象的全部单位中选择少数重点单位进行调查(适用于“同类”中的“大户”)。
5、典型调查
从调查对象的全部单位中选择一个或几个有代表性的单位进行调查。(不一定针对“大户”) ▼注意:
1、抽样调查是随机抽取调查单位,不存在对调查对象选择的主观性,因此可以根据抽样结果推断总体的数量特征;
2、重点调查和典型调查不是随机取样,具有一定的主观性,因此调查结果不能推断总体。 数据的搜集方法
1、访问调查(派员调查):调查者与被调查者通过面对面的交谈获取调查资料; 2、邮寄调查:通过邮寄或其他方式将问卷送至被调查者,由被调查者填写问卷并寄回或投放到指定收集点;
3、电话调查:调查者利用电话同受访者进行语言交流以获取信息; 4、座谈会(集体访谈):将受访者集中在调查现场,使其对调查主题发表意见以获取调查资料;
5、个别深度访问:一次只有一名受访者参加的特殊的定性研究。
统计数据的整理(summarizing data)是指对所搜集的数据进行加工整理、使之系统化、条理化,以符合分析的需要。 统计数据的整理通常包括: 数据的预处理 分类或分组
汇总 数据分组与频数分布
统计分组是将预处理过的数据按照某种特征或标准分成不同的组别。
◎统计分组标志:分组时所依据的特征或标准,有品质标志和数量标志。
◎频数分布表:对分组后的数据,计算各组中数据出现的次数或频数所形成的汇总表。 概念:频数/次数分布;相对频数;百分数频数
◎ 频数分布或次数分布(Frequency distribution):全部数据按其分组标志在各组内的分布状况。
分布在各组内的数据个数称为频数或次数。
A frequency distribution is a tabular summary of a set of data showing the frequency (or number) of items in each of several nonoverlapping classes.
◎相对频数(Relative frequency)/频率/比重:各组频数与全部频数之和的比重。 The relative frequency of a class is the proportion of the total number of data items belonging to the class.(=Frequency of the class/n)
◎百分数频数(Percentage frequency):is the relative frequency multiplied by 100.
数值数据的分组与频数分布 分组计频基本步骤:
确定组数 确定组距(按组)整理成分布频数表
第一步,确定组数(Number of classes)。组数的确定一般视数据本身的特点及数据的多少而定
经验上以5~20之间为好,尤其注意不要确定太多的组数,使得每组包含的数据太少。
实际分组时常按斯特格斯(Sturges)提出的经验公式来确定组数K:
第二步,确定组距(Width of classes):组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定: 组距=(最大值 - 最小值)/组数
第三步,确定各组组限(Class limits)并据此整理频数分布表。 1、分组所遵循的主要原则是“不重不漏”(each data value belongs to one class and only one class)。因此,
最低组限(The lower class limit) 数据的最小值, 最大组限(The upper class limit) 数据的最大值;
另外,数据在每组中的归属习惯上采用“上组限不在内”。 2、对离散型数据,可采用相邻两组组限间断的办法解决“不重”的问题(如6~10,11~15,16~20等); 3、对连续型数据,往往采用相邻两组组限重叠,根据“上限不在内原则”解决“不重”问题(如[5,10),[10,15),[15,20)等)。 注意:
1
、在最大值与最小值与其他数据相差悬殊时,为避免空白组出现,第一
组和最后一组可采用―XX以下‖及―XX以上‖这样的开口组;
2、在组距分组时,如果各组组距相等则称为等距分组,否则为不等距分组。 不等距分组各组的频数受组距大小不同的影响,因此需要计算频数密度(=频数/组距),才能准确反映频数分布的实际;
3、有时为了统计需要,需进一步计算累积频数(某数值以上或以下的频之数和)。
统计分组的概念、原则、则和方法统计表(补充讲义14页word文档)。
分配数列/次数分布数列
由两个要素构成,一是组别,二是各组次数或频率。根据需要,可以编制简单次数分布表和累计次数分布表。 次数分布
主要有钟形分布、U形分布和J形分布。 统计表和统计图
统计表和统计图是显示统计数据的两种重要形式。统计表的结构从形式看可分为总标题、横表目、纵标目和指标数值;从内容上看可分为主词和宾词两部分。统计图主要有条形图、直方图、圆形图等。
第三章、数据分布特征的描述。本章主要介绍数据的集中趋势和离散趋势。重点是各种平均指标及离散指标概念、计算方法和适用条件。
统计学中刻划数据分布特征的最主要的代表有二:数据分布的集中趋势与数据分布的离散程度。
集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势就是寻找数据一般水平的代表值或中心值。
均值(Mean) 均值就是一组数据的平均值(average value),用来测度中心位置(central location)。
1、算术平均数
简单算术平均数 加权算术平均
加权算术平均往往适用于对分组后的数据求均值,这时Xi为各组变量代表值(往往取组中值),Fi 为各组变量值出现的频数。 算术均值具有如下性质:
(1)各变量值与其均值的离差和为零: (2)各变量值与其均值的离差平方和最小:
(3)对被平均的变量实施某种线性变换后,新变量的算术平均数等于对原变量的算术平均数实施同样的线性变换的结果。
(4)对于任意两个变量x和y
,它们的代数和的算术平均数等于两个变量的算术平均数的
代数和。
均值容易受到统计数据中个别极端数据的影响,从而使均值代表某组统计数据的“平均水平”时失去意义,这时往往用“剔除极端值”的方法加以修正。 2、几何平均数
(1)几何平均数是N个变量值乘积的N次方根 (2)加权几何平均数
几何平均数的对数是各变量值对数的算术平均。 几何平均主要用于计算比率或速度的平均 几何平均数的应用及特点 :
我国国内生产总值2001年、2002年、2003年的环比发展速度分别是107.5%,108.3%,109.3%,则各年的平均发展速度是
G.0751.0831.0931.084108.4%
某人有一笔款项存入银行10年,前2年的年利率为6%,第3至5年的年利率是5%,后5年的年利率3%,如果按复利计算,这笔款项的平均年利率为多少?
G.0621.0531.0351.0421.04210.0424.2%
这笔款项的平均年利率为4.2%。 ①应用条件
a.变量值是相对数据,如比率或发展速度。 b.变量值的连乘积等于总比率或总发展速度。 ②特点
a.如果数列中有一个标志值等于零或负值,则无法计算。 b.受极端值影响较小,故较稳健。
(3)调和平均数,是各数据倒数的(简单)算术平均数的倒数: 价格=金额/购买量
由相对数和平均数计算平均数
根据相对数和平均数计算平均数时,如何正确选择和应用算术平均数与调和平均数,
在缺少被平均标志x的分子资料时,要采用算术平均数,即“缺分子,用算术”
。如上述平均计划完成程度,其分子是实际利润额,分母是计划利润额,当已知各企业的利润计划完成程度和计划利润额时(缺少实际利润额),则采用算术平均数。
xf85500951600105800
96.03% f5001600800
在缺少被平均标志的分母资料时,要采用调和平均数,即“缺分母,用调和。”如例4.6中,
当已知各企业的利润计划完成程度和实际利润额时(缺少计划利润额资料),则采用调和平均数。
中位数(Median)
中位数是一组数据按大小排序后,处于中间位置上的变量值。 1、 对于未分组数据:
(1)如果数据个数为奇数,则中位数恰为处于中间位置的数: MeXN1
2
(2)如果数据个数为偶数,则为中间位置两个数的平均数
(2)单项数列的中位数
计算各组的累计频数(向上累计或向下累计);根据中位数位置确定中位数。
对于分组后的数据
下限公式:
f
Sm1
MeLd
fm
上限公式:
f
Sm1
MeUd
fm
式中:m为中位数所在的组,d为该组组距,
L、U分别为该组的下限值与上限值, fm为该组的频数,
Sm-1 为该组以下各组的频数总和, Sm+1为该组以上各组的频数总和, 显然 Sm1fmSm1f
众数(Mode)
众数是一组数据中出现次数最多的变量值。 在分组数据中,众数可按下式计算: 下限公式:
上限公式:
式中: fm为某数值出现次数(频数)最多的组(第m组)的频数, fm-1与fm+1分别为第m-1组与m+1组的频数,
L、U分别为第m组的下限与上限值,d为该组组距。
1
MeXNXN
1222
1、如果某组统计数据中没有哪个数值出现较多的频率(次数),则可认为该组数无众数;如果有多个数据出现的次数(频率)较多,则认为有多个众数。 在有多个众数的情况下,则对众数的关注度下降,因为多众数对描述数据位置无多大帮助。
2、对描述品质数据的分布特征的―位置‖测度只能用众数。 中位数、众数与算术平均数的关系
• 众数、中位数和均值都是对数据集中趋势的测度,
1、均值由全部数据计算,包含了全部数据的信息,具有良好的数学性质,当数据接近对称分布时,具有较好的代表性;但对于偏态分布,其代表性较差。
2、中位数是一组数据中间位置上的代表值,不受数据极端值的影响,对于偏态分布的数据,其代表性要比均值好。
3、众数是一组数据分布的峰值,是一种位置的代表,当数据的分布具有明显的集中趋势时,尤其对于偏态分布,众数的代表性比均值好。
4、对接近正态的分布数据,常用均值描述数据的集中趋势;对偏态分布,常用众数或中位数描述数据的集中趋势。
5、均值只适用于定距或定比尺度的数据;定序尺度数据可用中位数或众数进行描述,而对定类尺度数据,只能用众数进行描述。
分布离散程度的测度
对数据分布特征的另一个测度指标是数据分布离散程度。 它反映各数据远离其中心值的程度,因此,也称离中趋势。 集中趋势反映的是各变量值向其中心值聚集的程度, 离中趋势反映各变量值之间的差异状况。 注意:
数据的离散水平。
数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差。 极差(Range)
极差是最简单的测度离中趋势(分散程度)的指标,也称全距,是一组数据最大值与最小值之差:
Range=Largest Value - Smallest Value 对于组距分组数据,极差可近似地表示为: R=最高组上限 - 最低组下限 ▲注意:
1、极差易受极端值的影响;
2、由于极差只利用了数据两端的信息,没有反映中间数据的分散状况,因而不能准确描述数据的分散程度。 方差(Variance)
方差是各变量值与其均值离差(deviation about the mean)平方的平均数。 总体方差(Population Variance) 总体方差用2表示
其中:Fi为第i组数据的频数Xi为第i个数(未分组)或第i 组组中值(分组) 样本方差(Sample Variance) 样本方差用S2表示
其中:fi为第i组数据的频数xi为第i个数(未分组)或第i 组组中值(分组) 标准差:方差的平方根(正)。
1、由于方差计算中使用了平方运算,因此方差的单位也是平方,如上述班级规模例中方差为64(学生)2,其具体意义不明确。因此方差只有在比较不同组数据的离散程度时才有数量大小上的意义。
2、标准差是对方差的开方运算,因此,其单位与原始数据的单位一致,它与均值及其他用同一单位测度的数据相比较也容易一些。
(标准差就是指数据“离散程度的测度值”距“均值”的距离)。 离散系数(Coefficient of Variation)
离散系数:一组数据标准差与其均值的比,也称为标准差系数,是测度数据离散程度的相对指标:
四、离散系数
(Coefficient of Variation)
离散系数:一组数据标准差与其均值的比,也称为标准差系数,是测度数据离散程度的相对指标:
例:五个班级规模的例中,
若视为总体,离散系数为:7.15/44=0.16,若视为样本,则离散系数为:8/44=0.182。
1、对不同组数据,其离散程度既受其数据本身的水平的影响,也受数据计量单位的影响,因此对不同(性质)组别的数据,不好用离差或标准差来比较它们的离散程度;
2、由于离散系数消除了来自这两方面的影响,因此可以用它进行不同数据组的比较。
分布偏态与峰度的测度
偏态(Skewness)和峰度(Kurtosis)是对数据分布特征的进一步描述。
平均数与标准差相同的数据组,其频数分配(分布)也可能不同,如果频数分布是对称的,则称为对称分布,否则为偏态分布。 偏态及其测度
测定偏态的方法主要有两种: (1)算术平均数与众数比较法, (2)动差法。
算术平均数与众数比较法
完全对称分布:算术平均数、中位数、众数重合 非对称分布:三者相互分离,
算术平均数
可用算术平均数与众数之间的距离作为测度偏态的一个尺度: 偏态 = 算术平均数 - 众数
这是偏态的绝对数,它以原有数据的单位为单位。
峰度及其测度
峰度是频数分布的另一重要特点。
其测度的是: 或平的程度如何。
峰度就是频数分布曲线顶端的尖峭程度。
峰度的测度,往往以中心4阶动差为基础进行;
第四章抽样估计。本章主要介绍了抽样估计的基本概念及抽样估计。点估计和区间估计。其中区间估计是主要方法。应理解置信区间、置信度、显著性水平的含义,领会区间估计精确度和可靠度之间的关系,重点掌握总体均值和总体比例的区间估计方法、样本容量的确定方法。
一般所讲的抽样调查,即指狭义的抽样调查(随机抽样):按照随机原则从总体中抽取一部分单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体作出数量上的推断分析。
抽样估计的特点
按随机原则抽取样本单位 目的是推断总体的数量特征
抽样推断的结果具有一定的可靠程度,抽样误差可以事先计算并控制
抽样推断中的基本概念 全及总体和样本
1.全及总体:是由被调查对象的全部单位所构成的集合体,简称总体。 总体容量:总体中的单位数,用N表示。
2.样本:样本是从总体中抽取的进行调查的部分单位的集合体,又称抽样总体。 样本容量:样本中的单位数,用n表示。
大样本和小样本:n≥30时称大样本,n<30称小样本。
**应用:在班级40名学生中随机选取15人进行健康状况调查,说明其中的总体、样本及容量。 概率抽样与非概率抽样
1.概率抽样:又称随机抽样,是按随机原则抽取样本单位。本章所指的均为概率抽样。 2.非概率抽样:又称非随机抽样,是指从研究的目的和需要出发,根据调查者的经验或判断,从总体中有意识地抽取部分单位构成样本。
**应用举例:重点调查、典型调查应为非概率抽样。
重复抽样和不重复抽样
1.重复抽样:又称有放回的抽样,从总体中抽取样本时,每次被抽中的单位都再被放回总体中参与下一次抽样。
2.不重复抽样:又称无放回的抽样,总体中随机抽选的单位经观察后不放回到总体中,即不再参加下次抽样。
总体参数和样本统计量
1.总体参数:是反映总体数量特征的数值。在抽样推断
中,参数是未知的、待估计的确定值。
2.样本统计量:是根据样本资料计算的反映样本数量特征的变量,它的值随着样本的不同而变化,因此是一个随机变量。
抽样误差的概念及其影响程度
第三节抽样平均误差
一、抽样误差的概念及其影响程度
在统计调查中,调查资料与实际情况不一致,两者的偏离称为统计误差。
登记误差
系统性误差
统计误差
代表性误差随机误差实际误差
抽样平均误差
抽样误差即指随机误差,这种误差是抽样调查固有的误差,是无法避免的。
四、影响抽样误差大小的因素
•抽样平均误差受以下几方面的因素影响:
•总体各单位的差异程度(即标准差的大小):越大,抽样误差越大;
•样本单位数的多少:越大,抽样误差越小;•抽样方法:不重复抽样的抽样误差比重复抽样的抽样误差小;
•抽样组织方式:简单随机抽样的误差最大。
简单随机抽样的抽样平均误差
只要在样本代表性大,且对全及指标精确性要求不高的情况下,可采用点估计法。如能满足下列三个准则:
无偏性一致性有效性就会得到合理的估计
(二)区间估计
是根据样本指标和抽样误差去推断
全及指标的可能范围,它能说清楚估计的准确程度和把握程度。
根据中心极限定理,得知当n足够大时,抽样总体为正态分布,根据正态分布规律可知,样本指标是以一定的概率落在某一特定的区间内,统计上把这个给定的区间叫抽样极限误差,也称臵信区间,即在概率F(t)的保证下:
抽样极限误差△=tμ,(t为概率度)可见,抽样极限误差,即扩大或缩小了以后的抽样误差范围。
区间估计的步骤
区间估计根据给定的条件不同,有两种估计方法:
• ⑴ 给出允许误差(Δ),求概率保证程度F(t)。 • ⑵ 给出概率保证程度F(t),求估计区间。 ⑴ 给出Δ,求F(t)
• ① 抽取样本,计算样本指标(样本平均数、样本方差、抽样平均误差); • ② 根据给定的抽样误差——允许误差Δ计算估计区间的上、下限; • ③ 求出概率度t,F(t),对总体参数作区间估计。 ⑵ 给出概率保证程度F(t),求估计区间。
• ① 抽取样本,计算样本指标(样本平均数、样本方差、抽样平均误差); • ② 根据给定的F(t),查表求出t;
• ③ 求出抽样极限误差Δ和估计区间的上、下限,对总体参数作区间估计。 区间估计注意
• 首先确定被估计总体指标的种类,是平均数还是成数; • 其次取定抽样方法,是重置抽样还是不重置抽样;
• 然后再根据给定的样本资料和抽样条件(给定概率保证程度还是给定抽样极限误
差),确定计算步骤,进行计算。
3、影响必要抽样数目的因素
1)总体内部差异程度。越大则要求的必要必要抽样数目越多;
2)抽样极限误差。越小则必要抽样数目越多;3)概率保证程度。越大则必要抽样数目越多;4)抽样方法。不重复抽样比重复抽样所需的样本容量要多;
5)抽样组织形式。不同的抽样组织形式所需的样本容量不同。
4、确定样本容量应注意的问题
•
计算样本容量时,一般总体的方差与成数都是未知的,可用有关资料替代:
–一是用历史资料已有的方差与成数代替;
–二是在进行正式抽样调查前进行几次试验性调查,用试验中方差的最大值代替总体方差;–三是成数方差在完全缺乏资料的情况下,就用成数方差的最大值0.25代替。•
如果进行一次抽样调查,同时估计总体均值与成数,用上面的公式同时计算出两个样本容量,可取一个最大的结果,同时满足两方面的需要。
上面的公式计算结果如果带小数,这时样本容量不按四舍五入法则取整数,取比这个数大的最小整数代替。例如计算得到:n=56.03,那么,样本容量取57,而不是56。
•
抽样组织方式设计类型概念。
第五章 假设检验与方差分析。理解原假设、备择假设、两类错误、单侧检验、双侧检验、方差分析等概念。掌握总体方差已知或未知时正态总体的均值假设检验和总体比例的假设检验。重点是三种不同情况下的假设检验方法,总体方差已知时正态总体均值和总体比例的假设检验。难点是总体方差未知时正态总体均值的假设检验和方差分析。 假设检验的概念
假设(hypothesis),又称统计假设,是对总体参数的具体数值所作的陈述。
假设检验(hypothesis test) 是先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程。 (一)原假设与备择假设
原假设(null hypothesis),又称零假设,用 表示,是指研究者想收集证据予以反对的假设。
备择假设(alternative hypothesis),用 或 表示,是指研究者想收集证据予以支持的假设,它与原假设陈述的内容相反。
假设检验的三种形式
设0表示在原假设和备择假设中考虑的某一特定数值,表示总体的实际值。对总体的假设检验一定要采取下面的三种形式之一:H0:0H1:0⑴
H0:0
⑵
H1:0
H0:0⑶
H1:0
(二)拒绝域与检验统计量
拒绝域是指能够作出拒绝原假设这一结论的所有可能的样本取值范围。
检验统计量是根据样本数据计算出来的,并据以对原假设和备择假设作出决策的某种样本统计量。
(三)单侧检验与双侧检验
单侧检验是指检验统计量的取值位于其抽样分布的某一侧范围内时拒绝原假设,也就是说抽样分布的某一侧构成了拒绝域。双侧检验是指检验统计量的取值位于其抽样分布的任何一侧范围内时拒绝原假设,也就是说抽样分布的左右两侧共同构成了拒绝域。
二、假设检验中的两类错误**
第Ⅰ类错误/弃真错误(type Ⅰerror)
当原假设为真时拒绝原假设。犯第Ⅰ类错误的概率通常记为。
第Ⅱ类错误/取伪错误(type Ⅱerror)
当原假设为假时没有拒绝原假设。犯第Ⅱ类错误的概率通常记为。
在统计实践中,进行假设检验时一般先控制第Ⅰ类错误发生的概率,并确定犯第Ⅰ类错误的概率最大值,称为检验的显著性水平。显著性水平一般选择为0.05和0.01。
三、几种常见的假设检验 (一)假设检验的步骤 1.确定原假设和备择假设。 2.选择检验统计量。
3.确定检验的显著性水平 。
4.用显著性水平来确定拒绝原假设 的检验统计量的临界值、拒绝域。 5.根据样本数据,计算检验统计量的值。 6.⑴将统计量的值与临界值进行比较,并作出决策:若统计量的值落在拒绝域内,
拒绝原假设 ,否则不拒绝原假设 。
或⑵根据第5步的检验统计量的值计算 值。运用 值来确定是否拒绝。
(二)总体方差已知时正态总体均值的假设
检验
当总体方差已知,用正态分布来检验总体均值的假设值的情况如下:
⑴当样本数n30(大样本)时的任意分布总体(根据中心极限定理);
⑵当样本数n30(小样本)但是总体是正态分布的。
2
(四)总体比例的假设检验
总体比例又称总体成数,是指总体中具有某种相同特征的单位数所占的比例。一般用P
来表示总体比例,P0表示总体比例的某一特定假设值。总体中的某种特征可以是数值型的,如一定的重量、一定的长度或一定的规格等;也可以是品质型的,如男女性别、学历等级、城市农村等。
例:
区间估计与假设检验的关系
一、方差分析的内容
方差分析主要用来对多个总体均值是否相等作出假设检验。
例5:某饮料制造商生产一种新型饮料,共有四种颜色:(1)橘黄、(2)粉红、(3)绿色、(4)无色。
该制造商想知道颜色是否对销售量有显著影响,随机抽取了5家超市前一期的销售量(表4.1)进行分析。
二、方差分析的假设
1、相关术语
因素:是一个独立的变量,是方差分析的研究对象
(例5中的饮料颜色);水平:因素中的内容
(例5中饮料的四种颜色:无色、粉色、橘黄色、绿色)
单因素方差分析:只针对一个因素进行分析;多因素方差分析:同时针对多个因素进行分析。
2、进行方差分析必须满足如下假设
(1)每个总体的相应变量(因素)服从正态分布(2)所有总体相应变量(因素)的方差相等2(3)不同观察值(水平)相互独立(每个样本点的取值不影响其他样本点的取值)
第五节单因素方差分析与多因素方差分析
一、单因素方差分析(一)离差平方和的计算
方差分析需考察某因素的影响是否具有系统性,因此,需要将样本总体离差分解为两部分:(1)反映系统性影响(因素水平影响)的组间离差;
(2)反映随机性影响(其他随机因素影响)的组内离差。