非参数统计论文
题目姓名班级学号
非参数统计的运用
梁增聪
107010202
11
非参数统计的应用
摘要:本文主论述了非参数估计的符合检验、秩检验的理解与运用,以及游程
检验在人口估计中的运用。
关键字:符号检验 游程检验 非参数估计
引言:非参数统计作为数理统计学的分支,是解决很多不知道数据分布的问题
的主要方法,通过运用非参数方法可以对事物起建立统计模型和数学描述。
1、非参数估计的理解
对计量资料进行统计分析,常对计量资料进行统计分析,常用用方法有两类——参数统计和非参数统计。t 检验、方差分析和直线相关回归分析都属于参数统计方法。参数统计方法要求的前提条件是,资料应服从或近似服从正态分布, t 检验、方差分析还要求方差具有齐性。当前提条件不满足时,就不应选用参数统计方法。符号检验、秩和检验属于非参数统计方法。非参数统计方法对资料不要求必须是正态分布,也不要求方差必须具有齐性。当对资料的分布情况及方差情况不清楚或没把握,或者经过检验不满足正态分布或方差齐性的要求时,就应当选用非参数统计方法对资料进行统计分析。
1.1、非参数估计
非参数检验又称分布自由检验.主要是不受总体分布的限制,不假定总体分布的具体形式,尽量从数据或样本本身获得所需要的信息,通过估计二而获得分布的结构,并逐步建立对事物的数学描述和统计模型的方法称为非参数估计。
1.2非参数估计方法
非参数检验不仅对资料分布没有特殊要求,除了用连续数量表示的的资料外,它还可以对样本数据的符号、等级程度、大小顺序等进行比较,加上方法简便,易于掌握,不要求复杂的计算工具,还可查表判断,能处理一些参数法处理不了的问题, 因而应用更广泛,值得学习和推广。常用的非参数统计方法有: 符号检验、秩和检验、秩检验、等级相关检验以及Ridit 分析等。
符号检验又称优势检验 它既可用于单组,也可用于成对数据, 还可用于两组及多组数据的比较。成对数据检验时, 不得少于6对, 以2O 对以上效果较好。符号检验通过一定的规则规定正号和负号的定义,对不能区分上升或下降,即无
变化者记作“0”,运用公式出结论。
来比较各组的优势,得
秩检验(Rank test)用于多组数据的比较,亦有称多组秩和检验.与秩和检验一样,也要对原始数据进行统一编秩。求出备组秩和, 再以各组秩和的平方与例教的比值求得的总和来计算H 值(或z})'其检验假设是各总体的分布相同.完全随机设计资料的比较对单周多组完全随机设计的数据采用的秩检验又称H 检验。当组数K >为3, 每组例散n 1 n2 n3均3,且每组例数均>5时,H 分布近似χ2分布. 以γ=K-1查 χ2
值表判断结果。
式中T 为各组秩和n 为组号) ,n
为各组倒数,n 为总倒数。报据总n 及n 1 n 2 n 3及计算的H 查表, 当H(计算的)0.05; H0.05 H0.01, ,p
通过公式可以求得r 的值从而得出R 与
S 之间的相关性。当r>0时表示RS 正相关,r
1.3非参数估计的优点
可以减少模型偏差。传统参数方法依赖于对总体分布的假定,然而现实总体往往并不满足假定的分布形式,这就导致模型与现实相背离,产生模型偏差。而非参数方法完全从数据本身获得所需的信息,无需对总体分布强加假定条件,可以选择与数据最为匹配的模型,从而正了传统参数方法可能导致的模型偏差。具有稳健性。
适用范围广。从数据角度看, 非参数方法不仅像参数方法一样可用于处理定距、定比数据, 还可用于定类、定序数据。而定类、定序数据在社会科学领域大量存在, 故其应用范围更广。从模型角度看, 因非参数方法假定条件较少,
也无需检验总体的参数,故其模型适应范围更广, 在此具有广泛意义的模型基础上得出的结论也具有普遍意义。
简单易操作。非参数统计的基本思想是:在总体分布未知的情况下,根据与原来总体分布无关的秩及其统计量的分布进行统计推断。可见非参数方法的核心是秩, 即数据点从小至大的排列次序, 其含义直观, 易于理解。因此,以之为基础构建的整个非参数统计体系也具有简单易操作的优势。 2、非参数统计应用
2.1、非参数在人口控制中的应用
非参数统计作为数理统计中较为独立的分支,由于具有不受样本分布形式的限制、应用范围广、发生模型错误的可能性较小、有较大的稳定性等特点,尤其是与我国人口量度发展过程特点相适应,提高了对人口政策实施评价的科学性 系统性和准确性。
2.1.1人口自然增长率的置信区间预测和目标拉验 (1)人口自然增长率的置信区间预测
若随机变量的观察值 x1,x 2„x n ,来自连续分布,且随随机变量观察值y 1
(1)抽取一个样本,并确
定了其次序统计量,(νi ,y i ) 就是未知分布的分位数的置信区间,并可计算置信系数r 。
我国人口自然增长率
当(1)式中,p=0.5时,分位数则为中位数。中位数y 0.5=
( y1+y12)= 2
1
(10.81+14.55)=12.68(%0) (1
)式变为:2
(2)
根据国家统计局公报,1990年末, 全国总人口为114333万人。以此为基数,各种方案的预测结果如表3所示。表3表明,若我国人口控制政策保持1978-1989年水平.则:1) 到1995年底,我国人口总量将突破J2亿。到本世纪末,人口总量突破1 3亿的可能性存在:2) 我国人口自然增长率的中位数为12.68%0。预计到1995年底人口总量将达121768万人,到2000年年初人13总量将达128062万人.
(2) 目标检验
十二大我国制定的人口日标是本世纪末将人口总量控制于12亿以内,尽管我国人口控制政策实施绩效举世瞩目,然由于主客观原因, 发展趋势表明该目标较难宴现 《纲要》明确指出:我国人口控制的政策目标为今后五年和十年之内,人口自然增长率控制于12 50‟ 以内。本部分将根据1978~1989年已发生历史绩效, 通过Willcoxon 检验技术,对该目标进行检验。
Willcoxon 检验基于以下两个假设:l )总体的分布是连续的:2)总体对其中位数是对称的。设y i =|xi -π0| i=1,2….n 其中x i 为观察值,π0为目标值,y i 为绝对偏差量。
以y i 按递增次序得秩次R i ,再令x i -π0>0为正秩次,x i -π0
i=1n
1978-1989年我国人口自然增长率样本显然符合Willcoxon 检验条件:
H :我国人口自然增长率≥12.50H :我国人口自然增长率
1
将1978-1989我国人口自然增长率资料按秩次和检验的要求进行计算得表4
所以W=∑R i i +1=12+11+6+10+8+9=56.当n=12时,查 WilIcoxon带符号——样本
i =112
秩次和临界值表,得当显著水平为005时:
W 0=17,因为W >W 0,所以接受H 1假设,而拒绝H o 假设即若我国计划生育工作维持现状,则《纲要》中制定的人口目标将难以实现。 (3)我国人口控制政策实施过程游程检验
游程检验是一种检验样本观察值随机性的方法,其目的旨在检验过程是否处于随机的控制状态。我们把按中位数划分两部分的长度各为m (本例m=6)的序列aaabbaabbbb 中连续出现某一样本观察值的段称为游程,而将每个游程所包含某一样本观察值的个数称为游程长度。
设r ai 、r bi 以及分别表示长度为I 的a 、b 以及a 和b 的游程数,
则r i =r ai +r bi ,又设R ai 、R bi 以及R i 分别表示长度不小于i 的a 、b 以及a 和b 的游程数,
则R ai =∑r ai ,R bi =∑r bi ,R i =R ai +R ai ,R bi 、R i 、R ai 和r ai 、r i 、
r bi 的期望分别表述为:
i
i
式中n=2m从理论上可以证明,当n 较大时,总游程数R 的分布近似于正态分布N{E(R),D(R)}其中D(R)=
n 1
(1-) (9)分析表1中人口出生率时序数据,其中4n -1
位数在19%0-20%0现将其数据按时问次序排列起来。凡小于中位数的以d 表示,
大于中位数的以b 袁示.可得以下序列:aaabbaaabb ,根据前述定义以及公式f5]~(8)f导表5
根据以上结果可以检验以下假设:
H 0:1978~1989年我国人口生育过程处于统计控制状态;
H 1 :1978~1989年我国人口 育过程脱离控制状态, 过程的分布发生 偏移。 从以下两个方面来检验H 0假设。
1) 用最大游程长所必须的最大样本容量来进行检验
查“最大游程长k 所必须的最大样本容量 值表 可知, 当游程长等于5时,所必须的最大的样本容量为l0 本文的样本容量 12, 且最大游程长度为4, 故在5% 的水乎上不显著,不能拒绝H 0假设。 2) 用整个排列的游程总数来进行检验
从表7可知,R=4,E(R)=7, 所以R-E(R)=4-7=3
,根据上式
因为P{|R— E(R)|>2δR }=O
0445,而|R- E(R)|=3
综上所述,可以认为1978~1989年我国人口生育过程处于控制状态。
同理可检验得:1949~1977年我国人口生育过程脱离控制状态,过程分布发生了偏移。
以上检验证明:①我国采取的一系列人口控制政策的措施是有效的 ②人口量度发展过程具有能控性 2.2、秩和检验的运用
在研究不用饲料对雌鼠体重增加是否有差异时有如下表: 饲料 高蛋白 低蛋白
7 鼠数 1
1
1
1
1
1
1
1
8
1
1
9
1
2 34 46 04 19 24 61 07
7
1
1
8
1
1
94
3 13 29 7 23
0 18 01 5 12 32
假设检验位H0:µ1=µ2 H: µ1≠µ2先将两组数据混合从小到大排列,并注明
组别与秩如下表: 体重 组别
低 高 低
低
低
高
高
高
低
高 1
秩 体重 组别
低 高 高 1秩
令Y 为低蛋白组,n=7,X 为高蛋白,R i 是低蛋白在混合样本中的秩: W Y ==50,根据式子可得W XY = WY -
n (n 1)
=22,当m=12,n=7时正态分布的临界2
70
83
85
94
97
101
104
107
112
113
1 2 3 4 5 6 7 8 9 0
11123
124
129
132
134
146
161
18 19
高 1
高 低 1
高 高 高
12
13
1 4 15 6 17 18 19
值q 0.05为46,因为p=0.1003>0.05没有显著差异,所以可以认为高蛋白和低蛋白没有显著差异。
非参数统计方法的基本思想与参数统计思想平行,在运用的过程中可以锻炼对数学方法的思考和训练,在解决许多不知道背景的实际问题时非参数估计的运用很广,可以在对总体信息知之甚少的情况下,对总体的参数能比较正确反映,建立相应的数学分布,和统计模型。 参考文献
【1】国家统计局。中国统计年鉴。中国统计出版杜, 【2】王星. 非参数统计. 中国人民大学大学出版社.2007 【3】李隆章。实用非参数统计方法。中国财政经济出版杜. 【4】孙山泽. 非参数统计讲义【M 】. 北京大学出版社.2000
非参数统计论文
题目姓名班级学号
非参数统计的运用
梁增聪
107010202
11
非参数统计的应用
摘要:本文主论述了非参数估计的符合检验、秩检验的理解与运用,以及游程
检验在人口估计中的运用。
关键字:符号检验 游程检验 非参数估计
引言:非参数统计作为数理统计学的分支,是解决很多不知道数据分布的问题
的主要方法,通过运用非参数方法可以对事物起建立统计模型和数学描述。
1、非参数估计的理解
对计量资料进行统计分析,常对计量资料进行统计分析,常用用方法有两类——参数统计和非参数统计。t 检验、方差分析和直线相关回归分析都属于参数统计方法。参数统计方法要求的前提条件是,资料应服从或近似服从正态分布, t 检验、方差分析还要求方差具有齐性。当前提条件不满足时,就不应选用参数统计方法。符号检验、秩和检验属于非参数统计方法。非参数统计方法对资料不要求必须是正态分布,也不要求方差必须具有齐性。当对资料的分布情况及方差情况不清楚或没把握,或者经过检验不满足正态分布或方差齐性的要求时,就应当选用非参数统计方法对资料进行统计分析。
1.1、非参数估计
非参数检验又称分布自由检验.主要是不受总体分布的限制,不假定总体分布的具体形式,尽量从数据或样本本身获得所需要的信息,通过估计二而获得分布的结构,并逐步建立对事物的数学描述和统计模型的方法称为非参数估计。
1.2非参数估计方法
非参数检验不仅对资料分布没有特殊要求,除了用连续数量表示的的资料外,它还可以对样本数据的符号、等级程度、大小顺序等进行比较,加上方法简便,易于掌握,不要求复杂的计算工具,还可查表判断,能处理一些参数法处理不了的问题, 因而应用更广泛,值得学习和推广。常用的非参数统计方法有: 符号检验、秩和检验、秩检验、等级相关检验以及Ridit 分析等。
符号检验又称优势检验 它既可用于单组,也可用于成对数据, 还可用于两组及多组数据的比较。成对数据检验时, 不得少于6对, 以2O 对以上效果较好。符号检验通过一定的规则规定正号和负号的定义,对不能区分上升或下降,即无
变化者记作“0”,运用公式出结论。
来比较各组的优势,得
秩检验(Rank test)用于多组数据的比较,亦有称多组秩和检验.与秩和检验一样,也要对原始数据进行统一编秩。求出备组秩和, 再以各组秩和的平方与例教的比值求得的总和来计算H 值(或z})'其检验假设是各总体的分布相同.完全随机设计资料的比较对单周多组完全随机设计的数据采用的秩检验又称H 检验。当组数K >为3, 每组例散n 1 n2 n3均3,且每组例数均>5时,H 分布近似χ2分布. 以γ=K-1查 χ2
值表判断结果。
式中T 为各组秩和n 为组号) ,n
为各组倒数,n 为总倒数。报据总n 及n 1 n 2 n 3及计算的H 查表, 当H(计算的)0.05; H0.05 H0.01, ,p
通过公式可以求得r 的值从而得出R 与
S 之间的相关性。当r>0时表示RS 正相关,r
1.3非参数估计的优点
可以减少模型偏差。传统参数方法依赖于对总体分布的假定,然而现实总体往往并不满足假定的分布形式,这就导致模型与现实相背离,产生模型偏差。而非参数方法完全从数据本身获得所需的信息,无需对总体分布强加假定条件,可以选择与数据最为匹配的模型,从而正了传统参数方法可能导致的模型偏差。具有稳健性。
适用范围广。从数据角度看, 非参数方法不仅像参数方法一样可用于处理定距、定比数据, 还可用于定类、定序数据。而定类、定序数据在社会科学领域大量存在, 故其应用范围更广。从模型角度看, 因非参数方法假定条件较少,
也无需检验总体的参数,故其模型适应范围更广, 在此具有广泛意义的模型基础上得出的结论也具有普遍意义。
简单易操作。非参数统计的基本思想是:在总体分布未知的情况下,根据与原来总体分布无关的秩及其统计量的分布进行统计推断。可见非参数方法的核心是秩, 即数据点从小至大的排列次序, 其含义直观, 易于理解。因此,以之为基础构建的整个非参数统计体系也具有简单易操作的优势。 2、非参数统计应用
2.1、非参数在人口控制中的应用
非参数统计作为数理统计中较为独立的分支,由于具有不受样本分布形式的限制、应用范围广、发生模型错误的可能性较小、有较大的稳定性等特点,尤其是与我国人口量度发展过程特点相适应,提高了对人口政策实施评价的科学性 系统性和准确性。
2.1.1人口自然增长率的置信区间预测和目标拉验 (1)人口自然增长率的置信区间预测
若随机变量的观察值 x1,x 2„x n ,来自连续分布,且随随机变量观察值y 1
(1)抽取一个样本,并确
定了其次序统计量,(νi ,y i ) 就是未知分布的分位数的置信区间,并可计算置信系数r 。
我国人口自然增长率
当(1)式中,p=0.5时,分位数则为中位数。中位数y 0.5=
( y1+y12)= 2
1
(10.81+14.55)=12.68(%0) (1
)式变为:2
(2)
根据国家统计局公报,1990年末, 全国总人口为114333万人。以此为基数,各种方案的预测结果如表3所示。表3表明,若我国人口控制政策保持1978-1989年水平.则:1) 到1995年底,我国人口总量将突破J2亿。到本世纪末,人口总量突破1 3亿的可能性存在:2) 我国人口自然增长率的中位数为12.68%0。预计到1995年底人口总量将达121768万人,到2000年年初人13总量将达128062万人.
(2) 目标检验
十二大我国制定的人口日标是本世纪末将人口总量控制于12亿以内,尽管我国人口控制政策实施绩效举世瞩目,然由于主客观原因, 发展趋势表明该目标较难宴现 《纲要》明确指出:我国人口控制的政策目标为今后五年和十年之内,人口自然增长率控制于12 50‟ 以内。本部分将根据1978~1989年已发生历史绩效, 通过Willcoxon 检验技术,对该目标进行检验。
Willcoxon 检验基于以下两个假设:l )总体的分布是连续的:2)总体对其中位数是对称的。设y i =|xi -π0| i=1,2….n 其中x i 为观察值,π0为目标值,y i 为绝对偏差量。
以y i 按递增次序得秩次R i ,再令x i -π0>0为正秩次,x i -π0
i=1n
1978-1989年我国人口自然增长率样本显然符合Willcoxon 检验条件:
H :我国人口自然增长率≥12.50H :我国人口自然增长率
1
将1978-1989我国人口自然增长率资料按秩次和检验的要求进行计算得表4
所以W=∑R i i +1=12+11+6+10+8+9=56.当n=12时,查 WilIcoxon带符号——样本
i =112
秩次和临界值表,得当显著水平为005时:
W 0=17,因为W >W 0,所以接受H 1假设,而拒绝H o 假设即若我国计划生育工作维持现状,则《纲要》中制定的人口目标将难以实现。 (3)我国人口控制政策实施过程游程检验
游程检验是一种检验样本观察值随机性的方法,其目的旨在检验过程是否处于随机的控制状态。我们把按中位数划分两部分的长度各为m (本例m=6)的序列aaabbaabbbb 中连续出现某一样本观察值的段称为游程,而将每个游程所包含某一样本观察值的个数称为游程长度。
设r ai 、r bi 以及分别表示长度为I 的a 、b 以及a 和b 的游程数,
则r i =r ai +r bi ,又设R ai 、R bi 以及R i 分别表示长度不小于i 的a 、b 以及a 和b 的游程数,
则R ai =∑r ai ,R bi =∑r bi ,R i =R ai +R ai ,R bi 、R i 、R ai 和r ai 、r i 、
r bi 的期望分别表述为:
i
i
式中n=2m从理论上可以证明,当n 较大时,总游程数R 的分布近似于正态分布N{E(R),D(R)}其中D(R)=
n 1
(1-) (9)分析表1中人口出生率时序数据,其中4n -1
位数在19%0-20%0现将其数据按时问次序排列起来。凡小于中位数的以d 表示,
大于中位数的以b 袁示.可得以下序列:aaabbaaabb ,根据前述定义以及公式f5]~(8)f导表5
根据以上结果可以检验以下假设:
H 0:1978~1989年我国人口生育过程处于统计控制状态;
H 1 :1978~1989年我国人口 育过程脱离控制状态, 过程的分布发生 偏移。 从以下两个方面来检验H 0假设。
1) 用最大游程长所必须的最大样本容量来进行检验
查“最大游程长k 所必须的最大样本容量 值表 可知, 当游程长等于5时,所必须的最大的样本容量为l0 本文的样本容量 12, 且最大游程长度为4, 故在5% 的水乎上不显著,不能拒绝H 0假设。 2) 用整个排列的游程总数来进行检验
从表7可知,R=4,E(R)=7, 所以R-E(R)=4-7=3
,根据上式
因为P{|R— E(R)|>2δR }=O
0445,而|R- E(R)|=3
综上所述,可以认为1978~1989年我国人口生育过程处于控制状态。
同理可检验得:1949~1977年我国人口生育过程脱离控制状态,过程分布发生了偏移。
以上检验证明:①我国采取的一系列人口控制政策的措施是有效的 ②人口量度发展过程具有能控性 2.2、秩和检验的运用
在研究不用饲料对雌鼠体重增加是否有差异时有如下表: 饲料 高蛋白 低蛋白
7 鼠数 1
1
1
1
1
1
1
1
8
1
1
9
1
2 34 46 04 19 24 61 07
7
1
1
8
1
1
94
3 13 29 7 23
0 18 01 5 12 32
假设检验位H0:µ1=µ2 H: µ1≠µ2先将两组数据混合从小到大排列,并注明
组别与秩如下表: 体重 组别
低 高 低
低
低
高
高
高
低
高 1
秩 体重 组别
低 高 高 1秩
令Y 为低蛋白组,n=7,X 为高蛋白,R i 是低蛋白在混合样本中的秩: W Y ==50,根据式子可得W XY = WY -
n (n 1)
=22,当m=12,n=7时正态分布的临界2
70
83
85
94
97
101
104
107
112
113
1 2 3 4 5 6 7 8 9 0
11123
124
129
132
134
146
161
18 19
高 1
高 低 1
高 高 高
12
13
1 4 15 6 17 18 19
值q 0.05为46,因为p=0.1003>0.05没有显著差异,所以可以认为高蛋白和低蛋白没有显著差异。
非参数统计方法的基本思想与参数统计思想平行,在运用的过程中可以锻炼对数学方法的思考和训练,在解决许多不知道背景的实际问题时非参数估计的运用很广,可以在对总体信息知之甚少的情况下,对总体的参数能比较正确反映,建立相应的数学分布,和统计模型。 参考文献
【1】国家统计局。中国统计年鉴。中国统计出版杜, 【2】王星. 非参数统计. 中国人民大学大学出版社.2007 【3】李隆章。实用非参数统计方法。中国财政经济出版杜. 【4】孙山泽. 非参数统计讲义【M 】. 北京大学出版社.2000