1£竺=!f一
20089第20期(总第242期)
EnterpriseScience
企业科技与发展
AndTechnology&Development+
NO.20,2008
(CumulativelyNO.242)
浅析二项分布、泊松分布
和正态分布之间的关系
于洋
(东北财经大学数学与数量经济学院,辽宁大连116025)
;【籀鬟】二项分布、泊松分布和正态分布一蛊是学习和研究概率统计的基础。在一定条纬节,送兰个分布之阅孝譬在着密切关系。文章通过求极限分布,研究了二项分布与泊松分布、二项分布与正态分布之闽的关系,并利用耪钲函数和分布函数相互唯一确定这一性质,分析了泊松分布和正态分布之闻的关系。【关键词】二项分布;泊松分布;正态分布;特征函数
【文章编号】1674-0688(2008)20-0108-03,l中图分类号10i【文献标识码凇
ADiscussionoftheRelationsAmongBl‘noml。alDistribution.PoissolI
DistributionandNormalDistribution
YUYang
(SchoolofMathematlesandQuantitative
Ecollomi(x,Don咖i
UniversityofFinanceandEconom如s,DalianLiaoning
116口㈣
and
IAbstract】7111e
research
paper
on
binomialdistribution,Poissondistributionandnormaldistributionhavebeenthefoundationoflearning
pmbabilitystatistics.Underthecertaincondition,therea托closerelationsbetweenthesethree
distributions.nis
and
characteristic
studiesthe
relationsbetweenbinomialdistributionandPoissondistribution.binomialdistributionandnormaldis仕ibu—
tionthroughfindinglimitdistributionofthem.Bymeansoftheinterrelationfunction。the
paper
between
distilbutionfunction
analysestherelationbetweenPois80ndistributionandNormaldistribution.
【Keywords】Binomial
Distribution;Possion
Distribution;NormalDistribution;CharacteristicFunction
1预备知识
1.1二项分布
在同一条件下重复做n次独立试验,每次试验只可能有两种对立的结果:A和4之一,并设在同一次试验中A发生的
设随机变量石所有可能取得值为0,l,2,…,而取各个值的
概率为P{X=七)=兰},七=0,1,2,…,其中力>0是常数,
则称x服从参数为A的泊松分布,记为x~石(五}。
泊松分布的重要性质是它的数学期望和方差都等于参数A。
概率是P(A)=P,0<P<l,而P《么)=l-p=q。这时,
在n次独立试验中,出现A的总计次数k是一个随机变量,并且总有
1.3正态分布
设连续型随机变量Ⅳ的概率密度为:
P{x=k}=Cp‘q“。,(七=o,l,2,…,,1)
上述分布称为二项分布,是因为Cp‘q”铬为(g+p)‘
二项展开式的各项系数,这种概率模型也被称为伯努利概
/‘功=丽P
1
282,—∞<x<佃,其中∥,仃为
常数,仃>0,则称搠技从参数为∥,仃的正态分布或高斯分
布,记为X~ⅣI从仃2)。
正态分布的概率密度中的两个参数∥和∥分别就是该分
布的数学期望和方差。特别地,当/a2o,仃2=l时的正态分
型。X服从参数为疗,p的二项分布,记为x~6(%P)。
由二项分布的定义知,随机变量X是n重伯努利试验中事
件A发生的次数,且在每次试验中A发生的概率为P。二项
分布的数学期望和方差分别艘=,lp,DX=印(1一P)。
1.2泊松分布
布,称为标准正态分布,记为x~N(O,1),标准正态分布的
1
一£
密度函数记为伊(x)2了杀P
2,一∞<石<佃。
泊松分布刻画了稀有事件在一段时间内发生次数这一随机正态分布是自然界及工程技术中最常见的分布之一。大量的随机现象都是服从或近似服从正态分布的。文献[1]指出,
变量的分布,如电话交换台单位时间内接到的呼唤次数,某公
共汽车站在单位时间内来站乘车的乘客数,宇宙中单位体积内星球的个数,耕地上单位面积内杂草的数目等。
如果一个随机指标受到许多微小的、独立的随机因素的影响,而其中任何一个因素都不起决定性作用,则可认为该随机指标
【作者简介】于洋(1979一)。男.大连人,东北财经大学讲师,硕士学位,研究方向:概率统计、数量经济学。
le+
服从或近似服从正态分布,这正是正态分布在理论与实践上都㈨
极其重要的原因。
≈一1~12xnpqP萼=占4.m文粤4.pq]‘
L
J
2主要结果;.
尸{口≤.ks6)
(2)
,、
2.1
二项分布与泊松分布之间的关系
:P{<坠≤兰皇≤—堕}
定理l(泊松定理)在n重伯努利试验中。事件A在每次试
【,J.pO-p),hp(1-v),J.pO-p)J
验中发生的概率为见,它与试验次数有关,如果lim..np。
亏A>0。则对任意给定的m,有
,七‘1如b-(。ri—p万卜lI如a-(。ri—p万]7
慨’乙。k以k(1一见)卜‘2鲁e~,七=0,l,2…
n—}∞
P●
只要查—查标准正态分布函数表就很容易得到P{口sj,一<b}
,
泊松定理的证明见文献[1]。由该定理可知,当二项分
布b(n,P)的参数力很大,P很小,而允=np大小适中时,
实际中刀≥100,P≤0.1,,妒≤10时(见文献[2]),二项分布可用参数为五=,驴的泊松分布来近似,即
.
口k
Ck矿(1-p)”。≈竺/P一
这就是二项分布的泊松逼近。当然n应尽可能地大。否则近似效果往往不佳。
来意薷叫~。竹b+O.5-圳npI一吐端]
二项分布的泊松近似常常被应用于研究稀有事件(即每次
2.3泊松分布与正态分布之间的关系
试验中事件出现的概率p很小)’,当伯努利试验的次数n很大
时,事件发生的频数的分布。实际表明,在一般情况下。当P<0.1时,这种近似是很好的,甚至n不必很大都可以,这点从比较二项分布与泊松分布的概率分布表也可以看出。例如,当P=0.Ol时,甚至门=2时,这种近似程度已经很好了。表1说明了这一情况,其中np=0.02。
衰1
二项分布与泊松分布的比较
烛羔口等=面1∥出.其中
膏
C:p‘‘1一P.-k
(npre-砷/k
口:百a-3,,6;笪孚。定理3韵证明见文献[1]。
0O.9801O.980210.01980.01962
O.O001
0.0002
2.2二项分布和正态分布之闻的关系
定理2设随机变量z。一b(n,p)(o<P<1,竹=1,2,・・.),
则对于任意x,有
叫iimJ一I
x.-一np4np(1一)
P万≤x}=J二击{出叫x)J
L。√2万
一
定理2就是概率论中著名的棣奠弗一拉普拉斯中心极限定
理,它的证明见文献[2]。该定理表明,当甩充分大时,二项表2是用泊松分布与正态分布去近似二项分布6(玎,P)
分布可用正态分布来近似,1111--项分布的正态逼近。例如,
的比较,其中玎=2500,P=o.02,np=50,√印g=
户}k=七)=Cp。(1-p)”‘和P{口≤x。≤b)=
由于编近似服从Ⅳ(0,1)或等价地以近似服从
至。磷矿口”名甩充分大时计算是十分困难的。根据定理2,
Ⅳ(印,.pO-v)),于是可以近似地用正态分布来计算上述概
率,Illlp{以=七}=Cp‘(1-p)”‘
裘2泊松分布、正态分布、二项分布的比较
七
b(2500,0.02)
Ⅳ(50,7)
万(50)
250.00000.00010.000030
0.0006
0.00lO
0.000735
0.0052
0.00570.0054400.02120.0205
0.0215450.04600.0442
0.0458500.05690.05700.0563550.04240.0442
0.042260O.01990.02050.0201650.00610.00570.0063700.00130.00lOO.001475
0.0002
0.0001
0.0002
设x为随机变量,其分布函数为F(x),称PfⅨ的数学期
望e(e解)为x的特征函数,也称为分布函数F(x1的特征函
数,其中f=再,,∈(_∞,托o)。记x的特征函数为版(写)
在不引起混乱的情况下简写为y(x),ePr(x)=F(e艘O
当随机变量X分别服从泊松分布N(p,盯21和正态分布
时,其特征函数分别为eA(,-1)和,,耐一ia个(见文献[1])。
特征函数的一个重要性质是x的特征函数与其分布函数相互唯一确定。此外文献【1J给出F面的一个定理:
定理4(唯一性定理)分布函数E(x)和最(x)恒等的充分
必要条件是它们的特征函数n(X)和圪(x)恒等。
命题设x~石(见)(五>0),泊松分布的分布函数
,尸弘<4=Z舞以
与正态分布Ⅳ(兄,旯)的分布函数F(x)。赢J。P
24砂
证由前文可知N(Z,力)的特征函数是P以卜言加2,
而万(力)的特征函数是口五P一1)。对任意的t,P打的幂级数展
≈FⅣ一≈妥,于是私一≈一等,’口五it-
£,于是五fP。一1≈
1i2t一’
、
,
一竺,一'
Pze"-1)
一
胁一等。根据定理4可知,泊松分布石(名)的分布函数
≈e
‘
.‘
尸{x<x)。萎鲁以与正态分布似咒)的分相数
删=击£P导砂近似椭溅
3结语
综上所述,二项分布bf忍,pl当行很大,p很小,A=np
大小适中时,可用参数为兄=np的泊松分布来近似;当栉充
分大,且p既不接近于0也不接近于1时,二项分布6(胛,P)
可用正态分布Ⅳ(印,印(1-p))来近似;泊松分布,『(五肖A充
分大时的极限分布是正态分布N(A,五1,并且泊松分布,rf兄1
的分布函数与正态分布Ⅳ(五,力)的分布函数近似相等。刁
参考文献
[1]梁之舜。邓集贤,等.概率论与数理统计[M].2版.北京:高等
教育出版社。1988.
’.
[2]周概客.概率论与管理统计基础[M].上海:复旦大学出版社。
2004.
[3]魏振军.概率论与数理统计三十三讲[M].2版.北京:中国统计
’出版社。2005.
【4]杜勋明,陈冬娥,姚云.二项分布和泊松分布的正态近似条件分
析[J].湖北医科大学学报,t998(2).
[5]龙永红.概率论与数理统计[M].2版.北京:高等教育出版社,
2004.
[责任编辑:陈怡玲】
浅析二项分布、泊松分布和正态分布之间的关系
作者:作者单位:刊名:英文刊名:年,卷(期):被引用次数:
于洋, YU Yang
东北财经大学,数学与数量经济学院,辽宁,大连,116025企业科技与发展
ENTERPRISE SCIENCE AND TECHNOLOGY & DEVELOPMENT2008,""(20)0次
参考文献(5条)
1.梁之舜.邓集贤 概率论与数理统计 19882.周概容 概率论与管理统计基础 20043.魏振军 概率论与数理统计三十三讲 2005
4.杜勋明.陈冬娥.姚云 二项分布和泊松分布的正态近似条件分析 1998(02)5.龙永红 概率论与数理统计 2004
相似文献(10条)
1.期刊论文 刘瑞元.张智霞.LIU Rui-yuan.ZHANG Zhi-xia 二项分布与泊松分布判别的假设检验 -青海大学学报(自然科学版)2008,26(1)
提出了判别二项分布与泊松分布的假设检验方法,并举例说明这种检验方法的可行性.
2.期刊论文 史爱玲 三类离散性随机变量分布关系的研究 -全国商情·理论研究2010,""(10)
本文研究了二项分布与(0-1)分布、泊松分布之间的关系,得出了以下主要结论:任何一个服从二项分布的随机变量都可以写成对应多个服从(0-1)分布的随机变量的和;二项分布的极限分布就是泊松分布.最后通过具体的例子,再现了上述结论的应用价值.
3.期刊论文 孙红伟.SUN Hongwei 二项分布两种近似计算的讨论 -河南教育学院学报(自然科学版)2007,16(1)
泊松定理、隶莫佛-拉普拉斯定理给出了二项分布的近似计算公式.如何把握近似务件使近似更为准确?通过二项分布、泊松分布、正态分布的概率值的对比,得出泊松分布在p较小时、n不用太大即可近似较好;正态分布在p较小、n较大等三种条件下都能较好近似二项分布;在p较小、n足够大时两种近似均可的结论.
4.期刊论文 安芹力 泊松分布参数的含义 -教育教学论坛2010,""(32)
泊松分布是一种常见概率分布,但是很少有人探讨它的参数的含义,本文以常见电话问题为背景,对泊松分布进行推导并得出结论.
5.期刊论文 郑永冰.ZHENG Yong-bing 关于二项分布的极限分布的一个注记 -大学数学2007,23(2)
讨论了用泊松分布和正态分布近似表示二项分布的精确程度问题,对于泊松分布,指出了它对二项分布B(n,p)的概率值的近似精确与否基本上只依赖于参数p而不依赖于n,并说明了经验条件"np≤5"的不确切.
6.期刊论文 马小霞.Ma Xiao-xia 有关二项分布的近似计算 -楚雄师范学院学报2007,22(3)
二项分布是一个很重要的离散型随机变量的分布,其试验模型是n重独立伯努力试验,通常记作随机变量X~B(n,p).当参数n很大,p在0到1的不同大小范围内取值时,可以通过两种不同的方法对二项分布进行近似计算,并期望可以得到较精确的近似值.
7.学位论文 赵永恒 伤病发生概率测量及健康保险损失分布研究 2007
在国外,有关商业健康保险精算的研究已经比较成熟,保险机构积累的数据比较完善,已经能用相对精细的模型进行定价、提取准备金以及风险控制。我国商业健康保险发展于八十年代初期,经过二十多年的发展,健康保险业务的规模、质量和水平都有了很大的提高。随着健康保险业务的发展,对健康保险精算的要求也进一步提高。
在目前我国商业健康保险供需两旺,但是业务经营并不尽人意的情况下,研究健康保险精算的意义无疑是重大的。健康保险损失是健康保险精算的基础,更应该受到我们的重视。本文所研究的两个问题:伤病发生概率和损失分布都是衡量健康保险损失的重要指标。
研究健康保险损失在实务和理论方面都有重要的意义。研究健康保险损失,是保险产品定价的基础,对合理定价具有举足轻重的作用;健康保险损失也是合理提取准备金的基础;要想对健康保险进行有效的监管,必须对健康保险损失进行研究,研究保险行业自己的伤病发生率和损失分布。 论文三万余字,共分四部分,主要内容和观点如下:
首先是绪论,分为四个部分,第一部分提出问题;第二部分介绍研究背景和意义,近年来,我国商业健康保险一直保持着较快的发展水平,市场供需两旺,但是我国商业健康保险业务经营并不理想,主要原因是我国健康保险刚刚起步,对健康保险精算的研究还很少,在这种背景下,研究健康保险精算的基础——健康保险损失,具有重要的意义,健康保险损失在保险定价、精算评估、精算监管等方面具有重要的意义;第三部分阐述了研究内容,本文研究健康保险损失的两个方面,伤病发生概率和损失额,伤病发生概率包括伤病发生率和伤病发生次数,健康保险损失额主要研究损失分布;第四部分是文献综述,介绍了目前国内与国外对于这一问题的研究情况。
第一章对伤病发生概率及其测量进行探讨。在这一章中,笔者首先给出伤病发生率的定义,包括初始伤病发生率(initial.incidernce rate)、中心伤病发生率(central incidence rate)、点时患病率(point prevalence rate)、期间患病率(period prevalence rate)、累积患病率(cumulativeprevalence rate)等。
随后,笔者讨论了如何来测量伤病发生率。由于伤病发生率可以用多状态增减因表来描述,而马尔可夫链是描述多状态增减因表中不同状态间转移概率的常用工具,所以,笔者利用马尔可夫链这一工具来表示伤病发生率,先推导出了初始伤病发生率I的表达式,然后分别推导出了点时患病率和中心伤病发生率的表达式。
由于在用马尔可夫链来表示伤病发生率时,要用转移强度来表示,笔者给出了一种在假设转移强度是常数时的估计方法——极大似然估计方法。通过这种方法估计的转移强度等于转换次数和在特定状态的停留时间这两个随机变量的比值。
伤病发生次数是研究健康保险损失的另一个重要的指标。本文首先介绍了伤病发生次数的理论分布及其应用,包括二项分布、泊松分布、负二项分布、β-二项分布、泊松一泊松分布、泊松一二项分布以及混合泊松分布等。对于这些分布,二项分布、泊松分布、负二项分布最为常用,拟合效果也往
合型的分布来描述伤病发生次数,即β-二项分布、泊松一泊松分布、泊松-二项分布以及混合泊松分布等。
一旦拟合出伤病发生次数的理论分布,则可得到描述该随机变量的所有统计信息,包括期望和方差。在实务中,我们最常用的伤病发生次数的数字特征是期望和方差,因为在实际应用中,可用期望代替伤病发生次数,而方差则表示用期望代替伤病发生次数时的偏差程度。在保险实务中,有时拟合出伤病发生次数的理论分布是比较困难的一件事情,更不用说求其期望和方差。为了解决这一问题,笔者给出了直接求伤病发生次数的期望和方差的方法。
第二章阐述了健康保险损失分布及其拟合。健康保险损失的另外一个重要指标是损失分布,它描述每次费用的发生变化规律,在健康保险精算中,其特点是右偏态,带有一条长长的尾巴,这条长长的尾巴对保险公司的经营极为重要,它预示发生极大医疗费用支付的可能性。 本文介绍了几种常用的损失分布的定义和性质,包括Γ分布、对数Γ分布、对数正态分布、威布尔分布、帕累托分布等。
介绍了几种理论分布后,接下来研究了对于健康保险损失分布的拟合问题。即对于给出的一组损失数据,如何判断属于哪种分布,并如何估计其参数。对于一般的统计数据,要拟合它的分布,要根据这些数据的散点分布图,看与哪个函数的形状和性质相接近,然后假设服从这样的函数族,再通过点估计,极大似然估计以及矩估计来估计出参数。但是仅靠这些函数的形状和性质有时还不能作出准确的判断,健康保险的损失拟合通常采用剩余期望函数法,所以,有必要研究随着免赔额的不断增大,服从这几种重要分布的随机变量的剩余期望函数(它是免赔额的函数)的变化趋势怎样,因为它表明了右尾部的平均损失水平,并将其剩余期望函数作为标准函数与经验剩余期望函数进行比较,判断给定数据的分布形态。这就需要掌握这几种剩余期望函数的基本形状。本文阐述了几种常用分布的剩余期望函数的基本形状。接着给出了两种拟合的方法——经验剩余期望函数法和叠加分布模型。经验剩余期望函数法中介绍了有关的概念,给出了拟合过程:趋势判断,参数估计,拟合检验等。对于用期望剩余函数法拟合出来的损失分布,一般是上边提到的几种损失分布模型,由于它们有的尾部比较厚,有的尾部比较薄,所以,有的存在着过度拟合,有的存在拟合不足。而分布函数的尾部正是精算师所关心的,在这种情况下,我们可以把他们当中的两个或者多个同时使用,这就是叠加分布模型。在叠加分布模型中,先介绍了基本的概念,随之讨论了叠加分布模型的参数估计。
第三章对疾病表及其构造进行初探。本章中,首先给出了疾病表的定义。然后重点放在了疾病表的构造上面,构造疾病表包括以下几个步骤: (1) 收集数据,本文给出了收集数据的原则以及如何收集保险行业的数据的建议; (2) 风险分类,本文阐述了为什么进行风险分类以及如何进行风险分类;
(3) 计算伤病发生率,笔者给出了在不同情况下用到的计算伤病发生率的方法; (4) 对所得的伤病发生率进行修匀。 纵观全文,其贡献与创新点在于:
1、本文对健康保险损失进行了系统的研究。健康保险损失是健康保险精算的基础,以往对这方面的研究甚少,已有的研究局限于医疗损失分布的研究,缺乏系统的研究。本文对健康保险损失进行了系统、全面的研究,分析了影响健康保险损失的各种因素,提出了研究健康保险损失的不同指标。 2、注重理论与实务的结合。在研究理论的基础上进行实务应用的分析。在研究健康保险伤病发生次数和损失额的理论分布的基础上,研究了他们的应用。对于伤病发生率的应用,本文研究了疾病表及其构造的问题。
3、本文对健康保险损失从不同的角度进行研究。对健康保险损失的两个方面——伤病发生概率和损失额,三个指标——伤病发生率、伤病发生次数和健康保险损失分布分别进行研究。这在健康保险损失的研究中可以说是一种创新。 4、在测量伤病发生率时引入了马尔可夫链这一工具,也是本文的一个创新点。
8.期刊论文 李灿.郭尊光.LI Can.GUO Zun-guang 浅谈二项分布的近似计算 -科技情报开发与经济2009,19(14)
讨论了用Poasion定理、局部极限定理和积分极限定理近似计算二项分布概率时的误差,对这3种近似计算的误差进行了比较,详细分析了用局部极限定理做近似计算时的误差.
9.期刊论文 龙吉江 二项分布在管理中的应用 -河北职工医学院学报2003,20(1)
1 引言
二项分布是概率论中最重要的分布之一,无论在管理理论研究还是在管理实践中都有着很重要的作用.通过本文这几个例子可以看到,所有的概率结果都不仅仅是枯燥乏味的数字,在数字的后面蕴含着丰富的思想和内涵.
10.学位论文 左艳芳 基于泊松分布的两种治疗方法的非劣性评价 2007
长久以来,泊松分布都被认为是二项分布的极限近似,尤其是在事件发生次数较少时。由于,泊松分布在生物学,流行病学以及医学研究等领域中有着十分广泛的应用,所以,对于来自于两个独立样本的泊松比率(单位时间或者单位空间内事件发生的次数)的比较研究便具有非常重要的理论和实际意义。例如,为了研究X-射线对于妇女患乳腺癌的影响,我们可以把妇女分成两个组,其中第一组是在肺结核的治疗过程中采用了X-射线进行诊断;而第二组则没有采用了X-射线进行诊断,于是,问题就归结为考察第一组妇女相对与第二组妇女而言是否具有更高的罹患乳腺癌的风险;又如,常规的临床实验的主要的目的在于比较新的治疗方法在效用上是否优于传统的治疗方法,而事实上,由于更为安全,更易于管理或者成本更低等种种因素,我们提出了许多新疗法,同时,和传统的疗法相比较,这些新的疗法也有着相同的效用,这样一来就改变了临床研究的目的并且一个以在效用上非劣于(或相等同)为目的的实验设计也变得合理。同时,在临床实验或者实验室研究中为了增加治疗效果的可比较性,在许多新疗法的实验室阶段,实验者被分成了两组,其中一组采用的是新疗法,而另外一组采用传统疗法,测量结果是服从二项分布的随机变量,而相关风险常常用来比较疗效。尽管如此,到目前为止,对于配对实验设计的相关研究却很少。此外,在样本量相同的情形下,对两个泊松均值的比较问题人们已经取得了许多成果,在样本量不等的情形下对两个泊松均值的比较问题备受关注。考虑到X和X这两个泊松变量分别来自于两个不等的抽样结构,Shiue和Bain曾提出了一个一致最大功效无偏检验(UMPU);Thode也曾提出过一个较之Shiue和Bain的更为有效的检验统计量;Rothman和Greenland也利用对数变换提出了一个基于大样本的Wald类型的检验统计量,但是,却没有人对这些检验统计量作出的系统的比较。
本文首先讨论了在样本量不等的情况下基于泊松分布的两种治疗方法的非劣性评价问题,其次,考虑了该问题下的几种不同的方法,例如Score检验,Wald检验以及对数变换的检验方法,最后,我们以一个来自于乳腺癌研究的实际例子考察了以上这几种统计量的经验表现。
本文链接:http://d.g.wanfangdata.com.cn/Periodical_zxqykj200820039.aspx授权使用:北京邮电大学(byab),授权号:b12832e8-181a-44ec-a338-9e440156ee7c
下载时间:2010年12月6日
1£竺=!f一
20089第20期(总第242期)
EnterpriseScience
企业科技与发展
AndTechnology&Development+
NO.20,2008
(CumulativelyNO.242)
浅析二项分布、泊松分布
和正态分布之间的关系
于洋
(东北财经大学数学与数量经济学院,辽宁大连116025)
;【籀鬟】二项分布、泊松分布和正态分布一蛊是学习和研究概率统计的基础。在一定条纬节,送兰个分布之阅孝譬在着密切关系。文章通过求极限分布,研究了二项分布与泊松分布、二项分布与正态分布之闽的关系,并利用耪钲函数和分布函数相互唯一确定这一性质,分析了泊松分布和正态分布之闻的关系。【关键词】二项分布;泊松分布;正态分布;特征函数
【文章编号】1674-0688(2008)20-0108-03,l中图分类号10i【文献标识码凇
ADiscussionoftheRelationsAmongBl‘noml。alDistribution.PoissolI
DistributionandNormalDistribution
YUYang
(SchoolofMathematlesandQuantitative
Ecollomi(x,Don咖i
UniversityofFinanceandEconom如s,DalianLiaoning
116口㈣
and
IAbstract】7111e
research
paper
on
binomialdistribution,Poissondistributionandnormaldistributionhavebeenthefoundationoflearning
pmbabilitystatistics.Underthecertaincondition,therea托closerelationsbetweenthesethree
distributions.nis
and
characteristic
studiesthe
relationsbetweenbinomialdistributionandPoissondistribution.binomialdistributionandnormaldis仕ibu—
tionthroughfindinglimitdistributionofthem.Bymeansoftheinterrelationfunction。the
paper
between
distilbutionfunction
analysestherelationbetweenPois80ndistributionandNormaldistribution.
【Keywords】Binomial
Distribution;Possion
Distribution;NormalDistribution;CharacteristicFunction
1预备知识
1.1二项分布
在同一条件下重复做n次独立试验,每次试验只可能有两种对立的结果:A和4之一,并设在同一次试验中A发生的
设随机变量石所有可能取得值为0,l,2,…,而取各个值的
概率为P{X=七)=兰},七=0,1,2,…,其中力>0是常数,
则称x服从参数为A的泊松分布,记为x~石(五}。
泊松分布的重要性质是它的数学期望和方差都等于参数A。
概率是P(A)=P,0<P<l,而P《么)=l-p=q。这时,
在n次独立试验中,出现A的总计次数k是一个随机变量,并且总有
1.3正态分布
设连续型随机变量Ⅳ的概率密度为:
P{x=k}=Cp‘q“。,(七=o,l,2,…,,1)
上述分布称为二项分布,是因为Cp‘q”铬为(g+p)‘
二项展开式的各项系数,这种概率模型也被称为伯努利概
/‘功=丽P
1
282,—∞<x<佃,其中∥,仃为
常数,仃>0,则称搠技从参数为∥,仃的正态分布或高斯分
布,记为X~ⅣI从仃2)。
正态分布的概率密度中的两个参数∥和∥分别就是该分
布的数学期望和方差。特别地,当/a2o,仃2=l时的正态分
型。X服从参数为疗,p的二项分布,记为x~6(%P)。
由二项分布的定义知,随机变量X是n重伯努利试验中事
件A发生的次数,且在每次试验中A发生的概率为P。二项
分布的数学期望和方差分别艘=,lp,DX=印(1一P)。
1.2泊松分布
布,称为标准正态分布,记为x~N(O,1),标准正态分布的
1
一£
密度函数记为伊(x)2了杀P
2,一∞<石<佃。
泊松分布刻画了稀有事件在一段时间内发生次数这一随机正态分布是自然界及工程技术中最常见的分布之一。大量的随机现象都是服从或近似服从正态分布的。文献[1]指出,
变量的分布,如电话交换台单位时间内接到的呼唤次数,某公
共汽车站在单位时间内来站乘车的乘客数,宇宙中单位体积内星球的个数,耕地上单位面积内杂草的数目等。
如果一个随机指标受到许多微小的、独立的随机因素的影响,而其中任何一个因素都不起决定性作用,则可认为该随机指标
【作者简介】于洋(1979一)。男.大连人,东北财经大学讲师,硕士学位,研究方向:概率统计、数量经济学。
le+
服从或近似服从正态分布,这正是正态分布在理论与实践上都㈨
极其重要的原因。
≈一1~12xnpqP萼=占4.m文粤4.pq]‘
L
J
2主要结果;.
尸{口≤.ks6)
(2)
,、
2.1
二项分布与泊松分布之间的关系
:P{<坠≤兰皇≤—堕}
定理l(泊松定理)在n重伯努利试验中。事件A在每次试
【,J.pO-p),hp(1-v),J.pO-p)J
验中发生的概率为见,它与试验次数有关,如果lim..np。
亏A>0。则对任意给定的m,有
,七‘1如b-(。ri—p万卜lI如a-(。ri—p万]7
慨’乙。k以k(1一见)卜‘2鲁e~,七=0,l,2…
n—}∞
P●
只要查—查标准正态分布函数表就很容易得到P{口sj,一<b}
,
泊松定理的证明见文献[1]。由该定理可知,当二项分
布b(n,P)的参数力很大,P很小,而允=np大小适中时,
实际中刀≥100,P≤0.1,,妒≤10时(见文献[2]),二项分布可用参数为五=,驴的泊松分布来近似,即
.
口k
Ck矿(1-p)”。≈竺/P一
这就是二项分布的泊松逼近。当然n应尽可能地大。否则近似效果往往不佳。
来意薷叫~。竹b+O.5-圳npI一吐端]
二项分布的泊松近似常常被应用于研究稀有事件(即每次
2.3泊松分布与正态分布之间的关系
试验中事件出现的概率p很小)’,当伯努利试验的次数n很大
时,事件发生的频数的分布。实际表明,在一般情况下。当P<0.1时,这种近似是很好的,甚至n不必很大都可以,这点从比较二项分布与泊松分布的概率分布表也可以看出。例如,当P=0.Ol时,甚至门=2时,这种近似程度已经很好了。表1说明了这一情况,其中np=0.02。
衰1
二项分布与泊松分布的比较
烛羔口等=面1∥出.其中
膏
C:p‘‘1一P.-k
(npre-砷/k
口:百a-3,,6;笪孚。定理3韵证明见文献[1]。
0O.9801O.980210.01980.01962
O.O001
0.0002
2.2二项分布和正态分布之闻的关系
定理2设随机变量z。一b(n,p)(o<P<1,竹=1,2,・・.),
则对于任意x,有
叫iimJ一I
x.-一np4np(1一)
P万≤x}=J二击{出叫x)J
L。√2万
一
定理2就是概率论中著名的棣奠弗一拉普拉斯中心极限定
理,它的证明见文献[2]。该定理表明,当甩充分大时,二项表2是用泊松分布与正态分布去近似二项分布6(玎,P)
分布可用正态分布来近似,1111--项分布的正态逼近。例如,
的比较,其中玎=2500,P=o.02,np=50,√印g=
户}k=七)=Cp。(1-p)”‘和P{口≤x。≤b)=
由于编近似服从Ⅳ(0,1)或等价地以近似服从
至。磷矿口”名甩充分大时计算是十分困难的。根据定理2,
Ⅳ(印,.pO-v)),于是可以近似地用正态分布来计算上述概
率,Illlp{以=七}=Cp‘(1-p)”‘
裘2泊松分布、正态分布、二项分布的比较
七
b(2500,0.02)
Ⅳ(50,7)
万(50)
250.00000.00010.000030
0.0006
0.00lO
0.000735
0.0052
0.00570.0054400.02120.0205
0.0215450.04600.0442
0.0458500.05690.05700.0563550.04240.0442
0.042260O.01990.02050.0201650.00610.00570.0063700.00130.00lOO.001475
0.0002
0.0001
0.0002
设x为随机变量,其分布函数为F(x),称PfⅨ的数学期
望e(e解)为x的特征函数,也称为分布函数F(x1的特征函
数,其中f=再,,∈(_∞,托o)。记x的特征函数为版(写)
在不引起混乱的情况下简写为y(x),ePr(x)=F(e艘O
当随机变量X分别服从泊松分布N(p,盯21和正态分布
时,其特征函数分别为eA(,-1)和,,耐一ia个(见文献[1])。
特征函数的一个重要性质是x的特征函数与其分布函数相互唯一确定。此外文献【1J给出F面的一个定理:
定理4(唯一性定理)分布函数E(x)和最(x)恒等的充分
必要条件是它们的特征函数n(X)和圪(x)恒等。
命题设x~石(见)(五>0),泊松分布的分布函数
,尸弘<4=Z舞以
与正态分布Ⅳ(兄,旯)的分布函数F(x)。赢J。P
24砂
证由前文可知N(Z,力)的特征函数是P以卜言加2,
而万(力)的特征函数是口五P一1)。对任意的t,P打的幂级数展
≈FⅣ一≈妥,于是私一≈一等,’口五it-
£,于是五fP。一1≈
1i2t一’
、
,
一竺,一'
Pze"-1)
一
胁一等。根据定理4可知,泊松分布石(名)的分布函数
≈e
‘
.‘
尸{x<x)。萎鲁以与正态分布似咒)的分相数
删=击£P导砂近似椭溅
3结语
综上所述,二项分布bf忍,pl当行很大,p很小,A=np
大小适中时,可用参数为兄=np的泊松分布来近似;当栉充
分大,且p既不接近于0也不接近于1时,二项分布6(胛,P)
可用正态分布Ⅳ(印,印(1-p))来近似;泊松分布,『(五肖A充
分大时的极限分布是正态分布N(A,五1,并且泊松分布,rf兄1
的分布函数与正态分布Ⅳ(五,力)的分布函数近似相等。刁
参考文献
[1]梁之舜。邓集贤,等.概率论与数理统计[M].2版.北京:高等
教育出版社。1988.
’.
[2]周概客.概率论与管理统计基础[M].上海:复旦大学出版社。
2004.
[3]魏振军.概率论与数理统计三十三讲[M].2版.北京:中国统计
’出版社。2005.
【4]杜勋明,陈冬娥,姚云.二项分布和泊松分布的正态近似条件分
析[J].湖北医科大学学报,t998(2).
[5]龙永红.概率论与数理统计[M].2版.北京:高等教育出版社,
2004.
[责任编辑:陈怡玲】
浅析二项分布、泊松分布和正态分布之间的关系
作者:作者单位:刊名:英文刊名:年,卷(期):被引用次数:
于洋, YU Yang
东北财经大学,数学与数量经济学院,辽宁,大连,116025企业科技与发展
ENTERPRISE SCIENCE AND TECHNOLOGY & DEVELOPMENT2008,""(20)0次
参考文献(5条)
1.梁之舜.邓集贤 概率论与数理统计 19882.周概容 概率论与管理统计基础 20043.魏振军 概率论与数理统计三十三讲 2005
4.杜勋明.陈冬娥.姚云 二项分布和泊松分布的正态近似条件分析 1998(02)5.龙永红 概率论与数理统计 2004
相似文献(10条)
1.期刊论文 刘瑞元.张智霞.LIU Rui-yuan.ZHANG Zhi-xia 二项分布与泊松分布判别的假设检验 -青海大学学报(自然科学版)2008,26(1)
提出了判别二项分布与泊松分布的假设检验方法,并举例说明这种检验方法的可行性.
2.期刊论文 史爱玲 三类离散性随机变量分布关系的研究 -全国商情·理论研究2010,""(10)
本文研究了二项分布与(0-1)分布、泊松分布之间的关系,得出了以下主要结论:任何一个服从二项分布的随机变量都可以写成对应多个服从(0-1)分布的随机变量的和;二项分布的极限分布就是泊松分布.最后通过具体的例子,再现了上述结论的应用价值.
3.期刊论文 孙红伟.SUN Hongwei 二项分布两种近似计算的讨论 -河南教育学院学报(自然科学版)2007,16(1)
泊松定理、隶莫佛-拉普拉斯定理给出了二项分布的近似计算公式.如何把握近似务件使近似更为准确?通过二项分布、泊松分布、正态分布的概率值的对比,得出泊松分布在p较小时、n不用太大即可近似较好;正态分布在p较小、n较大等三种条件下都能较好近似二项分布;在p较小、n足够大时两种近似均可的结论.
4.期刊论文 安芹力 泊松分布参数的含义 -教育教学论坛2010,""(32)
泊松分布是一种常见概率分布,但是很少有人探讨它的参数的含义,本文以常见电话问题为背景,对泊松分布进行推导并得出结论.
5.期刊论文 郑永冰.ZHENG Yong-bing 关于二项分布的极限分布的一个注记 -大学数学2007,23(2)
讨论了用泊松分布和正态分布近似表示二项分布的精确程度问题,对于泊松分布,指出了它对二项分布B(n,p)的概率值的近似精确与否基本上只依赖于参数p而不依赖于n,并说明了经验条件"np≤5"的不确切.
6.期刊论文 马小霞.Ma Xiao-xia 有关二项分布的近似计算 -楚雄师范学院学报2007,22(3)
二项分布是一个很重要的离散型随机变量的分布,其试验模型是n重独立伯努力试验,通常记作随机变量X~B(n,p).当参数n很大,p在0到1的不同大小范围内取值时,可以通过两种不同的方法对二项分布进行近似计算,并期望可以得到较精确的近似值.
7.学位论文 赵永恒 伤病发生概率测量及健康保险损失分布研究 2007
在国外,有关商业健康保险精算的研究已经比较成熟,保险机构积累的数据比较完善,已经能用相对精细的模型进行定价、提取准备金以及风险控制。我国商业健康保险发展于八十年代初期,经过二十多年的发展,健康保险业务的规模、质量和水平都有了很大的提高。随着健康保险业务的发展,对健康保险精算的要求也进一步提高。
在目前我国商业健康保险供需两旺,但是业务经营并不尽人意的情况下,研究健康保险精算的意义无疑是重大的。健康保险损失是健康保险精算的基础,更应该受到我们的重视。本文所研究的两个问题:伤病发生概率和损失分布都是衡量健康保险损失的重要指标。
研究健康保险损失在实务和理论方面都有重要的意义。研究健康保险损失,是保险产品定价的基础,对合理定价具有举足轻重的作用;健康保险损失也是合理提取准备金的基础;要想对健康保险进行有效的监管,必须对健康保险损失进行研究,研究保险行业自己的伤病发生率和损失分布。 论文三万余字,共分四部分,主要内容和观点如下:
首先是绪论,分为四个部分,第一部分提出问题;第二部分介绍研究背景和意义,近年来,我国商业健康保险一直保持着较快的发展水平,市场供需两旺,但是我国商业健康保险业务经营并不理想,主要原因是我国健康保险刚刚起步,对健康保险精算的研究还很少,在这种背景下,研究健康保险精算的基础——健康保险损失,具有重要的意义,健康保险损失在保险定价、精算评估、精算监管等方面具有重要的意义;第三部分阐述了研究内容,本文研究健康保险损失的两个方面,伤病发生概率和损失额,伤病发生概率包括伤病发生率和伤病发生次数,健康保险损失额主要研究损失分布;第四部分是文献综述,介绍了目前国内与国外对于这一问题的研究情况。
第一章对伤病发生概率及其测量进行探讨。在这一章中,笔者首先给出伤病发生率的定义,包括初始伤病发生率(initial.incidernce rate)、中心伤病发生率(central incidence rate)、点时患病率(point prevalence rate)、期间患病率(period prevalence rate)、累积患病率(cumulativeprevalence rate)等。
随后,笔者讨论了如何来测量伤病发生率。由于伤病发生率可以用多状态增减因表来描述,而马尔可夫链是描述多状态增减因表中不同状态间转移概率的常用工具,所以,笔者利用马尔可夫链这一工具来表示伤病发生率,先推导出了初始伤病发生率I的表达式,然后分别推导出了点时患病率和中心伤病发生率的表达式。
由于在用马尔可夫链来表示伤病发生率时,要用转移强度来表示,笔者给出了一种在假设转移强度是常数时的估计方法——极大似然估计方法。通过这种方法估计的转移强度等于转换次数和在特定状态的停留时间这两个随机变量的比值。
伤病发生次数是研究健康保险损失的另一个重要的指标。本文首先介绍了伤病发生次数的理论分布及其应用,包括二项分布、泊松分布、负二项分布、β-二项分布、泊松一泊松分布、泊松一二项分布以及混合泊松分布等。对于这些分布,二项分布、泊松分布、负二项分布最为常用,拟合效果也往
合型的分布来描述伤病发生次数,即β-二项分布、泊松一泊松分布、泊松-二项分布以及混合泊松分布等。
一旦拟合出伤病发生次数的理论分布,则可得到描述该随机变量的所有统计信息,包括期望和方差。在实务中,我们最常用的伤病发生次数的数字特征是期望和方差,因为在实际应用中,可用期望代替伤病发生次数,而方差则表示用期望代替伤病发生次数时的偏差程度。在保险实务中,有时拟合出伤病发生次数的理论分布是比较困难的一件事情,更不用说求其期望和方差。为了解决这一问题,笔者给出了直接求伤病发生次数的期望和方差的方法。
第二章阐述了健康保险损失分布及其拟合。健康保险损失的另外一个重要指标是损失分布,它描述每次费用的发生变化规律,在健康保险精算中,其特点是右偏态,带有一条长长的尾巴,这条长长的尾巴对保险公司的经营极为重要,它预示发生极大医疗费用支付的可能性。 本文介绍了几种常用的损失分布的定义和性质,包括Γ分布、对数Γ分布、对数正态分布、威布尔分布、帕累托分布等。
介绍了几种理论分布后,接下来研究了对于健康保险损失分布的拟合问题。即对于给出的一组损失数据,如何判断属于哪种分布,并如何估计其参数。对于一般的统计数据,要拟合它的分布,要根据这些数据的散点分布图,看与哪个函数的形状和性质相接近,然后假设服从这样的函数族,再通过点估计,极大似然估计以及矩估计来估计出参数。但是仅靠这些函数的形状和性质有时还不能作出准确的判断,健康保险的损失拟合通常采用剩余期望函数法,所以,有必要研究随着免赔额的不断增大,服从这几种重要分布的随机变量的剩余期望函数(它是免赔额的函数)的变化趋势怎样,因为它表明了右尾部的平均损失水平,并将其剩余期望函数作为标准函数与经验剩余期望函数进行比较,判断给定数据的分布形态。这就需要掌握这几种剩余期望函数的基本形状。本文阐述了几种常用分布的剩余期望函数的基本形状。接着给出了两种拟合的方法——经验剩余期望函数法和叠加分布模型。经验剩余期望函数法中介绍了有关的概念,给出了拟合过程:趋势判断,参数估计,拟合检验等。对于用期望剩余函数法拟合出来的损失分布,一般是上边提到的几种损失分布模型,由于它们有的尾部比较厚,有的尾部比较薄,所以,有的存在着过度拟合,有的存在拟合不足。而分布函数的尾部正是精算师所关心的,在这种情况下,我们可以把他们当中的两个或者多个同时使用,这就是叠加分布模型。在叠加分布模型中,先介绍了基本的概念,随之讨论了叠加分布模型的参数估计。
第三章对疾病表及其构造进行初探。本章中,首先给出了疾病表的定义。然后重点放在了疾病表的构造上面,构造疾病表包括以下几个步骤: (1) 收集数据,本文给出了收集数据的原则以及如何收集保险行业的数据的建议; (2) 风险分类,本文阐述了为什么进行风险分类以及如何进行风险分类;
(3) 计算伤病发生率,笔者给出了在不同情况下用到的计算伤病发生率的方法; (4) 对所得的伤病发生率进行修匀。 纵观全文,其贡献与创新点在于:
1、本文对健康保险损失进行了系统的研究。健康保险损失是健康保险精算的基础,以往对这方面的研究甚少,已有的研究局限于医疗损失分布的研究,缺乏系统的研究。本文对健康保险损失进行了系统、全面的研究,分析了影响健康保险损失的各种因素,提出了研究健康保险损失的不同指标。 2、注重理论与实务的结合。在研究理论的基础上进行实务应用的分析。在研究健康保险伤病发生次数和损失额的理论分布的基础上,研究了他们的应用。对于伤病发生率的应用,本文研究了疾病表及其构造的问题。
3、本文对健康保险损失从不同的角度进行研究。对健康保险损失的两个方面——伤病发生概率和损失额,三个指标——伤病发生率、伤病发生次数和健康保险损失分布分别进行研究。这在健康保险损失的研究中可以说是一种创新。 4、在测量伤病发生率时引入了马尔可夫链这一工具,也是本文的一个创新点。
8.期刊论文 李灿.郭尊光.LI Can.GUO Zun-guang 浅谈二项分布的近似计算 -科技情报开发与经济2009,19(14)
讨论了用Poasion定理、局部极限定理和积分极限定理近似计算二项分布概率时的误差,对这3种近似计算的误差进行了比较,详细分析了用局部极限定理做近似计算时的误差.
9.期刊论文 龙吉江 二项分布在管理中的应用 -河北职工医学院学报2003,20(1)
1 引言
二项分布是概率论中最重要的分布之一,无论在管理理论研究还是在管理实践中都有着很重要的作用.通过本文这几个例子可以看到,所有的概率结果都不仅仅是枯燥乏味的数字,在数字的后面蕴含着丰富的思想和内涵.
10.学位论文 左艳芳 基于泊松分布的两种治疗方法的非劣性评价 2007
长久以来,泊松分布都被认为是二项分布的极限近似,尤其是在事件发生次数较少时。由于,泊松分布在生物学,流行病学以及医学研究等领域中有着十分广泛的应用,所以,对于来自于两个独立样本的泊松比率(单位时间或者单位空间内事件发生的次数)的比较研究便具有非常重要的理论和实际意义。例如,为了研究X-射线对于妇女患乳腺癌的影响,我们可以把妇女分成两个组,其中第一组是在肺结核的治疗过程中采用了X-射线进行诊断;而第二组则没有采用了X-射线进行诊断,于是,问题就归结为考察第一组妇女相对与第二组妇女而言是否具有更高的罹患乳腺癌的风险;又如,常规的临床实验的主要的目的在于比较新的治疗方法在效用上是否优于传统的治疗方法,而事实上,由于更为安全,更易于管理或者成本更低等种种因素,我们提出了许多新疗法,同时,和传统的疗法相比较,这些新的疗法也有着相同的效用,这样一来就改变了临床研究的目的并且一个以在效用上非劣于(或相等同)为目的的实验设计也变得合理。同时,在临床实验或者实验室研究中为了增加治疗效果的可比较性,在许多新疗法的实验室阶段,实验者被分成了两组,其中一组采用的是新疗法,而另外一组采用传统疗法,测量结果是服从二项分布的随机变量,而相关风险常常用来比较疗效。尽管如此,到目前为止,对于配对实验设计的相关研究却很少。此外,在样本量相同的情形下,对两个泊松均值的比较问题人们已经取得了许多成果,在样本量不等的情形下对两个泊松均值的比较问题备受关注。考虑到X和X这两个泊松变量分别来自于两个不等的抽样结构,Shiue和Bain曾提出了一个一致最大功效无偏检验(UMPU);Thode也曾提出过一个较之Shiue和Bain的更为有效的检验统计量;Rothman和Greenland也利用对数变换提出了一个基于大样本的Wald类型的检验统计量,但是,却没有人对这些检验统计量作出的系统的比较。
本文首先讨论了在样本量不等的情况下基于泊松分布的两种治疗方法的非劣性评价问题,其次,考虑了该问题下的几种不同的方法,例如Score检验,Wald检验以及对数变换的检验方法,最后,我们以一个来自于乳腺癌研究的实际例子考察了以上这几种统计量的经验表现。
本文链接:http://d.g.wanfangdata.com.cn/Periodical_zxqykj200820039.aspx授权使用:北京邮电大学(byab),授权号:b12832e8-181a-44ec-a338-9e440156ee7c
下载时间:2010年12月6日