在多元正态模型下流行变点的检验方法分析

  摘要:本文主要研究了多元正态分布中流行变点的检验问题.利用似然比检验的方法,分别给出了均值流行变点和方差流行变点的似然比检验统计量,并给出了流行变点的估计方法.

  关键词:流行变点;多元正态分布;似然比检验;极大似然估计

  中图分类号:O212 文献标志码:A 文章编号:1674-9324(2013)51-0158-03

  一、引言

  统计学上对于变点问题的研究已有五十多年的历史了.它的理论研究涉及了统计理论中的众多研究方法,例如参数估计、假设检验和贝叶斯统计推断等,变点分析是统计推断中一个很有意义的研究分支.在应用方面,通过对各行业的不断发掘,目前已广泛应用于经济、气象、水文和医学等领域,例如气温变化[1]、地形起伏变化[2]、水库汛期分期的变化[3]、公交车预防维护[4]等诸多问题.

  变点的分类有很多,本文主要考虑流行变点的检测.王黎明[5]给出了流行变点的定义.

  定义1:设Xi(i=1,…,n)的分布函数为F(x;θi),如果X1,…,XP,…,Xq+1,…,Xn同分布于F(x;θ),Xp+1,…,Xq同分布于F(x;δ)其中θ和δ未知,p,q(1≤p  近年来对于流行变点的研究已有一些进展,Gregory[6]提出了一个非参数检验方法,Vexle[7]对线性模型中的流行变点提出了一个安全的检验方法,并证明了该检验方法是渐近最优的.但是,现有的文献中对于流行变点的研究都是建立在研究模型中只涉及一维观测值的基础上.而在现实生活中,人们经常会遇到观测数据是一个高维向量的情况,因而其相应的参数估计也是高维的.对于高维模型下流行变点的检测,目前已有的检验方法已不能直接应用。

  基于这种考虑,本文考虑了多元正态模型下流行变点的检验问题.我们在假定总体服从多元正态分布的条件下,利用似然比检验方法,分别给出了有关均值和方差的流行变点的似然比检验统计量,并给出了流行变点p,q的估计方法。

  二、多元正态模型下流行变点的定义

  首先,我们来给出多元正态模型下均值流行变点和方差流行变点的定义.

  定义2:设样本X1,…,Xn中,X1,…,Xp,Xq+1,…,Xn~N(u1,V),Xp+1,…,Xq~N(u2,V)其中u1和u2为m维列向量,V为m阶正定阵.若u1≠u2,则称p,q为均值流行变点,此时p,q为未知正整数,满足m≤q-p≤n-m.

  定义3:设样本X1,…,Xn中,X1,…,Xp,Xq+1,…,Xn~N(u,V1),Xp+1,…,Xq~N(u,V2),其中u为m维列向量,V1和V2均为 m阶正定阵.若V1≠V2,则称p,q为方差流行变点,此时p,q为未知正整数,满足m≤q-p≤n-m.

  注意到这里对于变点p,q的限制改为m≤q-p≤n-m,这是由于在高维模型下的矩阵计算的条件需要.

  三、均值流行变点的检验

  假设Xi~N(ui,V),i=1,2,…,n,ui为m维列向量,V正定, 则该情形下流行变点的检验问题变为H0∶u1=…=un=u0?圮H1∶u1=…=up=uq+1=…=un=u'1≠u'2=up+1=…=uq

  这里p,q为未知正整数,满足m≤q-p≤n-m,且u'1,u'2未知.

  定义似然函数为L(u1,…,un,V)=(2π)■|V|■exp-■trV■■(X■-u■)(X■-u■)'.

  (一)协方差阵V已知

  在零假设H0成立的条件下,u0的极大似然估计为■■=■=■■X■,于是易得■L(u1,…,un,V)=L(■■)=2π■|V|■exp-■tr(V■S),其中S=■(X■-■)(X■-■)'另外,对于固定的(p,q),在H1假设下,u1'和u2'的极大似然估计分别为

  ■'1=■(■Xi+■Xi),■'2=■■Xi.

  于是可得■L(u1,…,un,V)=L(■'1,■'2)=(2π)■|V|■exp-■trV■(Y1+Y2),其中Y1=■(Xi-■'1)(Xi-■'1)'+■(Xi-■'1)(Xi-■'1)',Y2=■(Xi-■'2)(Xi-■'2)'.

  由此得似然比统计量

  Λ1(p,q)=■=exp■trV■(S-Y1-Y2).

  由于S=Y1+Y2+■(■'1-■'2)(■'1-■'2)',

  则Λ1(p,q)=exp■trV■(■'1-■'2)(■'1-■'2)'.

  进而可以定义检验统计量为T1=■■trV■(■'1-■'2)(■'1-■'2)'(3.1)

  易见,T1越大,则越有可能拒绝原假设H0,即认为存在流行变点;否则接受H0,认为不存在流行变点.使(3.1)式达到最大的(p,q)即为变点(p,q)的最大似然估计,记为(■,■),可采用穷举法得到这个估计.进一步,若V=σ2Im,σ2已知,则T1具有更简洁的形式

  T'1=■■(■'1-■'2)(■'1-■'2)'.

  (二)协方差阵V未知

  这种情形与V已知时类似,未知参数u0的极大似然估计仍为■0=X,而V的极大似然估计为■=S/n,其中X,S同前文一样.于是有■L(u1,…,un,V)=L(■0-■)=(2π)■|S|■n■e■=■■|S|■

  对于固定的(p,q),在H1假设下,由简单计算可知u1',u2'的极大似然估计仍为■'1和■'2.并且得到V的极大似然估计为■=(Y1+Y2)/n.因此有

  ■L(u1,…,un,V)=L(■'1,■'2,■)=(2π)■|Y1+Y2|■n■e■=■■|Y1+Y2|■   进而得到似然比统计量

  Λ2(p,q)=■=■■.

  令T2=■■ (3.2)

  则当T2显著大时拒绝原假设H0,即认为存在流行变点;否则接受H0,认为变点不存在.使(3.2)式达到最大的(p,q)即为变点(p,q)的最大似然估计,记为(■,■).

  另外,同前知Y1+Y2=S-■(■'1-■'2)(■'1-■'2)'则T2可以化为

  T2=■■.

  四、方差流行变点的检验

  该模型假设Xi~N(u,Vi),i=1,2,L,n其中u为m维向量, V1正定,则流行变点检验为H0∶V1=…=Vn=V0?圮H1∶V1=…=Vp=Vq+1…=Vn=V'1≠V'2=Vp+1=…=Vq

  其中p,q为未知正整数,满足m≤q-p≤n-m,且V0,V'i(i=1,2)未知.其似然函数为L(u,V1,…,Vn)=(2π)■■|Vi■|■exp-■tr■Vi■(X■-u)(X■-u)'.

  (一)均值向量u已知

  记A=■(X■-u)(X■-u)',则在H0下V0的极大似然估计为■■=■■(Xi-u)(Xi-u)'=■A,则■L(V1,…,Vn)=L(■■)=(2π)■e■n■|A|■.

  记A1=■(Xi-u)(Xi-u)'+■(Xi-u)(Xi-u)',A2=■(Xi-u)(Xi-u)',则在H1下可得V'1和V'2的极大似然估计分别为■'1=■A1,■'2=■A2.于是有■L(V1,…,Vn)=(2π)■

  e■■■■■

  因此,这个似然比检验统计量为Λ3(p,q)=■=■.

  由于m,n,A与(p,q)无关,可令

  T3=■■■■■, (4.1)

  则满足(4.1)式的(p,q)为其最大似然估计.

  (二)均值向量u未知

  在H0下,u和V0的极大似然估计分别为■=X,■0=S/n,其中X,S同前.于是易算得■L(u,V1,…,Vn)=L(■,■0)=(2π)■e■n■|S|■.

  现在固定(p,q),则在H1下的似然函数为

  L(u,V1,…,Vn)=L(u,V'1,V'2)=(2π)■|V'1|■|V'2|■exp-■trV'1■A1+V'2■A2),

  其中A1,A2同前,进而可求得u,V'1,V'2的极大似然估计分别为■=(n-q+p)■'1-1+(q-p)■'2-1-1■'1-1■Xi+■Xi+■'-12■Xi,■'1=■,■'2=■.

  则■L(u,V1,…,Vn)=L(■,■'1,■'2)=(2π)■e■|■'1|■

  |■'2|■■,其中S1=■(Xi-■)(Xi-■)'+■(Xi-■)(Xi-■)',S2=■(Xi-■)(Xi-■)'于是似然比统计量为Λ4(p,q)=■=|S|■n■■■■■■.

  由于m,n,S与(p,q)无关,可令

  T4=■■■■■,(4.2)

  则当T4显著大时否定H0,认为存在流行变点(p,q),且使得(4.2)式最大化的(p,q)为其极大似然估计.

  五、结论

  本文提出的利用似然比检验的方法,不但能够明确给出多元正态模型下流行变点检验的统计量,而且还可以清楚地给出流行变点(p,q)的估计方法.

  参考文献:

  [1]刘莉红,郑祖光.近百余年我国气温变化的突变点分析[J].南京气象学院学报,2003,(26):378-383.

  [2]王玲,同小娟.基于变点分析的地形起伏度研究[J].地理与地理信息科学,2007,23(6):65-67.

  [3]刘攀,郭生练,王才君,张洪刚.三峡水库汛期分期的变点分析方法研究[J].水文,2005,25(1):18-23.

  [4]张国凤,蒋仁言.用变点分析方法评价城市公共汽车预防维修效果[J].交通科学与工程,2010,26(3):71-76.

  [5]王黎明.变点统计分析的研究进展[J].统计研究,2003,(1):50-51.

  [6]Gregory Gurevich A.Nonparametric AMOC change point tests for stochastically ordered Alternatives[J].Communications in Statistics:Theory and Methods, 2006,(35):887-903.

  [7]Vexler A. Guaranteed testing for epidemic change of a linear regression model[J].Journal of Statistical Planning and Inference,2006,(136):3101-3120.

  作者简介:吴小霞(1979-),女,湖北武汉人,讲师,博士,研究方向:多重检验和变点分析。

  摘要:本文主要研究了多元正态分布中流行变点的检验问题.利用似然比检验的方法,分别给出了均值流行变点和方差流行变点的似然比检验统计量,并给出了流行变点的估计方法.

  关键词:流行变点;多元正态分布;似然比检验;极大似然估计

  中图分类号:O212 文献标志码:A 文章编号:1674-9324(2013)51-0158-03

  一、引言

  统计学上对于变点问题的研究已有五十多年的历史了.它的理论研究涉及了统计理论中的众多研究方法,例如参数估计、假设检验和贝叶斯统计推断等,变点分析是统计推断中一个很有意义的研究分支.在应用方面,通过对各行业的不断发掘,目前已广泛应用于经济、气象、水文和医学等领域,例如气温变化[1]、地形起伏变化[2]、水库汛期分期的变化[3]、公交车预防维护[4]等诸多问题.

  变点的分类有很多,本文主要考虑流行变点的检测.王黎明[5]给出了流行变点的定义.

  定义1:设Xi(i=1,…,n)的分布函数为F(x;θi),如果X1,…,XP,…,Xq+1,…,Xn同分布于F(x;θ),Xp+1,…,Xq同分布于F(x;δ)其中θ和δ未知,p,q(1≤p  近年来对于流行变点的研究已有一些进展,Gregory[6]提出了一个非参数检验方法,Vexle[7]对线性模型中的流行变点提出了一个安全的检验方法,并证明了该检验方法是渐近最优的.但是,现有的文献中对于流行变点的研究都是建立在研究模型中只涉及一维观测值的基础上.而在现实生活中,人们经常会遇到观测数据是一个高维向量的情况,因而其相应的参数估计也是高维的.对于高维模型下流行变点的检测,目前已有的检验方法已不能直接应用。

  基于这种考虑,本文考虑了多元正态模型下流行变点的检验问题.我们在假定总体服从多元正态分布的条件下,利用似然比检验方法,分别给出了有关均值和方差的流行变点的似然比检验统计量,并给出了流行变点p,q的估计方法。

  二、多元正态模型下流行变点的定义

  首先,我们来给出多元正态模型下均值流行变点和方差流行变点的定义.

  定义2:设样本X1,…,Xn中,X1,…,Xp,Xq+1,…,Xn~N(u1,V),Xp+1,…,Xq~N(u2,V)其中u1和u2为m维列向量,V为m阶正定阵.若u1≠u2,则称p,q为均值流行变点,此时p,q为未知正整数,满足m≤q-p≤n-m.

  定义3:设样本X1,…,Xn中,X1,…,Xp,Xq+1,…,Xn~N(u,V1),Xp+1,…,Xq~N(u,V2),其中u为m维列向量,V1和V2均为 m阶正定阵.若V1≠V2,则称p,q为方差流行变点,此时p,q为未知正整数,满足m≤q-p≤n-m.

  注意到这里对于变点p,q的限制改为m≤q-p≤n-m,这是由于在高维模型下的矩阵计算的条件需要.

  三、均值流行变点的检验

  假设Xi~N(ui,V),i=1,2,…,n,ui为m维列向量,V正定, 则该情形下流行变点的检验问题变为H0∶u1=…=un=u0?圮H1∶u1=…=up=uq+1=…=un=u'1≠u'2=up+1=…=uq

  这里p,q为未知正整数,满足m≤q-p≤n-m,且u'1,u'2未知.

  定义似然函数为L(u1,…,un,V)=(2π)■|V|■exp-■trV■■(X■-u■)(X■-u■)'.

  (一)协方差阵V已知

  在零假设H0成立的条件下,u0的极大似然估计为■■=■=■■X■,于是易得■L(u1,…,un,V)=L(■■)=2π■|V|■exp-■tr(V■S),其中S=■(X■-■)(X■-■)'另外,对于固定的(p,q),在H1假设下,u1'和u2'的极大似然估计分别为

  ■'1=■(■Xi+■Xi),■'2=■■Xi.

  于是可得■L(u1,…,un,V)=L(■'1,■'2)=(2π)■|V|■exp-■trV■(Y1+Y2),其中Y1=■(Xi-■'1)(Xi-■'1)'+■(Xi-■'1)(Xi-■'1)',Y2=■(Xi-■'2)(Xi-■'2)'.

  由此得似然比统计量

  Λ1(p,q)=■=exp■trV■(S-Y1-Y2).

  由于S=Y1+Y2+■(■'1-■'2)(■'1-■'2)',

  则Λ1(p,q)=exp■trV■(■'1-■'2)(■'1-■'2)'.

  进而可以定义检验统计量为T1=■■trV■(■'1-■'2)(■'1-■'2)'(3.1)

  易见,T1越大,则越有可能拒绝原假设H0,即认为存在流行变点;否则接受H0,认为不存在流行变点.使(3.1)式达到最大的(p,q)即为变点(p,q)的最大似然估计,记为(■,■),可采用穷举法得到这个估计.进一步,若V=σ2Im,σ2已知,则T1具有更简洁的形式

  T'1=■■(■'1-■'2)(■'1-■'2)'.

  (二)协方差阵V未知

  这种情形与V已知时类似,未知参数u0的极大似然估计仍为■0=X,而V的极大似然估计为■=S/n,其中X,S同前文一样.于是有■L(u1,…,un,V)=L(■0-■)=(2π)■|S|■n■e■=■■|S|■

  对于固定的(p,q),在H1假设下,由简单计算可知u1',u2'的极大似然估计仍为■'1和■'2.并且得到V的极大似然估计为■=(Y1+Y2)/n.因此有

  ■L(u1,…,un,V)=L(■'1,■'2,■)=(2π)■|Y1+Y2|■n■e■=■■|Y1+Y2|■   进而得到似然比统计量

  Λ2(p,q)=■=■■.

  令T2=■■ (3.2)

  则当T2显著大时拒绝原假设H0,即认为存在流行变点;否则接受H0,认为变点不存在.使(3.2)式达到最大的(p,q)即为变点(p,q)的最大似然估计,记为(■,■).

  另外,同前知Y1+Y2=S-■(■'1-■'2)(■'1-■'2)'则T2可以化为

  T2=■■.

  四、方差流行变点的检验

  该模型假设Xi~N(u,Vi),i=1,2,L,n其中u为m维向量, V1正定,则流行变点检验为H0∶V1=…=Vn=V0?圮H1∶V1=…=Vp=Vq+1…=Vn=V'1≠V'2=Vp+1=…=Vq

  其中p,q为未知正整数,满足m≤q-p≤n-m,且V0,V'i(i=1,2)未知.其似然函数为L(u,V1,…,Vn)=(2π)■■|Vi■|■exp-■tr■Vi■(X■-u)(X■-u)'.

  (一)均值向量u已知

  记A=■(X■-u)(X■-u)',则在H0下V0的极大似然估计为■■=■■(Xi-u)(Xi-u)'=■A,则■L(V1,…,Vn)=L(■■)=(2π)■e■n■|A|■.

  记A1=■(Xi-u)(Xi-u)'+■(Xi-u)(Xi-u)',A2=■(Xi-u)(Xi-u)',则在H1下可得V'1和V'2的极大似然估计分别为■'1=■A1,■'2=■A2.于是有■L(V1,…,Vn)=(2π)■

  e■■■■■

  因此,这个似然比检验统计量为Λ3(p,q)=■=■.

  由于m,n,A与(p,q)无关,可令

  T3=■■■■■, (4.1)

  则满足(4.1)式的(p,q)为其最大似然估计.

  (二)均值向量u未知

  在H0下,u和V0的极大似然估计分别为■=X,■0=S/n,其中X,S同前.于是易算得■L(u,V1,…,Vn)=L(■,■0)=(2π)■e■n■|S|■.

  现在固定(p,q),则在H1下的似然函数为

  L(u,V1,…,Vn)=L(u,V'1,V'2)=(2π)■|V'1|■|V'2|■exp-■trV'1■A1+V'2■A2),

  其中A1,A2同前,进而可求得u,V'1,V'2的极大似然估计分别为■=(n-q+p)■'1-1+(q-p)■'2-1-1■'1-1■Xi+■Xi+■'-12■Xi,■'1=■,■'2=■.

  则■L(u,V1,…,Vn)=L(■,■'1,■'2)=(2π)■e■|■'1|■

  |■'2|■■,其中S1=■(Xi-■)(Xi-■)'+■(Xi-■)(Xi-■)',S2=■(Xi-■)(Xi-■)'于是似然比统计量为Λ4(p,q)=■=|S|■n■■■■■■.

  由于m,n,S与(p,q)无关,可令

  T4=■■■■■,(4.2)

  则当T4显著大时否定H0,认为存在流行变点(p,q),且使得(4.2)式最大化的(p,q)为其极大似然估计.

  五、结论

  本文提出的利用似然比检验的方法,不但能够明确给出多元正态模型下流行变点检验的统计量,而且还可以清楚地给出流行变点(p,q)的估计方法.

  参考文献:

  [1]刘莉红,郑祖光.近百余年我国气温变化的突变点分析[J].南京气象学院学报,2003,(26):378-383.

  [2]王玲,同小娟.基于变点分析的地形起伏度研究[J].地理与地理信息科学,2007,23(6):65-67.

  [3]刘攀,郭生练,王才君,张洪刚.三峡水库汛期分期的变点分析方法研究[J].水文,2005,25(1):18-23.

  [4]张国凤,蒋仁言.用变点分析方法评价城市公共汽车预防维修效果[J].交通科学与工程,2010,26(3):71-76.

  [5]王黎明.变点统计分析的研究进展[J].统计研究,2003,(1):50-51.

  [6]Gregory Gurevich A.Nonparametric AMOC change point tests for stochastically ordered Alternatives[J].Communications in Statistics:Theory and Methods, 2006,(35):887-903.

  [7]Vexler A. Guaranteed testing for epidemic change of a linear regression model[J].Journal of Statistical Planning and Inference,2006,(136):3101-3120.

  作者简介:吴小霞(1979-),女,湖北武汉人,讲师,博士,研究方向:多重检验和变点分析。


相关文章

  • 数学建模方法的研究
  • 安徽电子信息职业技术学院学报No.620112011年第6期 第10卷(总第57期) JOURNALOF ANHUI VOCATIONAL COLLEGE OF ELECTRONICS &INFORMATION TECHNOLOGY ...查看


  • 公共卫生学院353[卫生综合]考试大纲编制
  • 中南大学2013年全国硕士研究生入学考试 <卫生综合>考试大纲 本考试大纲由公共卫生学院教授委员会于2012年7月7日通过. I. 考试性质 卫生综合考试是我校公共卫生与预防医学专业招收硕士研究生设置的具有选拔性质的一门入学专业 ...查看


  • 韩剧受欢迎因素对国家形象与产品形象的影响
  • 摘 要:本文以河南大学生为研究对象,探讨韩剧受欢迎的主要因素对韩国国家形象与产品形象的影响.研究发现,韩剧受欢迎的因素包括"演员的外貌与风格","背景音乐与画面","主题和内容", ...查看


  • 多元回归分析SPSS
  • 多元线性回归分析预测法 多元线性回归分析预测法(Multi factor line regression method,多元线性回归分析法) [编辑] 多元线性回归分析预测法概述 在市场的经济活动中,经常会遇到某一市场现象的发展和变化取决于 ...查看


  • 基于Logistic回归分析的违约概率预测研究
  • 第30卷第9期 2004年9月财经研究 Journal of Finance and Economics Vol 130No 19 Sep 12004 基于Logistic 回归分析的违约 概率预测研究 于立勇, 詹捷辉12 (11北京大学 ...查看


  • 心血管疾病住院费用影响因素分析
  • 摘要:为了对江苏省某医院的心血管疾病患者住院费用进行统计分析,并建立住院费用影响因素的多元方程,从某医院2011年1月至2012年8月的心血管疾病住院患者共计病历1126例,对住院患者的医疗费用及影响因素进行分析.结果表明:2011年至20 ...查看


  • 多元回归分析作业(北航)
  • 单位代码 学 号 分 类 号 密 级 应用数理统计(第一个论文) 山东省旅游发展影响因素多元回归分析 院(系)名 称 材料科学与工程学院 专 业 名 学 生 姓 名任 课 教 师 冯伟 2014年12月 摘要 本文主要通过对山东省旅游收入的 ...查看


  • 毕业论文文献综述基于SPSS的多元回归分析模型选取的应用 之文献综述
  • 基于SPSS 的多元回归分析模型选取的应用 文献综述 重庆工商大学 统计学 2010级 统计2班 殷婷 引 言 随着社会的发展,统计的运用范围越来越广泛,统计学作为高等院校经济类专业和工商管理类专业的核心课程,不管是在经济管理领域,或是在军 ...查看


  • 金融计量经济学教学大纲
  • 金融计量经济学课程教学大纲 课程名称:金融计量经济学 课程编号: 英文名称:Financial Econometrics 课程属性:必修课 学 时:48 学 分:3 先修课程:经济学.概率论与数理统计 后续课程:无 适用专业:金融学专业 一 ...查看


热门内容