选择重尾阈值k的Bootstrap方法

山西大学学报(自然科学版) 33(4) :508~512, 2010Journa l o f Shanx iU n i versity(N a t . Sc. i Ed . )

文章编号:0253 2395(2010) 04 0508 05

选择重尾阈值k 的Bootstrap 方法

刘维奇, 赫英迪

1, 2

2, 3

, 邢红卫

2

(1. 山西大学管理科学与工程研究所, 山西太原030006; 2. 山西大学数学科学学院, 山西太原030006;

3. 广东茂名职业技术学院, 广东茂名525000)

摘 要:详细讨论了重尾指数估计中选取k 的Sum p l o t 方法和Boo tstrap 方法, 并对H a ll 提出的Boo tstrap 方法作了改进, 称为M Boo tstrap 方法. 并利用上述三种方法对已知重尾分布进行M onte C arlo 模拟, 研究它们的可行性, 比较它们的稳健性, 改进的M Bootstrap 方法对重尾指数的估计在某些情况下优于Boo tstrap 方法. 关键词:重尾指数; 重尾阈值; Su m p l ot 方法; Boo tstrap 方法; M Bootstrap 方法中图分类号:O 212 文献标识码:A

重尾指数估计方法总体上分为参数估计和半参数估计, 都与重尾阈值或估计中所用次序统计量的个数k 有关. k 的选取关系到估计的精确性, k 的偏大或偏小都会造成估计的极大误差.

学者们从理论上提出了许多选取k 的方法. 其中一类是作图法, 比如H ill 提出的H ill p lo, t K ratz 和

[2][3][4]

Resnick 提出的qq plo, t B eirlant 等提出的Pareto 分位数图, R esnick 和Starica 给出的对H ill plot 改进的s m oo H ill plot 以及de H aan 和Resn i c k 给出的对H ill p l o t 改进的A lt H ill plot 等, 这些作图法都有一定的优越性, 但整体而言它们都不能适用于所有情况的重尾分布. 像H ill plo, t qq plo, t 当随机变量服从Pareto 分布时, 这两种方法表现出十分优良的性质, 能够很容易选取k 值. 一旦随机变量不服从Pareto 分布, 而是广义Pareto 分布时, 它们却不能很好地选取k , 甚至无法选取k . Pareto 分位数图, s m oo H ill p l o t 和A lt H ill plot 相对于H ill plot 估计精度稍高一些, 但是也不能对所有的重尾分布较好地选择k . Sousa 在其博士论文中提出的Sum plot 方法在一定程度上克服了前几种方法中选取k 所遇到的困难, 而且具有比较好的性质. 但是由于Sum plot 方法是以观察图形得到k , 因此选择k 有一定的猜测性, 因而会对重尾指数估计造成一定误差. 另一类方法就是以估计重尾指数的均方误差(MSE ) 最小为标准来确定k , 最优的k 应该与均方误差一致. 理论上M SE 与k 有关, 增大k , 方差减小, 偏差增大. 反之, 减小k , 方差增大, 偏差减小. 只有权衡方差和偏差使M SE 最小, 选取的k 才是最优的. 但是, M SE 还与未知分布尾部指数 和二阶参数 有关, 不能直接应用到实际问题中. 基于此, 1990年H all 提出了利用Bootstrap 方法来选取k , D anie lsson 在2001年又对H all 的方法作了进一步改进, Go m es 和O liveira 在2001年给出了一个选取Boo tstrap 方法子样本的准则, Go m es 等在2009年给出了针对降偏差重尾指数估计的Bootstrap 方法. 由于该方法计算量很大, 有必要在保证估计特性的前提下提高估计的收敛速率以减少计算量.

[9]

[7]

[8][6]

[5]

[1]

1 Su m p lot 方法

Su m plot 方法

[6]

是基于{(k, S k ), 1 k n }应该是一条直线的理论依据来选取k . Sousa 通过对不同样本

容量的不同分布进行模拟, 得出无论是分布的尾部指数0

收稿日期:2010 07 16; 修回日期:2010 07 30

基金项目:教育部人文社会科学研究项目(07J A630027; 06J A 630035); 山西省高校人文社科重点研究基地项目

(20083006)

作者简介:刘维奇(1963-), 男, 山西忻县人, 教授, 博士生导师, 主要从事金融工程和时间序列等领域的研究, E m ai:l li

u wq @sxu . edu . cn

G om esM I , M endonca S , Pestana D. The boo tstrap m ethodo l gy and adapti ve reduced b i as ta il i ndex and V al ue a t R isk esti m a

ti on . W ork i ng paper , 2009.

刘维奇等:选择重尾阈值k 的Boo tstrap 方法509

而言都较其它方法优越, 并且不受样本异常值影响, 即具有稳健性. 这里随机变量

S k =

其中X n ! X n !#X n

如果选择k, 使X n

-1

(1)

(2)

-1

k

i=1

i(log X

(i)

n

-log X

(i+1) n

) =

k

i=1

(log X n -log X n

-1

(i) (k+1)

), 1 k n (1)

(k +1)

为次序统计量.

足够大, 那么对任意x >X n

(k +1)

(k +1)

, 有S k ~ k . 近似式表明图形中直线的斜率等于

(2)

, 而且Sousa 证明了 可以通过如下线性回归模型估计出来.

S i = 0+ 1i +! , 2, #, k. i , i =1

容易发现参数 的估计值等于回归模型的斜率^ 1, 即

^n , k =^ 1=

-1

-1-1

-1

-1(1) n , k -log X n

k -1k -1

-1

(3)

进一步, 如果 , 则 ^n , k =^ 0=0GLS =H n , k , 其中H n , k 就是H ill 估计.

由于Sum plot 方法需要观察以坐标{(k , S k ), 1 k n }画成的散点图在哪一点偏离直线, 因此选择的k

有一定的猜测性, 因而会对重尾指数估计造成不可避免的误差.

2 D anielsson B ootstrap 方法

Danie lsson 等

[8]

对H a ll 的方法作了改进, 使用新的统计量M n (k ) 来代替∀n (k ). 引入统计量

(i) (k+1) 2

M n (k ) =∀(log X n -log X n ) , 1 k n.

k i=1

k

(4)

2

2

已经证明, 当k ∃%, k /n∃0时, M n (k ) /(2∀, 统计量M n (k ) /(2∀n (k ) ) 依概率收敛于∀n (k ) ) -∀n (k ) 和∀n (k ) -∀有相似的渐近性质, 并且在一定条件下极小化AM SE 和极小化A s yE (Mn (k ) -2(∀n (k ) ) ) 可以得到同阶量的k (相对于n). 因此, 根据Boo tstrap 子样本X n 1, 选用统计量:

Q (n 1, k 1) =E ((Mn 1(k 1) -2(∀|X n ), n 1(k 1) ) )

其中M

*

n 1

k

*

*

2

2

*

(5)

11(i) *(k +1) *2

(k 1) =i ∀(log X -log X ) . 通过最小化Q (n 1, k 1) 来确定k 1. 为了确定k, 还需要另一个n n

k 1=1

*

2

Bootstrap 子样本X n 2, n 2=n 1/n,然后利用与确定k 1相同的程序来确定k 2. 再利用k , k 1和k 2之间的关系

k =

来确定k .

k (log k 1)

k 2(2log n 1-log k 1) 2

21

2

log n 1-lo g k 1

1(6)

3 M B ootstrap 方法

我们受Dan i e lsson 等变为

&

[8]

提出的Boo tstrap 方法的启发, 用∀的相合估计 ∀n (k ) 代替∀n (k ), 渐近均方误差

AM SE M (n 1, k 1) =E ((∀∀k

根据Boo tstrap 子样本X n 1, 通过极小化AMSE M (n 1, k 1) 和关系k =k 1(n /n1) 来确定k 1与k .

定理1 假设k ∃%, k /n∃0. k (n ) 由A M SE (n, k ) 最小确定. 则

k =

-1

2

%

*

#

*2

(7)

(1+o (1) ), n ∃%, 2

S (∀(1- ) /n)

-1

2

(8)

S 是函数S 的反函数, A (t) =∋t S (u ) du (1+o(1) ), t ∃%.

假设A (t) =ct , c (0, >0, 则

#

k =H ( ) n (1+o (1) ), #=2 /(2 -1) 定理2 假设k 1∃%, k 1/n1∃%. 假设A (t) =ct , c (0,

k 1) 最小确定k 1. 则

#

1-!

&

(9)

) (0

(10)

k 1=H ( ) n 1(1+o (1) ), #=2 /(2 -1)

由定理1和定理2可知, k 与n, k 1与n 1存在同样的幂指数关系式. 这与H a ll 所预设的关系一致. 所以我

#

们仍旧取#=, =由k =k 1() 来确定k . 我们取#=无形中假设了二阶形状参数 =-1, 这证实

32n 13

了H a ll 的Boo tstrap 方法与 =-1有关.

-1

随机变量Y 1, Y 2, #, Y n 是. i . i d . , 其共同分布为G (y) =1-y (y ! 1), Y n , 1! #!Y n , n 是Y 1, Y 2, #, Y n 的顺序统计量. {Xn , 1}i ={U(Y n , i ) }i =1, 其中U(t) =(

n d

n

-) (t).

1-F

引理1 0

Y n , k p

(1) n ∃%, ∃1.

(n /k)

(2) n ∃%, (Pn , Q n ) 渐近正态, 它们的均值为0, 方差分别为1, 20, 协方差为4, 其中

112

P n ={∀log Y n, i -log Y n , k+1-1},Q n ={∀(log Y n , i -log Y n , k+1) -2}.

k i=1k i=1

定理1的证明:U (t) 的定义等价于正则变化函数|l o g U(t) -∀l o g t -C 0|以指数 正则变化, 其中C 0为常数. 令A (t) = (log U(t) -∀log t -C 0). 由Potter 不等式, 可得对任意0 0, 对于t 0>0, tx ! t 0有,

-! |log x |log U (tx ) -log U(t) -∀log X ! |log X |

(1-! )x e -1 (1+! ) x e -1. (11)

A (t) /

用Y n, k 代替t , Y n , i /Yn , k +1代替x 迭代不等式(i =1, 2, #, k ), 然后乘以得到

k k

∀P n Y n , i -1+!

∀) ∀++ A (Y n , k+1) (1∗! ) {∀() -1}.

k i=1Y n , k+1

k

k

而Y 1, #, Y k . i . i d 具有共同分布函数1-∀+n ) ∀

∀n ) ∀+

∀P n k ∀P n k

k

i=1

Y n , i d

=Y n , k+1

∀Y ,

i=1

i

k

于是由弱大数定律得y

+ (1∗! ) (

-1

1

-1)A (Y n, k ),

1- !

) +O p (A() ), k k

2

+(1- ) A (

2

2

-1

A s yE (∀) ) +2n -∀

k (1- )

我们求(12) 中右边的最小值点, 得到定理1的结论, 定理证毕.

1-!

定理2的证明:令G n 表示独立变量的均匀分布的经验分布函数. 令n 足够大, n 1=O (n ), 则有

Y 2

-) tG n (0

(12)

sup 2, a . s . a . s .

n

(13)

) -) | sup |n (t ! 2t t

于是

4 t n 1(log n n ) 2

2

sup |

n (

-

) t

[Gn (Gn (

-

-) ) -G n () ]| t t

因此, 对所有的4 t n 1(log n n ) ,

|tG n (

-

) -1| a . s . t n

(14)

用F n 表示X n 的经验分布函数. v(t) =G n (1-

), 由(11), (13), (14) 得, t

|log y | 2|y -1|, y 2,

2

-e -11+ |y -1| (- ) (2v 2) |y -1|, y 2,

2

-1d

log U n (t) =log F n (1-) =t

-

).

1-1

1-G (1-) t G n () t t 22

所以对任意的0 4, 对于t 0

log U n (t x ) -log U n (t) -∀log x d

=

A (t) /

log U () -log U(tx ) -∀log () ) ∀l o g () ∀log (----t x G n () txG n () txG n () tG n ()

log +--A (tx ) / A (t) / A (t) / A (t)

log U () -log U(t) -∀log ()

--t G n () t G n ()

t t log U (t x ) -log U (t) -∀log x

+!

A (t) / A (t) /

-n

--log F n (Gn (1-) ) =log v(

t

) =log v(

d

[(- ) (2

- +1

+2

+3

) +2|

∀ |]x +1) +A (t) (15)

(1+9! ) (1+! ) x exp (! |log x |) -1+7! .

同理

log U n (tx ) -log U n (t) -∀log x - +1 +3! -[(1- ) (2+2) +2||](x +1) +

A (x ) / A (t) n

(1-9! ) (1-! )x exp (-! |log x |) -1-7! ,

用Y n 1, k 1+1, Y n 1, i (i =1, #, k 1) 分别代替t 和tx , 则不等式(15), (16) 是以概率成立的. 于是有

4 Y n 1, i Y n 1, n 1(i =1, #, k 1)

以概率成立.

Y n 1, n 1n 1(log n 1)

我们极小化E ((∀X n ). n 1(k 1) -∀n (k ) ) |

由定理1的证明过程可以得到

∀(k 1) =∀+

*

n 1

d

*

2

2

(16)

, n 1∃%, k 1/n1∃0. ∃0

p

∀P n 1

1

+d 1A (Y n 1, k 1+1) +o p (A(n 1/k1) ) +O (

log n 11n

),

又∀∀的相合估计, ∀∀+o p (A(n 1/k1) ), 又l o g n n 是∀n =∀n 1/k1n =o(1/k 1). 定理2得证, 定理证毕.

4 M onte C arlo 模拟

为了更好地说明问题, 我们选用三种熟知的重尾分布, 稳定分布S tab l e (1#5) 分布、t 分布t(3) 以及逆∃分布I Ga(1#5, 1), 分别采用Sum p l o t 方法、Dan ielsson 等提出的Bootstrap 方法(D Bootstrap 方法) 和改进的Bootstrap 方法(M Boo tstrap 方法) 进行模拟. 结果表明, Sum plot 方法、Bootstrap 方法和M Bootstrap 方法都能

作为H ill 估计中选择k 的有力工具, 它们和H ill 估计结合起来估计重尾指数将是有效的. 为便于比较, 我们将三种方法的模拟结果列表如下(P512见表1).

512山西大学学报(自然科学版) 33(4) 2010

表1 三种方法用于t , Cauchy , F r chet , 逆G a , Burr 和P areto 的结果

Table 1 Resu lts by the three m e thods on t , Cauchy , Fr chet , Inverse G a mm a , Bu rr and Pareto distr i bu tions

分布

方法Su m p l o t 方法D Boo tstrap 方法M Bootstrap 方法

Stab l e(1#5) k ^6024890

^1#51461#56991#5644

^k 323469

t(3)

^3#00243#12132#5581

逆G a(1#5, 1) k ^ ^75367176

1#48991#38801#4886

根据表1可以看出, 应用三种方法得到的结果是令人满意的. 相比之下, Sum p l o t 方法的精确性优于两种Bootstrap 方法. 从整体上看, 两种Bootstrap 方法估计的结果误差也是比较小的, 都可以使用. 从k 选择上看, 改进的M Bootstrap 方法更接近Sum p lot 方法结果, 对重尾指数的估计在某些情况下优于Bootstrap 方法, 特别是在计算量上明显优于Boo tstrap 方法. 所以, M Bootstrap 方法是适用的, 有意义的. 两种Bootstrap 方法个别情形下出现了较大偏差, 这与方法本身的特点有关. 基于两个子样本的Boo tstrap 方法受异常值的影响, 我们所用的数据都是随机生成的, 不免有异常值的出现. Boo tstrap 方法受样本容量的影响很大, 这也是出现偏差的原因. 参考文献:

[1] H ILL B . A S i m ple G eneral A pproach to Infererce about T he T a il of a D istri buti on[J].A nnals of S t atistics, 1975, 3:1163 1174. [2] KRATZ M, RESN ICK S . T he qq esti m ator and H eavy T a ils[J].S tochastic m odels , 1996, 12(4):699 724.

[3] BE I RLANT J , VYNCK I ER P, T E UG ELS J L. T a il Index Esti m ati on , Pareto Quantilep l o ts , and R eg ressi on D iagnostics[J].Journal

of t he Am er ican S tatistical A ssoci ation , 1996, 436:1659 1667.

[4] R ESN ICK S , S TAR ICA C . S m oothing the H ill E sti m ato r[J].A dvances in A pp lied Probab ilit y , 1997, 29:271 293. [5] DREES H, HAAN L D, RES N I CK S . H o w to M ake a H ill P l ot[J].A nnals of S t atistics , 2000, 28:254 274.

[6] SOU SA B . A Contr i buti on to the Esti m ati on o f the T a il Index o fH eavy ta iled D istr i buti ons[D ].T he U n i versity o M f i chigan , 2002. [7] HALL P. U si ng t he Bootstrap to Esti m a te m ean Square E rror and Se l ec t S m oothing P aram eters i n N on param etr i cproble m s[J].

J ournal of M ultivar i ate A nal y sis , 1990, 32:177 203.

[8] DAN I ELSSON J . U si ng a Bootstrap M ethod Choosethe Samp l e F racti on i n T a il Index E sti m ation[J].Journa l of M ultivariate A nal

y sis , 2001, 76:226 248.

[9] GOM ES M I , O L I VE I RA O. The Bootstrap M et hodo logy i n Sta ti stics of Ex tre m es cho i ce o f the O pti m al Samp l e F raction[J].Ex

tre m es , 2001, 4(4) :331 358.

Bootstrap M ethod i n Selecting H eavy tailed Thresho l d k

LI U W ei q i , HE Y ing d i , XI NG H ong w e i

1, 2

2, 3

2

(1. Institute of M anage men t Science and Eng i neering , Shanx i Universit y, T ai yuan 030006, Ch i na ;

2. S c hool of M at he m atical Science , Shanx i Univers it y, T aiyuan 030006, China ;

3. M aom ing V ocational T echnical College , M ao m i ng 525000; China )

Abst ract :W e d iscuss the Sum plot m ethod and Boo tstrap m ethod i n selecting k i n heavy ta iled i n dex esti m ation , and i m prove the Boo tstrap m ethod proposed by H a l, l kno wn as the M Bootstrap M ethod . The three m ethods w ere used to study t h e kno w n heavy ta iled d i s tributions byM onte Carlo si m u lati o n technology , in cluding t h e ir feasi b ility , M oreover , t h e ir robustness w as co mpared the M Bootstrap m ethod w as better than the Boo tstrap m ethod in so m e ca ses for heavy tailed index esti m ation . K ey w ords :heavy tailed index ; heavy ta iled thresho ld ; Sum plotm et h od ; Bootstrap m et h od ; M Bootstrap m ethod

山西大学学报(自然科学版) 33(4) :508~512, 2010Journa l o f Shanx iU n i versity(N a t . Sc. i Ed . )

文章编号:0253 2395(2010) 04 0508 05

选择重尾阈值k 的Bootstrap 方法

刘维奇, 赫英迪

1, 2

2, 3

, 邢红卫

2

(1. 山西大学管理科学与工程研究所, 山西太原030006; 2. 山西大学数学科学学院, 山西太原030006;

3. 广东茂名职业技术学院, 广东茂名525000)

摘 要:详细讨论了重尾指数估计中选取k 的Sum p l o t 方法和Boo tstrap 方法, 并对H a ll 提出的Boo tstrap 方法作了改进, 称为M Boo tstrap 方法. 并利用上述三种方法对已知重尾分布进行M onte C arlo 模拟, 研究它们的可行性, 比较它们的稳健性, 改进的M Bootstrap 方法对重尾指数的估计在某些情况下优于Boo tstrap 方法. 关键词:重尾指数; 重尾阈值; Su m p l ot 方法; Boo tstrap 方法; M Bootstrap 方法中图分类号:O 212 文献标识码:A

重尾指数估计方法总体上分为参数估计和半参数估计, 都与重尾阈值或估计中所用次序统计量的个数k 有关. k 的选取关系到估计的精确性, k 的偏大或偏小都会造成估计的极大误差.

学者们从理论上提出了许多选取k 的方法. 其中一类是作图法, 比如H ill 提出的H ill p lo, t K ratz 和

[2][3][4]

Resnick 提出的qq plo, t B eirlant 等提出的Pareto 分位数图, R esnick 和Starica 给出的对H ill plot 改进的s m oo H ill plot 以及de H aan 和Resn i c k 给出的对H ill p l o t 改进的A lt H ill plot 等, 这些作图法都有一定的优越性, 但整体而言它们都不能适用于所有情况的重尾分布. 像H ill plo, t qq plo, t 当随机变量服从Pareto 分布时, 这两种方法表现出十分优良的性质, 能够很容易选取k 值. 一旦随机变量不服从Pareto 分布, 而是广义Pareto 分布时, 它们却不能很好地选取k , 甚至无法选取k . Pareto 分位数图, s m oo H ill p l o t 和A lt H ill plot 相对于H ill plot 估计精度稍高一些, 但是也不能对所有的重尾分布较好地选择k . Sousa 在其博士论文中提出的Sum plot 方法在一定程度上克服了前几种方法中选取k 所遇到的困难, 而且具有比较好的性质. 但是由于Sum plot 方法是以观察图形得到k , 因此选择k 有一定的猜测性, 因而会对重尾指数估计造成一定误差. 另一类方法就是以估计重尾指数的均方误差(MSE ) 最小为标准来确定k , 最优的k 应该与均方误差一致. 理论上M SE 与k 有关, 增大k , 方差减小, 偏差增大. 反之, 减小k , 方差增大, 偏差减小. 只有权衡方差和偏差使M SE 最小, 选取的k 才是最优的. 但是, M SE 还与未知分布尾部指数 和二阶参数 有关, 不能直接应用到实际问题中. 基于此, 1990年H all 提出了利用Bootstrap 方法来选取k , D anie lsson 在2001年又对H all 的方法作了进一步改进, Go m es 和O liveira 在2001年给出了一个选取Boo tstrap 方法子样本的准则, Go m es 等在2009年给出了针对降偏差重尾指数估计的Bootstrap 方法. 由于该方法计算量很大, 有必要在保证估计特性的前提下提高估计的收敛速率以减少计算量.

[9]

[7]

[8][6]

[5]

[1]

1 Su m p lot 方法

Su m plot 方法

[6]

是基于{(k, S k ), 1 k n }应该是一条直线的理论依据来选取k . Sousa 通过对不同样本

容量的不同分布进行模拟, 得出无论是分布的尾部指数0

收稿日期:2010 07 16; 修回日期:2010 07 30

基金项目:教育部人文社会科学研究项目(07J A630027; 06J A 630035); 山西省高校人文社科重点研究基地项目

(20083006)

作者简介:刘维奇(1963-), 男, 山西忻县人, 教授, 博士生导师, 主要从事金融工程和时间序列等领域的研究, E m ai:l li

u wq @sxu . edu . cn

G om esM I , M endonca S , Pestana D. The boo tstrap m ethodo l gy and adapti ve reduced b i as ta il i ndex and V al ue a t R isk esti m a

ti on . W ork i ng paper , 2009.

刘维奇等:选择重尾阈值k 的Boo tstrap 方法509

而言都较其它方法优越, 并且不受样本异常值影响, 即具有稳健性. 这里随机变量

S k =

其中X n ! X n !#X n

如果选择k, 使X n

-1

(1)

(2)

-1

k

i=1

i(log X

(i)

n

-log X

(i+1) n

) =

k

i=1

(log X n -log X n

-1

(i) (k+1)

), 1 k n (1)

(k +1)

为次序统计量.

足够大, 那么对任意x >X n

(k +1)

(k +1)

, 有S k ~ k . 近似式表明图形中直线的斜率等于

(2)

, 而且Sousa 证明了 可以通过如下线性回归模型估计出来.

S i = 0+ 1i +! , 2, #, k. i , i =1

容易发现参数 的估计值等于回归模型的斜率^ 1, 即

^n , k =^ 1=

-1

-1-1

-1

-1(1) n , k -log X n

k -1k -1

-1

(3)

进一步, 如果 , 则 ^n , k =^ 0=0GLS =H n , k , 其中H n , k 就是H ill 估计.

由于Sum plot 方法需要观察以坐标{(k , S k ), 1 k n }画成的散点图在哪一点偏离直线, 因此选择的k

有一定的猜测性, 因而会对重尾指数估计造成不可避免的误差.

2 D anielsson B ootstrap 方法

Danie lsson 等

[8]

对H a ll 的方法作了改进, 使用新的统计量M n (k ) 来代替∀n (k ). 引入统计量

(i) (k+1) 2

M n (k ) =∀(log X n -log X n ) , 1 k n.

k i=1

k

(4)

2

2

已经证明, 当k ∃%, k /n∃0时, M n (k ) /(2∀, 统计量M n (k ) /(2∀n (k ) ) 依概率收敛于∀n (k ) ) -∀n (k ) 和∀n (k ) -∀有相似的渐近性质, 并且在一定条件下极小化AM SE 和极小化A s yE (Mn (k ) -2(∀n (k ) ) ) 可以得到同阶量的k (相对于n). 因此, 根据Boo tstrap 子样本X n 1, 选用统计量:

Q (n 1, k 1) =E ((Mn 1(k 1) -2(∀|X n ), n 1(k 1) ) )

其中M

*

n 1

k

*

*

2

2

*

(5)

11(i) *(k +1) *2

(k 1) =i ∀(log X -log X ) . 通过最小化Q (n 1, k 1) 来确定k 1. 为了确定k, 还需要另一个n n

k 1=1

*

2

Bootstrap 子样本X n 2, n 2=n 1/n,然后利用与确定k 1相同的程序来确定k 2. 再利用k , k 1和k 2之间的关系

k =

来确定k .

k (log k 1)

k 2(2log n 1-log k 1) 2

21

2

log n 1-lo g k 1

1(6)

3 M B ootstrap 方法

我们受Dan i e lsson 等变为

&

[8]

提出的Boo tstrap 方法的启发, 用∀的相合估计 ∀n (k ) 代替∀n (k ), 渐近均方误差

AM SE M (n 1, k 1) =E ((∀∀k

根据Boo tstrap 子样本X n 1, 通过极小化AMSE M (n 1, k 1) 和关系k =k 1(n /n1) 来确定k 1与k .

定理1 假设k ∃%, k /n∃0. k (n ) 由A M SE (n, k ) 最小确定. 则

k =

-1

2

%

*

#

*2

(7)

(1+o (1) ), n ∃%, 2

S (∀(1- ) /n)

-1

2

(8)

S 是函数S 的反函数, A (t) =∋t S (u ) du (1+o(1) ), t ∃%.

假设A (t) =ct , c (0, >0, 则

#

k =H ( ) n (1+o (1) ), #=2 /(2 -1) 定理2 假设k 1∃%, k 1/n1∃%. 假设A (t) =ct , c (0,

k 1) 最小确定k 1. 则

#

1-!

&

(9)

) (0

(10)

k 1=H ( ) n 1(1+o (1) ), #=2 /(2 -1)

由定理1和定理2可知, k 与n, k 1与n 1存在同样的幂指数关系式. 这与H a ll 所预设的关系一致. 所以我

#

们仍旧取#=, =由k =k 1() 来确定k . 我们取#=无形中假设了二阶形状参数 =-1, 这证实

32n 13

了H a ll 的Boo tstrap 方法与 =-1有关.

-1

随机变量Y 1, Y 2, #, Y n 是. i . i d . , 其共同分布为G (y) =1-y (y ! 1), Y n , 1! #!Y n , n 是Y 1, Y 2, #, Y n 的顺序统计量. {Xn , 1}i ={U(Y n , i ) }i =1, 其中U(t) =(

n d

n

-) (t).

1-F

引理1 0

Y n , k p

(1) n ∃%, ∃1.

(n /k)

(2) n ∃%, (Pn , Q n ) 渐近正态, 它们的均值为0, 方差分别为1, 20, 协方差为4, 其中

112

P n ={∀log Y n, i -log Y n , k+1-1},Q n ={∀(log Y n , i -log Y n , k+1) -2}.

k i=1k i=1

定理1的证明:U (t) 的定义等价于正则变化函数|l o g U(t) -∀l o g t -C 0|以指数 正则变化, 其中C 0为常数. 令A (t) = (log U(t) -∀log t -C 0). 由Potter 不等式, 可得对任意0 0, 对于t 0>0, tx ! t 0有,

-! |log x |log U (tx ) -log U(t) -∀log X ! |log X |

(1-! )x e -1 (1+! ) x e -1. (11)

A (t) /

用Y n, k 代替t , Y n , i /Yn , k +1代替x 迭代不等式(i =1, 2, #, k ), 然后乘以得到

k k

∀P n Y n , i -1+!

∀) ∀++ A (Y n , k+1) (1∗! ) {∀() -1}.

k i=1Y n , k+1

k

k

而Y 1, #, Y k . i . i d 具有共同分布函数1-∀+n ) ∀

∀n ) ∀+

∀P n k ∀P n k

k

i=1

Y n , i d

=Y n , k+1

∀Y ,

i=1

i

k

于是由弱大数定律得y

+ (1∗! ) (

-1

1

-1)A (Y n, k ),

1- !

) +O p (A() ), k k

2

+(1- ) A (

2

2

-1

A s yE (∀) ) +2n -∀

k (1- )

我们求(12) 中右边的最小值点, 得到定理1的结论, 定理证毕.

1-!

定理2的证明:令G n 表示独立变量的均匀分布的经验分布函数. 令n 足够大, n 1=O (n ), 则有

Y 2

-) tG n (0

(12)

sup 2, a . s . a . s .

n

(13)

) -) | sup |n (t ! 2t t

于是

4 t n 1(log n n ) 2

2

sup |

n (

-

) t

[Gn (Gn (

-

-) ) -G n () ]| t t

因此, 对所有的4 t n 1(log n n ) ,

|tG n (

-

) -1| a . s . t n

(14)

用F n 表示X n 的经验分布函数. v(t) =G n (1-

), 由(11), (13), (14) 得, t

|log y | 2|y -1|, y 2,

2

-e -11+ |y -1| (- ) (2v 2) |y -1|, y 2,

2

-1d

log U n (t) =log F n (1-) =t

-

).

1-1

1-G (1-) t G n () t t 22

所以对任意的0 4, 对于t 0

log U n (t x ) -log U n (t) -∀log x d

=

A (t) /

log U () -log U(tx ) -∀log () ) ∀l o g () ∀log (----t x G n () txG n () txG n () tG n ()

log +--A (tx ) / A (t) / A (t) / A (t)

log U () -log U(t) -∀log ()

--t G n () t G n ()

t t log U (t x ) -log U (t) -∀log x

+!

A (t) / A (t) /

-n

--log F n (Gn (1-) ) =log v(

t

) =log v(

d

[(- ) (2

- +1

+2

+3

) +2|

∀ |]x +1) +A (t) (15)

(1+9! ) (1+! ) x exp (! |log x |) -1+7! .

同理

log U n (tx ) -log U n (t) -∀log x - +1 +3! -[(1- ) (2+2) +2||](x +1) +

A (x ) / A (t) n

(1-9! ) (1-! )x exp (-! |log x |) -1-7! ,

用Y n 1, k 1+1, Y n 1, i (i =1, #, k 1) 分别代替t 和tx , 则不等式(15), (16) 是以概率成立的. 于是有

4 Y n 1, i Y n 1, n 1(i =1, #, k 1)

以概率成立.

Y n 1, n 1n 1(log n 1)

我们极小化E ((∀X n ). n 1(k 1) -∀n (k ) ) |

由定理1的证明过程可以得到

∀(k 1) =∀+

*

n 1

d

*

2

2

(16)

, n 1∃%, k 1/n1∃0. ∃0

p

∀P n 1

1

+d 1A (Y n 1, k 1+1) +o p (A(n 1/k1) ) +O (

log n 11n

),

又∀∀的相合估计, ∀∀+o p (A(n 1/k1) ), 又l o g n n 是∀n =∀n 1/k1n =o(1/k 1). 定理2得证, 定理证毕.

4 M onte C arlo 模拟

为了更好地说明问题, 我们选用三种熟知的重尾分布, 稳定分布S tab l e (1#5) 分布、t 分布t(3) 以及逆∃分布I Ga(1#5, 1), 分别采用Sum p l o t 方法、Dan ielsson 等提出的Bootstrap 方法(D Bootstrap 方法) 和改进的Bootstrap 方法(M Boo tstrap 方法) 进行模拟. 结果表明, Sum plot 方法、Bootstrap 方法和M Bootstrap 方法都能

作为H ill 估计中选择k 的有力工具, 它们和H ill 估计结合起来估计重尾指数将是有效的. 为便于比较, 我们将三种方法的模拟结果列表如下(P512见表1).

512山西大学学报(自然科学版) 33(4) 2010

表1 三种方法用于t , Cauchy , F r chet , 逆G a , Burr 和P areto 的结果

Table 1 Resu lts by the three m e thods on t , Cauchy , Fr chet , Inverse G a mm a , Bu rr and Pareto distr i bu tions

分布

方法Su m p l o t 方法D Boo tstrap 方法M Bootstrap 方法

Stab l e(1#5) k ^6024890

^1#51461#56991#5644

^k 323469

t(3)

^3#00243#12132#5581

逆G a(1#5, 1) k ^ ^75367176

1#48991#38801#4886

根据表1可以看出, 应用三种方法得到的结果是令人满意的. 相比之下, Sum p l o t 方法的精确性优于两种Bootstrap 方法. 从整体上看, 两种Bootstrap 方法估计的结果误差也是比较小的, 都可以使用. 从k 选择上看, 改进的M Bootstrap 方法更接近Sum p lot 方法结果, 对重尾指数的估计在某些情况下优于Bootstrap 方法, 特别是在计算量上明显优于Boo tstrap 方法. 所以, M Bootstrap 方法是适用的, 有意义的. 两种Bootstrap 方法个别情形下出现了较大偏差, 这与方法本身的特点有关. 基于两个子样本的Boo tstrap 方法受异常值的影响, 我们所用的数据都是随机生成的, 不免有异常值的出现. Boo tstrap 方法受样本容量的影响很大, 这也是出现偏差的原因. 参考文献:

[1] H ILL B . A S i m ple G eneral A pproach to Infererce about T he T a il of a D istri buti on[J].A nnals of S t atistics, 1975, 3:1163 1174. [2] KRATZ M, RESN ICK S . T he qq esti m ator and H eavy T a ils[J].S tochastic m odels , 1996, 12(4):699 724.

[3] BE I RLANT J , VYNCK I ER P, T E UG ELS J L. T a il Index Esti m ati on , Pareto Quantilep l o ts , and R eg ressi on D iagnostics[J].Journal

of t he Am er ican S tatistical A ssoci ation , 1996, 436:1659 1667.

[4] R ESN ICK S , S TAR ICA C . S m oothing the H ill E sti m ato r[J].A dvances in A pp lied Probab ilit y , 1997, 29:271 293. [5] DREES H, HAAN L D, RES N I CK S . H o w to M ake a H ill P l ot[J].A nnals of S t atistics , 2000, 28:254 274.

[6] SOU SA B . A Contr i buti on to the Esti m ati on o f the T a il Index o fH eavy ta iled D istr i buti ons[D ].T he U n i versity o M f i chigan , 2002. [7] HALL P. U si ng t he Bootstrap to Esti m a te m ean Square E rror and Se l ec t S m oothing P aram eters i n N on param etr i cproble m s[J].

J ournal of M ultivar i ate A nal y sis , 1990, 32:177 203.

[8] DAN I ELSSON J . U si ng a Bootstrap M ethod Choosethe Samp l e F racti on i n T a il Index E sti m ation[J].Journa l of M ultivariate A nal

y sis , 2001, 76:226 248.

[9] GOM ES M I , O L I VE I RA O. The Bootstrap M et hodo logy i n Sta ti stics of Ex tre m es cho i ce o f the O pti m al Samp l e F raction[J].Ex

tre m es , 2001, 4(4) :331 358.

Bootstrap M ethod i n Selecting H eavy tailed Thresho l d k

LI U W ei q i , HE Y ing d i , XI NG H ong w e i

1, 2

2, 3

2

(1. Institute of M anage men t Science and Eng i neering , Shanx i Universit y, T ai yuan 030006, Ch i na ;

2. S c hool of M at he m atical Science , Shanx i Univers it y, T aiyuan 030006, China ;

3. M aom ing V ocational T echnical College , M ao m i ng 525000; China )

Abst ract :W e d iscuss the Sum plot m ethod and Boo tstrap m ethod i n selecting k i n heavy ta iled i n dex esti m ation , and i m prove the Boo tstrap m ethod proposed by H a l, l kno wn as the M Bootstrap M ethod . The three m ethods w ere used to study t h e kno w n heavy ta iled d i s tributions byM onte Carlo si m u lati o n technology , in cluding t h e ir feasi b ility , M oreover , t h e ir robustness w as co mpared the M Bootstrap m ethod w as better than the Boo tstrap m ethod in so m e ca ses for heavy tailed index esti m ation . K ey w ords :heavy tailed index ; heavy ta iled thresho ld ; Sum plotm et h od ; Bootstrap m et h od ; M Bootstrap m ethod


相关文章

  • 构建进化树
  • 一 1) 打开clustal X,载入上述序列,"load sequences"→"output format options": "CLASTAL FORMAT";CLASTAL ...查看


  • 心理学研究中的中介效应分析意义及方法评述_杜岸政
  • 578 ·心理卫生评估· Chinese Mental Health Journal ,Vol 28,No. 8,2014 心理学研究中的中介效应分析意义及方法评述 * 杜岸政 (河南大学心理与行为研究所,河南开封475002 古纯文丁桂凤 ...查看


  • 马科维茨均值方差准则的应用
  • 2010年第4期总第100期 上海金融学院学报 Joumal ofShanghai FinanceUniversity No.4,2010AprNo.100 马科维茨均值方差准则的应用 白志东,李华,黄永强 (新加坡国立大学,新加坡1190 ...查看


  • 偏态分布的激素水平影响因素分析
  • 偏态分布的激素水平影响因素分析 项目研究概况 在某个消化内科的科研项目中,研究中认为某种激素水平可能对胃癌的发生有一定的作用,因此设计了此研究,将病人按照临床病理诊断结果分为对照组和实验组(出现病变组)两组,并且采集如下指标作为分析因素.数 ...查看


  • 中介和调节效应自助法检验,针对非正态截面数据
  • 文末有送系列相关资料和书籍,请自行下载. 此文是计量经济圈的新加入圈主-Sirius的第一次推文,请圈友们多多支持这篇关于中介效应.调节效应检验的方法(适用于Non-Normal Distribution Cross Sectional D ...查看


  • 生物等效性评价的统计分析方法
  • ・949・ 中国临床药理学与治疗学 ◇设计・统计・方法◇ 中国药理学会主办 CN34.12061R.ISSN1009.2501 http://www.DrugChirm.net2064Aug:9(8):949-953 生物等效性评价的统计分 ...查看


  • 分位数回归技术综述
  • 第23卷第3期 统计与信息论坛 2008年3月 Vd.23 No.3 Statistics&InformationForum Mar..2008 [观点综述] 分位数回归技术综述 陈建宝,丁军军 (厦门大学宏观经济研究中心,福建厦门 ...查看


  • 基于Matlab的图像阈值分割算法研究_李小琦
  • 基于Matlab的图像阈值分割算法研究 李小琦 ()武汉大学珞珈学院计算机科学系,湖北武汉406430 摘 要:重点讨论了图像分割法中的阈值研究法,包括全局阈值法和自适应阈值法.对全局阈值算法中的人工选择 法.迭代式阈值选择法.最大类间方差 ...查看


  • LOGISTIC回归模型中交互作用的分析及评价
  • �9�9 934�9�9 �9�9 基础理论与方法�9�9 logistic回归模型中交互作用的分析及评价 邱宏余德新 王晓蓉付振明 谢立亚 [导读]流行病学病因学研究常运用logistic回归模型分析影响因素的作用,并利用纳入乘积项 的方 ...查看


热门内容