山西大学学报(自然科学版) 33(4) :508~512, 2010Journa l o f Shanx iU n i versity(N a t . Sc. i Ed . )
文章编号:0253 2395(2010) 04 0508 05
选择重尾阈值k 的Bootstrap 方法
刘维奇, 赫英迪
1, 2
2, 3
, 邢红卫
2
(1. 山西大学管理科学与工程研究所, 山西太原030006; 2. 山西大学数学科学学院, 山西太原030006;
3. 广东茂名职业技术学院, 广东茂名525000)
摘 要:详细讨论了重尾指数估计中选取k 的Sum p l o t 方法和Boo tstrap 方法, 并对H a ll 提出的Boo tstrap 方法作了改进, 称为M Boo tstrap 方法. 并利用上述三种方法对已知重尾分布进行M onte C arlo 模拟, 研究它们的可行性, 比较它们的稳健性, 改进的M Bootstrap 方法对重尾指数的估计在某些情况下优于Boo tstrap 方法. 关键词:重尾指数; 重尾阈值; Su m p l ot 方法; Boo tstrap 方法; M Bootstrap 方法中图分类号:O 212 文献标识码:A
重尾指数估计方法总体上分为参数估计和半参数估计, 都与重尾阈值或估计中所用次序统计量的个数k 有关. k 的选取关系到估计的精确性, k 的偏大或偏小都会造成估计的极大误差.
学者们从理论上提出了许多选取k 的方法. 其中一类是作图法, 比如H ill 提出的H ill p lo, t K ratz 和
[2][3][4]
Resnick 提出的qq plo, t B eirlant 等提出的Pareto 分位数图, R esnick 和Starica 给出的对H ill plot 改进的s m oo H ill plot 以及de H aan 和Resn i c k 给出的对H ill p l o t 改进的A lt H ill plot 等, 这些作图法都有一定的优越性, 但整体而言它们都不能适用于所有情况的重尾分布. 像H ill plo, t qq plo, t 当随机变量服从Pareto 分布时, 这两种方法表现出十分优良的性质, 能够很容易选取k 值. 一旦随机变量不服从Pareto 分布, 而是广义Pareto 分布时, 它们却不能很好地选取k , 甚至无法选取k . Pareto 分位数图, s m oo H ill p l o t 和A lt H ill plot 相对于H ill plot 估计精度稍高一些, 但是也不能对所有的重尾分布较好地选择k . Sousa 在其博士论文中提出的Sum plot 方法在一定程度上克服了前几种方法中选取k 所遇到的困难, 而且具有比较好的性质. 但是由于Sum plot 方法是以观察图形得到k , 因此选择k 有一定的猜测性, 因而会对重尾指数估计造成一定误差. 另一类方法就是以估计重尾指数的均方误差(MSE ) 最小为标准来确定k , 最优的k 应该与均方误差一致. 理论上M SE 与k 有关, 增大k , 方差减小, 偏差增大. 反之, 减小k , 方差增大, 偏差减小. 只有权衡方差和偏差使M SE 最小, 选取的k 才是最优的. 但是, M SE 还与未知分布尾部指数 和二阶参数 有关, 不能直接应用到实际问题中. 基于此, 1990年H all 提出了利用Bootstrap 方法来选取k , D anie lsson 在2001年又对H all 的方法作了进一步改进, Go m es 和O liveira 在2001年给出了一个选取Boo tstrap 方法子样本的准则, Go m es 等在2009年给出了针对降偏差重尾指数估计的Bootstrap 方法. 由于该方法计算量很大, 有必要在保证估计特性的前提下提高估计的收敛速率以减少计算量.
[9]
[7]
[8][6]
[5]
[1]
1 Su m p lot 方法
Su m plot 方法
[6]
是基于{(k, S k ), 1 k n }应该是一条直线的理论依据来选取k . Sousa 通过对不同样本
容量的不同分布进行模拟, 得出无论是分布的尾部指数0
收稿日期:2010 07 16; 修回日期:2010 07 30
基金项目:教育部人文社会科学研究项目(07J A630027; 06J A 630035); 山西省高校人文社科重点研究基地项目
(20083006)
作者简介:刘维奇(1963-), 男, 山西忻县人, 教授, 博士生导师, 主要从事金融工程和时间序列等领域的研究, E m ai:l li
u wq @sxu . edu . cn
G om esM I , M endonca S , Pestana D. The boo tstrap m ethodo l gy and adapti ve reduced b i as ta il i ndex and V al ue a t R isk esti m a
ti on . W ork i ng paper , 2009.
刘维奇等:选择重尾阈值k 的Boo tstrap 方法509
而言都较其它方法优越, 并且不受样本异常值影响, 即具有稳健性. 这里随机变量
S k =
其中X n ! X n !#X n
如果选择k, 使X n
-1
(1)
(2)
∀
-1
k
i=1
i(log X
(i)
n
-log X
(i+1) n
) =
∀
k
i=1
(log X n -log X n
-1
(i) (k+1)
), 1 k n (1)
(k +1)
为次序统计量.
足够大, 那么对任意x >X n
(k +1)
(k +1)
, 有S k ~ k . 近似式表明图形中直线的斜率等于
(2)
, 而且Sousa 证明了 可以通过如下线性回归模型估计出来.
S i = 0+ 1i +! , 2, #, k. i , i =1
容易发现参数 的估计值等于回归模型的斜率^ 1, 即
^n , k =^ 1=
-1
-1-1
-1
-1(1) n , k -log X n
k -1k -1
-1
(3)
进一步, 如果 , 则 ^n , k =^ 0=0GLS =H n , k , 其中H n , k 就是H ill 估计.
由于Sum plot 方法需要观察以坐标{(k , S k ), 1 k n }画成的散点图在哪一点偏离直线, 因此选择的k
有一定的猜测性, 因而会对重尾指数估计造成不可避免的误差.
2 D anielsson B ootstrap 方法
Danie lsson 等
[8]
对H a ll 的方法作了改进, 使用新的统计量M n (k ) 来代替∀n (k ). 引入统计量
(i) (k+1) 2
M n (k ) =∀(log X n -log X n ) , 1 k n.
k i=1
k
(4)
2
2
已经证明, 当k ∃%, k /n∃0时, M n (k ) /(2∀, 统计量M n (k ) /(2∀n (k ) ) 依概率收敛于∀n (k ) ) -∀n (k ) 和∀n (k ) -∀有相似的渐近性质, 并且在一定条件下极小化AM SE 和极小化A s yE (Mn (k ) -2(∀n (k ) ) ) 可以得到同阶量的k (相对于n). 因此, 根据Boo tstrap 子样本X n 1, 选用统计量:
Q (n 1, k 1) =E ((Mn 1(k 1) -2(∀|X n ), n 1(k 1) ) )
其中M
*
n 1
k
*
*
2
2
*
(5)
11(i) *(k +1) *2
(k 1) =i ∀(log X -log X ) . 通过最小化Q (n 1, k 1) 来确定k 1. 为了确定k, 还需要另一个n n
k 1=1
*
2
Bootstrap 子样本X n 2, n 2=n 1/n,然后利用与确定k 1相同的程序来确定k 2. 再利用k , k 1和k 2之间的关系
k =
来确定k .
k (log k 1)
k 2(2log n 1-log k 1) 2
21
2
log n 1-lo g k 1
1(6)
3 M B ootstrap 方法
我们受Dan i e lsson 等变为
&
[8]
提出的Boo tstrap 方法的启发, 用∀的相合估计 ∀n (k ) 代替∀n (k ), 渐近均方误差
AM SE M (n 1, k 1) =E ((∀∀k
根据Boo tstrap 子样本X n 1, 通过极小化AMSE M (n 1, k 1) 和关系k =k 1(n /n1) 来确定k 1与k .
定理1 假设k ∃%, k /n∃0. k (n ) 由A M SE (n, k ) 最小确定. 则
k =
-1
2
%
*
#
*2
(7)
(1+o (1) ), n ∃%, 2
S (∀(1- ) /n)
-1
2
(8)
S 是函数S 的反函数, A (t) =∋t S (u ) du (1+o(1) ), t ∃%.
假设A (t) =ct , c (0, >0, 则
#
k =H ( ) n (1+o (1) ), #=2 /(2 -1) 定理2 假设k 1∃%, k 1/n1∃%. 假设A (t) =ct , c (0,
k 1) 最小确定k 1. 则
#
1-!
&
(9)
) (0
(10)
k 1=H ( ) n 1(1+o (1) ), #=2 /(2 -1)
由定理1和定理2可知, k 与n, k 1与n 1存在同样的幂指数关系式. 这与H a ll 所预设的关系一致. 所以我
#
们仍旧取#=, =由k =k 1() 来确定k . 我们取#=无形中假设了二阶形状参数 =-1, 这证实
32n 13
了H a ll 的Boo tstrap 方法与 =-1有关.
-1
随机变量Y 1, Y 2, #, Y n 是. i . i d . , 其共同分布为G (y) =1-y (y ! 1), Y n , 1! #!Y n , n 是Y 1, Y 2, #, Y n 的顺序统计量. {Xn , 1}i ={U(Y n , i ) }i =1, 其中U(t) =(
n d
n
-) (t).
1-F
引理1 0
Y n , k p
(1) n ∃%, ∃1.
(n /k)
(2) n ∃%, (Pn , Q n ) 渐近正态, 它们的均值为0, 方差分别为1, 20, 协方差为4, 其中
112
P n ={∀log Y n, i -log Y n , k+1-1},Q n ={∀(log Y n , i -log Y n , k+1) -2}.
k i=1k i=1
定理1的证明:U (t) 的定义等价于正则变化函数|l o g U(t) -∀l o g t -C 0|以指数 正则变化, 其中C 0为常数. 令A (t) = (log U(t) -∀log t -C 0). 由Potter 不等式, 可得对任意0 0, 对于t 0>0, tx ! t 0有,
-! |log x |log U (tx ) -log U(t) -∀log X ! |log X |
(1-! )x e -1 (1+! ) x e -1. (11)
A (t) /
用Y n, k 代替t , Y n , i /Yn , k +1代替x 迭代不等式(i =1, 2, #, k ), 然后乘以得到
k k
∀P n Y n , i -1+!
∀) ∀++ A (Y n , k+1) (1∗! ) {∀() -1}.
k i=1Y n , k+1
又
k
k
∀
而Y 1, #, Y k . i . i d 具有共同分布函数1-∀+n ) ∀
即
∀n ) ∀+
∀P n k ∀P n k
k
i=1
Y n , i d
=Y n , k+1
∀Y ,
i=1
i
k
于是由弱大数定律得y
+ (1∗! ) (
-1
1
-1)A (Y n, k ),
1- !
) +O p (A() ), k k
2
+(1- ) A (
2
2
-1
A s yE (∀) ) +2n -∀
k (1- )
我们求(12) 中右边的最小值点, 得到定理1的结论, 定理证毕.
1-!
定理2的证明:令G n 表示独立变量的均匀分布的经验分布函数. 令n 足够大, n 1=O (n ), 则有
Y 2
-) tG n (0
(12)
sup 2, a . s . a . s .
n
(13)
) -) | sup |n (t ! 2t t
于是
4 t n 1(log n n ) 2
2
sup |
n (
-
) t
[Gn (Gn (
-
-) ) -G n () ]| t t
因此, 对所有的4 t n 1(log n n ) ,
|tG n (
-
) -1| a . s . t n
(14)
用F n 表示X n 的经验分布函数. v(t) =G n (1-
), 由(11), (13), (14) 得, t
|log y | 2|y -1|, y 2,
2
-e -11+ |y -1| (- ) (2v 2) |y -1|, y 2,
2
-1d
log U n (t) =log F n (1-) =t
-
).
1-1
1-G (1-) t G n () t t 22
所以对任意的0 4, 对于t 0
log U n (t x ) -log U n (t) -∀log x d
=
A (t) /
log U () -log U(tx ) -∀log () ) ∀l o g () ∀log (----t x G n () txG n () txG n () tG n ()
log +--A (tx ) / A (t) / A (t) / A (t)
log U () -log U(t) -∀log ()
--t G n () t G n ()
t t log U (t x ) -log U (t) -∀log x
+!
A (t) / A (t) /
-n
--log F n (Gn (1-) ) =log v(
t
) =log v(
d
[(- ) (2
- +1
+2
+3
) +2|
∀ |]x +1) +A (t) (15)
(1+9! ) (1+! ) x exp (! |log x |) -1+7! .
同理
log U n (tx ) -log U n (t) -∀log x - +1 +3! -[(1- ) (2+2) +2||](x +1) +
A (x ) / A (t) n
(1-9! ) (1-! )x exp (-! |log x |) -1-7! ,
用Y n 1, k 1+1, Y n 1, i (i =1, #, k 1) 分别代替t 和tx , 则不等式(15), (16) 是以概率成立的. 于是有
4 Y n 1, i Y n 1, n 1(i =1, #, k 1)
以概率成立.
Y n 1, n 1n 1(log n 1)
我们极小化E ((∀X n ). n 1(k 1) -∀n (k ) ) |
由定理1的证明过程可以得到
∀(k 1) =∀+
*
n 1
d
*
2
2
(16)
, n 1∃%, k 1/n1∃0. ∃0
p
∀P n 1
1
+d 1A (Y n 1, k 1+1) +o p (A(n 1/k1) ) +O (
log n 11n
),
又∀∀的相合估计, ∀∀+o p (A(n 1/k1) ), 又l o g n n 是∀n =∀n 1/k1n =o(1/k 1). 定理2得证, 定理证毕.
4 M onte C arlo 模拟
为了更好地说明问题, 我们选用三种熟知的重尾分布, 稳定分布S tab l e (1#5) 分布、t 分布t(3) 以及逆∃分布I Ga(1#5, 1), 分别采用Sum p l o t 方法、Dan ielsson 等提出的Bootstrap 方法(D Bootstrap 方法) 和改进的Bootstrap 方法(M Boo tstrap 方法) 进行模拟. 结果表明, Sum plot 方法、Bootstrap 方法和M Bootstrap 方法都能
作为H ill 估计中选择k 的有力工具, 它们和H ill 估计结合起来估计重尾指数将是有效的. 为便于比较, 我们将三种方法的模拟结果列表如下(P512见表1).
512山西大学学报(自然科学版) 33(4) 2010
表1 三种方法用于t , Cauchy , F r chet , 逆G a , Burr 和P areto 的结果
Table 1 Resu lts by the three m e thods on t , Cauchy , Fr chet , Inverse G a mm a , Bu rr and Pareto distr i bu tions
分布
方法Su m p l o t 方法D Boo tstrap 方法M Bootstrap 方法
Stab l e(1#5) k ^6024890
^1#51461#56991#5644
^k 323469
t(3)
^3#00243#12132#5581
逆G a(1#5, 1) k ^ ^75367176
1#48991#38801#4886
根据表1可以看出, 应用三种方法得到的结果是令人满意的. 相比之下, Sum p l o t 方法的精确性优于两种Bootstrap 方法. 从整体上看, 两种Bootstrap 方法估计的结果误差也是比较小的, 都可以使用. 从k 选择上看, 改进的M Bootstrap 方法更接近Sum p lot 方法结果, 对重尾指数的估计在某些情况下优于Bootstrap 方法, 特别是在计算量上明显优于Boo tstrap 方法. 所以, M Bootstrap 方法是适用的, 有意义的. 两种Bootstrap 方法个别情形下出现了较大偏差, 这与方法本身的特点有关. 基于两个子样本的Boo tstrap 方法受异常值的影响, 我们所用的数据都是随机生成的, 不免有异常值的出现. Boo tstrap 方法受样本容量的影响很大, 这也是出现偏差的原因. 参考文献:
[1] H ILL B . A S i m ple G eneral A pproach to Infererce about T he T a il of a D istri buti on[J].A nnals of S t atistics, 1975, 3:1163 1174. [2] KRATZ M, RESN ICK S . T he qq esti m ator and H eavy T a ils[J].S tochastic m odels , 1996, 12(4):699 724.
[3] BE I RLANT J , VYNCK I ER P, T E UG ELS J L. T a il Index Esti m ati on , Pareto Quantilep l o ts , and R eg ressi on D iagnostics[J].Journal
of t he Am er ican S tatistical A ssoci ation , 1996, 436:1659 1667.
[4] R ESN ICK S , S TAR ICA C . S m oothing the H ill E sti m ato r[J].A dvances in A pp lied Probab ilit y , 1997, 29:271 293. [5] DREES H, HAAN L D, RES N I CK S . H o w to M ake a H ill P l ot[J].A nnals of S t atistics , 2000, 28:254 274.
[6] SOU SA B . A Contr i buti on to the Esti m ati on o f the T a il Index o fH eavy ta iled D istr i buti ons[D ].T he U n i versity o M f i chigan , 2002. [7] HALL P. U si ng t he Bootstrap to Esti m a te m ean Square E rror and Se l ec t S m oothing P aram eters i n N on param etr i cproble m s[J].
J ournal of M ultivar i ate A nal y sis , 1990, 32:177 203.
[8] DAN I ELSSON J . U si ng a Bootstrap M ethod Choosethe Samp l e F racti on i n T a il Index E sti m ation[J].Journa l of M ultivariate A nal
y sis , 2001, 76:226 248.
[9] GOM ES M I , O L I VE I RA O. The Bootstrap M et hodo logy i n Sta ti stics of Ex tre m es cho i ce o f the O pti m al Samp l e F raction[J].Ex
tre m es , 2001, 4(4) :331 358.
Bootstrap M ethod i n Selecting H eavy tailed Thresho l d k
LI U W ei q i , HE Y ing d i , XI NG H ong w e i
1, 2
2, 3
2
(1. Institute of M anage men t Science and Eng i neering , Shanx i Universit y, T ai yuan 030006, Ch i na ;
2. S c hool of M at he m atical Science , Shanx i Univers it y, T aiyuan 030006, China ;
3. M aom ing V ocational T echnical College , M ao m i ng 525000; China )
Abst ract :W e d iscuss the Sum plot m ethod and Boo tstrap m ethod i n selecting k i n heavy ta iled i n dex esti m ation , and i m prove the Boo tstrap m ethod proposed by H a l, l kno wn as the M Bootstrap M ethod . The three m ethods w ere used to study t h e kno w n heavy ta iled d i s tributions byM onte Carlo si m u lati o n technology , in cluding t h e ir feasi b ility , M oreover , t h e ir robustness w as co mpared the M Bootstrap m ethod w as better than the Boo tstrap m ethod in so m e ca ses for heavy tailed index esti m ation . K ey w ords :heavy tailed index ; heavy ta iled thresho ld ; Sum plotm et h od ; Bootstrap m et h od ; M Bootstrap m ethod
山西大学学报(自然科学版) 33(4) :508~512, 2010Journa l o f Shanx iU n i versity(N a t . Sc. i Ed . )
文章编号:0253 2395(2010) 04 0508 05
选择重尾阈值k 的Bootstrap 方法
刘维奇, 赫英迪
1, 2
2, 3
, 邢红卫
2
(1. 山西大学管理科学与工程研究所, 山西太原030006; 2. 山西大学数学科学学院, 山西太原030006;
3. 广东茂名职业技术学院, 广东茂名525000)
摘 要:详细讨论了重尾指数估计中选取k 的Sum p l o t 方法和Boo tstrap 方法, 并对H a ll 提出的Boo tstrap 方法作了改进, 称为M Boo tstrap 方法. 并利用上述三种方法对已知重尾分布进行M onte C arlo 模拟, 研究它们的可行性, 比较它们的稳健性, 改进的M Bootstrap 方法对重尾指数的估计在某些情况下优于Boo tstrap 方法. 关键词:重尾指数; 重尾阈值; Su m p l ot 方法; Boo tstrap 方法; M Bootstrap 方法中图分类号:O 212 文献标识码:A
重尾指数估计方法总体上分为参数估计和半参数估计, 都与重尾阈值或估计中所用次序统计量的个数k 有关. k 的选取关系到估计的精确性, k 的偏大或偏小都会造成估计的极大误差.
学者们从理论上提出了许多选取k 的方法. 其中一类是作图法, 比如H ill 提出的H ill p lo, t K ratz 和
[2][3][4]
Resnick 提出的qq plo, t B eirlant 等提出的Pareto 分位数图, R esnick 和Starica 给出的对H ill plot 改进的s m oo H ill plot 以及de H aan 和Resn i c k 给出的对H ill p l o t 改进的A lt H ill plot 等, 这些作图法都有一定的优越性, 但整体而言它们都不能适用于所有情况的重尾分布. 像H ill plo, t qq plo, t 当随机变量服从Pareto 分布时, 这两种方法表现出十分优良的性质, 能够很容易选取k 值. 一旦随机变量不服从Pareto 分布, 而是广义Pareto 分布时, 它们却不能很好地选取k , 甚至无法选取k . Pareto 分位数图, s m oo H ill p l o t 和A lt H ill plot 相对于H ill plot 估计精度稍高一些, 但是也不能对所有的重尾分布较好地选择k . Sousa 在其博士论文中提出的Sum plot 方法在一定程度上克服了前几种方法中选取k 所遇到的困难, 而且具有比较好的性质. 但是由于Sum plot 方法是以观察图形得到k , 因此选择k 有一定的猜测性, 因而会对重尾指数估计造成一定误差. 另一类方法就是以估计重尾指数的均方误差(MSE ) 最小为标准来确定k , 最优的k 应该与均方误差一致. 理论上M SE 与k 有关, 增大k , 方差减小, 偏差增大. 反之, 减小k , 方差增大, 偏差减小. 只有权衡方差和偏差使M SE 最小, 选取的k 才是最优的. 但是, M SE 还与未知分布尾部指数 和二阶参数 有关, 不能直接应用到实际问题中. 基于此, 1990年H all 提出了利用Bootstrap 方法来选取k , D anie lsson 在2001年又对H all 的方法作了进一步改进, Go m es 和O liveira 在2001年给出了一个选取Boo tstrap 方法子样本的准则, Go m es 等在2009年给出了针对降偏差重尾指数估计的Bootstrap 方法. 由于该方法计算量很大, 有必要在保证估计特性的前提下提高估计的收敛速率以减少计算量.
[9]
[7]
[8][6]
[5]
[1]
1 Su m p lot 方法
Su m plot 方法
[6]
是基于{(k, S k ), 1 k n }应该是一条直线的理论依据来选取k . Sousa 通过对不同样本
容量的不同分布进行模拟, 得出无论是分布的尾部指数0
收稿日期:2010 07 16; 修回日期:2010 07 30
基金项目:教育部人文社会科学研究项目(07J A630027; 06J A 630035); 山西省高校人文社科重点研究基地项目
(20083006)
作者简介:刘维奇(1963-), 男, 山西忻县人, 教授, 博士生导师, 主要从事金融工程和时间序列等领域的研究, E m ai:l li
u wq @sxu . edu . cn
G om esM I , M endonca S , Pestana D. The boo tstrap m ethodo l gy and adapti ve reduced b i as ta il i ndex and V al ue a t R isk esti m a
ti on . W ork i ng paper , 2009.
刘维奇等:选择重尾阈值k 的Boo tstrap 方法509
而言都较其它方法优越, 并且不受样本异常值影响, 即具有稳健性. 这里随机变量
S k =
其中X n ! X n !#X n
如果选择k, 使X n
-1
(1)
(2)
∀
-1
k
i=1
i(log X
(i)
n
-log X
(i+1) n
) =
∀
k
i=1
(log X n -log X n
-1
(i) (k+1)
), 1 k n (1)
(k +1)
为次序统计量.
足够大, 那么对任意x >X n
(k +1)
(k +1)
, 有S k ~ k . 近似式表明图形中直线的斜率等于
(2)
, 而且Sousa 证明了 可以通过如下线性回归模型估计出来.
S i = 0+ 1i +! , 2, #, k. i , i =1
容易发现参数 的估计值等于回归模型的斜率^ 1, 即
^n , k =^ 1=
-1
-1-1
-1
-1(1) n , k -log X n
k -1k -1
-1
(3)
进一步, 如果 , 则 ^n , k =^ 0=0GLS =H n , k , 其中H n , k 就是H ill 估计.
由于Sum plot 方法需要观察以坐标{(k , S k ), 1 k n }画成的散点图在哪一点偏离直线, 因此选择的k
有一定的猜测性, 因而会对重尾指数估计造成不可避免的误差.
2 D anielsson B ootstrap 方法
Danie lsson 等
[8]
对H a ll 的方法作了改进, 使用新的统计量M n (k ) 来代替∀n (k ). 引入统计量
(i) (k+1) 2
M n (k ) =∀(log X n -log X n ) , 1 k n.
k i=1
k
(4)
2
2
已经证明, 当k ∃%, k /n∃0时, M n (k ) /(2∀, 统计量M n (k ) /(2∀n (k ) ) 依概率收敛于∀n (k ) ) -∀n (k ) 和∀n (k ) -∀有相似的渐近性质, 并且在一定条件下极小化AM SE 和极小化A s yE (Mn (k ) -2(∀n (k ) ) ) 可以得到同阶量的k (相对于n). 因此, 根据Boo tstrap 子样本X n 1, 选用统计量:
Q (n 1, k 1) =E ((Mn 1(k 1) -2(∀|X n ), n 1(k 1) ) )
其中M
*
n 1
k
*
*
2
2
*
(5)
11(i) *(k +1) *2
(k 1) =i ∀(log X -log X ) . 通过最小化Q (n 1, k 1) 来确定k 1. 为了确定k, 还需要另一个n n
k 1=1
*
2
Bootstrap 子样本X n 2, n 2=n 1/n,然后利用与确定k 1相同的程序来确定k 2. 再利用k , k 1和k 2之间的关系
k =
来确定k .
k (log k 1)
k 2(2log n 1-log k 1) 2
21
2
log n 1-lo g k 1
1(6)
3 M B ootstrap 方法
我们受Dan i e lsson 等变为
&
[8]
提出的Boo tstrap 方法的启发, 用∀的相合估计 ∀n (k ) 代替∀n (k ), 渐近均方误差
AM SE M (n 1, k 1) =E ((∀∀k
根据Boo tstrap 子样本X n 1, 通过极小化AMSE M (n 1, k 1) 和关系k =k 1(n /n1) 来确定k 1与k .
定理1 假设k ∃%, k /n∃0. k (n ) 由A M SE (n, k ) 最小确定. 则
k =
-1
2
%
*
#
*2
(7)
(1+o (1) ), n ∃%, 2
S (∀(1- ) /n)
-1
2
(8)
S 是函数S 的反函数, A (t) =∋t S (u ) du (1+o(1) ), t ∃%.
假设A (t) =ct , c (0, >0, 则
#
k =H ( ) n (1+o (1) ), #=2 /(2 -1) 定理2 假设k 1∃%, k 1/n1∃%. 假设A (t) =ct , c (0,
k 1) 最小确定k 1. 则
#
1-!
&
(9)
) (0
(10)
k 1=H ( ) n 1(1+o (1) ), #=2 /(2 -1)
由定理1和定理2可知, k 与n, k 1与n 1存在同样的幂指数关系式. 这与H a ll 所预设的关系一致. 所以我
#
们仍旧取#=, =由k =k 1() 来确定k . 我们取#=无形中假设了二阶形状参数 =-1, 这证实
32n 13
了H a ll 的Boo tstrap 方法与 =-1有关.
-1
随机变量Y 1, Y 2, #, Y n 是. i . i d . , 其共同分布为G (y) =1-y (y ! 1), Y n , 1! #!Y n , n 是Y 1, Y 2, #, Y n 的顺序统计量. {Xn , 1}i ={U(Y n , i ) }i =1, 其中U(t) =(
n d
n
-) (t).
1-F
引理1 0
Y n , k p
(1) n ∃%, ∃1.
(n /k)
(2) n ∃%, (Pn , Q n ) 渐近正态, 它们的均值为0, 方差分别为1, 20, 协方差为4, 其中
112
P n ={∀log Y n, i -log Y n , k+1-1},Q n ={∀(log Y n , i -log Y n , k+1) -2}.
k i=1k i=1
定理1的证明:U (t) 的定义等价于正则变化函数|l o g U(t) -∀l o g t -C 0|以指数 正则变化, 其中C 0为常数. 令A (t) = (log U(t) -∀log t -C 0). 由Potter 不等式, 可得对任意0 0, 对于t 0>0, tx ! t 0有,
-! |log x |log U (tx ) -log U(t) -∀log X ! |log X |
(1-! )x e -1 (1+! ) x e -1. (11)
A (t) /
用Y n, k 代替t , Y n , i /Yn , k +1代替x 迭代不等式(i =1, 2, #, k ), 然后乘以得到
k k
∀P n Y n , i -1+!
∀) ∀++ A (Y n , k+1) (1∗! ) {∀() -1}.
k i=1Y n , k+1
又
k
k
∀
而Y 1, #, Y k . i . i d 具有共同分布函数1-∀+n ) ∀
即
∀n ) ∀+
∀P n k ∀P n k
k
i=1
Y n , i d
=Y n , k+1
∀Y ,
i=1
i
k
于是由弱大数定律得y
+ (1∗! ) (
-1
1
-1)A (Y n, k ),
1- !
) +O p (A() ), k k
2
+(1- ) A (
2
2
-1
A s yE (∀) ) +2n -∀
k (1- )
我们求(12) 中右边的最小值点, 得到定理1的结论, 定理证毕.
1-!
定理2的证明:令G n 表示独立变量的均匀分布的经验分布函数. 令n 足够大, n 1=O (n ), 则有
Y 2
-) tG n (0
(12)
sup 2, a . s . a . s .
n
(13)
) -) | sup |n (t ! 2t t
于是
4 t n 1(log n n ) 2
2
sup |
n (
-
) t
[Gn (Gn (
-
-) ) -G n () ]| t t
因此, 对所有的4 t n 1(log n n ) ,
|tG n (
-
) -1| a . s . t n
(14)
用F n 表示X n 的经验分布函数. v(t) =G n (1-
), 由(11), (13), (14) 得, t
|log y | 2|y -1|, y 2,
2
-e -11+ |y -1| (- ) (2v 2) |y -1|, y 2,
2
-1d
log U n (t) =log F n (1-) =t
-
).
1-1
1-G (1-) t G n () t t 22
所以对任意的0 4, 对于t 0
log U n (t x ) -log U n (t) -∀log x d
=
A (t) /
log U () -log U(tx ) -∀log () ) ∀l o g () ∀log (----t x G n () txG n () txG n () tG n ()
log +--A (tx ) / A (t) / A (t) / A (t)
log U () -log U(t) -∀log ()
--t G n () t G n ()
t t log U (t x ) -log U (t) -∀log x
+!
A (t) / A (t) /
-n
--log F n (Gn (1-) ) =log v(
t
) =log v(
d
[(- ) (2
- +1
+2
+3
) +2|
∀ |]x +1) +A (t) (15)
(1+9! ) (1+! ) x exp (! |log x |) -1+7! .
同理
log U n (tx ) -log U n (t) -∀log x - +1 +3! -[(1- ) (2+2) +2||](x +1) +
A (x ) / A (t) n
(1-9! ) (1-! )x exp (-! |log x |) -1-7! ,
用Y n 1, k 1+1, Y n 1, i (i =1, #, k 1) 分别代替t 和tx , 则不等式(15), (16) 是以概率成立的. 于是有
4 Y n 1, i Y n 1, n 1(i =1, #, k 1)
以概率成立.
Y n 1, n 1n 1(log n 1)
我们极小化E ((∀X n ). n 1(k 1) -∀n (k ) ) |
由定理1的证明过程可以得到
∀(k 1) =∀+
*
n 1
d
*
2
2
(16)
, n 1∃%, k 1/n1∃0. ∃0
p
∀P n 1
1
+d 1A (Y n 1, k 1+1) +o p (A(n 1/k1) ) +O (
log n 11n
),
又∀∀的相合估计, ∀∀+o p (A(n 1/k1) ), 又l o g n n 是∀n =∀n 1/k1n =o(1/k 1). 定理2得证, 定理证毕.
4 M onte C arlo 模拟
为了更好地说明问题, 我们选用三种熟知的重尾分布, 稳定分布S tab l e (1#5) 分布、t 分布t(3) 以及逆∃分布I Ga(1#5, 1), 分别采用Sum p l o t 方法、Dan ielsson 等提出的Bootstrap 方法(D Bootstrap 方法) 和改进的Bootstrap 方法(M Boo tstrap 方法) 进行模拟. 结果表明, Sum plot 方法、Bootstrap 方法和M Bootstrap 方法都能
作为H ill 估计中选择k 的有力工具, 它们和H ill 估计结合起来估计重尾指数将是有效的. 为便于比较, 我们将三种方法的模拟结果列表如下(P512见表1).
512山西大学学报(自然科学版) 33(4) 2010
表1 三种方法用于t , Cauchy , F r chet , 逆G a , Burr 和P areto 的结果
Table 1 Resu lts by the three m e thods on t , Cauchy , Fr chet , Inverse G a mm a , Bu rr and Pareto distr i bu tions
分布
方法Su m p l o t 方法D Boo tstrap 方法M Bootstrap 方法
Stab l e(1#5) k ^6024890
^1#51461#56991#5644
^k 323469
t(3)
^3#00243#12132#5581
逆G a(1#5, 1) k ^ ^75367176
1#48991#38801#4886
根据表1可以看出, 应用三种方法得到的结果是令人满意的. 相比之下, Sum p l o t 方法的精确性优于两种Bootstrap 方法. 从整体上看, 两种Bootstrap 方法估计的结果误差也是比较小的, 都可以使用. 从k 选择上看, 改进的M Bootstrap 方法更接近Sum p lot 方法结果, 对重尾指数的估计在某些情况下优于Bootstrap 方法, 特别是在计算量上明显优于Boo tstrap 方法. 所以, M Bootstrap 方法是适用的, 有意义的. 两种Bootstrap 方法个别情形下出现了较大偏差, 这与方法本身的特点有关. 基于两个子样本的Boo tstrap 方法受异常值的影响, 我们所用的数据都是随机生成的, 不免有异常值的出现. Boo tstrap 方法受样本容量的影响很大, 这也是出现偏差的原因. 参考文献:
[1] H ILL B . A S i m ple G eneral A pproach to Infererce about T he T a il of a D istri buti on[J].A nnals of S t atistics, 1975, 3:1163 1174. [2] KRATZ M, RESN ICK S . T he qq esti m ator and H eavy T a ils[J].S tochastic m odels , 1996, 12(4):699 724.
[3] BE I RLANT J , VYNCK I ER P, T E UG ELS J L. T a il Index Esti m ati on , Pareto Quantilep l o ts , and R eg ressi on D iagnostics[J].Journal
of t he Am er ican S tatistical A ssoci ation , 1996, 436:1659 1667.
[4] R ESN ICK S , S TAR ICA C . S m oothing the H ill E sti m ato r[J].A dvances in A pp lied Probab ilit y , 1997, 29:271 293. [5] DREES H, HAAN L D, RES N I CK S . H o w to M ake a H ill P l ot[J].A nnals of S t atistics , 2000, 28:254 274.
[6] SOU SA B . A Contr i buti on to the Esti m ati on o f the T a il Index o fH eavy ta iled D istr i buti ons[D ].T he U n i versity o M f i chigan , 2002. [7] HALL P. U si ng t he Bootstrap to Esti m a te m ean Square E rror and Se l ec t S m oothing P aram eters i n N on param etr i cproble m s[J].
J ournal of M ultivar i ate A nal y sis , 1990, 32:177 203.
[8] DAN I ELSSON J . U si ng a Bootstrap M ethod Choosethe Samp l e F racti on i n T a il Index E sti m ation[J].Journa l of M ultivariate A nal
y sis , 2001, 76:226 248.
[9] GOM ES M I , O L I VE I RA O. The Bootstrap M et hodo logy i n Sta ti stics of Ex tre m es cho i ce o f the O pti m al Samp l e F raction[J].Ex
tre m es , 2001, 4(4) :331 358.
Bootstrap M ethod i n Selecting H eavy tailed Thresho l d k
LI U W ei q i , HE Y ing d i , XI NG H ong w e i
1, 2
2, 3
2
(1. Institute of M anage men t Science and Eng i neering , Shanx i Universit y, T ai yuan 030006, Ch i na ;
2. S c hool of M at he m atical Science , Shanx i Univers it y, T aiyuan 030006, China ;
3. M aom ing V ocational T echnical College , M ao m i ng 525000; China )
Abst ract :W e d iscuss the Sum plot m ethod and Boo tstrap m ethod i n selecting k i n heavy ta iled i n dex esti m ation , and i m prove the Boo tstrap m ethod proposed by H a l, l kno wn as the M Bootstrap M ethod . The three m ethods w ere used to study t h e kno w n heavy ta iled d i s tributions byM onte Carlo si m u lati o n technology , in cluding t h e ir feasi b ility , M oreover , t h e ir robustness w as co mpared the M Bootstrap m ethod w as better than the Boo tstrap m ethod in so m e ca ses for heavy tailed index esti m ation . K ey w ords :heavy tailed index ; heavy ta iled thresho ld ; Sum plotm et h od ; Bootstrap m et h od ; M Bootstrap m ethod