第21卷第3期2006年5月
统计与信息论坛
Vol. 21No. 3May ,2006
【统计理论与方法】
分位数回归及应用简介
李育安1,2
(1. 中国人民武装警察部队学院, 河北廊坊065000;2. 中国人民大学统计学院, 北京100872)
摘要:文章介绍了分位数回归法的概念、R SAS 普通最小二乘法为基础的线性回归进行了对比, 。
关键词:最小二乘法; 中图分类号1:A-3116(2006) 03-0035-05
引 言
1870年, 英国的高尔顿在研究人类身高的遗传
假设, 那么在应用时就难以得到无偏的、有效的参数估计量。还有, 大量的宝贵数据仅仅只能得到一条回归曲线, 而一条曲线所能提供的信息毕竟是有限的。所以人们在使用回归分析时, 也在不断地探索更新更好的方法, 而条件更宽松, 挖掘信息更丰富
者, 当属分位数回归。
自从K oenker 和Bassett (1978) [1]最早提出线性分位数回归的理论以后, 当时由于分位数回归本身计算的复杂性, 所以它没能象经典的回归分析那样迅速普及, 但对它的理论研究一直在不断的完善中。随着计算机技术的不断突破, 分位数回归软件包现已是主流统计软件R 、SAS 等中的座上客了, 分位数回归也就自然而然地成为经济、医学、教育等领域的常用分析工具。
规律时发现:父母是高个子的, 其子女的身高有低于父母身高的趋势; 相反, 父母是矮个子的, 其子女的
身高却往往有高于父母身高的趋势。从全局来看, 高、矮个子人的子女都有“回归”于一般人身高的期望值。这就是统计学上“回归”的最初涵义。1886年, 高尔顿在论文中正式提出了“回归”的概念。经过他的学生皮尔逊多年的进一步的发展后, 这个出自于生物统计学领域的概念, 便被推广为一般统计方法论的重要概念。
“回归分析”悠久的历史, 使其理论完美, 计算工具齐全, 这其中又以基于最小二乘法的经典线性回归在数据分析中遍地开花。原因不外是最小二乘法的解释与人们的直观想象一致; 同时该方法易于计算, 有时计算用手工, 其优越性在前计算机时代是不言而喻的。尤其是当假设误差是正态分布时, 它具有如无偏性与有效等优良性质; 但是运用最小二乘法的条件比较高, 如线性回归模型要求满足同方差性、随机误差间两两不相关等条件, 当需要进行回归系数的显著性推断时, 通常还要假设残差服从正态分布。尤其是当分布是重尾或有离群点时, 其结果的稳健性较差。在实际问题中, 完全满足这些基本假设的情况并不多见, 然而一旦违背了某一项基本
收稿日期:2005-09-09
二、分位数回归的概念、性质
对于任意实值随机变量Y , 它的所有性质都可以由Y 的分布函数, 即:
F (y ) =Pr (Y ≤y )
来刻画。对于任意的0
τ分位数函数Q (τ) 为:
) =i nf {y :F (y ) ≥τ(1) Q (τ}它完全刻画了随机变量Y 的性质, 可以看出[注意:) ={y :F (y ) ≥τ与F -1(τ}进行比较], 存在比例
) , 而比例为1-τ为τ的部分小于分位数函数Q (τ
基金项目:国家自然科学基金(10431010) ; 教育部重点基地重大项目(05JJD910001) ; 中国人民大学应用统计中心资助。作者简介:李育安(1969-) , 男, 湖北省大悟人, 副教授, 博士, 研究方向:复杂数据的统计建模。
统计与信息论坛
) 之上。的部分位于分位数函数Q (τ
对于任意的0
三、样本的线性分位回归
对于随机变量Y 的一个随机样本{y 1, y 2, y 3,
…, y n }, 它的中位数线性回归就是求解使下面的绝对值偏差和为:
min ζ
ρτ(u ) =(τ-I (u
τu u ≥0
(2)
(τ-1) u u
其中I (u
kx 比较, τ相当于直线的斜率k ) 。可以看出“, 检验函数”是分段函数, 且ρτ(u ) ≥0。
=
∑|
y i -ζ|
中位数线性回归其实是分位数线性回归的一个特例
(τ=1/2) , 它在分位数线性回归中占有相当重要的地位, 对它的研究可追到18世纪中叶的Boscovich 世纪Edgeworth 对, , 太多的未知20世纪40年代末, 线性规, 中位数线性回归才得以在实践中大显身手。而τ分位数的样本分位数线性回归则是求满足:
β∈R
min k
ρτ(y ∑
-i
i
β) ) -x ′i (τ
′
τ|y i -x β) |+i (τ
ρ图1 “检验函数”τ(u ) 示意图
ρ为积分方便“, 检验函数”τ(u ) 可改写成:
ρτ(u ) =(τ-I (u
由定义(式2) , 当u 取y -ζ^时, 则有:
ρ^) τ(y -ζ
(3)
) , 它的展开式为:的解β(τ
β(τ) ∈R
min k
′
(i :y ≥x β(τ) )
i
i
∑
(i :y
i
i
∑
′(1-τ) |y i -x β) |] τ∈(0, 1) i (τ
在线性条件下, 给定x 后, Y 的τ分位数函数为:
β(τ) τ∈(0, 1) Q y (τ|x ) =x ′在不同的τ下, 就能得到不同的分位数函数。随着τ
由0至1, 就能得到所有y 在x 上的条件分布的轨迹, 即一簇曲线, 而不象线性回归只能得到一条曲
) 值却不线。此理论看似简单, 可当时想计算出β(τ是一件容易的事。随着科学家的努力和计算机技术
的飞速发展, 现在不少软件都有计算分位数回归的专门函数。
=τ(y -ζ^) I (y -ζ^≥0) +
(τ-1) (y -ζ(4) ^) I (y -ζ^
) ]则Y 的τ分位数回归, 就是找到ζ, 使E [ρτ(y -ζ
最小, 即求满足下式的ζ:
(5) min E [ρ^) ]τ(y -ζζ
∈R
在公式(4) 两边同时取期望, 积分得:
) ]min E [ρτ(y -ζζ
∈R
=(τ-1)
τ
^) d F (x ) +
∫(y -ζ
-∞
ζ^
四、分位数回归的计算
(6)
∫
ζ^
+∞
(y -ζ^) d F (x )
再对公式(6) 两边同时对ζ^求导得:
) 0=(1-τ
∫d F (x ) -τ∫d F (x )
-∞
ζ^-∞
ζ^
(7) =F (ζ^)
因为分布函数F 是单调增函数, 则集合{y :F (ζ^) =τ}中的任意元素都满足条件, 即可能存在某个区间上的元素都满足使式(5) 最小。而由定义
) =^式(1) , 若令Q (τy 时, 则^y 是唯一的。
目前, 有3种公认有效的计算分位数的算法①,
且在统计软件SAS 、R 或Splus 上都有可实现的软件包:
(一) 单纯性法[1-2]。任选一个顶点, 然后沿着可行解围成的多边形的边界搜索, 直到找到最优点。这种算法的特点决定其较适合不大的样本量和不多的变量。
①
τ(. ) 后, 再搜寻最优解。目前新的、高效的算法在不断地发展和涌现中, 如光滑法(Chen (2004) ) :通过光滑目标函数ρ
李育安:分位数回归及应用简介
(二) 内点法[3]。从可行解围成的多边形一个内中, 可运行过程PROC QUAN TREG ②, 其基本语法为:
PROC QUAN TREG DA TA
点出发, 但不出边界, 直到找到最优点。它在样本量大时效率也很高。
(三) 预处理后内点法[3]。) 预处理后, 再对β(τ用内点法, 它适合样本量大于10的情形。在其它情况相同时, 不同算法的运算速度是有差别的, 见表1。
表1 不同算法在运算速度上的差异表
样本量
[***********]
=sas -data -set
B Y variables ; Class variables MODEL response
=independents
RUN
MODEL 后的(options ) τ值:
单纯性法
(秒)
0. 030. 5717. 961317. 24
内点法(秒)
0. 040. 141. 4924. 预处理后内点法(秒)
0. 050. 4769
单个TIL E 5,0. 75, 。算法的选取则是在:PROC QUAN TREG DA TA
数据来源:K ) tile 2sion An Illinois at Urbana -Champaign
下面主要介绍如何用主流统计软件:R ①、SAS 来计算分位数回归:
1. 在免费软件R 上的基本语法:
d
engel
) xlab =“家庭收入” ylab =“食品支出”) points (x ,y cex =0. 4col =“black ”
) abline (rq (y ~x tau =0. 05) col =“black ”
) abline (rq (y ~x tau =0. 5) 1ty =2col =“black ”abline (rq (y ~x tau =0. 95) abline (lm (y ~x lty =3
for (i in 1:1ength(taus ) )
) col =“black ”) col =“black ”
=sas -data -set (options ) ; (options ) 中:
单纯性法(缺省值) :ALG ORITHM =SIMPL EX
内点法:ALG ORITHM =IN TERIOR
预处理后内点法:ALG ORITHM =INTERIOR PP 光滑法:ALG ORITHM =SMOO THIN G
五、实证:恩格尔曲线
下面通过分析恩格尔(1857) 数据集, 揭示除恩格尔曲线以外的更多信息, 以展示分位数回归的魅力。
德国统计学家恩思特・恩格尔(1821~1896) , 曾
任普鲁士统计局局长(1860~1862) 。他在1857年发表的一篇论文中, 通过分析恩格尔数据集③———它记录了235个比利时家庭(工作收入为其家庭生活的来源) 的家庭收入和食品支出的情况(见表2) , 阐明了一个让他流芳后世的恩格尔定律:随着家庭和个人收入增加, 收入中用于食品方面的支出比例将逐渐减小。反映这一定律的系数被称为恩格尔系数, 即:
恩格尔系统(%) >家庭或个人消费支出总额×100%它说明了经济发展与收入增加对生活消费的影响程
) }{abline(rq (y ~x tau =taus[i]col =“black ”
(分位数回归”legend (500,2000 c ““, 中位数”,
“线性回归”,1ty =1:3)
选读入数据, 再加载分位数回归软件包, 然后是
作图, 拟合不同的分位数回归直线(rq ) 和用最小二乘法拟合的直线(1m ) , 应该注意的是, 实证部分的就是这些命令的实现(见图2) 。
2. 在SAS 9. 1(Windows 版) 的模块SAS/STA T
度, 揭示了居民收入和食品支出之间的相关关系。众所周知, 吃是人类生存的第一需要, 在收入水平较低时, 食品在消费支出中必然占有重要地位。随着收入的增加, 在食物需求基本满足的情况下, 消费的
①②③
软件R 和程序包(quantreg ) 都可从R 的官方网站免费下载。此过程可从下载。数据来源
统计与信息论坛
重心才会开始向穿、用等其它方面转移。通常讲来, 一个国家或家庭生活越贫困, 食品在消费支出中必然占有较大的比例, 恩格尔系数就越大; 反之, 生活越富裕, 恩格尔系数就越小。正因为如此, 国际上通常用恩格尔系数来衡量一个国家或地区人民生活水平的状况。根据联合国粮农组织提出的标准:恩格尔系数大于59%为贫困, 在50%~59%间为温饱, 在40%~50%间为小康, 在30%~40%间为富裕, 小于30%为最富裕。2000年, 中国居民的恩格尔系数首次低于
50%。
表2 恩格尔(1857) 数据集节选表
家庭收入
420. 1577541. 7901. 在免费统计软件R (2. 1. 1版) 上, 分位数回归
理论基础的奠基人之一K oneker , 编写了一个专门计算分位数回归的软件包quantreg , 对恩格尔(1857) 数据集进行了统计分析, 可选择输出许多结果(见图2) 。图2中的实直线表示的则是线性分位数回归直线, 从下到上, 它们的τ值依次是:0. 05, 0. 1,0. 25,0. 75,0. 9,0. 95。
图2清晰地展示了家庭食品支出随家庭收入增长而增长的趋势。不同T 值的分位数回归直线之, , 说明了食品支:, 寓; 而分位数回归直线右侧之间间隙较大, 寓示了数据点比较稀疏且拖尾。从图2还可以清楚地看出, 中位数回归直线的位置和由最小二乘法得到的线性回归直线的位置显著不同:说明了条件密度的不对称性, 也说明了此时最小二乘法显然受到两个异常点(高家庭收入低食品支出) 的影响较大, 它的这种不稳健性的后果, 就是对贫穷家庭的平均家庭收入预测较差, 常常高估了他们的生活质量。
食品支出
……
六、结 论
从实例可以看出:把最小二乘法得到的线性回
归方程的回归系数可视为条件期望函数的概括性统计量一样, 也可将条件线性分位数回归的系数如此看待。分位数回归不仅反映了位置的情况, 还反映了分布的形状, 能更好地刻划因变量Y 在条件X 下的关系, 提炼出更多的信息。线性分位数回归的理论从提出至今已近30余载, 分位数回归不仅是占主导地位的, 而且是对基于最小二乘法的经典线性回归的有益补充, 并已逐渐成为一种估计条件分位数函数的标准的统计方法。
图2 恩格尔(1857) 家庭收入与食品支出图
参考文献:
[1] KOEN KER R ,BASSETT G J. Regression Quantiles[J].Econometrica ,1978(46) :33-50.
[2] KOEN KER R ,D ’OREY V. A Remark on Computing Regression Quantiles[J].Applied Statistics ,1993(43) :410-414. [3] PORTNO Y S. KOEN KER R. The G aussian Hare and the Laplacian Tortoise :Computabilityof Squared -error Versus Absolute
-error Estimators[J].Statistical Science ,1997(12) :279-300.
(责任编辑:郭诗梦)
(下转第44页)
统计与信息论坛
A Theoretical Study of the B rittleness of the Financial System
L I Zheng 2hui
(School of Statistics , Hunan University , Changsha 410079, China )
Abstract :The finance system is a complicated system. Firstly , this paper makes a structural description about the mechanic of how the brittleness is formed , based on the system theory , and analyzes the basic characteristics of the financial system brittleness ; then based on the mechanic and characteristics , build up a brittle function ; finally , carries out a systematic analysis of the evolution of the brittleness of the financial system based on the basic property of the financial system brittleness.
K ey w ords :brittle function ; financial system ; brittleness
(上接第26页)
参考文献:
[1] 刘志伟. [J].统计与信息论坛,2003(5) :28-32. [2] 王祖祥. 贫困评价与贫困指数[J].经济评论,2000(1) :98-104. [3] 洪兴建. 贫困指数理论研究述评[J].经济评论,2005(5) :112-117.
(责任编辑:郭诗梦)
Poverty Measures and Appraisement FEN G Xing 2guang 1, ZHAN G Xiao 2jing 2
(1. School of Economics , Central University of Finance and Economics , Beijing 100081,China ;
2. School of Economics , Renmin University of China , Beijing 100872, China )
Abstract :Poverty index reflects the accuracy of poverty measurement. It is one of the primary problems of studying the poverty problem. The article uses the generally acknowledged axiom standard appraising various kinds of poverty measures. The conclusion is that the single poverty indices are to some extent insufficient. In order to find out poverty degree accurately , we need to build an indicators system.
K ey w ords :poverty ; axiom standard ; appraisement
(上接第38页)
An Introduction to Q uantile R egression and It ’s Application
L I Yu 2an 1,2
(1. Chinese People ’s Armed Police Forces Academy , Langfang 065000, China ; 2. School of Statistics , Renmin University of China , Beijing 100872, China )
Abstract :After an brief introduction to quantile regression and its algorithms , it is compared with the linear regression based on OL S to demonstrate its merits.
K ey w ords :OL S ; quantile regression ; Engel ’s curve
第21卷第3期2006年5月
统计与信息论坛
Vol. 21No. 3May ,2006
【统计理论与方法】
分位数回归及应用简介
李育安1,2
(1. 中国人民武装警察部队学院, 河北廊坊065000;2. 中国人民大学统计学院, 北京100872)
摘要:文章介绍了分位数回归法的概念、R SAS 普通最小二乘法为基础的线性回归进行了对比, 。
关键词:最小二乘法; 中图分类号1:A-3116(2006) 03-0035-05
引 言
1870年, 英国的高尔顿在研究人类身高的遗传
假设, 那么在应用时就难以得到无偏的、有效的参数估计量。还有, 大量的宝贵数据仅仅只能得到一条回归曲线, 而一条曲线所能提供的信息毕竟是有限的。所以人们在使用回归分析时, 也在不断地探索更新更好的方法, 而条件更宽松, 挖掘信息更丰富
者, 当属分位数回归。
自从K oenker 和Bassett (1978) [1]最早提出线性分位数回归的理论以后, 当时由于分位数回归本身计算的复杂性, 所以它没能象经典的回归分析那样迅速普及, 但对它的理论研究一直在不断的完善中。随着计算机技术的不断突破, 分位数回归软件包现已是主流统计软件R 、SAS 等中的座上客了, 分位数回归也就自然而然地成为经济、医学、教育等领域的常用分析工具。
规律时发现:父母是高个子的, 其子女的身高有低于父母身高的趋势; 相反, 父母是矮个子的, 其子女的
身高却往往有高于父母身高的趋势。从全局来看, 高、矮个子人的子女都有“回归”于一般人身高的期望值。这就是统计学上“回归”的最初涵义。1886年, 高尔顿在论文中正式提出了“回归”的概念。经过他的学生皮尔逊多年的进一步的发展后, 这个出自于生物统计学领域的概念, 便被推广为一般统计方法论的重要概念。
“回归分析”悠久的历史, 使其理论完美, 计算工具齐全, 这其中又以基于最小二乘法的经典线性回归在数据分析中遍地开花。原因不外是最小二乘法的解释与人们的直观想象一致; 同时该方法易于计算, 有时计算用手工, 其优越性在前计算机时代是不言而喻的。尤其是当假设误差是正态分布时, 它具有如无偏性与有效等优良性质; 但是运用最小二乘法的条件比较高, 如线性回归模型要求满足同方差性、随机误差间两两不相关等条件, 当需要进行回归系数的显著性推断时, 通常还要假设残差服从正态分布。尤其是当分布是重尾或有离群点时, 其结果的稳健性较差。在实际问题中, 完全满足这些基本假设的情况并不多见, 然而一旦违背了某一项基本
收稿日期:2005-09-09
二、分位数回归的概念、性质
对于任意实值随机变量Y , 它的所有性质都可以由Y 的分布函数, 即:
F (y ) =Pr (Y ≤y )
来刻画。对于任意的0
τ分位数函数Q (τ) 为:
) =i nf {y :F (y ) ≥τ(1) Q (τ}它完全刻画了随机变量Y 的性质, 可以看出[注意:) ={y :F (y ) ≥τ与F -1(τ}进行比较], 存在比例
) , 而比例为1-τ为τ的部分小于分位数函数Q (τ
基金项目:国家自然科学基金(10431010) ; 教育部重点基地重大项目(05JJD910001) ; 中国人民大学应用统计中心资助。作者简介:李育安(1969-) , 男, 湖北省大悟人, 副教授, 博士, 研究方向:复杂数据的统计建模。
统计与信息论坛
) 之上。的部分位于分位数函数Q (τ
对于任意的0
三、样本的线性分位回归
对于随机变量Y 的一个随机样本{y 1, y 2, y 3,
…, y n }, 它的中位数线性回归就是求解使下面的绝对值偏差和为:
min ζ
ρτ(u ) =(τ-I (u
τu u ≥0
(2)
(τ-1) u u
其中I (u
kx 比较, τ相当于直线的斜率k ) 。可以看出“, 检验函数”是分段函数, 且ρτ(u ) ≥0。
=
∑|
y i -ζ|
中位数线性回归其实是分位数线性回归的一个特例
(τ=1/2) , 它在分位数线性回归中占有相当重要的地位, 对它的研究可追到18世纪中叶的Boscovich 世纪Edgeworth 对, , 太多的未知20世纪40年代末, 线性规, 中位数线性回归才得以在实践中大显身手。而τ分位数的样本分位数线性回归则是求满足:
β∈R
min k
ρτ(y ∑
-i
i
β) ) -x ′i (τ
′
τ|y i -x β) |+i (τ
ρ图1 “检验函数”τ(u ) 示意图
ρ为积分方便“, 检验函数”τ(u ) 可改写成:
ρτ(u ) =(τ-I (u
由定义(式2) , 当u 取y -ζ^时, 则有:
ρ^) τ(y -ζ
(3)
) , 它的展开式为:的解β(τ
β(τ) ∈R
min k
′
(i :y ≥x β(τ) )
i
i
∑
(i :y
i
i
∑
′(1-τ) |y i -x β) |] τ∈(0, 1) i (τ
在线性条件下, 给定x 后, Y 的τ分位数函数为:
β(τ) τ∈(0, 1) Q y (τ|x ) =x ′在不同的τ下, 就能得到不同的分位数函数。随着τ
由0至1, 就能得到所有y 在x 上的条件分布的轨迹, 即一簇曲线, 而不象线性回归只能得到一条曲
) 值却不线。此理论看似简单, 可当时想计算出β(τ是一件容易的事。随着科学家的努力和计算机技术
的飞速发展, 现在不少软件都有计算分位数回归的专门函数。
=τ(y -ζ^) I (y -ζ^≥0) +
(τ-1) (y -ζ(4) ^) I (y -ζ^
) ]则Y 的τ分位数回归, 就是找到ζ, 使E [ρτ(y -ζ
最小, 即求满足下式的ζ:
(5) min E [ρ^) ]τ(y -ζζ
∈R
在公式(4) 两边同时取期望, 积分得:
) ]min E [ρτ(y -ζζ
∈R
=(τ-1)
τ
^) d F (x ) +
∫(y -ζ
-∞
ζ^
四、分位数回归的计算
(6)
∫
ζ^
+∞
(y -ζ^) d F (x )
再对公式(6) 两边同时对ζ^求导得:
) 0=(1-τ
∫d F (x ) -τ∫d F (x )
-∞
ζ^-∞
ζ^
(7) =F (ζ^)
因为分布函数F 是单调增函数, 则集合{y :F (ζ^) =τ}中的任意元素都满足条件, 即可能存在某个区间上的元素都满足使式(5) 最小。而由定义
) =^式(1) , 若令Q (τy 时, 则^y 是唯一的。
目前, 有3种公认有效的计算分位数的算法①,
且在统计软件SAS 、R 或Splus 上都有可实现的软件包:
(一) 单纯性法[1-2]。任选一个顶点, 然后沿着可行解围成的多边形的边界搜索, 直到找到最优点。这种算法的特点决定其较适合不大的样本量和不多的变量。
①
τ(. ) 后, 再搜寻最优解。目前新的、高效的算法在不断地发展和涌现中, 如光滑法(Chen (2004) ) :通过光滑目标函数ρ
李育安:分位数回归及应用简介
(二) 内点法[3]。从可行解围成的多边形一个内中, 可运行过程PROC QUAN TREG ②, 其基本语法为:
PROC QUAN TREG DA TA
点出发, 但不出边界, 直到找到最优点。它在样本量大时效率也很高。
(三) 预处理后内点法[3]。) 预处理后, 再对β(τ用内点法, 它适合样本量大于10的情形。在其它情况相同时, 不同算法的运算速度是有差别的, 见表1。
表1 不同算法在运算速度上的差异表
样本量
[***********]
=sas -data -set
B Y variables ; Class variables MODEL response
=independents
RUN
MODEL 后的(options ) τ值:
单纯性法
(秒)
0. 030. 5717. 961317. 24
内点法(秒)
0. 040. 141. 4924. 预处理后内点法(秒)
0. 050. 4769
单个TIL E 5,0. 75, 。算法的选取则是在:PROC QUAN TREG DA TA
数据来源:K ) tile 2sion An Illinois at Urbana -Champaign
下面主要介绍如何用主流统计软件:R ①、SAS 来计算分位数回归:
1. 在免费软件R 上的基本语法:
d
engel
) xlab =“家庭收入” ylab =“食品支出”) points (x ,y cex =0. 4col =“black ”
) abline (rq (y ~x tau =0. 05) col =“black ”
) abline (rq (y ~x tau =0. 5) 1ty =2col =“black ”abline (rq (y ~x tau =0. 95) abline (lm (y ~x lty =3
for (i in 1:1ength(taus ) )
) col =“black ”) col =“black ”
=sas -data -set (options ) ; (options ) 中:
单纯性法(缺省值) :ALG ORITHM =SIMPL EX
内点法:ALG ORITHM =IN TERIOR
预处理后内点法:ALG ORITHM =INTERIOR PP 光滑法:ALG ORITHM =SMOO THIN G
五、实证:恩格尔曲线
下面通过分析恩格尔(1857) 数据集, 揭示除恩格尔曲线以外的更多信息, 以展示分位数回归的魅力。
德国统计学家恩思特・恩格尔(1821~1896) , 曾
任普鲁士统计局局长(1860~1862) 。他在1857年发表的一篇论文中, 通过分析恩格尔数据集③———它记录了235个比利时家庭(工作收入为其家庭生活的来源) 的家庭收入和食品支出的情况(见表2) , 阐明了一个让他流芳后世的恩格尔定律:随着家庭和个人收入增加, 收入中用于食品方面的支出比例将逐渐减小。反映这一定律的系数被称为恩格尔系数, 即:
恩格尔系统(%) >家庭或个人消费支出总额×100%它说明了经济发展与收入增加对生活消费的影响程
) }{abline(rq (y ~x tau =taus[i]col =“black ”
(分位数回归”legend (500,2000 c ““, 中位数”,
“线性回归”,1ty =1:3)
选读入数据, 再加载分位数回归软件包, 然后是
作图, 拟合不同的分位数回归直线(rq ) 和用最小二乘法拟合的直线(1m ) , 应该注意的是, 实证部分的就是这些命令的实现(见图2) 。
2. 在SAS 9. 1(Windows 版) 的模块SAS/STA T
度, 揭示了居民收入和食品支出之间的相关关系。众所周知, 吃是人类生存的第一需要, 在收入水平较低时, 食品在消费支出中必然占有重要地位。随着收入的增加, 在食物需求基本满足的情况下, 消费的
①②③
软件R 和程序包(quantreg ) 都可从R 的官方网站免费下载。此过程可从下载。数据来源
统计与信息论坛
重心才会开始向穿、用等其它方面转移。通常讲来, 一个国家或家庭生活越贫困, 食品在消费支出中必然占有较大的比例, 恩格尔系数就越大; 反之, 生活越富裕, 恩格尔系数就越小。正因为如此, 国际上通常用恩格尔系数来衡量一个国家或地区人民生活水平的状况。根据联合国粮农组织提出的标准:恩格尔系数大于59%为贫困, 在50%~59%间为温饱, 在40%~50%间为小康, 在30%~40%间为富裕, 小于30%为最富裕。2000年, 中国居民的恩格尔系数首次低于
50%。
表2 恩格尔(1857) 数据集节选表
家庭收入
420. 1577541. 7901. 在免费统计软件R (2. 1. 1版) 上, 分位数回归
理论基础的奠基人之一K oneker , 编写了一个专门计算分位数回归的软件包quantreg , 对恩格尔(1857) 数据集进行了统计分析, 可选择输出许多结果(见图2) 。图2中的实直线表示的则是线性分位数回归直线, 从下到上, 它们的τ值依次是:0. 05, 0. 1,0. 25,0. 75,0. 9,0. 95。
图2清晰地展示了家庭食品支出随家庭收入增长而增长的趋势。不同T 值的分位数回归直线之, , 说明了食品支:, 寓; 而分位数回归直线右侧之间间隙较大, 寓示了数据点比较稀疏且拖尾。从图2还可以清楚地看出, 中位数回归直线的位置和由最小二乘法得到的线性回归直线的位置显著不同:说明了条件密度的不对称性, 也说明了此时最小二乘法显然受到两个异常点(高家庭收入低食品支出) 的影响较大, 它的这种不稳健性的后果, 就是对贫穷家庭的平均家庭收入预测较差, 常常高估了他们的生活质量。
食品支出
……
六、结 论
从实例可以看出:把最小二乘法得到的线性回
归方程的回归系数可视为条件期望函数的概括性统计量一样, 也可将条件线性分位数回归的系数如此看待。分位数回归不仅反映了位置的情况, 还反映了分布的形状, 能更好地刻划因变量Y 在条件X 下的关系, 提炼出更多的信息。线性分位数回归的理论从提出至今已近30余载, 分位数回归不仅是占主导地位的, 而且是对基于最小二乘法的经典线性回归的有益补充, 并已逐渐成为一种估计条件分位数函数的标准的统计方法。
图2 恩格尔(1857) 家庭收入与食品支出图
参考文献:
[1] KOEN KER R ,BASSETT G J. Regression Quantiles[J].Econometrica ,1978(46) :33-50.
[2] KOEN KER R ,D ’OREY V. A Remark on Computing Regression Quantiles[J].Applied Statistics ,1993(43) :410-414. [3] PORTNO Y S. KOEN KER R. The G aussian Hare and the Laplacian Tortoise :Computabilityof Squared -error Versus Absolute
-error Estimators[J].Statistical Science ,1997(12) :279-300.
(责任编辑:郭诗梦)
(下转第44页)
统计与信息论坛
A Theoretical Study of the B rittleness of the Financial System
L I Zheng 2hui
(School of Statistics , Hunan University , Changsha 410079, China )
Abstract :The finance system is a complicated system. Firstly , this paper makes a structural description about the mechanic of how the brittleness is formed , based on the system theory , and analyzes the basic characteristics of the financial system brittleness ; then based on the mechanic and characteristics , build up a brittle function ; finally , carries out a systematic analysis of the evolution of the brittleness of the financial system based on the basic property of the financial system brittleness.
K ey w ords :brittle function ; financial system ; brittleness
(上接第26页)
参考文献:
[1] 刘志伟. [J].统计与信息论坛,2003(5) :28-32. [2] 王祖祥. 贫困评价与贫困指数[J].经济评论,2000(1) :98-104. [3] 洪兴建. 贫困指数理论研究述评[J].经济评论,2005(5) :112-117.
(责任编辑:郭诗梦)
Poverty Measures and Appraisement FEN G Xing 2guang 1, ZHAN G Xiao 2jing 2
(1. School of Economics , Central University of Finance and Economics , Beijing 100081,China ;
2. School of Economics , Renmin University of China , Beijing 100872, China )
Abstract :Poverty index reflects the accuracy of poverty measurement. It is one of the primary problems of studying the poverty problem. The article uses the generally acknowledged axiom standard appraising various kinds of poverty measures. The conclusion is that the single poverty indices are to some extent insufficient. In order to find out poverty degree accurately , we need to build an indicators system.
K ey w ords :poverty ; axiom standard ; appraisement
(上接第38页)
An Introduction to Q uantile R egression and It ’s Application
L I Yu 2an 1,2
(1. Chinese People ’s Armed Police Forces Academy , Langfang 065000, China ; 2. School of Statistics , Renmin University of China , Beijing 100872, China )
Abstract :After an brief introduction to quantile regression and its algorithms , it is compared with the linear regression based on OL S to demonstrate its merits.
K ey w ords :OL S ; quantile regression ; Engel ’s curve