分位数回归及应用简介

第21卷第3期2006年5月

统计与信息论坛

         

Vol. 21No. 3May ,2006

【统计理论与方法】

分位数回归及应用简介

李育安1,2

(1. 中国人民武装警察部队学院, 河北廊坊065000;2. 中国人民大学统计学院, 北京100872)

摘要:文章介绍了分位数回归法的概念、R SAS 普通最小二乘法为基础的线性回归进行了对比, 。

关键词:最小二乘法; 中图分类号1:A-3116(2006) 03-0035-05

引 言

1870年, 英国的高尔顿在研究人类身高的遗传

假设, 那么在应用时就难以得到无偏的、有效的参数估计量。还有, 大量的宝贵数据仅仅只能得到一条回归曲线, 而一条曲线所能提供的信息毕竟是有限的。所以人们在使用回归分析时, 也在不断地探索更新更好的方法, 而条件更宽松, 挖掘信息更丰富

者, 当属分位数回归。

自从K oenker 和Bassett (1978) [1]最早提出线性分位数回归的理论以后, 当时由于分位数回归本身计算的复杂性, 所以它没能象经典的回归分析那样迅速普及, 但对它的理论研究一直在不断的完善中。随着计算机技术的不断突破, 分位数回归软件包现已是主流统计软件R 、SAS 等中的座上客了, 分位数回归也就自然而然地成为经济、医学、教育等领域的常用分析工具。

规律时发现:父母是高个子的, 其子女的身高有低于父母身高的趋势; 相反, 父母是矮个子的, 其子女的

身高却往往有高于父母身高的趋势。从全局来看, 高、矮个子人的子女都有“回归”于一般人身高的期望值。这就是统计学上“回归”的最初涵义。1886年, 高尔顿在论文中正式提出了“回归”的概念。经过他的学生皮尔逊多年的进一步的发展后, 这个出自于生物统计学领域的概念, 便被推广为一般统计方法论的重要概念。

“回归分析”悠久的历史, 使其理论完美, 计算工具齐全, 这其中又以基于最小二乘法的经典线性回归在数据分析中遍地开花。原因不外是最小二乘法的解释与人们的直观想象一致; 同时该方法易于计算, 有时计算用手工, 其优越性在前计算机时代是不言而喻的。尤其是当假设误差是正态分布时, 它具有如无偏性与有效等优良性质; 但是运用最小二乘法的条件比较高, 如线性回归模型要求满足同方差性、随机误差间两两不相关等条件, 当需要进行回归系数的显著性推断时, 通常还要假设残差服从正态分布。尤其是当分布是重尾或有离群点时, 其结果的稳健性较差。在实际问题中, 完全满足这些基本假设的情况并不多见, 然而一旦违背了某一项基本

收稿日期:2005-09-09

二、分位数回归的概念、性质

对于任意实值随机变量Y , 它的所有性质都可以由Y 的分布函数, 即:

F (y ) =Pr (Y ≤y )

来刻画。对于任意的0

τ分位数函数Q (τ) 为:

) =i nf {y :F (y ) ≥τ(1) Q (τ}它完全刻画了随机变量Y 的性质, 可以看出[注意:) ={y :F (y ) ≥τ与F -1(τ}进行比较], 存在比例

) , 而比例为1-τ为τ的部分小于分位数函数Q (τ

基金项目:国家自然科学基金(10431010) ; 教育部重点基地重大项目(05JJD910001) ; 中国人民大学应用统计中心资助。作者简介:李育安(1969-) , 男, 湖北省大悟人, 副教授, 博士, 研究方向:复杂数据的统计建模。

统计与信息论坛

) 之上。的部分位于分位数函数Q (τ

对于任意的0

  三、样本的线性分位回归

对于随机变量Y 的一个随机样本{y 1, y 2, y 3,

…, y n }, 它的中位数线性回归就是求解使下面的绝对值偏差和为:

min ζ

ρτ(u ) =(τ-I (u

τu    u ≥0

(2)

(τ-1) u u

其中I (u

kx 比较, τ相当于直线的斜率k ) 。可以看出“, 检验函数”是分段函数, 且ρτ(u ) ≥0。

=

∑|

y i -ζ|

中位数线性回归其实是分位数线性回归的一个特例

(τ=1/2) , 它在分位数线性回归中占有相当重要的地位, 对它的研究可追到18世纪中叶的Boscovich 世纪Edgeworth 对, , 太多的未知20世纪40年代末, 线性规, 中位数线性回归才得以在实践中大显身手。而τ分位数的样本分位数线性回归则是求满足:

β∈R

min k

ρτ(y ∑

-i

i

β) ) -x ′i (τ

τ|y i -x β) |+i (τ

ρ图1 “检验函数”τ(u ) 示意图

ρ为积分方便“, 检验函数”τ(u ) 可改写成:

ρτ(u ) =(τ-I (u

由定义(式2) , 当u 取y -ζ^时, 则有:

ρ^) τ(y -ζ

(3)

) , 它的展开式为:的解β(τ

β(τ) ∈R

min k

(i :y ≥x β(τ) )

i

i

(i :y

i

i

′(1-τ) |y i -x β) |] τ∈(0, 1) i (τ

在线性条件下, 给定x 后, Y 的τ分位数函数为:

β(τ)  τ∈(0, 1) Q y (τ|x ) =x ′在不同的τ下, 就能得到不同的分位数函数。随着τ

由0至1, 就能得到所有y 在x 上的条件分布的轨迹, 即一簇曲线, 而不象线性回归只能得到一条曲

) 值却不线。此理论看似简单, 可当时想计算出β(τ是一件容易的事。随着科学家的努力和计算机技术

的飞速发展, 现在不少软件都有计算分位数回归的专门函数。

 =τ(y -ζ^) I (y -ζ^≥0) +

(τ-1) (y -ζ(4) ^) I (y -ζ^

) ]则Y 的τ分位数回归, 就是找到ζ, 使E [ρτ(y -ζ

最小, 即求满足下式的ζ:

(5) min E [ρ^) ]τ(y -ζζ

∈R

在公式(4) 两边同时取期望, 积分得:

) ]min E [ρτ(y -ζζ

∈R

 =(τ-1)

τ

^) d F (x ) +

∫(y -ζ

-∞

ζ^

四、分位数回归的计算

(6)

ζ^

+∞

(y -ζ^) d F (x )

再对公式(6) 两边同时对ζ^求导得:

) 0=(1-τ

∫d F (x ) -τ∫d F (x )

-∞

ζ^-∞

ζ^

(7)   =F (ζ^)

因为分布函数F 是单调增函数, 则集合{y :F (ζ^) =τ}中的任意元素都满足条件, 即可能存在某个区间上的元素都满足使式(5) 最小。而由定义

) =^式(1) , 若令Q (τy 时, 则^y 是唯一的。

目前, 有3种公认有效的计算分位数的算法①,

且在统计软件SAS 、R 或Splus 上都有可实现的软件包:

(一) 单纯性法[1-2]。任选一个顶点, 然后沿着可行解围成的多边形的边界搜索, 直到找到最优点。这种算法的特点决定其较适合不大的样本量和不多的变量。

τ(. ) 后, 再搜寻最优解。目前新的、高效的算法在不断地发展和涌现中, 如光滑法(Chen (2004) ) :通过光滑目标函数ρ

李育安:分位数回归及应用简介

(二) 内点法[3]。从可行解围成的多边形一个内中, 可运行过程PROC QUAN TREG ②, 其基本语法为:

PROC QUAN TREG DA TA

点出发, 但不出边界, 直到找到最优点。它在样本量大时效率也很高。

(三) 预处理后内点法[3]。) 预处理后, 再对β(τ用内点法, 它适合样本量大于10的情形。在其它情况相同时, 不同算法的运算速度是有差别的, 见表1。

表1 不同算法在运算速度上的差异表

样本量

[***********]

 =sas -data -set

B Y variables ;  Class variables MODEL response

 =independents

RUN

MODEL 后的(options ) τ值:

单纯性法

(秒)

0. 030. 5717. 961317. 24

内点法(秒)

0. 040. 141. 4924. 预处理后内点法(秒)

0. 050. 4769

单个TIL E 5,0. 75, 。算法的选取则是在:PROC QUAN TREG DA TA

  数据来源:K ) tile 2sion An Illinois at Urbana -Champaign

下面主要介绍如何用主流统计软件:R ①、SAS 来计算分位数回归:

1. 在免费软件R 上的基本语法:

d

engel

) xlab =“家庭收入”   ylab =“食品支出”) points (x ,y  cex =0. 4col =“black ”

) abline (rq (y ~x  tau =0. 05) col =“black ”

) abline (rq (y ~x tau =0. 5) 1ty =2col =“black ”abline (rq (y ~x tau =0. 95) abline (lm (y ~x lty =3

for (i in 1:1ength(taus ) )

) col =“black ”) col =“black ”

 =sas -data -set (options ) ; (options ) 中:

单纯性法(缺省值) :ALG ORITHM =SIMPL EX

内点法:ALG ORITHM =IN TERIOR

预处理后内点法:ALG ORITHM =INTERIOR PP 光滑法:ALG ORITHM =SMOO THIN G

五、实证:恩格尔曲线

下面通过分析恩格尔(1857) 数据集, 揭示除恩格尔曲线以外的更多信息, 以展示分位数回归的魅力。

德国统计学家恩思特・恩格尔(1821~1896) , 曾

任普鲁士统计局局长(1860~1862) 。他在1857年发表的一篇论文中, 通过分析恩格尔数据集③———它记录了235个比利时家庭(工作收入为其家庭生活的来源) 的家庭收入和食品支出的情况(见表2) , 阐明了一个让他流芳后世的恩格尔定律:随着家庭和个人收入增加, 收入中用于食品方面的支出比例将逐渐减小。反映这一定律的系数被称为恩格尔系数, 即:

恩格尔系统(%) >家庭或个人消费支出总额×100%它说明了经济发展与收入增加对生活消费的影响程

) }{abline(rq (y ~x  tau =taus[i]col =“black ”

(分位数回归”legend (500,2000 c ““, 中位数”,

“线性回归”,1ty =1:3)

选读入数据, 再加载分位数回归软件包, 然后是

作图, 拟合不同的分位数回归直线(rq ) 和用最小二乘法拟合的直线(1m ) , 应该注意的是, 实证部分的就是这些命令的实现(见图2) 。

2. 在SAS 9. 1(Windows 版) 的模块SAS/STA T

度, 揭示了居民收入和食品支出之间的相关关系。众所周知, 吃是人类生存的第一需要, 在收入水平较低时, 食品在消费支出中必然占有重要地位。随着收入的增加, 在食物需求基本满足的情况下, 消费的

①②③

软件R 和程序包(quantreg ) 都可从R 的官方网站免费下载。此过程可从下载。数据来源

统计与信息论坛

重心才会开始向穿、用等其它方面转移。通常讲来, 一个国家或家庭生活越贫困, 食品在消费支出中必然占有较大的比例, 恩格尔系数就越大; 反之, 生活越富裕, 恩格尔系数就越小。正因为如此, 国际上通常用恩格尔系数来衡量一个国家或地区人民生活水平的状况。根据联合国粮农组织提出的标准:恩格尔系数大于59%为贫困, 在50%~59%间为温饱, 在40%~50%间为小康, 在30%~40%间为富裕, 小于30%为最富裕。2000年, 中国居民的恩格尔系数首次低于

50%。

表2 恩格尔(1857) 数据集节选表

家庭收入

420. 1577541. 7901.   在免费统计软件R (2. 1. 1版) 上, 分位数回归

理论基础的奠基人之一K oneker , 编写了一个专门计算分位数回归的软件包quantreg , 对恩格尔(1857) 数据集进行了统计分析, 可选择输出许多结果(见图2) 。图2中的实直线表示的则是线性分位数回归直线, 从下到上, 它们的τ值依次是:0. 05, 0. 1,0. 25,0. 75,0. 9,0. 95。

图2清晰地展示了家庭食品支出随家庭收入增长而增长的趋势。不同T 值的分位数回归直线之, , 说明了食品支:, 寓; 而分位数回归直线右侧之间间隙较大, 寓示了数据点比较稀疏且拖尾。从图2还可以清楚地看出, 中位数回归直线的位置和由最小二乘法得到的线性回归直线的位置显著不同:说明了条件密度的不对称性, 也说明了此时最小二乘法显然受到两个异常点(高家庭收入低食品支出) 的影响较大, 它的这种不稳健性的后果, 就是对贫穷家庭的平均家庭收入预测较差, 常常高估了他们的生活质量。

食品支出

……

六、结 论

从实例可以看出:把最小二乘法得到的线性回

归方程的回归系数可视为条件期望函数的概括性统计量一样, 也可将条件线性分位数回归的系数如此看待。分位数回归不仅反映了位置的情况, 还反映了分布的形状, 能更好地刻划因变量Y 在条件X 下的关系, 提炼出更多的信息。线性分位数回归的理论从提出至今已近30余载, 分位数回归不仅是占主导地位的, 而且是对基于最小二乘法的经典线性回归的有益补充, 并已逐渐成为一种估计条件分位数函数的标准的统计方法。

图2 恩格尔(1857) 家庭收入与食品支出图

参考文献:

[1] KOEN KER R ,BASSETT G J. Regression Quantiles[J].Econometrica ,1978(46) :33-50.

[2] KOEN KER R ,D ’OREY V. A Remark on Computing Regression Quantiles[J].Applied Statistics ,1993(43) :410-414. [3] PORTNO Y S. KOEN KER R. The G aussian Hare and the Laplacian Tortoise :Computabilityof Squared -error Versus Absolute

-error Estimators[J].Statistical Science ,1997(12) :279-300.

(责任编辑:郭诗梦)

(下转第44页)

统计与信息论坛

A Theoretical Study of the B rittleness of the Financial System

L I Zheng 2hui

(School of Statistics , Hunan University , Changsha 410079, China )

Abstract :The finance system is a complicated system. Firstly , this paper makes a structural description about the mechanic of how the brittleness is formed , based on the system theory , and analyzes the basic characteristics of the financial system brittleness ; then based on the mechanic and characteristics , build up a brittle function ; finally , carries out a systematic analysis of the evolution of the brittleness of the financial system based on the basic property of the financial system brittleness.

K ey w ords :brittle function ; financial system ; brittleness

(上接第26页)

参考文献:

[1] 刘志伟. [J].统计与信息论坛,2003(5) :28-32. [2] 王祖祥. 贫困评价与贫困指数[J].经济评论,2000(1) :98-104. [3] 洪兴建. 贫困指数理论研究述评[J].经济评论,2005(5) :112-117.

(责任编辑:郭诗梦)

Poverty Measures and Appraisement FEN G Xing 2guang 1, ZHAN G Xiao 2jing 2

(1. School of Economics , Central University of Finance and Economics , Beijing 100081,China ;

2. School of Economics , Renmin University of China , Beijing 100872, China )

Abstract :Poverty index reflects the accuracy of poverty measurement. It is one of the primary problems of studying the poverty problem. The article uses the generally acknowledged axiom standard appraising various kinds of poverty measures. The conclusion is that the single poverty indices are to some extent insufficient. In order to find out poverty degree accurately , we need to build an indicators system.

K ey w ords :poverty ; axiom standard ; appraisement

(上接第38页)

An Introduction to Q uantile R egression and It ’s Application

L I Yu 2an 1,2

(1. Chinese People ’s Armed Police Forces Academy , Langfang 065000, China ; 2. School of Statistics , Renmin University of China , Beijing 100872, China )

Abstract :After an brief introduction to quantile regression and its algorithms , it is compared with the linear regression based on OL S to demonstrate its merits.

K ey w ords :OL S ; quantile regression ; Engel ’s curve

第21卷第3期2006年5月

统计与信息论坛

         

Vol. 21No. 3May ,2006

【统计理论与方法】

分位数回归及应用简介

李育安1,2

(1. 中国人民武装警察部队学院, 河北廊坊065000;2. 中国人民大学统计学院, 北京100872)

摘要:文章介绍了分位数回归法的概念、R SAS 普通最小二乘法为基础的线性回归进行了对比, 。

关键词:最小二乘法; 中图分类号1:A-3116(2006) 03-0035-05

引 言

1870年, 英国的高尔顿在研究人类身高的遗传

假设, 那么在应用时就难以得到无偏的、有效的参数估计量。还有, 大量的宝贵数据仅仅只能得到一条回归曲线, 而一条曲线所能提供的信息毕竟是有限的。所以人们在使用回归分析时, 也在不断地探索更新更好的方法, 而条件更宽松, 挖掘信息更丰富

者, 当属分位数回归。

自从K oenker 和Bassett (1978) [1]最早提出线性分位数回归的理论以后, 当时由于分位数回归本身计算的复杂性, 所以它没能象经典的回归分析那样迅速普及, 但对它的理论研究一直在不断的完善中。随着计算机技术的不断突破, 分位数回归软件包现已是主流统计软件R 、SAS 等中的座上客了, 分位数回归也就自然而然地成为经济、医学、教育等领域的常用分析工具。

规律时发现:父母是高个子的, 其子女的身高有低于父母身高的趋势; 相反, 父母是矮个子的, 其子女的

身高却往往有高于父母身高的趋势。从全局来看, 高、矮个子人的子女都有“回归”于一般人身高的期望值。这就是统计学上“回归”的最初涵义。1886年, 高尔顿在论文中正式提出了“回归”的概念。经过他的学生皮尔逊多年的进一步的发展后, 这个出自于生物统计学领域的概念, 便被推广为一般统计方法论的重要概念。

“回归分析”悠久的历史, 使其理论完美, 计算工具齐全, 这其中又以基于最小二乘法的经典线性回归在数据分析中遍地开花。原因不外是最小二乘法的解释与人们的直观想象一致; 同时该方法易于计算, 有时计算用手工, 其优越性在前计算机时代是不言而喻的。尤其是当假设误差是正态分布时, 它具有如无偏性与有效等优良性质; 但是运用最小二乘法的条件比较高, 如线性回归模型要求满足同方差性、随机误差间两两不相关等条件, 当需要进行回归系数的显著性推断时, 通常还要假设残差服从正态分布。尤其是当分布是重尾或有离群点时, 其结果的稳健性较差。在实际问题中, 完全满足这些基本假设的情况并不多见, 然而一旦违背了某一项基本

收稿日期:2005-09-09

二、分位数回归的概念、性质

对于任意实值随机变量Y , 它的所有性质都可以由Y 的分布函数, 即:

F (y ) =Pr (Y ≤y )

来刻画。对于任意的0

τ分位数函数Q (τ) 为:

) =i nf {y :F (y ) ≥τ(1) Q (τ}它完全刻画了随机变量Y 的性质, 可以看出[注意:) ={y :F (y ) ≥τ与F -1(τ}进行比较], 存在比例

) , 而比例为1-τ为τ的部分小于分位数函数Q (τ

基金项目:国家自然科学基金(10431010) ; 教育部重点基地重大项目(05JJD910001) ; 中国人民大学应用统计中心资助。作者简介:李育安(1969-) , 男, 湖北省大悟人, 副教授, 博士, 研究方向:复杂数据的统计建模。

统计与信息论坛

) 之上。的部分位于分位数函数Q (τ

对于任意的0

  三、样本的线性分位回归

对于随机变量Y 的一个随机样本{y 1, y 2, y 3,

…, y n }, 它的中位数线性回归就是求解使下面的绝对值偏差和为:

min ζ

ρτ(u ) =(τ-I (u

τu    u ≥0

(2)

(τ-1) u u

其中I (u

kx 比较, τ相当于直线的斜率k ) 。可以看出“, 检验函数”是分段函数, 且ρτ(u ) ≥0。

=

∑|

y i -ζ|

中位数线性回归其实是分位数线性回归的一个特例

(τ=1/2) , 它在分位数线性回归中占有相当重要的地位, 对它的研究可追到18世纪中叶的Boscovich 世纪Edgeworth 对, , 太多的未知20世纪40年代末, 线性规, 中位数线性回归才得以在实践中大显身手。而τ分位数的样本分位数线性回归则是求满足:

β∈R

min k

ρτ(y ∑

-i

i

β) ) -x ′i (τ

τ|y i -x β) |+i (τ

ρ图1 “检验函数”τ(u ) 示意图

ρ为积分方便“, 检验函数”τ(u ) 可改写成:

ρτ(u ) =(τ-I (u

由定义(式2) , 当u 取y -ζ^时, 则有:

ρ^) τ(y -ζ

(3)

) , 它的展开式为:的解β(τ

β(τ) ∈R

min k

(i :y ≥x β(τ) )

i

i

(i :y

i

i

′(1-τ) |y i -x β) |] τ∈(0, 1) i (τ

在线性条件下, 给定x 后, Y 的τ分位数函数为:

β(τ)  τ∈(0, 1) Q y (τ|x ) =x ′在不同的τ下, 就能得到不同的分位数函数。随着τ

由0至1, 就能得到所有y 在x 上的条件分布的轨迹, 即一簇曲线, 而不象线性回归只能得到一条曲

) 值却不线。此理论看似简单, 可当时想计算出β(τ是一件容易的事。随着科学家的努力和计算机技术

的飞速发展, 现在不少软件都有计算分位数回归的专门函数。

 =τ(y -ζ^) I (y -ζ^≥0) +

(τ-1) (y -ζ(4) ^) I (y -ζ^

) ]则Y 的τ分位数回归, 就是找到ζ, 使E [ρτ(y -ζ

最小, 即求满足下式的ζ:

(5) min E [ρ^) ]τ(y -ζζ

∈R

在公式(4) 两边同时取期望, 积分得:

) ]min E [ρτ(y -ζζ

∈R

 =(τ-1)

τ

^) d F (x ) +

∫(y -ζ

-∞

ζ^

四、分位数回归的计算

(6)

ζ^

+∞

(y -ζ^) d F (x )

再对公式(6) 两边同时对ζ^求导得:

) 0=(1-τ

∫d F (x ) -τ∫d F (x )

-∞

ζ^-∞

ζ^

(7)   =F (ζ^)

因为分布函数F 是单调增函数, 则集合{y :F (ζ^) =τ}中的任意元素都满足条件, 即可能存在某个区间上的元素都满足使式(5) 最小。而由定义

) =^式(1) , 若令Q (τy 时, 则^y 是唯一的。

目前, 有3种公认有效的计算分位数的算法①,

且在统计软件SAS 、R 或Splus 上都有可实现的软件包:

(一) 单纯性法[1-2]。任选一个顶点, 然后沿着可行解围成的多边形的边界搜索, 直到找到最优点。这种算法的特点决定其较适合不大的样本量和不多的变量。

τ(. ) 后, 再搜寻最优解。目前新的、高效的算法在不断地发展和涌现中, 如光滑法(Chen (2004) ) :通过光滑目标函数ρ

李育安:分位数回归及应用简介

(二) 内点法[3]。从可行解围成的多边形一个内中, 可运行过程PROC QUAN TREG ②, 其基本语法为:

PROC QUAN TREG DA TA

点出发, 但不出边界, 直到找到最优点。它在样本量大时效率也很高。

(三) 预处理后内点法[3]。) 预处理后, 再对β(τ用内点法, 它适合样本量大于10的情形。在其它情况相同时, 不同算法的运算速度是有差别的, 见表1。

表1 不同算法在运算速度上的差异表

样本量

[***********]

 =sas -data -set

B Y variables ;  Class variables MODEL response

 =independents

RUN

MODEL 后的(options ) τ值:

单纯性法

(秒)

0. 030. 5717. 961317. 24

内点法(秒)

0. 040. 141. 4924. 预处理后内点法(秒)

0. 050. 4769

单个TIL E 5,0. 75, 。算法的选取则是在:PROC QUAN TREG DA TA

  数据来源:K ) tile 2sion An Illinois at Urbana -Champaign

下面主要介绍如何用主流统计软件:R ①、SAS 来计算分位数回归:

1. 在免费软件R 上的基本语法:

d

engel

) xlab =“家庭收入”   ylab =“食品支出”) points (x ,y  cex =0. 4col =“black ”

) abline (rq (y ~x  tau =0. 05) col =“black ”

) abline (rq (y ~x tau =0. 5) 1ty =2col =“black ”abline (rq (y ~x tau =0. 95) abline (lm (y ~x lty =3

for (i in 1:1ength(taus ) )

) col =“black ”) col =“black ”

 =sas -data -set (options ) ; (options ) 中:

单纯性法(缺省值) :ALG ORITHM =SIMPL EX

内点法:ALG ORITHM =IN TERIOR

预处理后内点法:ALG ORITHM =INTERIOR PP 光滑法:ALG ORITHM =SMOO THIN G

五、实证:恩格尔曲线

下面通过分析恩格尔(1857) 数据集, 揭示除恩格尔曲线以外的更多信息, 以展示分位数回归的魅力。

德国统计学家恩思特・恩格尔(1821~1896) , 曾

任普鲁士统计局局长(1860~1862) 。他在1857年发表的一篇论文中, 通过分析恩格尔数据集③———它记录了235个比利时家庭(工作收入为其家庭生活的来源) 的家庭收入和食品支出的情况(见表2) , 阐明了一个让他流芳后世的恩格尔定律:随着家庭和个人收入增加, 收入中用于食品方面的支出比例将逐渐减小。反映这一定律的系数被称为恩格尔系数, 即:

恩格尔系统(%) >家庭或个人消费支出总额×100%它说明了经济发展与收入增加对生活消费的影响程

) }{abline(rq (y ~x  tau =taus[i]col =“black ”

(分位数回归”legend (500,2000 c ““, 中位数”,

“线性回归”,1ty =1:3)

选读入数据, 再加载分位数回归软件包, 然后是

作图, 拟合不同的分位数回归直线(rq ) 和用最小二乘法拟合的直线(1m ) , 应该注意的是, 实证部分的就是这些命令的实现(见图2) 。

2. 在SAS 9. 1(Windows 版) 的模块SAS/STA T

度, 揭示了居民收入和食品支出之间的相关关系。众所周知, 吃是人类生存的第一需要, 在收入水平较低时, 食品在消费支出中必然占有重要地位。随着收入的增加, 在食物需求基本满足的情况下, 消费的

①②③

软件R 和程序包(quantreg ) 都可从R 的官方网站免费下载。此过程可从下载。数据来源

统计与信息论坛

重心才会开始向穿、用等其它方面转移。通常讲来, 一个国家或家庭生活越贫困, 食品在消费支出中必然占有较大的比例, 恩格尔系数就越大; 反之, 生活越富裕, 恩格尔系数就越小。正因为如此, 国际上通常用恩格尔系数来衡量一个国家或地区人民生活水平的状况。根据联合国粮农组织提出的标准:恩格尔系数大于59%为贫困, 在50%~59%间为温饱, 在40%~50%间为小康, 在30%~40%间为富裕, 小于30%为最富裕。2000年, 中国居民的恩格尔系数首次低于

50%。

表2 恩格尔(1857) 数据集节选表

家庭收入

420. 1577541. 7901.   在免费统计软件R (2. 1. 1版) 上, 分位数回归

理论基础的奠基人之一K oneker , 编写了一个专门计算分位数回归的软件包quantreg , 对恩格尔(1857) 数据集进行了统计分析, 可选择输出许多结果(见图2) 。图2中的实直线表示的则是线性分位数回归直线, 从下到上, 它们的τ值依次是:0. 05, 0. 1,0. 25,0. 75,0. 9,0. 95。

图2清晰地展示了家庭食品支出随家庭收入增长而增长的趋势。不同T 值的分位数回归直线之, , 说明了食品支:, 寓; 而分位数回归直线右侧之间间隙较大, 寓示了数据点比较稀疏且拖尾。从图2还可以清楚地看出, 中位数回归直线的位置和由最小二乘法得到的线性回归直线的位置显著不同:说明了条件密度的不对称性, 也说明了此时最小二乘法显然受到两个异常点(高家庭收入低食品支出) 的影响较大, 它的这种不稳健性的后果, 就是对贫穷家庭的平均家庭收入预测较差, 常常高估了他们的生活质量。

食品支出

……

六、结 论

从实例可以看出:把最小二乘法得到的线性回

归方程的回归系数可视为条件期望函数的概括性统计量一样, 也可将条件线性分位数回归的系数如此看待。分位数回归不仅反映了位置的情况, 还反映了分布的形状, 能更好地刻划因变量Y 在条件X 下的关系, 提炼出更多的信息。线性分位数回归的理论从提出至今已近30余载, 分位数回归不仅是占主导地位的, 而且是对基于最小二乘法的经典线性回归的有益补充, 并已逐渐成为一种估计条件分位数函数的标准的统计方法。

图2 恩格尔(1857) 家庭收入与食品支出图

参考文献:

[1] KOEN KER R ,BASSETT G J. Regression Quantiles[J].Econometrica ,1978(46) :33-50.

[2] KOEN KER R ,D ’OREY V. A Remark on Computing Regression Quantiles[J].Applied Statistics ,1993(43) :410-414. [3] PORTNO Y S. KOEN KER R. The G aussian Hare and the Laplacian Tortoise :Computabilityof Squared -error Versus Absolute

-error Estimators[J].Statistical Science ,1997(12) :279-300.

(责任编辑:郭诗梦)

(下转第44页)

统计与信息论坛

A Theoretical Study of the B rittleness of the Financial System

L I Zheng 2hui

(School of Statistics , Hunan University , Changsha 410079, China )

Abstract :The finance system is a complicated system. Firstly , this paper makes a structural description about the mechanic of how the brittleness is formed , based on the system theory , and analyzes the basic characteristics of the financial system brittleness ; then based on the mechanic and characteristics , build up a brittle function ; finally , carries out a systematic analysis of the evolution of the brittleness of the financial system based on the basic property of the financial system brittleness.

K ey w ords :brittle function ; financial system ; brittleness

(上接第26页)

参考文献:

[1] 刘志伟. [J].统计与信息论坛,2003(5) :28-32. [2] 王祖祥. 贫困评价与贫困指数[J].经济评论,2000(1) :98-104. [3] 洪兴建. 贫困指数理论研究述评[J].经济评论,2005(5) :112-117.

(责任编辑:郭诗梦)

Poverty Measures and Appraisement FEN G Xing 2guang 1, ZHAN G Xiao 2jing 2

(1. School of Economics , Central University of Finance and Economics , Beijing 100081,China ;

2. School of Economics , Renmin University of China , Beijing 100872, China )

Abstract :Poverty index reflects the accuracy of poverty measurement. It is one of the primary problems of studying the poverty problem. The article uses the generally acknowledged axiom standard appraising various kinds of poverty measures. The conclusion is that the single poverty indices are to some extent insufficient. In order to find out poverty degree accurately , we need to build an indicators system.

K ey w ords :poverty ; axiom standard ; appraisement

(上接第38页)

An Introduction to Q uantile R egression and It ’s Application

L I Yu 2an 1,2

(1. Chinese People ’s Armed Police Forces Academy , Langfang 065000, China ; 2. School of Statistics , Renmin University of China , Beijing 100872, China )

Abstract :After an brief introduction to quantile regression and its algorithms , it is compared with the linear regression based on OL S to demonstrate its merits.

K ey w ords :OL S ; quantile regression ; Engel ’s curve


相关文章

  • 分位数回归技术综述
  • 第23卷第3期 统计与信息论坛 2008年3月 Vd.23 No.3 Statistics&InformationForum Mar..2008 [观点综述] 分位数回归技术综述 陈建宝,丁军军 (厦门大学宏观经济研究中心,福建厦门 ...查看


  • 教育统计学大纲
  • 高纲1428 江苏省高等教育自学考试大纲 28063 教育统计学 南京师范大学编 江苏省高等教育自学考试委员会办公室 Ⅰ 课程的性质与设置目的 <教育统计学>是研究如何整理.分析在包括教育实验.教育调查等教育研究中所获取的数字资 ...查看


  • 我国保险需求的影响因素分析_谢云
  • 第24卷 第3期2010年6月保险职业学院学报(双月刊) J OURNAL OF I NSURANCE PROFESS I ONAL COLLEGE (B i m onth l y) Vol 24 No 3 J un 2010 我国保险需求 ...查看


  • [统计学原理]课程课程一体化方案
  • <统计学原理>课程课程一体化方案 一.课程的性质和特点 统计学原理是为广播电视大学经济与管理学科各专业学生开设的一门必修 基础课,也是经济管理工作者和经济研究人员应该必备的一门知识.它研究如 何用科学的方法去搜集.整理.分析国民 ...查看


  • 基本的统计量
  • 基本的统计量 简介 统计是与数据分析相关的数学领域.统计方法与方程可以应用于一组数据,用以分析与解读结果,解释数据中的变异,预测未来的数据.以下是一些我们可以计算的统计信息: 平均的值(均值) 一组数据中最频繁出现的数值(众数) 平均意义上 ...查看


  • 我国股指期货价格发现功能研究
  • 第29卷第5期2012年5月统计研究 StatisticalResearchVol.29,No.5May.2012 我国股指期货价格发现功能研究 方匡南 蔡振忠 * 内容提要:本文基于沪深300股指期货5分钟高频数据,利用协整检验.误差修正 ...查看


  • Excel中一些常用统计分析工具的功能_操作和注意事项
  • 第24卷第2期(总第140期) ・讲 座・ 辐射防护通讯2004年4月 ¹ 操作和注意事项Excel 中一些常用统计分析工具的功能. Funct ions, Operations and Precautions of the St atis ...查看


  • 数据分析课程论文
  • 海 南 大 学 数据分析课程论文 题 学 号: 姓 名:年 级:2010级 学 院:信息科学技术学院 系 别:数 学 系 专 业:数学与应用数学 指导教师: 完成日期:2013年 6 月 25 日 摘 要 人均国内生产总值(Real GDP ...查看


  • [统计学]教学大纲
  • <统计学>课程教学大纲 (Statistics) 制定单位:理学院 制 定 人:王天营 审 核 人:苍玉权 王天营 编写时间:2015年8月30日 第一部分 课程概述 一.基本信息 (一)课程代码 08110300 (二)课程属 ...查看


热门内容