第26卷第2期
2009年2月
统计研究
Statistical
Research
V01.26.No.2
Feb.2帅9
关于计量经济学模型随机扰动项的讨论‘
李子奈李鲲鹏
内容提要:论文指出了计量经济学模型中源生的随机扰动项和衍生的随机误差项之间的区别;讨论或证明了,
如果模型存在总体设定误差和变量观测误差,在很多情况下将导致随机误差项对Gauss假设以及正态性假设的违背。
关键词:计量经济学模型;随机扰动项;模型设定误差;变量观测误差
中图分类号:0212
文献标识码:A
文章编号:1002—4565(2009)02—0062—06
DiscussionabouttheStochasticDisturbanceTermofEconometric
LiZinai&LiKunpeng
Models
Abstract:Thepaperhighlightsthedistinguishbetweentheoriginalstochasticdisturbancetermandthederivedstochasticterm,suggeststhatiftherelationship
most
erl'or
ell'or
ofmodel
not
or
themeasurementerror
ofvariablesexistin
aneconometricmodel,inthe
of
case8
thestochastic
error
term
willfellowthenormal
distribution删啪ption
error
andsomeotherGaussAssumptions.
error
Keywords:econometricmodel;stochasticdisturbancelet'm;relationshipofmodel;measurement
ofvariables
一、随机扰动项的源生性
随机扰动项在计量经济学模型中占据特别重要的地位,也是计量经济学模型区别于其它经济数学模型的主要特征。李子奈(2008)将计量经济学应用研究的总体模型设定归纳为:将影响被解释变量的因素集进行有效分解,按照与被解释变量关联关系的恒常性和显著性两个维度,分解为显著的恒常性因素集、显著的偶然性因素集和无数单独影响可以忽略的非显著因素集;所有显著的恒常性因素作为解释变量;显著的偶然性因素对被解释变量的影响,则通过对数据进行奇异点诊断后采用技术手段予以消除;而无数非显著因素对被解释变量的影响则用一个随机扰动项(stochastic
disturbance
其中,Y称为被解释变量;X称为被解释变量,可能包括多个变量;p为反映解释变量和被解释变量之间关系的参数,一般称为结构参数;n表示随机抽取的样本数量;1u即为随机扰动项。
显然,这样界定的随机扰动项具有源生性。从经济学意义上,x包含了所有对于Y具有显著影响的因素,.厂(Xi,卢)表达了这些因素与扎之间的动力学关系,生成了Y。的条件期望值。但是,无数不显著因素的影响对于生成Y;的观测值是不可忽略的,“不显著”不是“没有影响”。从统计学意义上,在置的条件下重复抽样,无数不显著因素对Yi的均值没有影响,但是在一次抽样中,它们对Y;的个值的影响是不可忽略的。
在基于随机抽样的截面数据的经典计量经济学模型中,这个源生的随机扰动项卢由大数定理保证其满足Gauss假设,由中心极限定理可以证明其服从正态分布。于是,建立在Gauss假设和正态分布假设基础上的统计推断具有可靠性。
term)表示,并
引人模型。w.H.Greene(2000)指出,没有什么模型可以期望处理经济现实的无数偶然因素,因此在经验模型中纳入随机因素是必须的,被解释变量的观察值不仅要归于已经清楚了解的变量,也要考虑来自人们并不清楚了解的偶然性和无数微弱因素的影响。于是,对于单方程计量经济学模型,总体回归模型的一般形式为:
Yj=f(Xi,卢)+/i‘
i=I,2,…,11,
*本文获国家社会科学基金重点项目“计量经济学模型方法论基础研究”(08MY001)的资助。
万方数据
第26卷第2期李子奈李鳃鹛:关于计量经济学模型随机扰动项的讨论
・63-
二、随机误差项的衍生性
正如W.H.Greene(2000)指出的,在确定性模型中引入随机扰动,并不是为了掩盖确定性模型的不足之处。因此,如果所谓的未被解释的随机扰动并不是真正的不能被解释的因素,模型就是不适当的。牢记这一点对计量经济学是非常重要的。统计推断的理论不像确定性理论那样,会被仅仅一个不符实际的观察否定。引入随机要素后,对预期结果的描述从确切的表述转化为可能性的描述,除非有占优证据(占优本身则是很难清楚界定的),很难否定随机模型。当然,如果未被解释的随机扰动并不是真正的不能被解释的因素,即使这样的模型难以被否定,也是建模者自欺欺人。Greene的担忧在很多情况下成了现实:在很多计量分析中,随机误差项成了确定性模型不足之处的遮羞布。在大部分计量经济学教科书中,例如D.N.Gujarati(2003),在第一次引入随机扰动项的概念时,都将它定义为“被解释变量观测值与它的期望值之间的离差”,即
肛i=Yi—E(Y
Xi)
用一个平衡式代替定义式,并且将随机扰动项
(stochasticdisturbanceterm)与随机误差项(stochastic
eITor
term)等同。一个“源生”的随机扰动项变成了
一个“衍生”的误差。而且在解释它的具体内容时,一般都在“无数非显著因素对被解释变量的影响”之外,加上诸如“变量观测值的观测误差的影响”、“模型关系的设定误差的影响”等。国内出版的计量经济学教科书也是这样。
将“源生”的随机扰动变成“衍生”的误差,有许多理由可以为此辩解。如果不对数据生成过程的理论结构做出假定,即进行总体模型设定,就无从开始模型研究。但是,相对于物理学,经济学家对经济现实所知较少,总体模型被研究者有限的知识所确定,因此误差在所难免,只能将总体模型方程的误差项设定为衍生性的。
问题在于,关于随机扰动项的Gauss假设以及正态性假设,都是基于“源生”的随机扰动而成立的。如果存在模型设定误差、变量观测误差等确定性误差,并将它们归人“随机误差项”,那么它是否满足这些基本假设?如果不满足,进而进行的统计推断就缺少了基础。对于这个问题,一般的计量经济学教科书没有进行讨论,有的只是进行简单的说明,例
万方数据
如,在w.H.Greene(2000)的教科书中就有以下的说明:鉴于我们对随机误差来源的描述,中心极限定理的条件一般都成立,至少近似成立,因此,正态性假定在多数情况下也都是合理的。
三、包含模型设定误差的随机误差项
(一)存在模型关系误差的情形
所谓“关系误差”,指模型的总体设定不能准确反映所研究的经济系统中的动力学关系。这样动力学设定之间的偏差将不可避免的进入随机扰动项,影响其正态性。
对于一个回归的模型,假定真实的数据生成过程是:
Y;=f(Xi,卢)+tzi
t=I,2,…,n
这里的随机扰动项弘;服从经典假设,即独立同分布、高斯正态。假定模型被错误的设定为:
Yi=g(Xi,p)+%t=1,2,…,凡简单的数学变换后可得:
耽=声i+(jr(Xi,卢)一g(Xi,13))
显然这里的分布与(,(X;,卢)一g(X;,卢))有密切的关系,这里我们分两种情况讨论:
第一种情况:五是非随机的。这时关键是如何
看待声,由于卢是在模型错误设定下的参数,因此没
有很好的定义。不过对每一个给定卢,(厂(X;,卢)一g(Xi,卢))是确定性变量的函数之差,因此错误模型中的误差%是一个正态随机数tz;与非随机数(,(X。,p)一g(Xi,』9))之和,因此仍然是正态的。考虑
到西的任意性,因此秽i将是正态的。
第二种情况:置是随机的。这种情况下,(,(Xi,p)一g(X。,卢))将必然是一个随机数,而且这个随机数受到了三个因素的影响:(口)模型的正确动力学关系厂;(b)模型被误设的动力学关系g;(c)随机回归元x。的分布。注意到:
t,;一p;=(f(X;,卢)一g(X。,卢))
因此误差钆是一个正态随机数的充要条件是(厂(Xi,p)一g(Xi,卢))是正态的。而在上面提到的三个因素的作用下,(,(X。,卢)一g(Xi,卢))的正态性即使在大样本下,也不能为任何数学定理所保证。
(二)存在遗漏显著变量的情形
可以通过一个例子来说明。假如模型的正确设定应该为:
・64・统计研究.?009年2月
Yi=80+卢l石1i+卢2石2i+Pi卢f—i.i.d.
Ⅳ(0,口2)f=1,2,…,,l
即被解释变量由两个解释变量来解释。如果将模型错误设定为:
Yi=风+卢l菇lf+£i
i=1,2,…,n
那么,该模型的随机误差项为
£‘=产‘+&石2f
其中卢i.i.f.d.N(O,口2)。显然,该随机误差项的分布不仅受到卢j还受到名:;的影响,如果茗:。是正态零均值,独立同分布的,则ei仍然满足零均值、正态独立同分布的性质;如果菇:。是正态非零均值,独立同分布的,则e。将不再具有非零均值,但具有正态独立同分布性质;如果茗。;是正态非零均值,同分布但不独立,则e。将是正态非零均值,同分布但不独立;如果石:i是非正态的,则ei也将不再具有正态性。
(三)存在函数变换的情形
通过函数变换将一些简单的非线性模型转换为线性模型,是计量经济学模型估计中常用的,但是,人们对于变换后模型随机扰动项的性质却缺少讨论。需要强调的是,这种变换与前面讨论的模型误设有所不同,这里以常用的Cobb—Dauglas生产函数模型为例来予以说明,假定用于估计的模型形式为:
lnyi=风+卢llnxll+卢2lnx2‘+p3lnx3i+e‘
i
=1,2,…。乃
虽然石。,石:,茹,已经包括了所有对产出量Y有显著影响的投入要素,我们仍然不能对模型随机扰动项e的分布给出明确的界定,因为它不是源生的,而是由下列模型
Yi=A并:I正皇z垒弘i
i=1,2,…,乃
经过对数变换后“衍生”得到的,它的分布不仅取决于原模型随机扰动项的分布,而且取决于用于变换的函数。如果原模型卢i。i.i.d.N(O,口2)中,那么显然e;=In∥。将不再服从正态分布。如果原模型是如下形式:
Y‘=舭色算盘算袅+卢i
i=1,2,…,n
其中/z。.i.i.d.N(O,盯2)。该模型虽然具有更合理的经济学解释,但是却使得经过对数变换得到的线性模型的随机扰动项更加复杂。
以上分别讨论了模型设定误差的几种形式对模型随机扰动项的影响,表明这些误差的存在,可能导
万方数据
致随机扰动项对Gauss假设以及正态性假设的违背,随之进行的模型估计及统计推断的基础将受到损害。
四、包含观测误差的随机误差项
现在讨论观测值的观测误差。所谓“观测误差”,指变量的样本观测值不能准确反映变量的实际状态。观测误差是普遍存在的,正如w.H.Greene(2000)指出的,在理论上确定变量之间的关系并不难,但要得到这些变量的准确度量则完全是另外一回事。例如,合理度量利润、利率、资本存量或资本存量提供的服务流量的困难,是经验文献中反复出现的主题;在极端情况下,甚至找不到理论变量的可观测的对应物。所以。观测误差构成了“衍生”的随机误差的主要内容。
为了方便,下面分别讨论被解释变量的观测误差和解释变量的观测误差存在的情况下,随机误差项是否满足关于扰动项的Gauss假设和正态性假设。
(一)存在被解释变量观测误差的情形
假定没有观测误差时,第i个被抽样的值是Y?,有观测误差时,第i个被抽样的值是Y:,根据以上假
设,应该有Y0Y?+e,,这里e。一i.i.’d(0,口:)是观
测误差。进一步,没有观测误差的回归方程是:
Y?=X'ip+/1i
户。一i.i.d.N(o,口2)
i=I,
2,…,n
将Y暑Y?+e。代入得到:
,,叠X7‘J9+(/ii+ej)
如果e。是正态的,则(pi—e。)也应该是正态的,经典假设不被破坏,基于正态分布的统计推断仍然成立。如果ei是非正态的,显然(产。一e;)就不可能再是正态分布,此时基于中心极限定理给出的所有的统计推断都是近似成立。
这里需要说明:为什么要将卢i和e;区别看待?这是因为卢;和e;的本质是不一样的,卢;是无数的无法辨别地非显著的影响的总和,我们无法对/Ii的
来源做一个清晰的界定。但是e;则不同,它的来源清晰明确,就是抽样时的测量误差,它的影响也是显著的。如果从林德贝格一费勒中心极限定理的角度来看待(卢i—e;),则上面的分析等同于这样的论断,林德贝格条件要求每一个误差因子要“一致地”小,因而其对总和的极限分布不产生影响,但是e;这个
第拍卷第2期李子奈李最鹏:关于计■经济学模型随机扰动项的讨论・65・
因子不具有这一特征,破坏了林德贝格条件,正态性不再成立。
众所周知,如果扰动项不服从正态分布,统计量的分布在渐近意义下仍然是正态的。基于此,我们很自然地要问,上面讨论的问题在实际中多大程度上是重要的。下面我们通过计算机模拟来回答这个问题。
我们模拟三种测量误差分布对检验结果的影响,这三种分布是贝努利分布(bemoulliandistribution)、均匀分布(uniformdistribution)、正态分布。为了使三种分布对结果的影响具有可比性,我们使计算机上生成的三种误差具有相同的均值(都是0)和方差。引入标准差比参数ID=叮。/a。具体来说,我们设定的贝努利分布是:P{ei=p/3}-0.9,P{ef-一3p}_0.1;均匀分布是:e;=2/gP(£一0.5),这里e是一个服从[0,1]均匀分布的随机数;正态分布是:e。=心,其中善是一个标准正态随机数。
在模拟试验中,真实的数据生成过程(data
generating
proce88)是:
Y?=l+1.5xl+卢j
这里卢i是标准正态随机数,即p;.N(o,1)。回归元聋i可能是随机的也可能是非随机的,两种情形我们都予以考察,如果鼻。是非随机的,我们设定茗。=i①;如果施是随机的,设定菇‘=i+刁,这里刁也是一个标准正态随机数,且与卢和f各期都独立。通过生成戈。和/1;计算出Y?,再通过前面的误差ei生成程序,计算出Y:(Y;=Y?+e;)。据此进行Y;对1和算;的回归,计算出名i的t统计量。将上述方法重复10000次,找出5%的双侧分位点。
上述模拟中,标准差比P和样本数量n是允许变动的两个参数,我们让ID的取值是p=0.1、ID=l、ID=20,这样可以考察不同的测量误差大小对正态性的破坏程度。当然样本的数量大小是一个需要关注的参数,随着样本的增大,统计量的质量将会得到改进,因此需要予以控制。
计算机模拟结果报告如下:
从上面的模拟中我们发现如下的结果:
1.就伯努利分布而言,如果标准差比值p偏低(ID=0.1),即使在小样本下(尼=10),实际的t值分布与通常的t值分布差距也不是很大(实际的t值分布的5%双侧分位点是2.317,通常的t值分布的
万方数据
标准差比p回归元是确定的
回归元是随机的
真实
样本数n
伯努利
均匀
正态
伯努利
均匀
正态
t值
n=lO
P=0.1
2.3172.3192.30l2.3582.3402.3472.306n=10口=12,26l2.3012.2962.2592.3432.3052.306n=10口=202.0482.3192.3ll2.1862.3162.3132.306n:20口=0.12.0952.1ll2.102
2.1022.1152.0882.101n=20口=12.0842.1282.094
2.1212.1242.0982.101n=20口=201.9562.1272.1161.9442.1212.1152.101n=30口=0.12.0232.0542.0502.0372.0382.0372.048
n=30
P=1
2.0522.1052.0692.0312.0242.0372.O惦
n=30口=20
1.943
2.037
2.058
1.975
2.014
2.059
2.048
5%双侧分位点2.306),使用通常的t值分布以及5%的双侧分位点,不会对结果造成严重的影响;但是如果标准差比值lD较高(ID=20),在小样本下,实际的t值分布与通常的t值分布差距显著,使用通常的t值分布以及5%的双侧分位点,会使检验的显著性水平产生较大的扭曲(实际的t值分布的5%双侧分位点是2.048,通常的t值分布的5%双侧分位点2.306)。这一扭曲程度随着样本的增大得到明显的改善,在一个偏小样本下(乃=30),这一扭曲程度已经不到10%了。
2.就均匀分布而言,表现比伯努利分布要好一些,综合各种情形的结果来看,t值的偏误都在1.5%以内。
这里有一点需要指明,就是误差是均匀分布的结果与误差是正态分布的结果在我们的报告中优劣难以分辨。这是因为在计算机上生成的正态随机数也不是标准的正态随机数,而是伪正态随机数,导致了正态情形下模拟的t值与正确的t值有一定的偏差而且有时偏差甚至很大的结果。同时这也可以解释上面的结果:既然均匀分布不是正态的,而伪正态分布也不是正态的,那就很难比较它们之间孰好孰坏了。
总结上面模拟试验的结果。一般而言,如果因为测量误差的原因导致误差项正态性假设受到了一定程度的破坏,即使在中等偏小的样本情况下,假定正态性仍然是无害的。但是如果测量误差相对于回归扰动项的标准差特别的大、样本长度又特别的小、误差的形式相对较为“病态”,这时仍然假定误差项是正态的假设会导致检验显著性水平产生一定程度的扭曲。
①需要说明,在我们设定的回归中,z前系数的收敛速度不再
是石而是n石。
/虿。一掣至・66・
统计研究
2009年2月
(二)存在解释变量观测误差的情形
我们将解释变量向量第i次抽样分为没有观测误差x¨和有观测误差x:;两类,假定不存在观测误
差的抽样值是X?=(X7…兄),由于解释变量x:;
存在观测误差,于是引入观测误差向量e。,则实际存
在观测误差的抽样值Z=(x7“,《。),据此应该有
置;=墨;+£。,这里£;一i.i.d(O,∑。)是观测误
差,与/z的各期独立。
这里进一步假定回归方程形式以F)已知,且,(F)充分光滑,性质良好。在没有误差的情况下,回归方程是:
Y;=f(X?)+卢。:f(X。;,墨;)+/.z;将噩;=墨;+£;代入并将其泰勒展开:
掣㈠i)+a号㈠j),鬻
Yf=f(Xli,墨。一e‘)+P‘=∥‘+厂(xli,罡f)+(一e;)+…
这样回归方程的误差项是I
+—ii一卜e‘,+虿卜6‘,
(一e;),
1征而‘叫c)r”
才,(X…噩。),
、
上面误差项的分布形态依赖于f(茗)和£;,当e;是非正态分布的情况下,线性的f(茗)就足以导致误差项的非正态分布;而即使£。是正态的情况下,一个二次型的f(茗)也会使得误差项是由一个正态分布和一个类卡方分布所组成,正态性的假设同样受到破坏。正态性的假设要能够成立只有在极其严格的条件下,也就是f(石)是线性的,且误差项是正态分布的情况中才有会出现,而这时估计的参数又是非一致的,下面继续说明这一问题。
依上,设没有误差项的回归方程是iYf=x?p+/z。=r。乒。+x;i&+/.tf/zf—i.i.d.N(o,d。)i=1,2,…,乃将罡l-罡;+£i代人得到:
Y;=《卢+(产;一e’。咸)=X/1i卢。+《乒2
+(/.tj一£7屈)
据此可以得到回归的参数:
p=(∑二。xZ)一(∑二。x训=卢+(∑二。x搿)一(∑二。墨(卢;一e7;&))
万方数据
进一步将X:=(X’“,《i)7代入得到:
口=卢+(∑j^I。x;墨’)一(∑二。(主:)cp;一e7段,)
则:
伊。一角\
\卢:一佛/
=(i1匕。Xz)。1旧∑二。㈡(驴《阳)
依据大数定理①:
i1己…X。i(户;一e
7乒:)三o
i1己…噩i(卢i一£,≯:)三一∑卢:
由此我们可知口。是有偏估计,口:是一个有偏估计
量。
综上,当解释变量存在观测误差时,正态性的假设依赖于回归函数的形式和误差的分布形态。一般情况下,正态性的假设都是不能成立的,只有在回归函数是线性的,且误差分布是正态的特殊情形下,正态性才成立,而在此情况下,参数的估计是非一致的。
五、结论与启示
在计量经济学模型中,用“衍生”的随机误差代替“源生”的随机扰动,特别是将模型的设定误差和变量的观测误差对被解释变量的影响引入随机误差项,在很多情况下将导致随误差动项对Gauss假设以及正态性假设的违背,随之进行的模型估计及统计推断的基础将受到损害。这个问题应该引起计量经济学理论研究的关注,也应该引起应用研究的高度重视。
就十分重要的随机误差项正态性假设而言,具体结论如下:当存在模型关系误差时,如果解释变量是随机的,随机误差项的正态性将得不到保证。当模型遗漏了显著的变量,如果遗漏的变量是非正态的随机变量,随机误差项将不具有正态性。如果待
①说明,导出下面的条件是需要额外条件的。例如在(毛,芦j.et)是独立同分布的条件下,需要毛,/.t;,El的一阶绝对矩存在,这是kolmogorov大数定理的条件;如果去掉同分布的条件,则一般需要一阶更高绝对矩存在的条件,这是markov大数定理的条件,当然还可
以继续放宽独立不同分布的条件,代之于更高的矩条件。关于这点White(t984)对此有详细的论述,这里不多赘言,而默认这些条件是满
足的。
第拍卷第2期李子奈李鼍鹏:关于计量经济学模型随机扰动项的讨论
・67・
估计的模型是原模型经过函数变换得到的,随机误差项将不再服从正态分布。当模型存在被解释变量的观测误差,如果观测误差相对于随机误差项的标准差特别大、样本长度又特别小,随机误差项的正态性假设会导致显著性水平产生一定程度的扭曲。当模型存在解释变量观测误差时,一般情况下,随机误差项的正态性假设都是不能成立的;只有在回归函数是线性的,且观测误差分布是正态的特殊情形下,随机误差项的正态性才成立。
克服这个问题的根本途径是设定正确的总体模型,取得准确的变量观测值。计量经济学应用模型的总体设定,即经济系统的主体动力学关系分析,不是理论经济学的任务,而是计量经济学的任务。变量观测值的获取,不是统计学的任务,也是计量经济学的任务。一项计量经济学应用研究课题,或者一篇计量经济学应用研究论文,必须将大部分工作或者大部分篇幅放在模型的总体设定方面,放在数据的采集和处理方面。否则研究课题是不可能成功的,研究论文也是没有人愿意阅读的。另外,对模型的随机误差项进行正态性检验,应该成为应用模型研究的一个不可忽略的步骤。
参考文献
[1]孝子奈.计量经济学模型方法论的若干问题[J].经济学动态,
2007(10):22—30.
[2]李子奈.计量经济学应用研究的总体回归模型设定[J].经济研
究,2008(8):136—143.[3]MiRiam
H.Greene,Econometric
Analysis(4th
edition)[M].Prentice
HaUInc..2000.
[4]DamodarN.Gujarati,BasicEconometrics(4thedition)[M],Mcg
HillCompanies.2003.
raw.
[5]H.wKte,A8”Dpt06c
Press.1984.
Th.,ry
for
Econometricians[M].Academic
作者简介
李子奈。男,1946年生,江苏阜宁县人。1970年毕业于清华大学工程物理系,1971年获清华大学工学硕士学位。现为清华大学经济管理学院教授,博士生导师。研究方向为计量经济学理论、方法与应用。
李鲲鹏,男,1980年生,湖北荆州市人。2007年毕业于华中师范大学经济学院,获经济学硕士学位。现为清华大学经济管理学院数量经济学专业博士研究生,研究方向为计量经济学理论、方法与应用。
(责任编辑:李峻浩)
《统计研究》主要栏目中图分类号简明对照表
主栏目
分栏目
法律法规统计方法制度统计管理体制
统计资料管理,统计信息化建设,统计数据库
分类号
C829.2C829.21C829.22C829.23C816C829.1F222F222.33C81
统计工作的改革与发展
国外统计工作经济统计学国民经济核算
统计方法的应用与创新
统计调查、抽样与抽样分布:概率论
数理统计方法(如非参数统计、参数估计、假设检验、时间数列、贝叶斯统计、相关分析与回归分析)统计指数
统计灾证分析
统计模型的应用
统计史统计教育
C829.29
C81102110212C813C812F222.3
C829.29
万方数据
第26卷第2期
2009年2月
统计研究
Statistical
Research
V01.26.No.2
Feb.2帅9
关于计量经济学模型随机扰动项的讨论‘
李子奈李鲲鹏
内容提要:论文指出了计量经济学模型中源生的随机扰动项和衍生的随机误差项之间的区别;讨论或证明了,
如果模型存在总体设定误差和变量观测误差,在很多情况下将导致随机误差项对Gauss假设以及正态性假设的违背。
关键词:计量经济学模型;随机扰动项;模型设定误差;变量观测误差
中图分类号:0212
文献标识码:A
文章编号:1002—4565(2009)02—0062—06
DiscussionabouttheStochasticDisturbanceTermofEconometric
LiZinai&LiKunpeng
Models
Abstract:Thepaperhighlightsthedistinguishbetweentheoriginalstochasticdisturbancetermandthederivedstochasticterm,suggeststhatiftherelationship
most
erl'or
ell'or
ofmodel
not
or
themeasurementerror
ofvariablesexistin
aneconometricmodel,inthe
of
case8
thestochastic
error
term
willfellowthenormal
distribution删啪ption
error
andsomeotherGaussAssumptions.
error
Keywords:econometricmodel;stochasticdisturbancelet'm;relationshipofmodel;measurement
ofvariables
一、随机扰动项的源生性
随机扰动项在计量经济学模型中占据特别重要的地位,也是计量经济学模型区别于其它经济数学模型的主要特征。李子奈(2008)将计量经济学应用研究的总体模型设定归纳为:将影响被解释变量的因素集进行有效分解,按照与被解释变量关联关系的恒常性和显著性两个维度,分解为显著的恒常性因素集、显著的偶然性因素集和无数单独影响可以忽略的非显著因素集;所有显著的恒常性因素作为解释变量;显著的偶然性因素对被解释变量的影响,则通过对数据进行奇异点诊断后采用技术手段予以消除;而无数非显著因素对被解释变量的影响则用一个随机扰动项(stochastic
disturbance
其中,Y称为被解释变量;X称为被解释变量,可能包括多个变量;p为反映解释变量和被解释变量之间关系的参数,一般称为结构参数;n表示随机抽取的样本数量;1u即为随机扰动项。
显然,这样界定的随机扰动项具有源生性。从经济学意义上,x包含了所有对于Y具有显著影响的因素,.厂(Xi,卢)表达了这些因素与扎之间的动力学关系,生成了Y。的条件期望值。但是,无数不显著因素的影响对于生成Y;的观测值是不可忽略的,“不显著”不是“没有影响”。从统计学意义上,在置的条件下重复抽样,无数不显著因素对Yi的均值没有影响,但是在一次抽样中,它们对Y;的个值的影响是不可忽略的。
在基于随机抽样的截面数据的经典计量经济学模型中,这个源生的随机扰动项卢由大数定理保证其满足Gauss假设,由中心极限定理可以证明其服从正态分布。于是,建立在Gauss假设和正态分布假设基础上的统计推断具有可靠性。
term)表示,并
引人模型。w.H.Greene(2000)指出,没有什么模型可以期望处理经济现实的无数偶然因素,因此在经验模型中纳入随机因素是必须的,被解释变量的观察值不仅要归于已经清楚了解的变量,也要考虑来自人们并不清楚了解的偶然性和无数微弱因素的影响。于是,对于单方程计量经济学模型,总体回归模型的一般形式为:
Yj=f(Xi,卢)+/i‘
i=I,2,…,11,
*本文获国家社会科学基金重点项目“计量经济学模型方法论基础研究”(08MY001)的资助。
万方数据
第26卷第2期李子奈李鳃鹛:关于计量经济学模型随机扰动项的讨论
・63-
二、随机误差项的衍生性
正如W.H.Greene(2000)指出的,在确定性模型中引入随机扰动,并不是为了掩盖确定性模型的不足之处。因此,如果所谓的未被解释的随机扰动并不是真正的不能被解释的因素,模型就是不适当的。牢记这一点对计量经济学是非常重要的。统计推断的理论不像确定性理论那样,会被仅仅一个不符实际的观察否定。引入随机要素后,对预期结果的描述从确切的表述转化为可能性的描述,除非有占优证据(占优本身则是很难清楚界定的),很难否定随机模型。当然,如果未被解释的随机扰动并不是真正的不能被解释的因素,即使这样的模型难以被否定,也是建模者自欺欺人。Greene的担忧在很多情况下成了现实:在很多计量分析中,随机误差项成了确定性模型不足之处的遮羞布。在大部分计量经济学教科书中,例如D.N.Gujarati(2003),在第一次引入随机扰动项的概念时,都将它定义为“被解释变量观测值与它的期望值之间的离差”,即
肛i=Yi—E(Y
Xi)
用一个平衡式代替定义式,并且将随机扰动项
(stochasticdisturbanceterm)与随机误差项(stochastic
eITor
term)等同。一个“源生”的随机扰动项变成了
一个“衍生”的误差。而且在解释它的具体内容时,一般都在“无数非显著因素对被解释变量的影响”之外,加上诸如“变量观测值的观测误差的影响”、“模型关系的设定误差的影响”等。国内出版的计量经济学教科书也是这样。
将“源生”的随机扰动变成“衍生”的误差,有许多理由可以为此辩解。如果不对数据生成过程的理论结构做出假定,即进行总体模型设定,就无从开始模型研究。但是,相对于物理学,经济学家对经济现实所知较少,总体模型被研究者有限的知识所确定,因此误差在所难免,只能将总体模型方程的误差项设定为衍生性的。
问题在于,关于随机扰动项的Gauss假设以及正态性假设,都是基于“源生”的随机扰动而成立的。如果存在模型设定误差、变量观测误差等确定性误差,并将它们归人“随机误差项”,那么它是否满足这些基本假设?如果不满足,进而进行的统计推断就缺少了基础。对于这个问题,一般的计量经济学教科书没有进行讨论,有的只是进行简单的说明,例
万方数据
如,在w.H.Greene(2000)的教科书中就有以下的说明:鉴于我们对随机误差来源的描述,中心极限定理的条件一般都成立,至少近似成立,因此,正态性假定在多数情况下也都是合理的。
三、包含模型设定误差的随机误差项
(一)存在模型关系误差的情形
所谓“关系误差”,指模型的总体设定不能准确反映所研究的经济系统中的动力学关系。这样动力学设定之间的偏差将不可避免的进入随机扰动项,影响其正态性。
对于一个回归的模型,假定真实的数据生成过程是:
Y;=f(Xi,卢)+tzi
t=I,2,…,n
这里的随机扰动项弘;服从经典假设,即独立同分布、高斯正态。假定模型被错误的设定为:
Yi=g(Xi,p)+%t=1,2,…,凡简单的数学变换后可得:
耽=声i+(jr(Xi,卢)一g(Xi,13))
显然这里的分布与(,(X;,卢)一g(X;,卢))有密切的关系,这里我们分两种情况讨论:
第一种情况:五是非随机的。这时关键是如何
看待声,由于卢是在模型错误设定下的参数,因此没
有很好的定义。不过对每一个给定卢,(厂(X;,卢)一g(Xi,卢))是确定性变量的函数之差,因此错误模型中的误差%是一个正态随机数tz;与非随机数(,(X。,p)一g(Xi,』9))之和,因此仍然是正态的。考虑
到西的任意性,因此秽i将是正态的。
第二种情况:置是随机的。这种情况下,(,(Xi,p)一g(X。,卢))将必然是一个随机数,而且这个随机数受到了三个因素的影响:(口)模型的正确动力学关系厂;(b)模型被误设的动力学关系g;(c)随机回归元x。的分布。注意到:
t,;一p;=(f(X;,卢)一g(X。,卢))
因此误差钆是一个正态随机数的充要条件是(厂(Xi,p)一g(Xi,卢))是正态的。而在上面提到的三个因素的作用下,(,(X。,卢)一g(Xi,卢))的正态性即使在大样本下,也不能为任何数学定理所保证。
(二)存在遗漏显著变量的情形
可以通过一个例子来说明。假如模型的正确设定应该为:
・64・统计研究.?009年2月
Yi=80+卢l石1i+卢2石2i+Pi卢f—i.i.d.
Ⅳ(0,口2)f=1,2,…,,l
即被解释变量由两个解释变量来解释。如果将模型错误设定为:
Yi=风+卢l菇lf+£i
i=1,2,…,n
那么,该模型的随机误差项为
£‘=产‘+&石2f
其中卢i.i.f.d.N(O,口2)。显然,该随机误差项的分布不仅受到卢j还受到名:;的影响,如果茗:。是正态零均值,独立同分布的,则ei仍然满足零均值、正态独立同分布的性质;如果菇:。是正态非零均值,独立同分布的,则e。将不再具有非零均值,但具有正态独立同分布性质;如果茗。;是正态非零均值,同分布但不独立,则e。将是正态非零均值,同分布但不独立;如果石:i是非正态的,则ei也将不再具有正态性。
(三)存在函数变换的情形
通过函数变换将一些简单的非线性模型转换为线性模型,是计量经济学模型估计中常用的,但是,人们对于变换后模型随机扰动项的性质却缺少讨论。需要强调的是,这种变换与前面讨论的模型误设有所不同,这里以常用的Cobb—Dauglas生产函数模型为例来予以说明,假定用于估计的模型形式为:
lnyi=风+卢llnxll+卢2lnx2‘+p3lnx3i+e‘
i
=1,2,…。乃
虽然石。,石:,茹,已经包括了所有对产出量Y有显著影响的投入要素,我们仍然不能对模型随机扰动项e的分布给出明确的界定,因为它不是源生的,而是由下列模型
Yi=A并:I正皇z垒弘i
i=1,2,…,乃
经过对数变换后“衍生”得到的,它的分布不仅取决于原模型随机扰动项的分布,而且取决于用于变换的函数。如果原模型卢i。i.i.d.N(O,口2)中,那么显然e;=In∥。将不再服从正态分布。如果原模型是如下形式:
Y‘=舭色算盘算袅+卢i
i=1,2,…,n
其中/z。.i.i.d.N(O,盯2)。该模型虽然具有更合理的经济学解释,但是却使得经过对数变换得到的线性模型的随机扰动项更加复杂。
以上分别讨论了模型设定误差的几种形式对模型随机扰动项的影响,表明这些误差的存在,可能导
万方数据
致随机扰动项对Gauss假设以及正态性假设的违背,随之进行的模型估计及统计推断的基础将受到损害。
四、包含观测误差的随机误差项
现在讨论观测值的观测误差。所谓“观测误差”,指变量的样本观测值不能准确反映变量的实际状态。观测误差是普遍存在的,正如w.H.Greene(2000)指出的,在理论上确定变量之间的关系并不难,但要得到这些变量的准确度量则完全是另外一回事。例如,合理度量利润、利率、资本存量或资本存量提供的服务流量的困难,是经验文献中反复出现的主题;在极端情况下,甚至找不到理论变量的可观测的对应物。所以。观测误差构成了“衍生”的随机误差的主要内容。
为了方便,下面分别讨论被解释变量的观测误差和解释变量的观测误差存在的情况下,随机误差项是否满足关于扰动项的Gauss假设和正态性假设。
(一)存在被解释变量观测误差的情形
假定没有观测误差时,第i个被抽样的值是Y?,有观测误差时,第i个被抽样的值是Y:,根据以上假
设,应该有Y0Y?+e,,这里e。一i.i.’d(0,口:)是观
测误差。进一步,没有观测误差的回归方程是:
Y?=X'ip+/1i
户。一i.i.d.N(o,口2)
i=I,
2,…,n
将Y暑Y?+e。代入得到:
,,叠X7‘J9+(/ii+ej)
如果e。是正态的,则(pi—e。)也应该是正态的,经典假设不被破坏,基于正态分布的统计推断仍然成立。如果ei是非正态的,显然(产。一e;)就不可能再是正态分布,此时基于中心极限定理给出的所有的统计推断都是近似成立。
这里需要说明:为什么要将卢i和e;区别看待?这是因为卢;和e;的本质是不一样的,卢;是无数的无法辨别地非显著的影响的总和,我们无法对/Ii的
来源做一个清晰的界定。但是e;则不同,它的来源清晰明确,就是抽样时的测量误差,它的影响也是显著的。如果从林德贝格一费勒中心极限定理的角度来看待(卢i—e;),则上面的分析等同于这样的论断,林德贝格条件要求每一个误差因子要“一致地”小,因而其对总和的极限分布不产生影响,但是e;这个
第拍卷第2期李子奈李最鹏:关于计■经济学模型随机扰动项的讨论・65・
因子不具有这一特征,破坏了林德贝格条件,正态性不再成立。
众所周知,如果扰动项不服从正态分布,统计量的分布在渐近意义下仍然是正态的。基于此,我们很自然地要问,上面讨论的问题在实际中多大程度上是重要的。下面我们通过计算机模拟来回答这个问题。
我们模拟三种测量误差分布对检验结果的影响,这三种分布是贝努利分布(bemoulliandistribution)、均匀分布(uniformdistribution)、正态分布。为了使三种分布对结果的影响具有可比性,我们使计算机上生成的三种误差具有相同的均值(都是0)和方差。引入标准差比参数ID=叮。/a。具体来说,我们设定的贝努利分布是:P{ei=p/3}-0.9,P{ef-一3p}_0.1;均匀分布是:e;=2/gP(£一0.5),这里e是一个服从[0,1]均匀分布的随机数;正态分布是:e。=心,其中善是一个标准正态随机数。
在模拟试验中,真实的数据生成过程(data
generating
proce88)是:
Y?=l+1.5xl+卢j
这里卢i是标准正态随机数,即p;.N(o,1)。回归元聋i可能是随机的也可能是非随机的,两种情形我们都予以考察,如果鼻。是非随机的,我们设定茗。=i①;如果施是随机的,设定菇‘=i+刁,这里刁也是一个标准正态随机数,且与卢和f各期都独立。通过生成戈。和/1;计算出Y?,再通过前面的误差ei生成程序,计算出Y:(Y;=Y?+e;)。据此进行Y;对1和算;的回归,计算出名i的t统计量。将上述方法重复10000次,找出5%的双侧分位点。
上述模拟中,标准差比P和样本数量n是允许变动的两个参数,我们让ID的取值是p=0.1、ID=l、ID=20,这样可以考察不同的测量误差大小对正态性的破坏程度。当然样本的数量大小是一个需要关注的参数,随着样本的增大,统计量的质量将会得到改进,因此需要予以控制。
计算机模拟结果报告如下:
从上面的模拟中我们发现如下的结果:
1.就伯努利分布而言,如果标准差比值p偏低(ID=0.1),即使在小样本下(尼=10),实际的t值分布与通常的t值分布差距也不是很大(实际的t值分布的5%双侧分位点是2.317,通常的t值分布的
万方数据
标准差比p回归元是确定的
回归元是随机的
真实
样本数n
伯努利
均匀
正态
伯努利
均匀
正态
t值
n=lO
P=0.1
2.3172.3192.30l2.3582.3402.3472.306n=10口=12,26l2.3012.2962.2592.3432.3052.306n=10口=202.0482.3192.3ll2.1862.3162.3132.306n:20口=0.12.0952.1ll2.102
2.1022.1152.0882.101n=20口=12.0842.1282.094
2.1212.1242.0982.101n=20口=201.9562.1272.1161.9442.1212.1152.101n=30口=0.12.0232.0542.0502.0372.0382.0372.048
n=30
P=1
2.0522.1052.0692.0312.0242.0372.O惦
n=30口=20
1.943
2.037
2.058
1.975
2.014
2.059
2.048
5%双侧分位点2.306),使用通常的t值分布以及5%的双侧分位点,不会对结果造成严重的影响;但是如果标准差比值lD较高(ID=20),在小样本下,实际的t值分布与通常的t值分布差距显著,使用通常的t值分布以及5%的双侧分位点,会使检验的显著性水平产生较大的扭曲(实际的t值分布的5%双侧分位点是2.048,通常的t值分布的5%双侧分位点2.306)。这一扭曲程度随着样本的增大得到明显的改善,在一个偏小样本下(乃=30),这一扭曲程度已经不到10%了。
2.就均匀分布而言,表现比伯努利分布要好一些,综合各种情形的结果来看,t值的偏误都在1.5%以内。
这里有一点需要指明,就是误差是均匀分布的结果与误差是正态分布的结果在我们的报告中优劣难以分辨。这是因为在计算机上生成的正态随机数也不是标准的正态随机数,而是伪正态随机数,导致了正态情形下模拟的t值与正确的t值有一定的偏差而且有时偏差甚至很大的结果。同时这也可以解释上面的结果:既然均匀分布不是正态的,而伪正态分布也不是正态的,那就很难比较它们之间孰好孰坏了。
总结上面模拟试验的结果。一般而言,如果因为测量误差的原因导致误差项正态性假设受到了一定程度的破坏,即使在中等偏小的样本情况下,假定正态性仍然是无害的。但是如果测量误差相对于回归扰动项的标准差特别的大、样本长度又特别的小、误差的形式相对较为“病态”,这时仍然假定误差项是正态的假设会导致检验显著性水平产生一定程度的扭曲。
①需要说明,在我们设定的回归中,z前系数的收敛速度不再
是石而是n石。
/虿。一掣至・66・
统计研究
2009年2月
(二)存在解释变量观测误差的情形
我们将解释变量向量第i次抽样分为没有观测误差x¨和有观测误差x:;两类,假定不存在观测误
差的抽样值是X?=(X7…兄),由于解释变量x:;
存在观测误差,于是引入观测误差向量e。,则实际存
在观测误差的抽样值Z=(x7“,《。),据此应该有
置;=墨;+£。,这里£;一i.i.d(O,∑。)是观测误
差,与/z的各期独立。
这里进一步假定回归方程形式以F)已知,且,(F)充分光滑,性质良好。在没有误差的情况下,回归方程是:
Y;=f(X?)+卢。:f(X。;,墨;)+/.z;将噩;=墨;+£;代入并将其泰勒展开:
掣㈠i)+a号㈠j),鬻
Yf=f(Xli,墨。一e‘)+P‘=∥‘+厂(xli,罡f)+(一e;)+…
这样回归方程的误差项是I
+—ii一卜e‘,+虿卜6‘,
(一e;),
1征而‘叫c)r”
才,(X…噩。),
、
上面误差项的分布形态依赖于f(茗)和£;,当e;是非正态分布的情况下,线性的f(茗)就足以导致误差项的非正态分布;而即使£。是正态的情况下,一个二次型的f(茗)也会使得误差项是由一个正态分布和一个类卡方分布所组成,正态性的假设同样受到破坏。正态性的假设要能够成立只有在极其严格的条件下,也就是f(石)是线性的,且误差项是正态分布的情况中才有会出现,而这时估计的参数又是非一致的,下面继续说明这一问题。
依上,设没有误差项的回归方程是iYf=x?p+/z。=r。乒。+x;i&+/.tf/zf—i.i.d.N(o,d。)i=1,2,…,乃将罡l-罡;+£i代人得到:
Y;=《卢+(产;一e’。咸)=X/1i卢。+《乒2
+(/.tj一£7屈)
据此可以得到回归的参数:
p=(∑二。xZ)一(∑二。x训=卢+(∑二。x搿)一(∑二。墨(卢;一e7;&))
万方数据
进一步将X:=(X’“,《i)7代入得到:
口=卢+(∑j^I。x;墨’)一(∑二。(主:)cp;一e7段,)
则:
伊。一角\
\卢:一佛/
=(i1匕。Xz)。1旧∑二。㈡(驴《阳)
依据大数定理①:
i1己…X。i(户;一e
7乒:)三o
i1己…噩i(卢i一£,≯:)三一∑卢:
由此我们可知口。是有偏估计,口:是一个有偏估计
量。
综上,当解释变量存在观测误差时,正态性的假设依赖于回归函数的形式和误差的分布形态。一般情况下,正态性的假设都是不能成立的,只有在回归函数是线性的,且误差分布是正态的特殊情形下,正态性才成立,而在此情况下,参数的估计是非一致的。
五、结论与启示
在计量经济学模型中,用“衍生”的随机误差代替“源生”的随机扰动,特别是将模型的设定误差和变量的观测误差对被解释变量的影响引入随机误差项,在很多情况下将导致随误差动项对Gauss假设以及正态性假设的违背,随之进行的模型估计及统计推断的基础将受到损害。这个问题应该引起计量经济学理论研究的关注,也应该引起应用研究的高度重视。
就十分重要的随机误差项正态性假设而言,具体结论如下:当存在模型关系误差时,如果解释变量是随机的,随机误差项的正态性将得不到保证。当模型遗漏了显著的变量,如果遗漏的变量是非正态的随机变量,随机误差项将不具有正态性。如果待
①说明,导出下面的条件是需要额外条件的。例如在(毛,芦j.et)是独立同分布的条件下,需要毛,/.t;,El的一阶绝对矩存在,这是kolmogorov大数定理的条件;如果去掉同分布的条件,则一般需要一阶更高绝对矩存在的条件,这是markov大数定理的条件,当然还可
以继续放宽独立不同分布的条件,代之于更高的矩条件。关于这点White(t984)对此有详细的论述,这里不多赘言,而默认这些条件是满
足的。
第拍卷第2期李子奈李鼍鹏:关于计量经济学模型随机扰动项的讨论
・67・
估计的模型是原模型经过函数变换得到的,随机误差项将不再服从正态分布。当模型存在被解释变量的观测误差,如果观测误差相对于随机误差项的标准差特别大、样本长度又特别小,随机误差项的正态性假设会导致显著性水平产生一定程度的扭曲。当模型存在解释变量观测误差时,一般情况下,随机误差项的正态性假设都是不能成立的;只有在回归函数是线性的,且观测误差分布是正态的特殊情形下,随机误差项的正态性才成立。
克服这个问题的根本途径是设定正确的总体模型,取得准确的变量观测值。计量经济学应用模型的总体设定,即经济系统的主体动力学关系分析,不是理论经济学的任务,而是计量经济学的任务。变量观测值的获取,不是统计学的任务,也是计量经济学的任务。一项计量经济学应用研究课题,或者一篇计量经济学应用研究论文,必须将大部分工作或者大部分篇幅放在模型的总体设定方面,放在数据的采集和处理方面。否则研究课题是不可能成功的,研究论文也是没有人愿意阅读的。另外,对模型的随机误差项进行正态性检验,应该成为应用模型研究的一个不可忽略的步骤。
参考文献
[1]孝子奈.计量经济学模型方法论的若干问题[J].经济学动态,
2007(10):22—30.
[2]李子奈.计量经济学应用研究的总体回归模型设定[J].经济研
究,2008(8):136—143.[3]MiRiam
H.Greene,Econometric
Analysis(4th
edition)[M].Prentice
HaUInc..2000.
[4]DamodarN.Gujarati,BasicEconometrics(4thedition)[M],Mcg
HillCompanies.2003.
raw.
[5]H.wKte,A8”Dpt06c
Press.1984.
Th.,ry
for
Econometricians[M].Academic
作者简介
李子奈。男,1946年生,江苏阜宁县人。1970年毕业于清华大学工程物理系,1971年获清华大学工学硕士学位。现为清华大学经济管理学院教授,博士生导师。研究方向为计量经济学理论、方法与应用。
李鲲鹏,男,1980年生,湖北荆州市人。2007年毕业于华中师范大学经济学院,获经济学硕士学位。现为清华大学经济管理学院数量经济学专业博士研究生,研究方向为计量经济学理论、方法与应用。
(责任编辑:李峻浩)
《统计研究》主要栏目中图分类号简明对照表
主栏目
分栏目
法律法规统计方法制度统计管理体制
统计资料管理,统计信息化建设,统计数据库
分类号
C829.2C829.21C829.22C829.23C816C829.1F222F222.33C81
统计工作的改革与发展
国外统计工作经济统计学国民经济核算
统计方法的应用与创新
统计调查、抽样与抽样分布:概率论
数理统计方法(如非参数统计、参数估计、假设检验、时间数列、贝叶斯统计、相关分析与回归分析)统计指数
统计灾证分析
统计模型的应用
统计史统计教育
C829.29
C81102110212C813C812F222.3
C829.29
万方数据