——环境因素对经济的影响分析
制作人:严国金
周佳卫 陈晓磊 2015.12.5
环境因素对经济的影响分析
——以上海市为例
摘 要
中国现在正处于高速发展的阶段,也正是对环境破坏力度最大的时期。然而环境会反作用于经济发展。 中国的国家政策也从"先污染,后治理"变成了"可持续发展"的战略。 目前,对于可持续发展问题的研究主要集中于对人口、资源、环境等三大子块 的研究,其中环境与发展又是可持续发展的核心问题。本文以上海市的情况作为研 究对象,对上海市可持续发展之环境与经济发展的相关问题进行分析探讨。 江苏省作为中国的重点大省,长期以来保持了很高的经济增长速度,但是由于 人口密度比较高,土地与矿产资源相对贫乏,社会经济发展与人口、资源、环境 的矛盾日渐突出。 本文使用主成分分析方法与逐步回归进行结合与互补的方式, 在研究了经济 分析以后,分别对环境污染和环境治理两个方面进行系统的分析, 然后使用逐步回归对所有指标进行一次方程拟合,与主成分分析的结果进行对比,对上海市的环境与经济之间的关系进行了系统的研究得出了值得借鉴的结论。
关键字:经济 环境 主成分分析 多元回归 逐步回归
一、问题提出
(一) 研究背景
随着环境问题的日益严重,国家将能源和环境的可持续发展提到了政策性的位置。我国未来经济发展面临的最为突出的问题就是资源过度消耗和环境破坏给可持续发展带来的压力,而上海也同样面临着能源、环境对经济的瓶颈制约作用。一方面,经济持续快速增长并处于新一轮上升周期,经济总量显著扩大, 工业化和城市化加速,这些虽然带来发展空间扩大的新机遇,但也势必加大了对资源的需求和消耗强度;另一方面,高投入、高消耗、低产出、低效益的粗放型增长方式导致经济运行成本上升,已经越来越难以为继。可持续发展面临的资源和环境压力日趋严峻, 本质上是经济增长方式粗放、技术含量低和经济效率差的问题。 (二) 研究意义
寻求能源-环境-经济的协调发展,使得经济增长不以环境污染为代价,并且大力提高能源利用率,一直是政府倡导的发展方向。长三角各城市由于地理、环境因素的不同, 呈现出不同的发展模式,而要提升长三角整体的发展的协调度,不但要从整体上分析发展特征,还需针对不同地区,结合不同地区现状来单独分析。进行城市群研究正是为了探寻出城市间的联系与差异,从而帮助其寻找到更加优化的发展模式。因此,对长三角各地区进行整体范围的研究有利于把握城市群的发展模式和动态发展方向;而考虑空间因素,对城市间的相关度和差异度进行分析,则可以明确把握合作方向,发展地区特色, 最终实现能源-环境-经济的协调可持续发展,
从而提升整个上海市的综合竞争力。
(三)存在的问题
目前,上海市已经开始进入工业化和城市化的中后期发展阶段,是实施城市群发展战略和转型升级的关键时期。一些区域性问题也随之产生,如区域内产业同构与无序竞争、基础设施建设缺少统筹规划、土地资源紧缺、生态环境局部恶化等问题。这些尚未解决的矛盾与国际金融危机的影响交织在一起,使上海市进一步发展困难加大,一些深层次矛盾和问题亟待解决。 资源能源不足是长三角最基本的特点。上海市属能源、原材料贫乏的省份。把但上海市人口众多、产业发达,对能源资源有着极大的需求,因此资源和能源不足已经成为困扰区域经济发展的一个重要问题。同时,随着区域城市化、工业化、现代交通,以及由生活水平提高而引起的消费方式的转变,人类活动的高强度和经济快速持续的增长导致了区域环境的严重污染。近年来上海市水污染严重,大气质量下降、酸雨频发、生物多样性减少、人口剧增,人地矛盾突出,对于区域的可持续发展造成极大威胁。事实上上海市在重复着以环境为代价换取经济高速发展这一发达国家曾经走过的发展模式,这对上海市的可持续发展敲响了警钟,上海市必须谋求发展模式转变,才能不让能源和环境扼住经济发展的咽喉,从而获得能源-环境-经济的协调发展,建设成为资源节约型和环境友好型社会。
二、研究方法
(一)主成分分析法
主成分分析(Principal Component Analysis,PCA), 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。其主要目的就是降维,选出主要的成分。在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。主成分分析的计算步骤:
1、原始指标数据的标准化采集 p 维随机向量x(X1,X2,......XP)Tn个样品
xi1(xi1,xi2,......xiP)T,i1,2,3......n,np,构造样本阵,对样本阵元进行如下标准化变换:
Zij
n
n
xijxj
sj
,i1,2,3......n;j1,2,3......p
其中 xj
x
i1
ij
n
,s2j
(x
i1
ij
xj)2
n1
,
得标准化阵 Z。
ZTZ
2、对标准化阵 Z 求相关系数矩阵 Rrijpxp
n1
其中rij
z
kj
zkj
n1
,i,j1,2,3,......,p
3、解样本相关矩阵 R 的特征方程RIp0
得 p 个特征根,确定主成分 按
m
j
j1
j1
p
0.85
j
确定 m 值,使信息的利用率达 85%以上,对每个j, j=1,2,...,m,解方程组
Rbjb 得单位特征向量b0j 。 4、将标准化后的指标变量转换为主成分
UijziTb0,2,3,.....,m j,j1
U1称为第一主成分,U2 称为第二主成分,....,Up 称为第 p 主成分。
5 、对 m 个主成分进行综合评价 对 m 个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差 贡献率。
(二)多元线性回归方法
多元线性回归(multivariable linear regression model ),是反映一种现象或事物的数量依多种现象或事物的数量的变动而相应地变动的规律。建立多个变量之间线性或非线性数学模型数量关系式的统计方法。
一元线性回归是一个主要影响因素作为自变量来解释因变量的变化,在现实问 题研究中,因变量的变化往往受几个重要因素的影响,此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化,这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元性回归。
设 y为因变量,x1,x2,...,xk为自变量,并且自变量与因变量之间为线性关系时,则多元线性回归模型为:yb0b1x1b2x2...bkxke其中,b0为常数项,
b1,b2,...,bk为回归系数,b1为固定时,x1每增加一个单位对y的效应,即x1对y的偏回归系数;同理b2为x1,xk固定时,x2每增加一个单位对y的效应,即,x2对
y的偏回归系数,等等。如果两个自变 量x1,x2同一个因变量y呈线相关时,可
用二元线性回归模型描述为:yb0b1
x1b2x2e
建立多元性回归模型时,为了保证回归模型具有优良的解释能力和预测效果, 应首先注意自变量的选择,其准则是:
(1)自变量对因变量必须有显著的影响,并呈密切的线性相关;
(2)自变量与因变量之间的线性相关必须是真实的,而不是形式上的;
(3)自变量之彰应具有一定的互斥性,即自变量之彰的相关程度不应高于自变量 与因变量之因的相关程度;
(4)自变量应具有完整的统计数据,其预测值容易确定。 多元性回归模型的参数估计,同一元线性回归方程一样,也是在要求误差平方和( e2)为最小的前提下,用最小二乘法求解参数。以二线性回归模型为例, 求解回归参数的标准方程组为
ynb0b1x1b2x22
x1yb0x1b1x1b2x1x2
2xybxbxxbx20211222
解此方程可求得 b0,b1,b2的数值。亦可用下列矩阵法求得
b(x'x)1(x'y)
即
yxy121 2x2y122
多元性回归模型与一元线性回归模型一样,在得到参数的最小二乘法的估计值 之后,也需要进行必要的检验与评价,以决定模型是否可以应用。 1、拟合程度的测定。
b0nbx11b2x2
1
21
2
xx
xxxxxx
1
与一元线性回归中可决系数r2相对应,多元线性回归中也有多重可决系数r2, 它是在因变量的总变化中,由回归方程解释的变动(回归平方和)所占的比重,
R2越大,回归方各对样本数据点拟合的程度越强,所有自变量与因变量的关系
越密切。计算公式为:
ˆ)(yR
(y)
ˆ)(yy
1
(y)
2
22
22
其中,
ˆ)y(yy
2
2
(b0yb1x1yb2x2y...bkxky)
(y)2y2
2.估计标准误差
1
(y)2 n
ˆ之间的标准误 估计标准误差,即因变量y的实际值与回归方程求出的估计值y
差,估计标准误差越小,回归方程拟合程度越程。
Sy
ˆ)(yynk1vk
Syy
2
其中,k为多元线性回归方程中的自变量的个数。
3.回归方程的显著性检验 回归方程的显著性检验,即检验整个回归方程的显著性,或者说评价所有自变 量与因变量的线性关系是否密切。能常采用F检验。根据给定的显著水平,自由度(k,nk1)查 F分布表,得到相应的临界值F, 若FF,则回归方程具有显著意义,回归效果显著;FF,则回归方程无显著意义,回归效果不显著。 4.回归系数的显著性检验
在一元线性回归中,回归系数显著性检验(t检验)与回归方程的显著性检验(F检验)是等价的,但在多元线性回归中,这个等价不成立。t检验是分别检验回 归模型中各个回归系数是否具有显著性,以便使模型中只保留那些对因变量有显 著影响的因素。检验时先计算统计量ti;然后根据给定的显著水平,自由度
nk1查t分布表,得临界值t 或 t,tt或t ,则回归系数i与 0 有
显著关异,反之,则与 0 无显著差异。 5.多重共线性判别
若某个回归系数的t检验通不过,可能是这个系数相对应的自变量对因变量 的影平不显著所致,此时,应从回归模型中剔除这个自变量,重新建立更为简单 的回归模型或更换自变量。也可能是自变量之间有共线性所致,此时应设法降低 共线性的影响。
多重共线性是指在多元线性回归方程中,自变量之彰有较强的线性关系,这 种关系若超过了因变量与自变量的线性关系,则回归模型的稳定性受到破坏,回 归系数估计不准确。需要指出的是,在多元回归模型中,多重共线性的难以避免 的,只要多重共线性不太严重就行了。判别多元线性回归方程是否存在严惩的多 重共线性,可分别计算每两个自变量之间的可决系数r2,若r2R2或接近于R2, 则应设法降低多重线性的影响。亦可计算自变量间的相关系数矩阵的特征值的条 件数k1/p(1为最大特征值,p为最小特征值),k1000,则自
变量间存在严重的多重共线性。降低多重共线性的办法主要是转换自变量的取 值,如变绝对数为相对数或平均数,或者更换其他的自变量。
(四)逐步回归
逐步回归(stepwise regression),在建立多元回归方程的过程中,按偏相 关系数的大小次序将自变量逐个引入方程,对引入方程中的每个自变量偏相关系 数进行统计检验,效应显著的自变量留在回归方程内,循此继续遴选下一个自变 量。如果效应不显著,停止引入新自变量。由于新自变量的引入,原已引入方程 中的自变量由于变量之间的相互作用其效应有可能变得不显著者,经统计检验确 证后要随时从方程中剔除,只保留效应显著的自变量。直至不再引入和剔除自变 量为止,从而得到最优的回归方程。
逐步回归分析时在考虑的全部自变量中按其对 y 的贡献程度大小,由大到小 地逐个引入回归方程,而对那些对 y 作用不显著的变量可能是中不被引入回归方 程。另外,已被引入回归方程的变量在引入新变量进行 F 检验后失去重要性时, 需要从回归方程中剔除出去。
Step 1 计算变量均值x1,x2,.....xn,y和差平方和 L11,L22L33,......,Lpp,Lyy记各自的 标准化变量为uj
xjxj
Ljj
,j1
,2,...,p,Up1
yyLyy
Step 2 计算x1,x2,...,xp,y 的相关系数矩阵 R0。
Step 3 设已经选上了 K 个变量:xi1,xi2,...,xik 且i1,i2,...ik 互不相同,R0经 过变换后为R(k)(rij(k))对 j1,2,3,....,k逐一计算标准化变量 uij 的偏回归平方
(k)
和 vij
(rij(,k()p1))2
r
(k)
ijij
(k)
,记V1(k)maxvij ,作 F 检验, 对给 定的显著性水平,
拒绝域为FF1(1,nk1) 。
Step 4 最 Step 3 循环,直至最终选上了t个变量xi1,xi2,...,xit,且i1,i2,...,it互不相同,R(0)经过变换后为R(t)(ri(jt)),则对应的回归方程为:
xikikxi1i1ˆy(k)(k)
ri1,(p1)...ri1,(p1), LyyLi1j1Likjk
ˆb0bi1xi1...bikxik。 通过代数运算可得y
三、实例分析
表一 本文所使用的指标与对应的变量
(一)主成分分析
1、环境污染指标分析
表二 环境污染指标
我们运用R软件对环境污染指标做主成分分析,结果如下:
Importance of components:
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Standard deviation 1.7643175 0.9911411 0.7977012 0.43488363 0.2817303 Proportion of Variance 0.6225632 0.1964722 0.1272654 0.03782475 0.0158744 Cumulative Proportion 0.6225632 0.8190354 0.9463008 0.98412560 1.0000000
Loadings:
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 X1 -0.167 0.960 -0.208 X2 -0.529 0.357 0.767 X3 -0.436 -0.756 0.481 X4 0.485 0.236 -0.496 -0.437 0.522 X5 0.517 0.143 0.219 0.758 0.298
在第三主成分累积贡献率达到94.63%,所以提取三个主成分比较合适。 主成分的组合模型公式如下:
环境污染F10.167X10.529X20.439X30.483X40.517X5 环境污染F20.96X10.263X40.143X5
环境污染F30.357X20.756X30.496X40.219X5
第一主成分中,工业废气排放量和废气二氧化硫排放总量是比较重要的指标。 第二主成分中,废水排放总量是比较重要的指标。 第三主成分中,垃圾产量是比较重要的指标。
2、环境治理指标
我们运用R软件对环境治理指标做主成分分析,结果如下:
Importance of components:
Comp.1 Comp.2 Comp.3 Comp.4 Standard deviation 1.8911507 0.57747618 0.27591006 0.118085167 Proportion of Variance 0.8941127 0.08336968 0.01903159 0.003486027 Cumulative Proportion 0.8941127 0.97748238 0.99651397 1.000000000
Loadings:
Comp.1 Comp.2 Comp.3 Comp.4 X6 -0.524 -0.141 -0.218 0.811 X7 -0.517 0.117 -0.686 -0.498 X8 -0.482 -0.677 0.467 -0.303 X9 -0.476 0.713 0.513
在第二主成分累积贡献率达到97.75%,所以提取两个主成分比较合适。 主成分的组合模型公式如下:
环境治理主成分的组合模型公式为:
环境治理F10.524X60.517X70.482X80.476X9 环境治理F20.141X60.117X70.686X80.713X9
(二)回归分析
利用Eviews软件,建立X1,X2,X3,X4,X5,X6,X7,X8,X9与Y的多元回归模型,结果如下:
从上面结果来看,模型总体显著,拟合优度高达99.95%,但存在多个变量系数未通过显著性检验。因此,猜测模型可能存在多重共线性。 为了验证猜想,输出变量系数的相关系数矩阵:
从结果中明显可以看出变量存在多重共线性。 下面运用逐步回归法来消除共线性对模型的影响。
分别建立X1,X2,X3,X4,X5,X6,X7,X8,X9与Y的一元回归模型
通过一元回归结果进行对比分析,依据调整后可决系数2最大原则,选取x6作为进入回归模型的第一个解释变量,形成一元回归模型。
以此类推,最后本案例保留的变量是x3,,x6,相应的回归结果为:
最后,逐步回归建立模型为Y465.68660.105839X332.3862X6
四、结论
逐步回归的模型给出了如下的方程:
Y465.68660.105839X332.3862X6
主成分中垃圾产量和环境保护投资
两个统计方式分别从两个侧面给出了分析,得出的这些指标都是至关重要的。
综上所述, 这些被提出来的指标都是应该得到重视的指标。我们由此对政府提出以下建议:应当加强水资源废弃排放的管理,给出严格的质量控制指标,不仅要质量达标, 排放的体积也要达标,要按照排放总量来给出标准, 不能仅仅只看浓度。严格惩罚违法排污的企业, 以儆效尤。并且应该加大植被的面积, 环境保护投资应该继续增加。
——环境因素对经济的影响分析
制作人:严国金
周佳卫 陈晓磊 2015.12.5
环境因素对经济的影响分析
——以上海市为例
摘 要
中国现在正处于高速发展的阶段,也正是对环境破坏力度最大的时期。然而环境会反作用于经济发展。 中国的国家政策也从"先污染,后治理"变成了"可持续发展"的战略。 目前,对于可持续发展问题的研究主要集中于对人口、资源、环境等三大子块 的研究,其中环境与发展又是可持续发展的核心问题。本文以上海市的情况作为研 究对象,对上海市可持续发展之环境与经济发展的相关问题进行分析探讨。 江苏省作为中国的重点大省,长期以来保持了很高的经济增长速度,但是由于 人口密度比较高,土地与矿产资源相对贫乏,社会经济发展与人口、资源、环境 的矛盾日渐突出。 本文使用主成分分析方法与逐步回归进行结合与互补的方式, 在研究了经济 分析以后,分别对环境污染和环境治理两个方面进行系统的分析, 然后使用逐步回归对所有指标进行一次方程拟合,与主成分分析的结果进行对比,对上海市的环境与经济之间的关系进行了系统的研究得出了值得借鉴的结论。
关键字:经济 环境 主成分分析 多元回归 逐步回归
一、问题提出
(一) 研究背景
随着环境问题的日益严重,国家将能源和环境的可持续发展提到了政策性的位置。我国未来经济发展面临的最为突出的问题就是资源过度消耗和环境破坏给可持续发展带来的压力,而上海也同样面临着能源、环境对经济的瓶颈制约作用。一方面,经济持续快速增长并处于新一轮上升周期,经济总量显著扩大, 工业化和城市化加速,这些虽然带来发展空间扩大的新机遇,但也势必加大了对资源的需求和消耗强度;另一方面,高投入、高消耗、低产出、低效益的粗放型增长方式导致经济运行成本上升,已经越来越难以为继。可持续发展面临的资源和环境压力日趋严峻, 本质上是经济增长方式粗放、技术含量低和经济效率差的问题。 (二) 研究意义
寻求能源-环境-经济的协调发展,使得经济增长不以环境污染为代价,并且大力提高能源利用率,一直是政府倡导的发展方向。长三角各城市由于地理、环境因素的不同, 呈现出不同的发展模式,而要提升长三角整体的发展的协调度,不但要从整体上分析发展特征,还需针对不同地区,结合不同地区现状来单独分析。进行城市群研究正是为了探寻出城市间的联系与差异,从而帮助其寻找到更加优化的发展模式。因此,对长三角各地区进行整体范围的研究有利于把握城市群的发展模式和动态发展方向;而考虑空间因素,对城市间的相关度和差异度进行分析,则可以明确把握合作方向,发展地区特色, 最终实现能源-环境-经济的协调可持续发展,
从而提升整个上海市的综合竞争力。
(三)存在的问题
目前,上海市已经开始进入工业化和城市化的中后期发展阶段,是实施城市群发展战略和转型升级的关键时期。一些区域性问题也随之产生,如区域内产业同构与无序竞争、基础设施建设缺少统筹规划、土地资源紧缺、生态环境局部恶化等问题。这些尚未解决的矛盾与国际金融危机的影响交织在一起,使上海市进一步发展困难加大,一些深层次矛盾和问题亟待解决。 资源能源不足是长三角最基本的特点。上海市属能源、原材料贫乏的省份。把但上海市人口众多、产业发达,对能源资源有着极大的需求,因此资源和能源不足已经成为困扰区域经济发展的一个重要问题。同时,随着区域城市化、工业化、现代交通,以及由生活水平提高而引起的消费方式的转变,人类活动的高强度和经济快速持续的增长导致了区域环境的严重污染。近年来上海市水污染严重,大气质量下降、酸雨频发、生物多样性减少、人口剧增,人地矛盾突出,对于区域的可持续发展造成极大威胁。事实上上海市在重复着以环境为代价换取经济高速发展这一发达国家曾经走过的发展模式,这对上海市的可持续发展敲响了警钟,上海市必须谋求发展模式转变,才能不让能源和环境扼住经济发展的咽喉,从而获得能源-环境-经济的协调发展,建设成为资源节约型和环境友好型社会。
二、研究方法
(一)主成分分析法
主成分分析(Principal Component Analysis,PCA), 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。其主要目的就是降维,选出主要的成分。在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。主成分分析的计算步骤:
1、原始指标数据的标准化采集 p 维随机向量x(X1,X2,......XP)Tn个样品
xi1(xi1,xi2,......xiP)T,i1,2,3......n,np,构造样本阵,对样本阵元进行如下标准化变换:
Zij
n
n
xijxj
sj
,i1,2,3......n;j1,2,3......p
其中 xj
x
i1
ij
n
,s2j
(x
i1
ij
xj)2
n1
,
得标准化阵 Z。
ZTZ
2、对标准化阵 Z 求相关系数矩阵 Rrijpxp
n1
其中rij
z
kj
zkj
n1
,i,j1,2,3,......,p
3、解样本相关矩阵 R 的特征方程RIp0
得 p 个特征根,确定主成分 按
m
j
j1
j1
p
0.85
j
确定 m 值,使信息的利用率达 85%以上,对每个j, j=1,2,...,m,解方程组
Rbjb 得单位特征向量b0j 。 4、将标准化后的指标变量转换为主成分
UijziTb0,2,3,.....,m j,j1
U1称为第一主成分,U2 称为第二主成分,....,Up 称为第 p 主成分。
5 、对 m 个主成分进行综合评价 对 m 个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差 贡献率。
(二)多元线性回归方法
多元线性回归(multivariable linear regression model ),是反映一种现象或事物的数量依多种现象或事物的数量的变动而相应地变动的规律。建立多个变量之间线性或非线性数学模型数量关系式的统计方法。
一元线性回归是一个主要影响因素作为自变量来解释因变量的变化,在现实问 题研究中,因变量的变化往往受几个重要因素的影响,此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化,这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元性回归。
设 y为因变量,x1,x2,...,xk为自变量,并且自变量与因变量之间为线性关系时,则多元线性回归模型为:yb0b1x1b2x2...bkxke其中,b0为常数项,
b1,b2,...,bk为回归系数,b1为固定时,x1每增加一个单位对y的效应,即x1对y的偏回归系数;同理b2为x1,xk固定时,x2每增加一个单位对y的效应,即,x2对
y的偏回归系数,等等。如果两个自变 量x1,x2同一个因变量y呈线相关时,可
用二元线性回归模型描述为:yb0b1
x1b2x2e
建立多元性回归模型时,为了保证回归模型具有优良的解释能力和预测效果, 应首先注意自变量的选择,其准则是:
(1)自变量对因变量必须有显著的影响,并呈密切的线性相关;
(2)自变量与因变量之间的线性相关必须是真实的,而不是形式上的;
(3)自变量之彰应具有一定的互斥性,即自变量之彰的相关程度不应高于自变量 与因变量之因的相关程度;
(4)自变量应具有完整的统计数据,其预测值容易确定。 多元性回归模型的参数估计,同一元线性回归方程一样,也是在要求误差平方和( e2)为最小的前提下,用最小二乘法求解参数。以二线性回归模型为例, 求解回归参数的标准方程组为
ynb0b1x1b2x22
x1yb0x1b1x1b2x1x2
2xybxbxxbx20211222
解此方程可求得 b0,b1,b2的数值。亦可用下列矩阵法求得
b(x'x)1(x'y)
即
yxy121 2x2y122
多元性回归模型与一元线性回归模型一样,在得到参数的最小二乘法的估计值 之后,也需要进行必要的检验与评价,以决定模型是否可以应用。 1、拟合程度的测定。
b0nbx11b2x2
1
21
2
xx
xxxxxx
1
与一元线性回归中可决系数r2相对应,多元线性回归中也有多重可决系数r2, 它是在因变量的总变化中,由回归方程解释的变动(回归平方和)所占的比重,
R2越大,回归方各对样本数据点拟合的程度越强,所有自变量与因变量的关系
越密切。计算公式为:
ˆ)(yR
(y)
ˆ)(yy
1
(y)
2
22
22
其中,
ˆ)y(yy
2
2
(b0yb1x1yb2x2y...bkxky)
(y)2y2
2.估计标准误差
1
(y)2 n
ˆ之间的标准误 估计标准误差,即因变量y的实际值与回归方程求出的估计值y
差,估计标准误差越小,回归方程拟合程度越程。
Sy
ˆ)(yynk1vk
Syy
2
其中,k为多元线性回归方程中的自变量的个数。
3.回归方程的显著性检验 回归方程的显著性检验,即检验整个回归方程的显著性,或者说评价所有自变 量与因变量的线性关系是否密切。能常采用F检验。根据给定的显著水平,自由度(k,nk1)查 F分布表,得到相应的临界值F, 若FF,则回归方程具有显著意义,回归效果显著;FF,则回归方程无显著意义,回归效果不显著。 4.回归系数的显著性检验
在一元线性回归中,回归系数显著性检验(t检验)与回归方程的显著性检验(F检验)是等价的,但在多元线性回归中,这个等价不成立。t检验是分别检验回 归模型中各个回归系数是否具有显著性,以便使模型中只保留那些对因变量有显 著影响的因素。检验时先计算统计量ti;然后根据给定的显著水平,自由度
nk1查t分布表,得临界值t 或 t,tt或t ,则回归系数i与 0 有
显著关异,反之,则与 0 无显著差异。 5.多重共线性判别
若某个回归系数的t检验通不过,可能是这个系数相对应的自变量对因变量 的影平不显著所致,此时,应从回归模型中剔除这个自变量,重新建立更为简单 的回归模型或更换自变量。也可能是自变量之间有共线性所致,此时应设法降低 共线性的影响。
多重共线性是指在多元线性回归方程中,自变量之彰有较强的线性关系,这 种关系若超过了因变量与自变量的线性关系,则回归模型的稳定性受到破坏,回 归系数估计不准确。需要指出的是,在多元回归模型中,多重共线性的难以避免 的,只要多重共线性不太严重就行了。判别多元线性回归方程是否存在严惩的多 重共线性,可分别计算每两个自变量之间的可决系数r2,若r2R2或接近于R2, 则应设法降低多重线性的影响。亦可计算自变量间的相关系数矩阵的特征值的条 件数k1/p(1为最大特征值,p为最小特征值),k1000,则自
变量间存在严重的多重共线性。降低多重共线性的办法主要是转换自变量的取 值,如变绝对数为相对数或平均数,或者更换其他的自变量。
(四)逐步回归
逐步回归(stepwise regression),在建立多元回归方程的过程中,按偏相 关系数的大小次序将自变量逐个引入方程,对引入方程中的每个自变量偏相关系 数进行统计检验,效应显著的自变量留在回归方程内,循此继续遴选下一个自变 量。如果效应不显著,停止引入新自变量。由于新自变量的引入,原已引入方程 中的自变量由于变量之间的相互作用其效应有可能变得不显著者,经统计检验确 证后要随时从方程中剔除,只保留效应显著的自变量。直至不再引入和剔除自变 量为止,从而得到最优的回归方程。
逐步回归分析时在考虑的全部自变量中按其对 y 的贡献程度大小,由大到小 地逐个引入回归方程,而对那些对 y 作用不显著的变量可能是中不被引入回归方 程。另外,已被引入回归方程的变量在引入新变量进行 F 检验后失去重要性时, 需要从回归方程中剔除出去。
Step 1 计算变量均值x1,x2,.....xn,y和差平方和 L11,L22L33,......,Lpp,Lyy记各自的 标准化变量为uj
xjxj
Ljj
,j1
,2,...,p,Up1
yyLyy
Step 2 计算x1,x2,...,xp,y 的相关系数矩阵 R0。
Step 3 设已经选上了 K 个变量:xi1,xi2,...,xik 且i1,i2,...ik 互不相同,R0经 过变换后为R(k)(rij(k))对 j1,2,3,....,k逐一计算标准化变量 uij 的偏回归平方
(k)
和 vij
(rij(,k()p1))2
r
(k)
ijij
(k)
,记V1(k)maxvij ,作 F 检验, 对给 定的显著性水平,
拒绝域为FF1(1,nk1) 。
Step 4 最 Step 3 循环,直至最终选上了t个变量xi1,xi2,...,xit,且i1,i2,...,it互不相同,R(0)经过变换后为R(t)(ri(jt)),则对应的回归方程为:
xikikxi1i1ˆy(k)(k)
ri1,(p1)...ri1,(p1), LyyLi1j1Likjk
ˆb0bi1xi1...bikxik。 通过代数运算可得y
三、实例分析
表一 本文所使用的指标与对应的变量
(一)主成分分析
1、环境污染指标分析
表二 环境污染指标
我们运用R软件对环境污染指标做主成分分析,结果如下:
Importance of components:
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Standard deviation 1.7643175 0.9911411 0.7977012 0.43488363 0.2817303 Proportion of Variance 0.6225632 0.1964722 0.1272654 0.03782475 0.0158744 Cumulative Proportion 0.6225632 0.8190354 0.9463008 0.98412560 1.0000000
Loadings:
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 X1 -0.167 0.960 -0.208 X2 -0.529 0.357 0.767 X3 -0.436 -0.756 0.481 X4 0.485 0.236 -0.496 -0.437 0.522 X5 0.517 0.143 0.219 0.758 0.298
在第三主成分累积贡献率达到94.63%,所以提取三个主成分比较合适。 主成分的组合模型公式如下:
环境污染F10.167X10.529X20.439X30.483X40.517X5 环境污染F20.96X10.263X40.143X5
环境污染F30.357X20.756X30.496X40.219X5
第一主成分中,工业废气排放量和废气二氧化硫排放总量是比较重要的指标。 第二主成分中,废水排放总量是比较重要的指标。 第三主成分中,垃圾产量是比较重要的指标。
2、环境治理指标
我们运用R软件对环境治理指标做主成分分析,结果如下:
Importance of components:
Comp.1 Comp.2 Comp.3 Comp.4 Standard deviation 1.8911507 0.57747618 0.27591006 0.118085167 Proportion of Variance 0.8941127 0.08336968 0.01903159 0.003486027 Cumulative Proportion 0.8941127 0.97748238 0.99651397 1.000000000
Loadings:
Comp.1 Comp.2 Comp.3 Comp.4 X6 -0.524 -0.141 -0.218 0.811 X7 -0.517 0.117 -0.686 -0.498 X8 -0.482 -0.677 0.467 -0.303 X9 -0.476 0.713 0.513
在第二主成分累积贡献率达到97.75%,所以提取两个主成分比较合适。 主成分的组合模型公式如下:
环境治理主成分的组合模型公式为:
环境治理F10.524X60.517X70.482X80.476X9 环境治理F20.141X60.117X70.686X80.713X9
(二)回归分析
利用Eviews软件,建立X1,X2,X3,X4,X5,X6,X7,X8,X9与Y的多元回归模型,结果如下:
从上面结果来看,模型总体显著,拟合优度高达99.95%,但存在多个变量系数未通过显著性检验。因此,猜测模型可能存在多重共线性。 为了验证猜想,输出变量系数的相关系数矩阵:
从结果中明显可以看出变量存在多重共线性。 下面运用逐步回归法来消除共线性对模型的影响。
分别建立X1,X2,X3,X4,X5,X6,X7,X8,X9与Y的一元回归模型
通过一元回归结果进行对比分析,依据调整后可决系数2最大原则,选取x6作为进入回归模型的第一个解释变量,形成一元回归模型。
以此类推,最后本案例保留的变量是x3,,x6,相应的回归结果为:
最后,逐步回归建立模型为Y465.68660.105839X332.3862X6
四、结论
逐步回归的模型给出了如下的方程:
Y465.68660.105839X332.3862X6
主成分中垃圾产量和环境保护投资
两个统计方式分别从两个侧面给出了分析,得出的这些指标都是至关重要的。
综上所述, 这些被提出来的指标都是应该得到重视的指标。我们由此对政府提出以下建议:应当加强水资源废弃排放的管理,给出严格的质量控制指标,不仅要质量达标, 排放的体积也要达标,要按照排放总量来给出标准, 不能仅仅只看浓度。严格惩罚违法排污的企业, 以儆效尤。并且应该加大植被的面积, 环境保护投资应该继续增加。