实验二 一元回归模型
【实验目的】
掌握一元线性、非线性回归模型的建模方法 【实验内容】
建立我国税收预测模型 【实验步骤】
【例1】建立我国税收预测模型。表1列出了我国1985-1998年间税收收入Y 和国内生产总值(GDP )x 的时间序列数据,请利用统计软件Eviews 建立一元线性回归模型。
一、建立工作文件
⒈菜单方式
在录入和分析数据之前,应先创建一个工作文件(Workfile )。启动Eviews 软件之后,在主菜单上依次点击File\New\Workfile(菜单选择方式如图1所示),将弹出一个对话框(如图2所示)。用户可以选择数据的时间频率(Frequency )、起始期和终止期。
图1 Eviews菜单方式创建工作文件示意图
图2 工作文件定义对话框
本例中选择时间频率为Annual (年度数据),在起始栏和终止栏分别输入相应的日期85和98。然后点击OK ,在Eviews 软件的主显示窗口将显示相应的工作文件窗口(如图3所示)。
图3 Eviews工作文件窗口
一个新建的工作文件窗口内只有2个对象(Object), 分别为c (系数向量)和resid (残差)。它们当前的取值分别是0和NA (空值)。可以通过鼠标左键双击对象名打开该对象查看其数据,也可以用相同的方法查看工作文件窗口中其它对象的数值。
⒉命令方式
还可以用输入命令的方式建立工作文件。在Eviews 软件的命令窗口中直接键入CREATE 命令,其格式为:
CREATE 时间频率类型 起始期 终止期
本例应为:CREATE A 85 98 二、输入数据
在Eviews 软件的命令窗口中键入数据输入/编辑命令:
DA TA Y X
此时将显示一个数组窗口(如图4所示),即可以输入每个变量的数值
图4 Eviews数组窗口
三、图形分析
借助图形分析可以直观地观察经济变量的变动规律和相关关系,以便合理地确定模型的数学形式。 ⒈趋势图分析
命令格式:PLOT 变量1 变量2 ……变量K 作用:⑴分析经济变量的发展变化趋势
⑵观察是否存在异常值 本例为:PLOT Y X ⒉相关图分析
命令格式:SCAT 变量1 变量2 作用:⑴观察变量之间的相关程度
⑵观察变量之间的相关类型,即为线性相关还是曲线相关,曲线相关时大致是哪
种类型的曲线
说明:⑴SCAT 命令中,第一个变量为横轴变量,一般取为解释变量;第二个变量为纵轴变量,一般取为被解释变量
⑵SCAT 命令每次只能显示两个变量之间的相关图,若模型中含有多个解释变
量,可以逐个进行分析
⑶通过改变图形的类型,可以将趋势图转变为相关图 本例为:SCA T Y
X
图5 税收与GDP 趋势图
图5、图6分别是我国税收与GDP 时间序列趋势图和相关图分析结果。两变量趋势图
分析结果显示,我国税收收入与GDP 二者存在差距逐渐增大的增长趋势。相关图分析显示,我国税收收入增长与GDP 密切相关,二者为非线性的曲线相关关系。
图6 税收与GDP 相关图
四 、估计线性回归模型
在数组窗口中点击Proc\Make Equation,如果不需要重新确定方程中的变量或调整样本区间,可以直接点击OK 进行估计。也可以在Eviews 主窗口中点击Quick\Estimate Equation,在弹出的方程设定框(图7)内输入模型:
Y C X 或 Y =C (
1) +C (2) *X
图7 方程设定对话框
还可以通过在Eviews 命令窗口中键入LS 命令来估计模型,其命令格式为:
LS 被解释变量 C 解释变量
系统将弹出一个窗口来显示有关估计结果(如图8所示)。因此,我国税收模型的估计式为:
ˆ=987. 54+0. 0946x y
这个估计结果表明,GDP 每增长1亿元,我国平均税收收入将增加0.09646亿元。
图8 我国税收预测模型的输出结果
五、估计非线性回归模型
由相关图分析可知,变量之间是非线性的曲线相关关系。因此,可初步将模型设定为指数函数模型、对数模型和二次函数模型并分别进行估计。
在Eviews 命令窗口中分别键入以下命令命令来估计模型:
双对数函数模型:LS log(Y) C log(X) 对数函数模型:LS Y C log(X) 指数函数模型:LS log(Y) C X 二次函数模型:LS Y C X X^2
还可以采取菜单方式,在上述已经估计过的线性方程窗口中点击Estimate 项,然后在弹出的方程定义窗口中依次输入上述模型(方法通线性方程的估计),其估计结果显示如图9、图10、图11图、12所示。
ˆ=1. 2704+0. 6823ln x 双对数模型:ln y
(3.8305) (21.0487)
R 2=0. 9736 2=0. 971 4 F =443. 05
对数模型:
ˆ=-26163y . 32+2985. 92ln x
(-8.3066) (9.6999)
R 2=0. 8869 2=0. 877 5 F =94. 0875
ˆ=7. 5086+2. 07*10x 指数模型:ln y
(231.7463) (27.2685)
-5
R 2=0. 9841 2=0. 982 8 F =743. 57
ˆ=1645二次函数模型:y . 7+0. 0468x +5. 58*10x
(7.4918) (3.3422) (3.4806)
-72
R 2=0. 9918 2=0. 990 3 F =661. 78
图9 双对数模型回归结果
图10 对数模型回归结果
图11 指数模型回归结果
图12 二次函数模型回归结果
六、模型比较
四个模型的经济意义都比较合理,解释变量也都通过了T 检验。但是从模型的拟合优度来看,二次函数模型的值最大,其次为指数函数模型。因此,对这两个模型再做进一步比较。
在回归方程(以二次函数模型为例)窗口中点击View\Actual,Fitted,Residual\ Actual,Fitted,Residual Table(如图13), 可以得到相应的残差分布表。
2
图13 回归方程残差分析菜单
上述两个回归模型的残差分别表分别如下(图14、图15)。比较两表可以发现,虽然二次函数模型总拟合误差较小,但其近期误差却比指数函数模型大。所以,如果所建立的模型是用于经济预测,则指数函数模型更加适合。
图14 二次函数回归模型残差分别表
图15 指数函数模型残差分布表
七、回归方程显示:方程窗口点击view-Representations
以三种方式进行显示,如下图
八、因变量的实际值、拟合值和残差值的显示:在方程窗口点击view/Actual,Fitted,Residdual/
Actual,Fitted,Residdual Table
在方程窗口点击
view/Actual,Fitted,Residdual/ Actual,Fitted,Residdual Graph
九、预测
(1)预测各样本点的拟合值:在方程窗口点击
Proc/Forecast
点击
OK
实线为预测值,红色虚线为95%的置信区域;
右侧为对预测的评价:一般认为,MAPE 值小于10,模型预测精度较高;Theil IC总是介于0和1之间,其数值越小说明拟合值和真实值的差异越小,模型预测精度越高;BP+VP+CP=1,当CP 值较大时,而BP 和VP 较小时,说明模型的预测比较理想。
(2)预测样本外一点的值:
首先需要扩大样本的区间范围:双击工作文件窗口中的Range ,在弹出对话框中将1998改为1999,点击OK
选择Yes
然后到工作文件窗口,打开X 序列,输入解释变量1999年的值
11
再在方程窗口
Proc/Forecast
需要提交一份实验报告:完成教材59页第12题
12
实验二 一元回归模型
【实验目的】
掌握一元线性、非线性回归模型的建模方法 【实验内容】
建立我国税收预测模型 【实验步骤】
【例1】建立我国税收预测模型。表1列出了我国1985-1998年间税收收入Y 和国内生产总值(GDP )x 的时间序列数据,请利用统计软件Eviews 建立一元线性回归模型。
一、建立工作文件
⒈菜单方式
在录入和分析数据之前,应先创建一个工作文件(Workfile )。启动Eviews 软件之后,在主菜单上依次点击File\New\Workfile(菜单选择方式如图1所示),将弹出一个对话框(如图2所示)。用户可以选择数据的时间频率(Frequency )、起始期和终止期。
图1 Eviews菜单方式创建工作文件示意图
图2 工作文件定义对话框
本例中选择时间频率为Annual (年度数据),在起始栏和终止栏分别输入相应的日期85和98。然后点击OK ,在Eviews 软件的主显示窗口将显示相应的工作文件窗口(如图3所示)。
图3 Eviews工作文件窗口
一个新建的工作文件窗口内只有2个对象(Object), 分别为c (系数向量)和resid (残差)。它们当前的取值分别是0和NA (空值)。可以通过鼠标左键双击对象名打开该对象查看其数据,也可以用相同的方法查看工作文件窗口中其它对象的数值。
⒉命令方式
还可以用输入命令的方式建立工作文件。在Eviews 软件的命令窗口中直接键入CREATE 命令,其格式为:
CREATE 时间频率类型 起始期 终止期
本例应为:CREATE A 85 98 二、输入数据
在Eviews 软件的命令窗口中键入数据输入/编辑命令:
DA TA Y X
此时将显示一个数组窗口(如图4所示),即可以输入每个变量的数值
图4 Eviews数组窗口
三、图形分析
借助图形分析可以直观地观察经济变量的变动规律和相关关系,以便合理地确定模型的数学形式。 ⒈趋势图分析
命令格式:PLOT 变量1 变量2 ……变量K 作用:⑴分析经济变量的发展变化趋势
⑵观察是否存在异常值 本例为:PLOT Y X ⒉相关图分析
命令格式:SCAT 变量1 变量2 作用:⑴观察变量之间的相关程度
⑵观察变量之间的相关类型,即为线性相关还是曲线相关,曲线相关时大致是哪
种类型的曲线
说明:⑴SCAT 命令中,第一个变量为横轴变量,一般取为解释变量;第二个变量为纵轴变量,一般取为被解释变量
⑵SCAT 命令每次只能显示两个变量之间的相关图,若模型中含有多个解释变
量,可以逐个进行分析
⑶通过改变图形的类型,可以将趋势图转变为相关图 本例为:SCA T Y
X
图5 税收与GDP 趋势图
图5、图6分别是我国税收与GDP 时间序列趋势图和相关图分析结果。两变量趋势图
分析结果显示,我国税收收入与GDP 二者存在差距逐渐增大的增长趋势。相关图分析显示,我国税收收入增长与GDP 密切相关,二者为非线性的曲线相关关系。
图6 税收与GDP 相关图
四 、估计线性回归模型
在数组窗口中点击Proc\Make Equation,如果不需要重新确定方程中的变量或调整样本区间,可以直接点击OK 进行估计。也可以在Eviews 主窗口中点击Quick\Estimate Equation,在弹出的方程设定框(图7)内输入模型:
Y C X 或 Y =C (
1) +C (2) *X
图7 方程设定对话框
还可以通过在Eviews 命令窗口中键入LS 命令来估计模型,其命令格式为:
LS 被解释变量 C 解释变量
系统将弹出一个窗口来显示有关估计结果(如图8所示)。因此,我国税收模型的估计式为:
ˆ=987. 54+0. 0946x y
这个估计结果表明,GDP 每增长1亿元,我国平均税收收入将增加0.09646亿元。
图8 我国税收预测模型的输出结果
五、估计非线性回归模型
由相关图分析可知,变量之间是非线性的曲线相关关系。因此,可初步将模型设定为指数函数模型、对数模型和二次函数模型并分别进行估计。
在Eviews 命令窗口中分别键入以下命令命令来估计模型:
双对数函数模型:LS log(Y) C log(X) 对数函数模型:LS Y C log(X) 指数函数模型:LS log(Y) C X 二次函数模型:LS Y C X X^2
还可以采取菜单方式,在上述已经估计过的线性方程窗口中点击Estimate 项,然后在弹出的方程定义窗口中依次输入上述模型(方法通线性方程的估计),其估计结果显示如图9、图10、图11图、12所示。
ˆ=1. 2704+0. 6823ln x 双对数模型:ln y
(3.8305) (21.0487)
R 2=0. 9736 2=0. 971 4 F =443. 05
对数模型:
ˆ=-26163y . 32+2985. 92ln x
(-8.3066) (9.6999)
R 2=0. 8869 2=0. 877 5 F =94. 0875
ˆ=7. 5086+2. 07*10x 指数模型:ln y
(231.7463) (27.2685)
-5
R 2=0. 9841 2=0. 982 8 F =743. 57
ˆ=1645二次函数模型:y . 7+0. 0468x +5. 58*10x
(7.4918) (3.3422) (3.4806)
-72
R 2=0. 9918 2=0. 990 3 F =661. 78
图9 双对数模型回归结果
图10 对数模型回归结果
图11 指数模型回归结果
图12 二次函数模型回归结果
六、模型比较
四个模型的经济意义都比较合理,解释变量也都通过了T 检验。但是从模型的拟合优度来看,二次函数模型的值最大,其次为指数函数模型。因此,对这两个模型再做进一步比较。
在回归方程(以二次函数模型为例)窗口中点击View\Actual,Fitted,Residual\ Actual,Fitted,Residual Table(如图13), 可以得到相应的残差分布表。
2
图13 回归方程残差分析菜单
上述两个回归模型的残差分别表分别如下(图14、图15)。比较两表可以发现,虽然二次函数模型总拟合误差较小,但其近期误差却比指数函数模型大。所以,如果所建立的模型是用于经济预测,则指数函数模型更加适合。
图14 二次函数回归模型残差分别表
图15 指数函数模型残差分布表
七、回归方程显示:方程窗口点击view-Representations
以三种方式进行显示,如下图
八、因变量的实际值、拟合值和残差值的显示:在方程窗口点击view/Actual,Fitted,Residdual/
Actual,Fitted,Residdual Table
在方程窗口点击
view/Actual,Fitted,Residdual/ Actual,Fitted,Residdual Graph
九、预测
(1)预测各样本点的拟合值:在方程窗口点击
Proc/Forecast
点击
OK
实线为预测值,红色虚线为95%的置信区域;
右侧为对预测的评价:一般认为,MAPE 值小于10,模型预测精度较高;Theil IC总是介于0和1之间,其数值越小说明拟合值和真实值的差异越小,模型预测精度越高;BP+VP+CP=1,当CP 值较大时,而BP 和VP 较小时,说明模型的预测比较理想。
(2)预测样本外一点的值:
首先需要扩大样本的区间范围:双击工作文件窗口中的Range ,在弹出对话框中将1998改为1999,点击OK
选择Yes
然后到工作文件窗口,打开X 序列,输入解释变量1999年的值
11
再在方程窗口
Proc/Forecast
需要提交一份实验报告:完成教材59页第12题
12