1. 某厂生产某产品,其成本费用(Y,万元)与劳动量(x1,千小时)及原材料价格(x2,万元/吨)有密切关系。下表列出了2002年1月~2003年6月的成本、劳动量、原材料价格资料。
要求: (1)建立二元线性回归方程,对回归系数1、2进行合理的解释;
(2)对所建立的回归方程进行显著性检验; (3)假定2003年7月份劳动量X1=1.19千小时,X2=2.31万元/吨,试预测2003
年7月份的成本费用(区间)。
(一)采用图形界面方法进行分析: sas操作步骤:
(1)建立二元线性回归方程,对回归系数1、2进行合理的解释:
首先对该产品的成本费用(Y,万元)与劳动量(x1,千小时)及原材料价格(x2,万元/吨)做相关性分析,其相关系数矩阵如下:
从以上结果可以看出:因变量与两个自变量之间又很强的相关性,故可以做回归分析。
以下为建立线性回归模型的结果:
从而线性回归模型可写为:
y0.472300.60237x12.08348x2 (1)
把数据标准化之后的模型为:
y0.19467x10.67836x2 (2)
对于模型一系数的解释 :x1前面的系数表示,在原材料价格等其他变量不变的
情况下,劳动量每增加一千小时,则该产品的成本平均费用平均增加0.60237,同理x2前的系数表示当劳动量等其他变量不变的情况下,原料价格每增加一万元,该产品的成本费用平均增加2.08348. 下列为估计的值的置信区间:
(2)对所建立的回归方程进行显著性检验; 得出结果如下:
从结果来看:方程的F检验P值为0.0003,小于显著性水平0.05,该线性回归方程是显著的,同时可以看出方程的绝对相关系数和调整后的绝对相关系数不是太大,所以该线性方程拟合的不是非常好,还可以尝试用非线性方程去拟合这些数据之间的关系。
对于方程的检验可以看出,方程系数中X2不显著,所以利用逐步回归法进行回归,其结果如下:
(3)假定2003年7月份劳动量X1=1.19千小时,X2=2.31万元/吨,试预测2003年7月份的成本费用(区间)。
从预测结果来看,当份劳动量X1=1.19千小时,X2=2.31万元/吨时,2003年7月份的成本费用为5.05736138万元。 (二)使用程序方法进行分析
程序为:proc reg data
=sasuser.zuoye5;
model y=x1 x2; run;
其结果为:
2. 某元件的加工量与固定资产价值有关,一般认为:固定资产X(固定资产,万元)越高
要求:
(1)做散点图;
(2)该元件的产量与固定资产之间的线性相关关系r; (3)建立一元线性回归模型,解释模型、检验模型。
(一)采用图形界面方法进行分析: sas操作步骤: (1)做散点图:
程序为:proc plot data=sasuser.qiye;
plot y*x="#"; title
"
散点图"; run;
(2)该元件的产量与固定资产之间的线性相关关系r;
由于一元线性回归中的相形相关系数与决定相关系数的关系为:r2=R2 ,所以有r=0.6912=0.831384. 利用图形界面法得出的结果:
利用程序为:
proc corr data=sasuser.qiye;
var x y; freq f; run;
(3)建立一元线性回归模型,解释模型、检验模型。
x 模型为: y21.962620.80374
模型检验:从结果来看,方程式显著的,但是决定系数和调整的决定系数不是太大,所以方程拟合的不是太理想。方程的系数检验中截据项是不显著的,但他对于问题分析不是主要矛盾,对于截据项有很多争议,但多数认为不去截据项利于问题的分析,并且要结合实际情况。
模型解释:其中截据项表示当固定资产为零是元件的产量为负值,这个不符合实际意义,从而模型应该设为无截据项,其结果为:
x 方程变为:y0.76384
从方程检验结果看,方程拟合程度非常高,并且系数都非常显著。
方程中的系数表示当固定资产每增加一万元,产量增加0.76384个。 (二)使用程序方法进行分析
proc reg data=sasuser.qiye;
model y=x; run;quit;
结果为:
3. 在博士生入学考试中随机抽取12名被录取考生和12名未被录取考生的成绩,情况下表
所示。其中用1表示被录取,用0表示没有被录取,面试成绩按照5分制打分,笔试成绩
sas操作步骤:
1.利用图形界面统计出来的拟合的结果如下:
方程的检验利用的AIC准则,SC,以及-2LOGL检验方法,其数值比较小时方程拟合较好,对于方程系数的显著性检验利用三种方法,其p值都是小于0.05的,认为方程是有效的。
e23.85161.9363intervieww0.0927writeen
p(event)p(y1/x)
1e23.85161.9363intervieww0.0927writeen
-23.8516表示在自然状态下,录取与不录取的比例的自然对数,1.9363表示在该考试中,面试对于考试录取作用的程度。同理可以解释0.0927为考试中笔试对于录取所起的作用。可见该考试比较重视面试。
Odds ratio estimates给出的是优势比点估计和根据Word统计量作出的95%的置信区间,点估计表明面试和笔试对于是否入取的影响程度,其中面试影响较大一些。
最后的结果是关于量度预测概率与观察到的结果之间的关联性的指标,和谐的数据百分比为91.7%,不和谐的百分数为6.9%,打结数百分数为1.4%,四个关联性的指标表示预测概率与反应变量之间的关联程度,他们接近于1,说明模型的预测能力较强。
(二)使用程序方法进行分析
proc logistic data=sasuser.chengji; model access=interview written; run;
4. 数据集data8_04中存放着120个不同年龄和收入(两水平:中低收入、高收入)对是否需要加强社会保险的观点的数据。年龄是连续变量,收入是中低和高(分别用1和2,或L和H表示)两个水平的定性变量,而变量观点则为包含加强社会保险(用1表示)和不必加强(用0表示)两个水平的定性变量。问究竟年龄和收入对观点有没有影响,有什么样的影响,以及是否可以用模型表示出这个关系。
(一)采用图形界面方法进行分析: sas操作步骤:
利用菜单方式结果如下所示:
方程检验以及回归系数检验都是显著的。和谐数据的百分数以及预测概率与反应变量之间的关联程度比较高,说明模型的预测能力比较强。
结果显示年龄和收入对于认为是否要加强社会保险意识有影响,收入高的人这种意识较强,年龄对于社会保险意识的影响程度响度较小。
其中999.999表示收入高的人群认为要加强社会保险意识的比例是收入低的有这种观点的人的999.999倍。二年龄前面的系数表示年龄对于社会保险观点的影响程度为1.809.
(二)使用程序方法进行分析
程序为:proc logistic data=tmplib.data8_04;
class
income;
model opinion=income age;
run;
5. 根据第二题的数据,用Proc NLin 过程完成建模。 (一)使用程序方法进行分析
从散点图来看,两个变量的关系可以用二次线性函数拟合。
程序如下:
proc nlin data=sasuser.qiye;
model y=a+b*x**2;
parms a=1 b=1;
run;
结果为:
从结果可以看出方程的方差分析结果以及参数估计的结果。
可见方程是显著的。
非线性方程为:
y195.60.000652x^2
6. Arrow,Chenery, Minhas 和Solow提出经济学中的CES产量函数,它是因为其不变置换伸缩性(Constant Elasticity of Substitution)的特征而命名的。设A是效率参数(负数),D是分布或因子分配参数,R是替代参数(负数)。数据见:data8_06。
拟合模型:LOGQB0A*LOG(D*LR(1D)*KR)
(一)使用程序方法进行分析
proc nlin data=tmplib.data8_06;
model logq=b0+a*log(d*l**r+(1-d)*k**r);
parms b0=2 a=-1 d=0.5 r=-2;
run;
程序进行14次迭代后得出的拟合方程式显著的,并且误差平方和从56.3763减小到1.7610,满足收敛条件。其方程式为:
logQ0.12450.3363log(0.3367L^3.01120.6633K^3.0112)
1. 某厂生产某产品,其成本费用(Y,万元)与劳动量(x1,千小时)及原材料价格(x2,万元/吨)有密切关系。下表列出了2002年1月~2003年6月的成本、劳动量、原材料价格资料。
要求: (1)建立二元线性回归方程,对回归系数1、2进行合理的解释;
(2)对所建立的回归方程进行显著性检验; (3)假定2003年7月份劳动量X1=1.19千小时,X2=2.31万元/吨,试预测2003
年7月份的成本费用(区间)。
(一)采用图形界面方法进行分析: sas操作步骤:
(1)建立二元线性回归方程,对回归系数1、2进行合理的解释:
首先对该产品的成本费用(Y,万元)与劳动量(x1,千小时)及原材料价格(x2,万元/吨)做相关性分析,其相关系数矩阵如下:
从以上结果可以看出:因变量与两个自变量之间又很强的相关性,故可以做回归分析。
以下为建立线性回归模型的结果:
从而线性回归模型可写为:
y0.472300.60237x12.08348x2 (1)
把数据标准化之后的模型为:
y0.19467x10.67836x2 (2)
对于模型一系数的解释 :x1前面的系数表示,在原材料价格等其他变量不变的
情况下,劳动量每增加一千小时,则该产品的成本平均费用平均增加0.60237,同理x2前的系数表示当劳动量等其他变量不变的情况下,原料价格每增加一万元,该产品的成本费用平均增加2.08348. 下列为估计的值的置信区间:
(2)对所建立的回归方程进行显著性检验; 得出结果如下:
从结果来看:方程的F检验P值为0.0003,小于显著性水平0.05,该线性回归方程是显著的,同时可以看出方程的绝对相关系数和调整后的绝对相关系数不是太大,所以该线性方程拟合的不是非常好,还可以尝试用非线性方程去拟合这些数据之间的关系。
对于方程的检验可以看出,方程系数中X2不显著,所以利用逐步回归法进行回归,其结果如下:
(3)假定2003年7月份劳动量X1=1.19千小时,X2=2.31万元/吨,试预测2003年7月份的成本费用(区间)。
从预测结果来看,当份劳动量X1=1.19千小时,X2=2.31万元/吨时,2003年7月份的成本费用为5.05736138万元。 (二)使用程序方法进行分析
程序为:proc reg data
=sasuser.zuoye5;
model y=x1 x2; run;
其结果为:
2. 某元件的加工量与固定资产价值有关,一般认为:固定资产X(固定资产,万元)越高
要求:
(1)做散点图;
(2)该元件的产量与固定资产之间的线性相关关系r; (3)建立一元线性回归模型,解释模型、检验模型。
(一)采用图形界面方法进行分析: sas操作步骤: (1)做散点图:
程序为:proc plot data=sasuser.qiye;
plot y*x="#"; title
"
散点图"; run;
(2)该元件的产量与固定资产之间的线性相关关系r;
由于一元线性回归中的相形相关系数与决定相关系数的关系为:r2=R2 ,所以有r=0.6912=0.831384. 利用图形界面法得出的结果:
利用程序为:
proc corr data=sasuser.qiye;
var x y; freq f; run;
(3)建立一元线性回归模型,解释模型、检验模型。
x 模型为: y21.962620.80374
模型检验:从结果来看,方程式显著的,但是决定系数和调整的决定系数不是太大,所以方程拟合的不是太理想。方程的系数检验中截据项是不显著的,但他对于问题分析不是主要矛盾,对于截据项有很多争议,但多数认为不去截据项利于问题的分析,并且要结合实际情况。
模型解释:其中截据项表示当固定资产为零是元件的产量为负值,这个不符合实际意义,从而模型应该设为无截据项,其结果为:
x 方程变为:y0.76384
从方程检验结果看,方程拟合程度非常高,并且系数都非常显著。
方程中的系数表示当固定资产每增加一万元,产量增加0.76384个。 (二)使用程序方法进行分析
proc reg data=sasuser.qiye;
model y=x; run;quit;
结果为:
3. 在博士生入学考试中随机抽取12名被录取考生和12名未被录取考生的成绩,情况下表
所示。其中用1表示被录取,用0表示没有被录取,面试成绩按照5分制打分,笔试成绩
sas操作步骤:
1.利用图形界面统计出来的拟合的结果如下:
方程的检验利用的AIC准则,SC,以及-2LOGL检验方法,其数值比较小时方程拟合较好,对于方程系数的显著性检验利用三种方法,其p值都是小于0.05的,认为方程是有效的。
e23.85161.9363intervieww0.0927writeen
p(event)p(y1/x)
1e23.85161.9363intervieww0.0927writeen
-23.8516表示在自然状态下,录取与不录取的比例的自然对数,1.9363表示在该考试中,面试对于考试录取作用的程度。同理可以解释0.0927为考试中笔试对于录取所起的作用。可见该考试比较重视面试。
Odds ratio estimates给出的是优势比点估计和根据Word统计量作出的95%的置信区间,点估计表明面试和笔试对于是否入取的影响程度,其中面试影响较大一些。
最后的结果是关于量度预测概率与观察到的结果之间的关联性的指标,和谐的数据百分比为91.7%,不和谐的百分数为6.9%,打结数百分数为1.4%,四个关联性的指标表示预测概率与反应变量之间的关联程度,他们接近于1,说明模型的预测能力较强。
(二)使用程序方法进行分析
proc logistic data=sasuser.chengji; model access=interview written; run;
4. 数据集data8_04中存放着120个不同年龄和收入(两水平:中低收入、高收入)对是否需要加强社会保险的观点的数据。年龄是连续变量,收入是中低和高(分别用1和2,或L和H表示)两个水平的定性变量,而变量观点则为包含加强社会保险(用1表示)和不必加强(用0表示)两个水平的定性变量。问究竟年龄和收入对观点有没有影响,有什么样的影响,以及是否可以用模型表示出这个关系。
(一)采用图形界面方法进行分析: sas操作步骤:
利用菜单方式结果如下所示:
方程检验以及回归系数检验都是显著的。和谐数据的百分数以及预测概率与反应变量之间的关联程度比较高,说明模型的预测能力比较强。
结果显示年龄和收入对于认为是否要加强社会保险意识有影响,收入高的人这种意识较强,年龄对于社会保险意识的影响程度响度较小。
其中999.999表示收入高的人群认为要加强社会保险意识的比例是收入低的有这种观点的人的999.999倍。二年龄前面的系数表示年龄对于社会保险观点的影响程度为1.809.
(二)使用程序方法进行分析
程序为:proc logistic data=tmplib.data8_04;
class
income;
model opinion=income age;
run;
5. 根据第二题的数据,用Proc NLin 过程完成建模。 (一)使用程序方法进行分析
从散点图来看,两个变量的关系可以用二次线性函数拟合。
程序如下:
proc nlin data=sasuser.qiye;
model y=a+b*x**2;
parms a=1 b=1;
run;
结果为:
从结果可以看出方程的方差分析结果以及参数估计的结果。
可见方程是显著的。
非线性方程为:
y195.60.000652x^2
6. Arrow,Chenery, Minhas 和Solow提出经济学中的CES产量函数,它是因为其不变置换伸缩性(Constant Elasticity of Substitution)的特征而命名的。设A是效率参数(负数),D是分布或因子分配参数,R是替代参数(负数)。数据见:data8_06。
拟合模型:LOGQB0A*LOG(D*LR(1D)*KR)
(一)使用程序方法进行分析
proc nlin data=tmplib.data8_06;
model logq=b0+a*log(d*l**r+(1-d)*k**r);
parms b0=2 a=-1 d=0.5 r=-2;
run;
程序进行14次迭代后得出的拟合方程式显著的,并且误差平方和从56.3763减小到1.7610,满足收敛条件。其方程式为:
logQ0.12450.3363log(0.3367L^3.01120.6633K^3.0112)