第39卷第7期
2OO
哈尔滨工业大学学报
JOURNALOFHARBININS711TUTEOFTECHNOLOGY
VoL39No.7
7年7月
Jul.2007
个人信用评估的Logistic—RBF组合模型
姜明辉1,谢行恒2,王树林1,温
潇3
(1.哈尔滨工业大学管理学院,哈尔滨15000l,E-mail:jiangIIlh@cast.cn;2.宁波工程学院,浙江宁波315016;
3.清华大学人文社会科学院国际问题研究所,北京100084))
摘要:针对个人信用评估中单一模型存在的不足,提出了利用组合预测模型进行个人信孀评估的方法.基于不同单一模型在个人信用评估中所体现的优势,选择具有代表性的b画stic回归和径向基函数神经网络方法,建立了2种单一评估模型,在此基础上构建了基于二者的组合模型.利用某商业银行的数据进行2类模式的分类,应用结果表明,组合模型有效地提高了预测的精确性和模型的稳健性,对于商业银行控制消费信贷风险具有更好的适用性.
关键词:IJo矛stic回归;神经网络;组合预测;个人信用评估中图分类号:F224。0
文献标识码:A
文章编号:0367—6234(2007)07一1128一03
Pe瑙onalcreditscoringb嬲ed
on
Lo酉stic
andRBF
c伽bined
model
JIANGMing.huil,XIEXing—hen92,WANGShu—linl,WENXia03
(I.schd
of
Man89eH舢t。HarbinInstitIlte《Techmlo盯,mlrbin15000l,China,E・Ⅱ础:ji锄gwh@cast.cn;2.NingboTechn010盱,Ningbo315016,China;3.ImIitIlteofInterati哪alStutliessch砌ofH咖瑚ities蚰dSocial
sciences,Tsinghua
University0f
Uni煳ity,B喇iflg
100084,Chi腿)
Ab鼬阻ct:AiIIling
at
theinsumcienciesof
sindeIIlodelsinpersonalBased
on
cred“sc嘶ng,this
theadvantagesof
paperpresents
a
meth—
odforpersonalcreditscoringbyusingcombiningforecast.single
method,thispa—
perchosetypicalLogisticregressionandRBFneuralnetworktoconstmcttwoted
a
sin尊e
modelsaJldthenconstllJc-
one
combiningforecastmodel.Usingtheconstlllctedmodels
to
elassify
theconsumercreditdata{}om
commercialbank,theapplicationresultindicatesthatthecombiningforecastmodelincreasestheaccuracyef-fectively
as
wellasⅡlodel’sstabilitywhichpresentsmore印plicable
foreommercialbanks
to
keepawayf而m
consumercreditrisks.Key
words:bgisticregression;neuralnetwork;combinedforecasting;personalcreditscoring
个人信用评估是通过建立数学模型对未来申请人的信用行为进行预测,其预测精度直接关系个人信贷的风险.个人信用评估判别方法有非线性方法和线性方法,在预测精度、稳健性和解释性等方面有着各自的优点.但每种单一方法在应用当中都存在着一些缺点,比如单一模型或是缺少精确度,或是缺少稳健性,或是模型本身或结果不能得到很好的解释等,这些都会给实际操作带来很大的不便和风险.
收稿日期:2005一09一19.
组合预测模型是建立在其他单个模型的基础上的一种组合方法,能综合不同方法的优点,提高了模型的精确度和稳健性,使模型有条件并且适合于个人信用评估问题.本文采用加权组合的方法,选择单一模型中预测效果较好的神经网络与b辱stie回归方法,构建组合预测模型并应用于我国的个人信用评估中.
1
指标与样本的选取
选取具有代表性的10个指标,并对定性指标
基金项目:哈尔滨工业大学技术・政策・管理(TPM)国家哲学
社科创新基地资助项目(HTcsR061D6),
作者简介:姜明辉(1967一),男,博士,副教授.
根据其在实际工作中对个人信用评估的影响程度,对每个属性值赋予不同的数值型的值,见表I.但考虑到神经网络只能处理数值型变量,同
第6期姜明辉,等:个人信用评估的Lo西stic—RBF组合模型
1
时为了提高网络训练的效率,本文将定性指标和
定量指标进行定量化和归一化处理.
057个样本并分为两组:一组529个作为预测样
本,用于模型的估计;另一组528个作为确认样本,用于对模型进行检验.
通过最小一最大规范化方法对原始数据中的
定性指标进行线性变换,使之在区间[0,1]内,即
F。2画商,
x口一min
xg
J
』
2模型的建立
2.1
k嘻slie回归模型
LDgistic概率函数可以表示为
i=1,2,…,10J=l,2,…,n.
其中:置,为第i个指标第J.个样本的原属性值,x’“为第i个指标第_『个样本的新属性值,min瓦为在第i个指标中第歹个样本属性值的最小值,m9x为在第i个指标中所有样本属性值的最大值.
衰l输入、输出变量的属性指标及其赋值
x;,
.,,.,一....一————l————
P一【1+exp(一∑6i戈i)】‘
使等式表达自变量的线性形式,进行转换得
k(南】,2酗孙
本文将是否获得贷款),与戈i所表示的指标变
量之间通过姨(给定菇i条件下y=1的概率)发生
关系.建立回归模型方程为
ln(群寿】=风幅"胁+,.一,堆%
通过SPSS软件¨1采用的假定参数为基础做
似然比概率检验向前逐步变量选择(Forwardditional)方法,得到回归方程为
con-
ln[惫l=o.69l+0.713并,一1.532”
1.797省5—4.61×10—6搿6.
模型的样本决定系数为0.767,同时通过了Wald检验和系数显著性检验.2.2径向基函数神经网络
径向基函数(RBF)神经网络是具有单隐层的3层前馈网络,能以任意精度逼近任意连续函数,
具有结构自适应确定、输出值与初始权值无关的
表1中“年龄”、“月均收入”、“贷款金额”、“贷款期限”4个指标的属性值为数值型数据,且其样本值近似于正态分布.因此用正态分布函数
特性.RBF在逼近能力,分类能力和训练速度方面效果较好昨J.
径向基函数神经网络由3层组成,其结构见图l,隐含层采用高斯函数为激励函数,以隐层每一
个神经元与输入层相连的权值向量协1i和输入矢量矿之间的距离与阈值6li的乘积作为输入,即
对这些指标的属性值进行转换,使其分布在区间
(0,1)内.正态分布概率密度函数的表达式为
出)2志唧(一%笋),
一∞<戈<+∞.
群=^/∑(彬1且一劈)2×61。.
其中:戈9表示第譬个输入向量∞1.输出为
r;=exp(一(后:)2)=
标准正态分布函数为
出)=[。去唧(一抄,一““叭
其中:肛,盯为常数,简记作x一Ⅳ(肛,盯2),转换成标准正态分布,然后借用Excel标准正态分布函数,求出新属性值.
为保证数据的代表性,以某商业银行为例,在该商业银行个人信贷系统中选取数据时,使),=0和y=1的样本抽取比例为1:1,最终随机抽取
输出层的激励函数为纯线性函数,输出值为
唧垤丽丽】・
广=∑ri×加2i.
i=l
利用Matlab软件,由于spread为RBF的分
布密度,Spread越大,函数越平滑,选取spread的值为3,网络缺省值为1.5,由于RBF网络在建函
哈尔滨工业大学学报
第39卷
数网络时本身就是训练,因此无需提供训练函数,只要给出误差目标值和spread的值,网络就会自动训练,以使网络性能达到最优.
Ripley通过对神经网络和线性评分方法的比较研究,得出了在评价优良贷款方面,逻辑回归和神经网络表现差不多,但对不良贷款的鉴别上,神经网络明显优于逻辑回归Hj.结果显示,神经网络的精确性低于Logistic回归,这与所选取的样本对不同预测模型适用性差异有关,但也到了很高的精度,正确率为92.42%。
3
预测结果与分析
在本文的2种单一模型中,利用sPss和Mat-
lab软件分别将529个训练样本根据一定方法和
步骤输入,得出估计模型,用528个检验样本代入
模型,用来测试模型的精确性与稳健性,然后将得出的结果进行加权组合,其组合权重分别为形.=0.125,职=0.875.预测的准确率与误判率见表2.
表2
3种个人信用评估方法预测精度的比较
图lRBF网络结构
从表2的分析数据中可以看出:从3种模型的总体准确率来看,精度从高到低依次为组合预
A
2.3组合预测模型
采甩2种方法的组合,设y为组合预测对象,yl
^
测模型,bgist沁回归,RBF神经网络,组合模型的精确度明显高于其他2个模型.由于在评估中具有2类误判率,第1类误判率是将良好贷款误判为不赛贷款,第2类误判率是将不良贷款误判为良好贷款,显然后者会给银行造成更大的损失,因
此,第2类误判率显得相对重要,在得出的结果中,加权组合模型的第l类误判率和第2类误判率都要低于其他2个模型,尤其是第2类误判率降低的尤为明显,大大提高了个人信用评估的准
和砭为两种不同的预测方法,组合预测模型可表示为
A
,
A^
y=“形y:l十职E.
其中:肜,和耽分剐为l,。和y2在模型中的权重,需要满足职+职=1.
^
n
^
模型或的误差平方和为e;=∑(或。一y。)2,
t=I
^
£=l,2.组合模型y的误差平方和为82=
确性,减少了银行因提供贷款所带来的风险.基于
上述分析可以得出:加权组合预测作为个人信用评估方法,在总体准确率和2类误判率上均较之单一模型更具优越性.
∑(职e“一职e:。)2,n为预测对象的预测值数.当
‘=l
^
y误差平方和达到最小时,彤、%为最优解,即组合模型的精确性和稳健性度量值可表示为
e2=∑(孵e;+2形。耽e而+暖e;).
因此得到数学规划"o为
参考文献:
[1]郭志刚.社会统计分析方法一sPss软件应用[M].
北京:中国人民大学出版社,2001.[2]
闻新,周露.MATLAB神经网络应用设计[M].北京:科学出版社,2001.
[3]
飞思科技产品研发中心.神经网络理论与MAT—LAB7实现[M].北京:电子工业出版社,2005.[4]
ENAcHED,BONNEtI’.Analyzingcreditriskdata:a
mine2=暇e;+2职职eIe2+暖e;,
职+职=1,
形I≥0,
耽≥0.
comp耐sontree明alysis
of
kg枷c
discrimination,
classification
andfeed—fonvard
ne附orks[J].compu—
∑P;。一∑e渤
孵=1一孵———垒—三—当I兰兰一’∑e;;+∑e;。一2∑e渤
哪,
2
ta£io玎a1&at渐cs,1997(】2):293—310.
[5]唐晓静,杨桂元.组合预测系数的确定方法[J].财
贸研究,1994(6):6l一63.
,Ⅳ+
(编辑魏希柱)
个人信用评估的Logistic-RBF组合模型
作者:作者单位:
姜明辉, 谢行恒, 王树林, 温潇, JIANG Ming-hui, XIE Xing-heng, WANG Shu-lin, WEN Xiao
姜明辉,王树林,JIANG Ming-hui,WANG Shu-lin(哈尔滨工业大学,管理学院,哈尔滨,150001), 谢行恒,XIE Xing-heng(宁波工程学院,浙江,宁波,315016), 温潇,WEN Xiao(清华大学,人文社会科学院国际问题研究所,北京100084)哈尔滨工业大学学报
JOURNAL OF HARBIN INSTITUTE OF TECHNOLOGY2007,39(7)1次
刊名:英文刊名:年,卷(期):被引用次数:
参考文献(5条)
1.郭志刚 社会统计分析方法-SPSS软件应用 20012.闻新.周露.王丹力 MATLAB神经网络应用设计 20013.飞思科技产品研发中心 神经网络理论与MAT-LAB7实现 2005
4.ENACHE D BONNET Analyzing credit risk data:a comparison of Logistic discrimination,classificationtree analysis and feed-forward networks 1997(12)
5.唐晓静.杨桂元 组合预测系数的确定方法[期刊论文]-财贸研究 1994(06)
引证文献(1条)
1.张洪亮.刘亮.牛占文 精益生产实施水平的预测[期刊论文]-统计与决策 2010(16)
本文链接:http://d.g.wanfangdata.com.cn/Periodical_hebgydxxb200707030.aspx
第39卷第7期
2OO
哈尔滨工业大学学报
JOURNALOFHARBININS711TUTEOFTECHNOLOGY
VoL39No.7
7年7月
Jul.2007
个人信用评估的Logistic—RBF组合模型
姜明辉1,谢行恒2,王树林1,温
潇3
(1.哈尔滨工业大学管理学院,哈尔滨15000l,E-mail:jiangIIlh@cast.cn;2.宁波工程学院,浙江宁波315016;
3.清华大学人文社会科学院国际问题研究所,北京100084))
摘要:针对个人信用评估中单一模型存在的不足,提出了利用组合预测模型进行个人信孀评估的方法.基于不同单一模型在个人信用评估中所体现的优势,选择具有代表性的b画stic回归和径向基函数神经网络方法,建立了2种单一评估模型,在此基础上构建了基于二者的组合模型.利用某商业银行的数据进行2类模式的分类,应用结果表明,组合模型有效地提高了预测的精确性和模型的稳健性,对于商业银行控制消费信贷风险具有更好的适用性.
关键词:IJo矛stic回归;神经网络;组合预测;个人信用评估中图分类号:F224。0
文献标识码:A
文章编号:0367—6234(2007)07一1128一03
Pe瑙onalcreditscoringb嬲ed
on
Lo酉stic
andRBF
c伽bined
model
JIANGMing.huil,XIEXing—hen92,WANGShu—linl,WENXia03
(I.schd
of
Man89eH舢t。HarbinInstitIlte《Techmlo盯,mlrbin15000l,China,E・Ⅱ础:ji锄gwh@cast.cn;2.NingboTechn010盱,Ningbo315016,China;3.ImIitIlteofInterati哪alStutliessch砌ofH咖瑚ities蚰dSocial
sciences,Tsinghua
University0f
Uni煳ity,B喇iflg
100084,Chi腿)
Ab鼬阻ct:AiIIling
at
theinsumcienciesof
sindeIIlodelsinpersonalBased
on
cred“sc嘶ng,this
theadvantagesof
paperpresents
a
meth—
odforpersonalcreditscoringbyusingcombiningforecast.single
method,thispa—
perchosetypicalLogisticregressionandRBFneuralnetworktoconstmcttwoted
a
sin尊e
modelsaJldthenconstllJc-
one
combiningforecastmodel.Usingtheconstlllctedmodels
to
elassify
theconsumercreditdata{}om
commercialbank,theapplicationresultindicatesthatthecombiningforecastmodelincreasestheaccuracyef-fectively
as
wellasⅡlodel’sstabilitywhichpresentsmore印plicable
foreommercialbanks
to
keepawayf而m
consumercreditrisks.Key
words:bgisticregression;neuralnetwork;combinedforecasting;personalcreditscoring
个人信用评估是通过建立数学模型对未来申请人的信用行为进行预测,其预测精度直接关系个人信贷的风险.个人信用评估判别方法有非线性方法和线性方法,在预测精度、稳健性和解释性等方面有着各自的优点.但每种单一方法在应用当中都存在着一些缺点,比如单一模型或是缺少精确度,或是缺少稳健性,或是模型本身或结果不能得到很好的解释等,这些都会给实际操作带来很大的不便和风险.
收稿日期:2005一09一19.
组合预测模型是建立在其他单个模型的基础上的一种组合方法,能综合不同方法的优点,提高了模型的精确度和稳健性,使模型有条件并且适合于个人信用评估问题.本文采用加权组合的方法,选择单一模型中预测效果较好的神经网络与b辱stie回归方法,构建组合预测模型并应用于我国的个人信用评估中.
1
指标与样本的选取
选取具有代表性的10个指标,并对定性指标
基金项目:哈尔滨工业大学技术・政策・管理(TPM)国家哲学
社科创新基地资助项目(HTcsR061D6),
作者简介:姜明辉(1967一),男,博士,副教授.
根据其在实际工作中对个人信用评估的影响程度,对每个属性值赋予不同的数值型的值,见表I.但考虑到神经网络只能处理数值型变量,同
第6期姜明辉,等:个人信用评估的Lo西stic—RBF组合模型
1
时为了提高网络训练的效率,本文将定性指标和
定量指标进行定量化和归一化处理.
057个样本并分为两组:一组529个作为预测样
本,用于模型的估计;另一组528个作为确认样本,用于对模型进行检验.
通过最小一最大规范化方法对原始数据中的
定性指标进行线性变换,使之在区间[0,1]内,即
F。2画商,
x口一min
xg
J
』
2模型的建立
2.1
k嘻slie回归模型
LDgistic概率函数可以表示为
i=1,2,…,10J=l,2,…,n.
其中:置,为第i个指标第J.个样本的原属性值,x’“为第i个指标第_『个样本的新属性值,min瓦为在第i个指标中第歹个样本属性值的最小值,m9x为在第i个指标中所有样本属性值的最大值.
衰l输入、输出变量的属性指标及其赋值
x;,
.,,.,一....一————l————
P一【1+exp(一∑6i戈i)】‘
使等式表达自变量的线性形式,进行转换得
k(南】,2酗孙
本文将是否获得贷款),与戈i所表示的指标变
量之间通过姨(给定菇i条件下y=1的概率)发生
关系.建立回归模型方程为
ln(群寿】=风幅"胁+,.一,堆%
通过SPSS软件¨1采用的假定参数为基础做
似然比概率检验向前逐步变量选择(Forwardditional)方法,得到回归方程为
con-
ln[惫l=o.69l+0.713并,一1.532”
1.797省5—4.61×10—6搿6.
模型的样本决定系数为0.767,同时通过了Wald检验和系数显著性检验.2.2径向基函数神经网络
径向基函数(RBF)神经网络是具有单隐层的3层前馈网络,能以任意精度逼近任意连续函数,
具有结构自适应确定、输出值与初始权值无关的
表1中“年龄”、“月均收入”、“贷款金额”、“贷款期限”4个指标的属性值为数值型数据,且其样本值近似于正态分布.因此用正态分布函数
特性.RBF在逼近能力,分类能力和训练速度方面效果较好昨J.
径向基函数神经网络由3层组成,其结构见图l,隐含层采用高斯函数为激励函数,以隐层每一
个神经元与输入层相连的权值向量协1i和输入矢量矿之间的距离与阈值6li的乘积作为输入,即
对这些指标的属性值进行转换,使其分布在区间
(0,1)内.正态分布概率密度函数的表达式为
出)2志唧(一%笋),
一∞<戈<+∞.
群=^/∑(彬1且一劈)2×61。.
其中:戈9表示第譬个输入向量∞1.输出为
r;=exp(一(后:)2)=
标准正态分布函数为
出)=[。去唧(一抄,一““叭
其中:肛,盯为常数,简记作x一Ⅳ(肛,盯2),转换成标准正态分布,然后借用Excel标准正态分布函数,求出新属性值.
为保证数据的代表性,以某商业银行为例,在该商业银行个人信贷系统中选取数据时,使),=0和y=1的样本抽取比例为1:1,最终随机抽取
输出层的激励函数为纯线性函数,输出值为
唧垤丽丽】・
广=∑ri×加2i.
i=l
利用Matlab软件,由于spread为RBF的分
布密度,Spread越大,函数越平滑,选取spread的值为3,网络缺省值为1.5,由于RBF网络在建函
哈尔滨工业大学学报
第39卷
数网络时本身就是训练,因此无需提供训练函数,只要给出误差目标值和spread的值,网络就会自动训练,以使网络性能达到最优.
Ripley通过对神经网络和线性评分方法的比较研究,得出了在评价优良贷款方面,逻辑回归和神经网络表现差不多,但对不良贷款的鉴别上,神经网络明显优于逻辑回归Hj.结果显示,神经网络的精确性低于Logistic回归,这与所选取的样本对不同预测模型适用性差异有关,但也到了很高的精度,正确率为92.42%。
3
预测结果与分析
在本文的2种单一模型中,利用sPss和Mat-
lab软件分别将529个训练样本根据一定方法和
步骤输入,得出估计模型,用528个检验样本代入
模型,用来测试模型的精确性与稳健性,然后将得出的结果进行加权组合,其组合权重分别为形.=0.125,职=0.875.预测的准确率与误判率见表2.
表2
3种个人信用评估方法预测精度的比较
图lRBF网络结构
从表2的分析数据中可以看出:从3种模型的总体准确率来看,精度从高到低依次为组合预
A
2.3组合预测模型
采甩2种方法的组合,设y为组合预测对象,yl
^
测模型,bgist沁回归,RBF神经网络,组合模型的精确度明显高于其他2个模型.由于在评估中具有2类误判率,第1类误判率是将良好贷款误判为不赛贷款,第2类误判率是将不良贷款误判为良好贷款,显然后者会给银行造成更大的损失,因
此,第2类误判率显得相对重要,在得出的结果中,加权组合模型的第l类误判率和第2类误判率都要低于其他2个模型,尤其是第2类误判率降低的尤为明显,大大提高了个人信用评估的准
和砭为两种不同的预测方法,组合预测模型可表示为
A
,
A^
y=“形y:l十职E.
其中:肜,和耽分剐为l,。和y2在模型中的权重,需要满足职+职=1.
^
n
^
模型或的误差平方和为e;=∑(或。一y。)2,
t=I
^
£=l,2.组合模型y的误差平方和为82=
确性,减少了银行因提供贷款所带来的风险.基于
上述分析可以得出:加权组合预测作为个人信用评估方法,在总体准确率和2类误判率上均较之单一模型更具优越性.
∑(职e“一职e:。)2,n为预测对象的预测值数.当
‘=l
^
y误差平方和达到最小时,彤、%为最优解,即组合模型的精确性和稳健性度量值可表示为
e2=∑(孵e;+2形。耽e而+暖e;).
因此得到数学规划"o为
参考文献:
[1]郭志刚.社会统计分析方法一sPss软件应用[M].
北京:中国人民大学出版社,2001.[2]
闻新,周露.MATLAB神经网络应用设计[M].北京:科学出版社,2001.
[3]
飞思科技产品研发中心.神经网络理论与MAT—LAB7实现[M].北京:电子工业出版社,2005.[4]
ENAcHED,BONNEtI’.Analyzingcreditriskdata:a
mine2=暇e;+2职职eIe2+暖e;,
职+职=1,
形I≥0,
耽≥0.
comp耐sontree明alysis
of
kg枷c
discrimination,
classification
andfeed—fonvard
ne附orks[J].compu—
∑P;。一∑e渤
孵=1一孵———垒—三—当I兰兰一’∑e;;+∑e;。一2∑e渤
哪,
2
ta£io玎a1&at渐cs,1997(】2):293—310.
[5]唐晓静,杨桂元.组合预测系数的确定方法[J].财
贸研究,1994(6):6l一63.
,Ⅳ+
(编辑魏希柱)
个人信用评估的Logistic-RBF组合模型
作者:作者单位:
姜明辉, 谢行恒, 王树林, 温潇, JIANG Ming-hui, XIE Xing-heng, WANG Shu-lin, WEN Xiao
姜明辉,王树林,JIANG Ming-hui,WANG Shu-lin(哈尔滨工业大学,管理学院,哈尔滨,150001), 谢行恒,XIE Xing-heng(宁波工程学院,浙江,宁波,315016), 温潇,WEN Xiao(清华大学,人文社会科学院国际问题研究所,北京100084)哈尔滨工业大学学报
JOURNAL OF HARBIN INSTITUTE OF TECHNOLOGY2007,39(7)1次
刊名:英文刊名:年,卷(期):被引用次数:
参考文献(5条)
1.郭志刚 社会统计分析方法-SPSS软件应用 20012.闻新.周露.王丹力 MATLAB神经网络应用设计 20013.飞思科技产品研发中心 神经网络理论与MAT-LAB7实现 2005
4.ENACHE D BONNET Analyzing credit risk data:a comparison of Logistic discrimination,classificationtree analysis and feed-forward networks 1997(12)
5.唐晓静.杨桂元 组合预测系数的确定方法[期刊论文]-财贸研究 1994(06)
引证文献(1条)
1.张洪亮.刘亮.牛占文 精益生产实施水平的预测[期刊论文]-统计与决策 2010(16)
本文链接:http://d.g.wanfangdata.com.cn/Periodical_hebgydxxb200707030.aspx