违约损失率模型研究
梁世栋 《投资研究》2009年第6期 [email protected]
巴塞尔新资本协议内部评级法的三个核心参数,违约概率(Probability of Default, 简称PD)、违约损失(Loss Given Default,简称LGD)、违约风险敞口(Exposure at Default,简称EAD),构成了信用风险现代风险计量技术的基本框架。其中,违约损失率是指当客户发生违约后债项损失的程度,新资本协议强调“估计违约损失率的损失是指经济损失”,而不是会计上的账面损失,经济损失要考虑回收成本和资金的时间价值,也就是利用合适的折现率计算扣减回收成本后回收现金流的现值。由于数据缺失等原因,LGD计量模型研究较少,本文结合实践经验从数据特征、模型方法选择等角度专门对其进行专门的讨论。
一、 历史违约损失率估计
违约损失率LGD公式如下:
(回收金额−回收成本)t[∑t(1+折现率)LGD=1− 违约敞口
其中,计算历史LGD比率的三大关键点,回收现金流(有效催收窗口)、回收成本、折现率。
有效催收窗口
回收现金流,理论上比较简单,都是历史上可以观察得到的,但是在实际操作中困难比较大,难点在于最终损失的确认,由于不良贷款的核销政策影响,很多不良贷款在账上一挂多年,或者因为破产、押品处理等法律程序的因素,不良贷款最终回收金额的确认也需要多年的时间,也就是说,为了全面的估算历史回收金额,需要很长的历史表现期,而历史数据的累积时间长度是有限的。
有效催收窗口就是建立历史累积回收率的表现窗口,使得债项回收率的动态变化得到充分展现,一般累积回收率会存在这样的规律,当催收到达一定程度后,累积回收率就变成几乎水平的直线,如下图所示,横轴为贷款逾期时间,纵轴为累积回收率。如果这种现象存在,那么我们可以确认用于计算的回收现金流的截
至时间点,如图中的24月份,24月份以后的回收现金流忽略不计。
图1 有效催收窗口
实际操作中,是分逾期的时间段对银行历史催收数据分别进行分析,以保证分析结果的稳健性,如图1,在贷款逾期后的第24个月,曲线变得比较平坦,而且不同年份违约客户的情况都是如此,则可以确定24个月为该产品的有效催收窗口。图1中,不同时间段的累积回收率曲线如同一层层逐渐成熟的葡萄架,故英文中也把这个方法叫做Vintage。在我国,零售敞口的核销较为困难,大量违约贷款长期挂在账上,这样,有效催收时点的确定,对于LGD计量而言就非常重要。
催收成本
新资本协议规定催收成本包括直接成本和间接成本,但对于直接成本和间接成本的具体内涵未做详细界定。欧盟认为,“清收成本包括与清收相关的重要直接成本和间接成本。此类清收成本源于运营清收部门的成本、由回收直接引起的外部资源服务成本,如法律成本,一定比例的其它运行成本,如公司日常开支等”。银监会的相关指引在此基础上,对直接成本和间接成本做了进一步的明确,指出“直接损失或成本是指能够归结到某笔具体债项的损失或成本,包括本金和利息损失、抵押品清收成本或法律诉讼费用等。间接损失或成本是指商业银行因管理或清收违约债项产生的但不能归结到某一笔具体债项的损失和成本。商业银行应
采用合理方式分摊间接损失和成本。”
催收成本计量是一个各国银行面临的一个普遍问题,国外银行的问题在于催收成本的分摊,而对于中国的商业银行,相关IT系统建设相对落后,成本信息没有记录,因此,问题的关键在于没有记录,更无从谈起分摊。
为此,银行需要对该部分数据进行补录,补录的方式可以采用问卷的形式。由于没有数据可查,数据补录只能依靠专家经验,因此,补录数据项的设计不宜过于精细,但应覆盖以下几个维度:不同产品的催收成本;不同时间/年份的催收成本;不同催收手段的成本;不同逾期程度客户的催收成本。
折现率
折现率反映的是银行资金的时间价值,即计算由于客户拖欠所造成的资金占的成本。在中国的金融市场,可以选择的折现率有贷款基准利率、合同贷款利率、资本要求回报率、存款利率、国债利率、银行内部资金成本等。
新资本协议要求要考虑“折扣效应”,但是如何考虑,即采用一个什么样的折现率,未做详细规定。欧盟相关文件认为,“估计LGD所采用的回收率应当反映清收期间持有违约资产的成本,包括适当的风险溢价。如果回收现金流不确定,涉及无法分散的风险,则净现值计算应反映货币的时间价值以及无法分散风险的适当溢价。”银行在确定该风险溢价时“应重点关注经济下滑时出现的与违约率相关的回收现金流的不确定性。”“如果回收现金流没有不确定性,则净现值计算仅需要反映货币的时间价值,此时,可采用无风险折现率”。折现率的计算可以采用以下几种方法:
采用风险调整后折现率对回收现金流折现,该折现率为无风险利率与反
映回收和清收成本现金流风险的溢价之和;
将回收和清收成本转化为确定性等价现金流,并采用无风险利率对等价
现金流折现;
同时对折现率、回收率和清收成本进行风险调整,且前后调整原则一致。 银监会的相关监管指引对折现率的要求与欧盟相同,但对于折现率的具体选择标准没有界定。
总结来说,欧盟和银监会监管指引的主导思想就是折现率同时包括资金的时
间价值(无风险利率)和回收现金流不确定性的风险补偿。风险补偿可以有两种方法来处理,一种是如欧盟规定的体现在折现利率中,另一种是体现在回收现金流的计算中,例如选择最为谨慎的经济萧条期的历史回收现金流。
从理论上讲,通过对回收不确定性现金流进行建立金融学模型,是可以计量出相对应的风险补偿的,期权调整利差(Option-Adjusted Spread)模型可能是比较合适的选择,但是,如何描述回收现金流的不确定性是无法回避的难题。
换一个角度,让我们从实际可供选择的利率出发。目前可供选择的利率包括央票、国债利率、存款利率、合同利率、贷款基准利率、贷款执行利率、加权平均资本成本(WACC)、内部转移利率(ITR) 等。
央票、国债利率、存款利率等属于无风险利率类,不符合监管规定;加权平均资本成本(WACC)、内部转移利率(ITR)等属于银行内部利率类,从成本角度出发,其作为折现利率有一定的合理性,但是不符合监管规定。剩下的合同利率、贷款基准利率、贷款执行利率应该说属于无风险利率加溢价类,当然其风险溢价不仅仅包括了回收现金流的不确定性,还包括了客户是否违约、是否提前还款等所有该笔贷款相关联的风险补偿,从审慎的角度来说,选择这些利率,没有违反监管规定。
进一步,合同利率、贷款基准利率、贷款执行利率三者中,哪个最为合适呢?他们三者的关系是这样的,贷款基准利率由人行规定,而银行一般按照人行的规定和产品的情况,在贷款基准利率的基础上,适当的上下浮动,得到贷款实际执行利率,贷款基准利率和贷款执行利率都是一个利率期限结构;而合同利率是合同期限对应的贷款执行利率,是利率期限结构中某个期限的具体利率。
首先,应该选择实际执行利率,那么贷款执行利率比贷款基准利率合理;其次,应该选择回收现金流对应的期限,也就是说应该选择贷款执行利率期限结构中回收现金流期限对应的利率,而不是贷款合同期限对应的贷款执行利率,回收现金流期限可以通过上述的催收有效窗口得到。以房贷为例子,合同期限一般10-30年,而回收现金流期限一般是3年左右,折现利率应该选择3年期的贷款执行利率。
二、 预测变量构造
预测变量数据,包括了债项类型、债项的优先级别、抵质押品、抵债资产的优先求偿权、破产相关法律因素、行业因素、违约概率、商业周期、信贷历史、宏观经济等方面,其中,商业银行对于抵质押品的管理一直比较薄弱,数据积累也非常差,目前,各大商业银行正在建设抵质押品市值重估和管理系统,有望在未来的一段时间内得到改善。
Moody’s的LossCalcTM模型(Gupton and Stein, 2002)包括了债务类型和优先级、资本结构、行业和宏观经济四个方面的九个自变量,如下表。 变量类型 变量名称
债务类型和优先级
别对应的LGD历史平X1
均值
债务的相对级别
资产负债率
行业因素 行业回收率平均值
银行业指标
RiskCal模型计算的
上市公司一年期违
约概率中位数
宏观经济因
素 穆迪破产企业债券指数
投机级债券12个月
平均违约概率
经济领先指数 X7 X6 X2 X3 X4 X5 变量数目 债务类型和优先级别 资本结构 X8 X9
表1 Moody’s的LossCalcTM模型变量
三、 模型分组和样本选择
违约损失率LGD模型的分组基本上与客户违约概率评级模型的分组原则比较类似,一般可以从行业、规模、区域、产品等维度进行分组,具体应该选择几个维度,在每个维度如何分组,应该考察经济学直觉、业务管理情况、数据来源、
统计分析等几个方面的情况。
特别的,违约损失率LGD模型必须要进行非违约帐户和违约帐户的分组,因为已经违约的客户包括了逾期后回收的更新数据,信息量远大于非违约帐户,可以构造更多的自变量,预测也更为准确。实际上,对于已违约客户分组,LGD模型是在当前已经回收金额的基础上预测未来能继续回收的部分,而不是整体回收率
在非违约帐户和违约帐户的分组中,LGD模型建设都只使用违约样本,但是其观察期和表现期的构造并不一致。非违约帐户分组中,所有样本在观察点之前还没有发生违约,而是在表现期内都发生违约,发生违约后的帐户回收率决定于有效催收窗口的分析,所以LGD模型的建设对于历史数据的时间长度要求比较高,在下图的例子中,需要四年的历史数据。违约帐户分组中,所有样本在当前观察点之前都已经发生违约,有效催收窗口在观察点之前已经开始(一般选择在观察期内发生违约的样本,这样,有效催收窗口在观察期内开始,容易分析),在下图的例子中,需要三年的历史数据。
违约点
图2 非违约分组的观察期和表现期
已经违约
观察点
图3 违约分组的观察期和表现期
四、 LGD分布特征
图4和图5来源于穆迪LossCalc模型(Gupton and Stein, 2002)。图4呈现了1981-2000年间不同债务类型和优先权下的违约回收率,上下的括弧表示回收率变动的范围,括弧中的阴影两侧为四分位点,阴影中的白条是中位数。从图中可以看到:即使在同一类的债务优先级别中,回收率的变化范围仍然很大,
需要别的自变量进行解释。
图4 不同债务类型和优先权下的违约回收率
穆迪通过实证认为回收率符合贝塔(Beta)分布。首先,回收率分布在[0,1]之间,Beta分布与此对应;另外,贝塔(Beta)分布的两个参数的不同变化,使得分布形状有很大的变化范围,对于偏峰重尾分布的情况能比较好的解决。在图5中可以看到回收率的实际分布具有明显的不对称性。图5的高频波动曲线为实际观察到的频率(Observed Frequency),光滑曲线为贝塔(Beta)分布的拟和曲线(Beta-Distribution Fit)(Gupton and Stein, 2002)
图5 Beta分布拟和回收率
更多的实证发现,LGD呈现的是双峰分布(bimodal distribution),商业银行的信贷业务,双峰的情况比较严重,如图6,从直觉上也比较容易理解,如果债务人主观上原意还钱,无论时间长短,最终会归还大部分的金额,也即违约损失率LGD比较低,呈现为低端的峰;如果债务人主观上没有意愿还钱,既然都是违约,不如违约彻底,也即违约损失率LGD比较高,呈现为高端的峰。庆幸的是,如图6所示,这个世界上还是好人多,LGD低端的峰值比较高。
特别对于中国的商业银行,因为国内坏帐核销等法规和信用环境的影响,双峰分布更为极端,LGD取值0和1的情况占比非常大,也就是说,很多债务在催收后能全额还款,而有些债务则一分钱都没能回收。
LGD
图3-15 LGD双峰分布
五、 模型方法选择
理论上,没有绝对最优的模型方法论,其选择依赖于研究对象的数据结构和数据特性。违约损失率LGD数据的特点是:
1) LGD取值局限在[0,1]区间,实证研究表明其分布为β分布或者双峰分
布,总之不是正态分布,不合适使用线性回归模型。客户评级模型常用的Logistic回归是半参数方法,对于分布要求并不严格,能否适用呢?
2) LGD取值在[0,1]区间连续,Logistic回归应用于分类问题,需要因变量
是离散变量,无法直接应用。
根据违约损失率LGD数据的特点,如下介绍三种模型方法,一是Moody’s的 LossCalcTM模型,二是构造样本Logistic回归,三是决策树。
TM1、Moody’s的LossCalc模型
LossCalcTM模型基于回收率为因变量展开,由于回收率=1-LGD,所以无论是LGD还是回收率为因变量,没有什么本质分别。
a.迷你模型
Moody’s的违约损失率LossCalc模型中迷你模型类似Moody’s违约概率模型RiskCal的处理,即通过单变量分析得到自变量到历史平均LGD的转化函数。从表1知道Moody’s的LossCalcTM模型中变量债务类型和优先级别因素(X1)和行业因素(X4)采用迷你模型方法。
b.分布转化
在回收率符合Beta分布的情况下,可以通过分布转化函数将贝塔(Beta)空间下的回收率R转化成正态空间下的回收率R'=N−1[Betadist(R)],在正态空间下,可以采用线性回归
R'=α+β1x1+β2x2+...+βnxn
其中,Betadist(R)为beta分布函数,N−1[.]正态分布反函数,xi,i=1,...,n为迷你模型的输出结果作为回归模型的输入,R'为正态空间下回收率,模型应用时候需要转化回贝塔(Beta)空间的回收率R=Betadist−1[N(R')]。
2、构造样本Logistic回归
LossCalc模型方法在LGD取值比较连续的时候比较有效,但是对于中国的商业银行业LGD在分布在0和1点过多的情况,适用性有限。
如果LGD取值0和1比重非常高,可以采用Logistic回归方法,对于其中在区间(0,1)之间的值,可以采用如下构造样本的处理方法:
a.四舍五入法。
顾名思义,就是LGD取值大于等于0.5的取值1,小于0.5的取值0; b.样本权重法。
四舍五入法的处理有点粗糙,只有双峰现象明显,LGD在区间(0,1)取值很少的时候才使用。样本权重法则精细一些,例如对于LGD取值为0.6的样本,构造LGD分别等于1和0的两个样本与其对应,然后在模型训练中,LGD=1的样本权重为0.6,LGD=0的样本权重为0.4。
c.虚拟样本法。
例如对于LGD取值为0.6的样本,分别构造自变量相同的6个LGD等于1的样本,4个LGD等于0的样本;对于LGD取值为1和0的样本,则需要复制10倍,以保证合理的样本权重。虚拟样本方法效果与样本权重法一致。
3、决策树
决策树属于非参数方法,对于数据分布、数据类型都没有严格要求,比较适
合处理LGD模型这种特殊情况。而且决策树方法也非常直观,逻辑判断过程在树结构中一目了然,易于业务人员接受。如下图示例,最终的“叶子”中样本的LGD平均值即为该叶子的LGD估计值。决策树的构造过程就是变量选择的过程。在构造分类树时,各个节点的最优分割规则都包含了显著性变量,当分类树被构造后,每一个最优分割规则的参考指标都是对最后的评级结果有显著影响的变量。
图7 LGD决策树模型示例
虽然决策树的优点多多,但是在建模过程中要注意利用业务专家经验和样本统计结论结合,以避免决策树容易过渡拟合和树结构不稳定等缺点。
违约损失率模型研究
梁世栋 《投资研究》2009年第6期 [email protected]
巴塞尔新资本协议内部评级法的三个核心参数,违约概率(Probability of Default, 简称PD)、违约损失(Loss Given Default,简称LGD)、违约风险敞口(Exposure at Default,简称EAD),构成了信用风险现代风险计量技术的基本框架。其中,违约损失率是指当客户发生违约后债项损失的程度,新资本协议强调“估计违约损失率的损失是指经济损失”,而不是会计上的账面损失,经济损失要考虑回收成本和资金的时间价值,也就是利用合适的折现率计算扣减回收成本后回收现金流的现值。由于数据缺失等原因,LGD计量模型研究较少,本文结合实践经验从数据特征、模型方法选择等角度专门对其进行专门的讨论。
一、 历史违约损失率估计
违约损失率LGD公式如下:
(回收金额−回收成本)t[∑t(1+折现率)LGD=1− 违约敞口
其中,计算历史LGD比率的三大关键点,回收现金流(有效催收窗口)、回收成本、折现率。
有效催收窗口
回收现金流,理论上比较简单,都是历史上可以观察得到的,但是在实际操作中困难比较大,难点在于最终损失的确认,由于不良贷款的核销政策影响,很多不良贷款在账上一挂多年,或者因为破产、押品处理等法律程序的因素,不良贷款最终回收金额的确认也需要多年的时间,也就是说,为了全面的估算历史回收金额,需要很长的历史表现期,而历史数据的累积时间长度是有限的。
有效催收窗口就是建立历史累积回收率的表现窗口,使得债项回收率的动态变化得到充分展现,一般累积回收率会存在这样的规律,当催收到达一定程度后,累积回收率就变成几乎水平的直线,如下图所示,横轴为贷款逾期时间,纵轴为累积回收率。如果这种现象存在,那么我们可以确认用于计算的回收现金流的截
至时间点,如图中的24月份,24月份以后的回收现金流忽略不计。
图1 有效催收窗口
实际操作中,是分逾期的时间段对银行历史催收数据分别进行分析,以保证分析结果的稳健性,如图1,在贷款逾期后的第24个月,曲线变得比较平坦,而且不同年份违约客户的情况都是如此,则可以确定24个月为该产品的有效催收窗口。图1中,不同时间段的累积回收率曲线如同一层层逐渐成熟的葡萄架,故英文中也把这个方法叫做Vintage。在我国,零售敞口的核销较为困难,大量违约贷款长期挂在账上,这样,有效催收时点的确定,对于LGD计量而言就非常重要。
催收成本
新资本协议规定催收成本包括直接成本和间接成本,但对于直接成本和间接成本的具体内涵未做详细界定。欧盟认为,“清收成本包括与清收相关的重要直接成本和间接成本。此类清收成本源于运营清收部门的成本、由回收直接引起的外部资源服务成本,如法律成本,一定比例的其它运行成本,如公司日常开支等”。银监会的相关指引在此基础上,对直接成本和间接成本做了进一步的明确,指出“直接损失或成本是指能够归结到某笔具体债项的损失或成本,包括本金和利息损失、抵押品清收成本或法律诉讼费用等。间接损失或成本是指商业银行因管理或清收违约债项产生的但不能归结到某一笔具体债项的损失和成本。商业银行应
采用合理方式分摊间接损失和成本。”
催收成本计量是一个各国银行面临的一个普遍问题,国外银行的问题在于催收成本的分摊,而对于中国的商业银行,相关IT系统建设相对落后,成本信息没有记录,因此,问题的关键在于没有记录,更无从谈起分摊。
为此,银行需要对该部分数据进行补录,补录的方式可以采用问卷的形式。由于没有数据可查,数据补录只能依靠专家经验,因此,补录数据项的设计不宜过于精细,但应覆盖以下几个维度:不同产品的催收成本;不同时间/年份的催收成本;不同催收手段的成本;不同逾期程度客户的催收成本。
折现率
折现率反映的是银行资金的时间价值,即计算由于客户拖欠所造成的资金占的成本。在中国的金融市场,可以选择的折现率有贷款基准利率、合同贷款利率、资本要求回报率、存款利率、国债利率、银行内部资金成本等。
新资本协议要求要考虑“折扣效应”,但是如何考虑,即采用一个什么样的折现率,未做详细规定。欧盟相关文件认为,“估计LGD所采用的回收率应当反映清收期间持有违约资产的成本,包括适当的风险溢价。如果回收现金流不确定,涉及无法分散的风险,则净现值计算应反映货币的时间价值以及无法分散风险的适当溢价。”银行在确定该风险溢价时“应重点关注经济下滑时出现的与违约率相关的回收现金流的不确定性。”“如果回收现金流没有不确定性,则净现值计算仅需要反映货币的时间价值,此时,可采用无风险折现率”。折现率的计算可以采用以下几种方法:
采用风险调整后折现率对回收现金流折现,该折现率为无风险利率与反
映回收和清收成本现金流风险的溢价之和;
将回收和清收成本转化为确定性等价现金流,并采用无风险利率对等价
现金流折现;
同时对折现率、回收率和清收成本进行风险调整,且前后调整原则一致。 银监会的相关监管指引对折现率的要求与欧盟相同,但对于折现率的具体选择标准没有界定。
总结来说,欧盟和银监会监管指引的主导思想就是折现率同时包括资金的时
间价值(无风险利率)和回收现金流不确定性的风险补偿。风险补偿可以有两种方法来处理,一种是如欧盟规定的体现在折现利率中,另一种是体现在回收现金流的计算中,例如选择最为谨慎的经济萧条期的历史回收现金流。
从理论上讲,通过对回收不确定性现金流进行建立金融学模型,是可以计量出相对应的风险补偿的,期权调整利差(Option-Adjusted Spread)模型可能是比较合适的选择,但是,如何描述回收现金流的不确定性是无法回避的难题。
换一个角度,让我们从实际可供选择的利率出发。目前可供选择的利率包括央票、国债利率、存款利率、合同利率、贷款基准利率、贷款执行利率、加权平均资本成本(WACC)、内部转移利率(ITR) 等。
央票、国债利率、存款利率等属于无风险利率类,不符合监管规定;加权平均资本成本(WACC)、内部转移利率(ITR)等属于银行内部利率类,从成本角度出发,其作为折现利率有一定的合理性,但是不符合监管规定。剩下的合同利率、贷款基准利率、贷款执行利率应该说属于无风险利率加溢价类,当然其风险溢价不仅仅包括了回收现金流的不确定性,还包括了客户是否违约、是否提前还款等所有该笔贷款相关联的风险补偿,从审慎的角度来说,选择这些利率,没有违反监管规定。
进一步,合同利率、贷款基准利率、贷款执行利率三者中,哪个最为合适呢?他们三者的关系是这样的,贷款基准利率由人行规定,而银行一般按照人行的规定和产品的情况,在贷款基准利率的基础上,适当的上下浮动,得到贷款实际执行利率,贷款基准利率和贷款执行利率都是一个利率期限结构;而合同利率是合同期限对应的贷款执行利率,是利率期限结构中某个期限的具体利率。
首先,应该选择实际执行利率,那么贷款执行利率比贷款基准利率合理;其次,应该选择回收现金流对应的期限,也就是说应该选择贷款执行利率期限结构中回收现金流期限对应的利率,而不是贷款合同期限对应的贷款执行利率,回收现金流期限可以通过上述的催收有效窗口得到。以房贷为例子,合同期限一般10-30年,而回收现金流期限一般是3年左右,折现利率应该选择3年期的贷款执行利率。
二、 预测变量构造
预测变量数据,包括了债项类型、债项的优先级别、抵质押品、抵债资产的优先求偿权、破产相关法律因素、行业因素、违约概率、商业周期、信贷历史、宏观经济等方面,其中,商业银行对于抵质押品的管理一直比较薄弱,数据积累也非常差,目前,各大商业银行正在建设抵质押品市值重估和管理系统,有望在未来的一段时间内得到改善。
Moody’s的LossCalcTM模型(Gupton and Stein, 2002)包括了债务类型和优先级、资本结构、行业和宏观经济四个方面的九个自变量,如下表。 变量类型 变量名称
债务类型和优先级
别对应的LGD历史平X1
均值
债务的相对级别
资产负债率
行业因素 行业回收率平均值
银行业指标
RiskCal模型计算的
上市公司一年期违
约概率中位数
宏观经济因
素 穆迪破产企业债券指数
投机级债券12个月
平均违约概率
经济领先指数 X7 X6 X2 X3 X4 X5 变量数目 债务类型和优先级别 资本结构 X8 X9
表1 Moody’s的LossCalcTM模型变量
三、 模型分组和样本选择
违约损失率LGD模型的分组基本上与客户违约概率评级模型的分组原则比较类似,一般可以从行业、规模、区域、产品等维度进行分组,具体应该选择几个维度,在每个维度如何分组,应该考察经济学直觉、业务管理情况、数据来源、
统计分析等几个方面的情况。
特别的,违约损失率LGD模型必须要进行非违约帐户和违约帐户的分组,因为已经违约的客户包括了逾期后回收的更新数据,信息量远大于非违约帐户,可以构造更多的自变量,预测也更为准确。实际上,对于已违约客户分组,LGD模型是在当前已经回收金额的基础上预测未来能继续回收的部分,而不是整体回收率
在非违约帐户和违约帐户的分组中,LGD模型建设都只使用违约样本,但是其观察期和表现期的构造并不一致。非违约帐户分组中,所有样本在观察点之前还没有发生违约,而是在表现期内都发生违约,发生违约后的帐户回收率决定于有效催收窗口的分析,所以LGD模型的建设对于历史数据的时间长度要求比较高,在下图的例子中,需要四年的历史数据。违约帐户分组中,所有样本在当前观察点之前都已经发生违约,有效催收窗口在观察点之前已经开始(一般选择在观察期内发生违约的样本,这样,有效催收窗口在观察期内开始,容易分析),在下图的例子中,需要三年的历史数据。
违约点
图2 非违约分组的观察期和表现期
已经违约
观察点
图3 违约分组的观察期和表现期
四、 LGD分布特征
图4和图5来源于穆迪LossCalc模型(Gupton and Stein, 2002)。图4呈现了1981-2000年间不同债务类型和优先权下的违约回收率,上下的括弧表示回收率变动的范围,括弧中的阴影两侧为四分位点,阴影中的白条是中位数。从图中可以看到:即使在同一类的债务优先级别中,回收率的变化范围仍然很大,
需要别的自变量进行解释。
图4 不同债务类型和优先权下的违约回收率
穆迪通过实证认为回收率符合贝塔(Beta)分布。首先,回收率分布在[0,1]之间,Beta分布与此对应;另外,贝塔(Beta)分布的两个参数的不同变化,使得分布形状有很大的变化范围,对于偏峰重尾分布的情况能比较好的解决。在图5中可以看到回收率的实际分布具有明显的不对称性。图5的高频波动曲线为实际观察到的频率(Observed Frequency),光滑曲线为贝塔(Beta)分布的拟和曲线(Beta-Distribution Fit)(Gupton and Stein, 2002)
图5 Beta分布拟和回收率
更多的实证发现,LGD呈现的是双峰分布(bimodal distribution),商业银行的信贷业务,双峰的情况比较严重,如图6,从直觉上也比较容易理解,如果债务人主观上原意还钱,无论时间长短,最终会归还大部分的金额,也即违约损失率LGD比较低,呈现为低端的峰;如果债务人主观上没有意愿还钱,既然都是违约,不如违约彻底,也即违约损失率LGD比较高,呈现为高端的峰。庆幸的是,如图6所示,这个世界上还是好人多,LGD低端的峰值比较高。
特别对于中国的商业银行,因为国内坏帐核销等法规和信用环境的影响,双峰分布更为极端,LGD取值0和1的情况占比非常大,也就是说,很多债务在催收后能全额还款,而有些债务则一分钱都没能回收。
LGD
图3-15 LGD双峰分布
五、 模型方法选择
理论上,没有绝对最优的模型方法论,其选择依赖于研究对象的数据结构和数据特性。违约损失率LGD数据的特点是:
1) LGD取值局限在[0,1]区间,实证研究表明其分布为β分布或者双峰分
布,总之不是正态分布,不合适使用线性回归模型。客户评级模型常用的Logistic回归是半参数方法,对于分布要求并不严格,能否适用呢?
2) LGD取值在[0,1]区间连续,Logistic回归应用于分类问题,需要因变量
是离散变量,无法直接应用。
根据违约损失率LGD数据的特点,如下介绍三种模型方法,一是Moody’s的 LossCalcTM模型,二是构造样本Logistic回归,三是决策树。
TM1、Moody’s的LossCalc模型
LossCalcTM模型基于回收率为因变量展开,由于回收率=1-LGD,所以无论是LGD还是回收率为因变量,没有什么本质分别。
a.迷你模型
Moody’s的违约损失率LossCalc模型中迷你模型类似Moody’s违约概率模型RiskCal的处理,即通过单变量分析得到自变量到历史平均LGD的转化函数。从表1知道Moody’s的LossCalcTM模型中变量债务类型和优先级别因素(X1)和行业因素(X4)采用迷你模型方法。
b.分布转化
在回收率符合Beta分布的情况下,可以通过分布转化函数将贝塔(Beta)空间下的回收率R转化成正态空间下的回收率R'=N−1[Betadist(R)],在正态空间下,可以采用线性回归
R'=α+β1x1+β2x2+...+βnxn
其中,Betadist(R)为beta分布函数,N−1[.]正态分布反函数,xi,i=1,...,n为迷你模型的输出结果作为回归模型的输入,R'为正态空间下回收率,模型应用时候需要转化回贝塔(Beta)空间的回收率R=Betadist−1[N(R')]。
2、构造样本Logistic回归
LossCalc模型方法在LGD取值比较连续的时候比较有效,但是对于中国的商业银行业LGD在分布在0和1点过多的情况,适用性有限。
如果LGD取值0和1比重非常高,可以采用Logistic回归方法,对于其中在区间(0,1)之间的值,可以采用如下构造样本的处理方法:
a.四舍五入法。
顾名思义,就是LGD取值大于等于0.5的取值1,小于0.5的取值0; b.样本权重法。
四舍五入法的处理有点粗糙,只有双峰现象明显,LGD在区间(0,1)取值很少的时候才使用。样本权重法则精细一些,例如对于LGD取值为0.6的样本,构造LGD分别等于1和0的两个样本与其对应,然后在模型训练中,LGD=1的样本权重为0.6,LGD=0的样本权重为0.4。
c.虚拟样本法。
例如对于LGD取值为0.6的样本,分别构造自变量相同的6个LGD等于1的样本,4个LGD等于0的样本;对于LGD取值为1和0的样本,则需要复制10倍,以保证合理的样本权重。虚拟样本方法效果与样本权重法一致。
3、决策树
决策树属于非参数方法,对于数据分布、数据类型都没有严格要求,比较适
合处理LGD模型这种特殊情况。而且决策树方法也非常直观,逻辑判断过程在树结构中一目了然,易于业务人员接受。如下图示例,最终的“叶子”中样本的LGD平均值即为该叶子的LGD估计值。决策树的构造过程就是变量选择的过程。在构造分类树时,各个节点的最优分割规则都包含了显著性变量,当分类树被构造后,每一个最优分割规则的参考指标都是对最后的评级结果有显著影响的变量。
图7 LGD决策树模型示例
虽然决策树的优点多多,但是在建模过程中要注意利用业务专家经验和样本统计结论结合,以避免决策树容易过渡拟合和树结构不稳定等缺点。