谭本艳 袁神鹏

【摘 要】 债务违约会对企业的正常生产经营带来严重的负面影响。文章以我国2012—2021年上市公司的财务数据和非财务数据共38个指标作为研究对象,首先查询企业的债务诉讼和信用债违约情况以确定企业是否债务违约,采用XGboost机器学习算法构建企业债务违约风险预警模型,实证结果显示,基于XGboost所构建的企业债务违约风险预警模型具有较好的预警效果。其次,将XGboost训练模型与决策树、随机森林、LightGBM、GBDT、Adaboost等多种机器学习模型进行稳健性比较,结果表明,XGboost模型在AUC、准确率、精确率、召回率、F1值等各项性能指标上均优于对比模型。再次,分别引入SHAP映射图和SHAP力图对模型进行了全局性和局部性解释,发现影响企业债务违约风险的因素不仅仅局限于企业的财务状况,企业的股权结构、公司治理也是重要影响因素,对企业开展债务违约风险控制具有指导意义。最后,给企业提出了相关的建议。

【关键词】 上市公司; 债务违约; XGboost; SHAP解释方法; 机器学习

【中图分类号】 F275  【文献标识码】 A  【文章编号】 1004-5937(2023)19-0074-08

一、引言

党的二十大报告指出,要强化金融稳定保障体系,依法将各类金融活动全部纳入监管,守住不发生系统性风险底线。企业债务是金融稳定保障体系的重要组成部分,需要纳入金融监管。现代市场经济体制下,企业须通过长期负债和短期负债等方式满足其日常经营活动及战略发展。债务违约受企业融资行为的影响,权衡理论认为企业存在最优资本结构,合理的负债水平和结构能发挥税盾效应,促进企业持续健康发展,而过度的负债可能使企业陷入财务困境,因此当资本结构偏离最优水平时企业应主动调整。然而,近年来我国企业债务违约事件不断发生,2014年“11超日债”违约成为我国首例债券违约事件,2021年恒大商票暴雷事件更是引起广泛关注。债务违约不仅对企业生产经营产生严重影响,而且存在行业内的溢出效应,严重制约企业的创新投资[ 1 ],甚至将风险外溢到金融系统[ 2 ]。因此,研究企业的违约特征并对其进行预警分析具有重要的现实意义。

学术界对企业债务违约的影响因素展开了一系列研究。委托代理理论指出,由于存在道德风险和信息不对称,不同利益主体的利益诉求影响企业的融资决策,进而影响企业的债务违约风险。(1)大多数研究视角主要集中在企业内部经营管理方面,如管理层行为[ 3 ]、财务信息披露质量[ 4 ]、内部控制[ 5 ]、企业战略[ 6 ]等。(2)也有部分学者从企业外部环境方面展开研究,如公司债信用利差[ 7 ]、贸易政策不确定性[ 8 ]、货币政策不确定性[ 9 ]、金融周期[ 10 ]等。从主流研究方法看,现有研究绝大多数采用计量模型,主要遵循在提出研究假设的基础上进行线性回归验证的研究范式。

由于计量模型严苛的适用条件和计量精度远远不如机器学习模型,且影响债务违约的因素较多又相互关联,一些学者开始采用机器学习模型展开研究。(1)在企业破产风险预测方面,Li等[ 11 ]通过对比回归树(CART)、支持向量机、K近邻等模型得出回归树模型的预测效果最好。(2)在财务困境预测方面,方匡南和杨阳[ 12 ]发现SGL-SVM模型的预测精度优于SVM模型和Logistic模型,闫达文等[ 13 ]运用逻辑回归发现混频数据较同频更能提高模型准确度,吕喜梅等[ 14 ]认为非监督机器学习模型LDA能显着提升预测效果。(3)在企业违约风险预测方面,林宇等[ 15 ]发现Twin-SVR模型的预测性能比传统的SVR、BPNN以及Logistic更优,章彤和迟国泰[ 16 ]通过比较K近邻、支持向量机等模型,发现基于最优信用特征组合角度建立的模型判别精度更高,王玉龙等[ 17 ]比较SVM、RF和逻辑回归等多种机器学习模型发现RF模型预测效果最佳。这些学者的研究倾向于提高模型的准确度。

需要说明的是,尽管机器学习模型的预测精度优于计量模型,不同机器学习模型的预测效果也不同,但其算法的黑盒特征却往往缺乏可解释性。因此,有学者在关注提高模型准确度的基础上,在机器学习模型中引入SHAP可解释性的方法,进而寻找到影响模型的核心特征及其影响方式[ 18 ]。本文除了运用机器学习模型预测企业债务违约外,还侧重于寻找关键违约特征,并利用SHAP可解释性方法对核心违约特征做出合理解释,为企业可能的债务违约提供预警。

本文的差异化贡献在于:第一,运用机器学习对企业债务违约问题进行探讨,引入机器学习可解释性模型是用于解决实际情况中对准确性与可解释性的共同需求。第二,相比此前企业债务违约风险预测中使用的逻辑回归和各类统计检验方法,本研究基于机器学习模型的SHAP方法探究影响企业违约的核心指标,为后续的指标研究提供了新的可能。第三,大多数学者仅考虑财务指标,本文将公司治理等因素纳入考虑范围,分析并定量比较影响企业违约的重要特征,并且对重要特征的作用进行了详细解读,对防范企业违约风险具有一定意义。

二、研究设计

(一)样本选择与数据来源

将上市公司财务和非财务相关的38个指标作为输入特征,上市公司债务违约二分类标签作为输出变量,选取2012—2021年我国A股上市公司的数据为初始研究样本,最后得到15 872个公司年度观察值。数据来源于Wind数据库、国泰安(CSMAR)数据库和同花顺数据库等。

(二)研究变量

1.债务违约变量(Vio)

借鉴陈婧等[ 19 ]的研究,结合Wind和CSMAR数据库中2012—2021年A股上市公司披露的诉讼仲裁数据,做如下处理:(1)根据案件类型,筛选出“借款纠纷”“贷款纠纷”“借贷纠纷”“欠款纠纷”“金融借款纠纷”“票据纠纷”“债务纠纷”“债权债务纠纷”的样本。(2)剔除本公司作为原告和被告但被驳回的样本。(3)剔除本公司作为担保方(非第一被告)而只需承担连带担保责任的样本。(4)剔除被告为本公司母公司、参股公司或其他大股东的样本。结合企业信用债违约的相关数据,数据来源于同花顺数据库。由于数据遗漏问题,违约样本有所删减,最终得到公司年度债务违约样本421条。

2.其他变量

参考现有债务违约文献,选取的公司财务指标见表1。

除了表1中的财务指标外,还选取了企业规模(Size)、管理层持股比例(Ms)、债权人—股东代理成本(Agen1)、财务困境(ZScore)、审计意见类型(Opin)、独立董事比例(Indp)、股权制衡度(Z)、股权集中度(Top1)、融资约束(SA)、金融资产持有比例(Fin)等涉及企业股权结构、公司治理的18个非财务指标,财务指标和非财务指标合计38个。

(三)模型说明

用XGboost作为基础模型,并对其进行训练和比较,以上市公司是否债务违约的二分类状态(取值分别为0、1)作为输出标签。极端梯度提升(XGboost,eXtreme Gradient Boosting)是陈天奇于2016年提出的CART决策树的提升算法,是一种基于Boosting思想的模型。XGboost训练过程的核心在于不断地添加树,其中每添加一棵树,本质是学习一个新函数,拟合上次预测的残差。基于该模型,主要按照以下步骤进行:

第一,将全样本按照8:2的比例划分为训练集和测试集,在训练集中通过参数调整来优化预警效果,并将测试集数据代入训练好的模型中,评估模型效果。由测试集的预测结果可计算模型的AUC、准确率、精确率、召回率和F1值。

第二,探究各个特征对债务违约的相对重要性。对于XGboost模型,决策树深度(max_depth)和学习器数量(n_estimators)这两个超参数对模型的运算影响重大,也是重点调整的对象。在训练集上通过网格搜索得到最优参数。样本不平衡会严重影响模型的效果,因此在模型训练过程中提升违约样本的权重(scale_pos_weight=37),使违约样本和非违约样本被赋予同样的重要度。基于XGboost得到每个特征的重要性得分,可以计算模型中各特征对模型分类的相对重要性,并从中总结出对上市公司债务违约预测能力较强的特征。

第三,为了增强模型的可解释性,引入特征重要性(Feature importance)、SHAP力图(SHAP force plot)等可解释工具,旨在构建一个包含全局和局部解释方法的综合解释框架来对“黑盒模型”的内在影响机理进行解释。

第四,对实证结论进行稳健性检验,更换机器学习算法如决策树、随机森林、LightGBM、GBDT与Adaboost,更换样本不平衡处理方法以及特征重要性排序方法。

三、实证检验与结果分析

(一)模型效果评估

采用AUC、Accuracy、Precision、Recall和F1 Score等指标分别衡量模型的准确性(表2)。根据模型预测结果,AUC的值为0.958,较高的AUC为判断企业债务违约风险提供了参考,可以帮助企业和其他利益相关方及早做出风险预警并采取对策;召回率Recall为86%,意味着违约的样本中有86%的样本被模型预测准确;精确度Precision为85.1%,意味着预测正确未违约的样本占全部未违约样本的85.1%,体现了模型在预测正确少数违约样本的同时并没有误伤太多未违约样本。可见采用的XGboost模型预测效果较好。

(二)模型的特征重要性

鉴于机器学习算法“黑箱”特质,利用Lundberg于2017年提出的SHAP(SHapley Additive exPlanations)可解释工具对模型进行解释。SHAP可解释工具的作用是测度机器学习模型的输入特征对模型输出标签的边际贡献,对模型影响最大的前10个特征的SHAP值摘要如图1所示。

图1中,指标在样本点上的取值大小采用不同颜色来表示,以深色显示的样本点代表指标在该样本上取值较高,浅色取值较低。以SHAP值取0为中间分界线,对于处在左侧的样本点,该特征对应样本点的SHAP值为负,特征取定该样本点对应值时对企业债务违约有负向贡献,处在右侧样本点则有正向贡献。因此,对输出违约概率有正向贡献的线性关联指标,图像总体上表现为左浅右深,负向贡献的指标则表现为左深右浅。

从模型训练集的SHAP值摘要图可得,对模型贡献最大的分别为:营业净利率(X14)、总营业成本率(X17)、管理层持股比例(Ms)、债权人—股东代理成本(Agen1)、财务困境(ZScore)等。其中管理层持股比例(Ms)、总资产增长率(X12)等较为显着地呈现偏负向关联指标,取值越高企业债务违约概率越低,而总营业成本率(X17)、债权人—股东代理成本(Agen1)等较为显着地呈现偏正向关联指标,取值越高企业债务违约概率越高。

(三)模型的局部解释

随机选择训练集中1个未违约样本和1个违约样本,用SHAP力图(SHAP force plot)对单个样本进行局部解释,如图2所示,其中上面为未违约样本,下面为违约样本。(1)最上面的横轴坐标表示所有样本SHAP值的可能取值区间,基准值(base value)为所有样本SHAP值的均值。(2)特征名称后的数值为该样本某特征的实际值。(3)灰黑区域表示该样本某特征SHAP值的正负和大小,灰(黑)色对应SHAP值的正(负),宽(窄)对应SHAP值的大(小)。(4)灰黑区域相邻处的数字-5.45和7.92分别表示该样本被预测为违约的SHAP输出值。

将上述未违约样本和违约样本的SHAP输出值-5.45和7.92通过sigmoid函数转换可以得到其最终输出违约概率为0.43%和99.96%,和实际情况相符。此外,从图2中违约样本的SHAP力图可以看出:(1)首先营业净利率(X14)是对预警边际贡献最大的特征,其次是非标准无保留意见(Opin=1)、总营业成本率(X17)、债权人—股东代理成本(Agen1)和财务困境(ZScore)等,最终所有的特征共同影响该样本的违约风险判别。(2)由于灰色特征表示对SHAP的影响为正,黑色特征表示影响为负,可见该样本公司在营业净利率(X14)、非标准无保留意见(Opin=1)、总营业成本率(X17)、债权人—股东代理成本(Agen1)以及财务困境(ZScore)等特征上的表现不佳,更容易导致该公司债务违约,相反该样本公司的托宾Q值(Tq)表现优良,降低了该公司债务违约的风险。

四、核心指标违约影响能力分析

上面模型的特征重要性分析找出了对企业债务违约最具影响的特征,下面分析这些特征对债务违约的具体影响,以强化模型的可解释性。

(一)财务指标分析

1.总营业成本率(X17)、营业净利率(X14)

总营业成本率和营业净利率都是反映企业盈利能力的指标,也是对模型贡献最大的两个财务指标。如图3,总营业成本率以1为界限,总营业成本率大于1意味着企业的总收入无法覆盖总成本,此时对应的SHAP大于0,这将提高企业债务违约概率。营业净利率以0为界限,当营业净利率小于0说明企业处于亏损状态,对应的SHAP大于0,此时将提高企业债务违约概率。这意味着,企业控制成本、保持适当的利润有利于降低企业债务违约概率。

2.总资产增长率(X12)

总资产增长率能够反映企业所处的生命周期。如图4,当总资产增长率大于0.1时,SHAP小于0,此时将降低企业债务违约概率,总资产增长率较高可能意味着企业处于成长期,成长期的企业投入产出处于良好的正循环,市场份额不断扩大,资金周转良好,债务违约的可能性较小。当总资产增长率小于-0.05时,SHAP大于0,将提高企业违约概率,总资产萎缩过快可能意味着企业处于衰退期,企业市场份额缩小,产品竞争力减弱,盈利能力下滑,如果不能扭转危局最终将导致破产。这意味着,企业应该寻找并且把握投资机会,进行适当规模的投资和扩张有利于降低企业债务违约概率。

3.长期资本负债率(X6)

合理的负债可以加速企业发展,提高资产报酬率,但不合理的负债可能会加重企业的财务负担。如图5,当企业的长期资本负债率小于0.35、SHAP值小于0,此时将降低企业债务违约概率。当长期负债比率处于(0.35,0.63)时,虽然SHAP值大于0,提高了企业违约的概率,但是SHAP无明显趋势变化,此时企业需要关注自身债务状况,控制财务风险。当负债比率大于0.63时,企业一定要警惕财务风险,必要时去杠杆、降风险。这意味着,企业需要在动态调整中保持最佳资本结构。

(二)非财务指标分析

1.管理层持股比例(Ms)

根据委托代理理论,高管持股可以使股东和代理人之间的利益趋于一致,有助于降低代理成本。如图6,当管理层持股小于0.01、SHAP大于0,此时将提高企业违约的概率。如果管理层持股比例过低,管理层的“欲望”得不到满足可能会寻找其他途径弥补,甚至损害企业和股东的利益。当管理层持股比例大于0.16时,SHAP值小于0且绝对值增大,此时将显着降低企业违约的概率。管理层持股比例高可能意味着大股东直接参与公司经营管理,此时大股东与企业利益趋于一致。这意味着,股东应该给予管理层适当的“权力”,或者直接参与公司经营管理,实现企业和自身利益最大化。

2.债权人—股东代理成本(Agen1)

如图7,债权人—股东代理成本是通过企业的利息费用除以有息负债得出的,当企业的利息费用超过有息负债的10%、SHAP大于0,此时企业的资金成本过高,将提高企业违约的概率,债权人可能严格审核向企业的借款,或者要求更高的风险溢价,加剧企业和债权人的矛盾。这意味着,企业只有保持良好的发展和健康的财务状况,才能降低从外界获取资金的成本,减少债权人与企业的矛盾。

3.股权制衡度(Z)

股权结构方面,学术界已经探讨股权结构对企业治理的影响,如提高股权集中度能抑制盈余操纵行为[ 20 ],将股权结构与企业生命周期相联系,发现高股权集中度会提升处于成长期企业的治理效果[ 21 ]。如图8,当股权制衡度小于0.3时,将降低企业违约的概率。当股权制衡度大于1.8时,SHAP大于0,将提高违约的概率。股权制衡度过高可能导致企业决策效率低下,错失投资机会,尤其是处于衰退期的企业如果错失转型机会,甚至可能导致破产重组。这意味着,企业需要根据自身情况找到最佳股权结构,不能因为“内斗”影响企业经营发展。

五、稳健性检验

(一)更换机器学习方法

为了验证上述XGboost模型得出的效果稳健性,引入了决策树(Decision Tree)、随机森林(Random Forest)、LightGBM(Light Gradient Boosting Machine)、GBDT(Gradient Boosting Decision Tree)和Adaboost(Adaptive Boosting)五种模型作为对比(见表3)。

从测试集效果对比而言,除了决策树的AUC值低于0.9外,其余各类集成学习模型具有较高精度,且其AUC值基本在0.95以上,其他评估指标Recall、Precision、Accuracy、F1 Score等总体表现良好,这说明采取的机器学习方法具有较强的稳健性。

(二)更换样本不平衡处理方法及特征重要性排序

1.更换样本不平衡处理方法

数据中违约样本仅仅占总量的2.65%,属于典型的不平衡样本,上文采用提高少数类样本的权重方法来处理不平衡样本。此处,采用Chawla于2002年提出的基于虚拟样本合成的过采样方法(Synthetic Minority Over-sampling Technique,SMOTE)处理不平衡样本。如表4,过采样后模型的整体效果得到较大提升,AUC提升了4.1%,所有指标准确率均超过90%,Recall提升了13.7%,达到99.7%,说明模型对违约样本预测准确,同时Precision达到94.4%,说明模型较少将未违约的样本预测错误,表明预测模型的稳健性。

2.特征重要性排序

为进一步说明XGboost模型条件下,哪些特征对预测结果的贡献度更大,将过采样后的样本通过XGboost的特征重要性(feature importance)得到各个特征的重要性得分,和上文SHAP摘要图比较,有6个特征重合,前10个特征重要性可达63.32%。限于篇幅,具体结果在此不再赘述。可见,XGboost模型的特征重要性排序具有稳健性。

六、结论与建议

(一)研究结论

基于38个财务和非财务指标,借助XGboost算法构建了企业债务违约预警模型,采用SHAP解释方法在机器学习模型基础上挖掘重要指标,并且对重要指标作用原理进行解读。得出以下结论:(1)XGboost机器学习模型能够较为准确地预测企业债务违约。(2)通过SHAP可解释工具对模型进行分析,发现总营业成本率、营业净利率、管理层持股、总资产增长率和债权人—股东代理成本等是影响企业债务违约的主要因素。

(二)政策建议

第一,总营业成本率、营业净利率、总资产增长率等财务指标能够反映企业的盈利能力和发展能力,从其对企业违约的预警来看,一般是由于经营不善、产品缺乏竞争力以及没有更好的投资机会等原因导致企业盈利不足,发展受阻,企业的财务状况持续恶化。因此,企业应该将资源和精力投入到主营业务,努力提高自身产品的竞争力和市场份额,同时积极调整企业战略,寻找新的投资机会和利润增长点,甚至可以构建企业自身的“护城河”。

第二,长期资本负债率、债权人—股东代理成本等指标能够反映企业的偿债能力和大体的财务状况,从其对企业违约的作用方向来看,一般是由于企业的负债规模庞大、结构不合理,导致资金成本过高、流动性不足。因此,企业应当在追求最优资本结构的同时,警惕过于激进的融资策略,在确保不发生债务违约、不加剧财务风险的前提下,适度发挥财务杠杆的效用,保持企业财务平稳运行。

第三,管理层持股比例、股权制衡度等能反映企业股东和管理层、大股东和中小股东之间的代理成本,从他们对企业经营管理的影响来看,无股权激励的管理层可能从企业的其他方面来弥补自身欲望,如要求更高的货币薪酬。而股权过于集中可能导致大股东掏空上市公司而无人制约的情况,股权过于分散则可能导致相互制衡,股东间利益纠纷不断,影响决策效率。因此,适当给予管理层股权激励能够缓解股东和管理层的代理成本,适当的股权制衡也能够抑制大股东“壕沟防御”。

【参考文献】

[1] 张玮倩,方军雄.债务违约溢出效应对企业创新投资的影响研究[J].证券市场导报,2019(9):31-40.

[2] 张庆君,马红亮.上市公司债务违约对商业银行的风险溢出效应研究[J].安徽师范大学学报(人文社会科学版),2021,49(1):117-126.

[3] 姜付秀,张敏,陆正飞,等.管理者过度自信、企业扩张与财务困境[J].经济研究,2009,44(1):131-143.

[4] 吴建华,张颖,王新军.信息披露扭曲下企业债券违约风险量化研究[J].数理统计与管理,2017,36(1):175-190.

[5] 李萌,王近.内部控制质量与企业债务违约风险[J].国际金融研究,2020(8):77-86.

[6] 刘海明,步晓宁.民营企业债务违约是内因驱动吗:基于短贷长投和多元化经营视角的分析[J].金融研究,2022(3):79-95.

[7] DAVID A.Inflation uncertainty,asset valuations,and the credit spreads puzzle[J].The Review of Financial Studies,2008,21(6):2487-2534.

[8] 李梓旗,于双丽,乔桂明.贸易政策不确定性、企业现金持有水平与债务违约风险:来自沪深A股上市公司的经验证据[J].山西财经大学学报,2023,45(1):115-126.

[9] 王博,李力,郝大鹏.货币政策不确定性、违约风险与宏观经济波动[J].经济研究,2019,54(3):119-134.

[10] 罗朝阳,李雪松.金融周期、全要素生产率与债券违约[J].经济管理,2020,42(2):5-22.

[11] LI H,SUN J,WU J.Predicting business failure using classification and regression tree:an empirical comparison with popular classical statistical methods and top classification mining methods[J].Expert Systems with Applications,2010,37(8):5895-5904.

[12] 方匡南,杨阳.SGL-SVM方法研究及其在财务困境预测中的应用[J].统计研究,2018,35(8):104-115.

[13] 闫达文,李存,迟国泰.基于混频数据的中国上市公司财务困境动态预测研究[J/OL].中国管理科学,2022-11-17.

[14] 吕喜梅,蒋翠清,丁勇,等.融合临时报告软信息的新三板企业财务困境预测研究[J/OL].中国管理科学,2022-11-17.

[15] 林宇,吴庆贺,李昊,等.基于Twin-SVR的公司违约风险预测研究[J].管理评论,2019,31(11):33-43.

[16] 章彤,迟国泰.基于最优信用特征组合的违约判别模型:以中国A股上市公司为例[J].系统工程理论与实践,2020,40(10):2546-2562.

[17] 王玉龙,周榴,张涤霏.企业债务违约风险预测:基于机器学习的视角[J].财政科学,2022(6):62-74.

[18] 雷欣南,林乐凡,肖斌卿,等.小微企业违约特征再探索:基于SHAP解释方法的机器学习模型[J/OL].中国管理科学,2022-11-17.

[19] 陈婧,张金丹,方军雄.公司债务违约风险影响审计收费吗[J].财贸经济,2018,39(5):71-87.

[20] 郝颖.股权结构对盈余管理的治理效应:基于内部控制质量视角[J].会计之友,2022(10):2-9.

[21] DRIFFIELD N,MAHAMBARE V,PAL S.How does ownership structure affect capital structure and firm value?Recent evidence from East Asia[J].Economics of Transition,2007,15(3):535-573.