吴育辉 刘忻忻 陈韫妍

【摘 要】 自2014年我国债券市场首例违约事件发生以来,债券违约屡见不鲜。文章以2014—2022年发行的公司债、企业债和中期票据为研究对象,选取财务指标与非财务指标,搭建了基于机器学习算法SMOTETomek-GWO-XGBoost的债券违约风险预警模型。结果表明:(1)与其他方法相比,GWO-XGBoost模型在准确率、召回率、未加权平均召回率以及AUC值这四个指标上具有更加优异的表现;(2)SMOTETomek采样方法可以有效平衡数据样本,因此SMOTETomek-GWO- XGBoost模型具有更高的精度与稳定性;(3)SHAP值法可以展示不同特征变量对债券违约风险的贡献度,有利于就重要特征进行针对性分析。

【关键词】 债券违约风险; 风险预警; 机器学习; GWO-XGBoost; SMOTETomek

【中图分类号】 F234.3;F832.5  【文献标识码】 A  【文章编号】 1004-5937(2024)06-0073-09

一、引言

截至2022年末,我国债券市场总存量已经达到了141.22万亿元,同比增长8.2%,这一庞大规模和快速增长的数据显示出中国债券市场持续蓬勃发展的态势。但值得注意的是,自2014年第一只违约债券出现以来,债券违约事件屡见不鲜。根据Wind数据库的统计,2022年我国债券违约总金额为861.95亿元,新增违约主体37家,新增违约债券152只。在实体经济的发展过程中,债券市场发挥了促进企业投资、融资活动的重要作用。然而,近年来屡屡发生的违约事件暴露出债券市场存在一定的信用风险。通过分析债券违约的原因,本文希望找到防范化解债券违约风险的有效途径,从而为我国债券市场的高质量发展提供有益参考。

债券违约事件的发生,不仅与宏观经济环境及监管政策的变化密不可分,而且与公司层面的经营财务表现密切相关。此外,Bao等[ 1 ]研究发现,相比于现有的大多数以解释样本欺诈行为并强调因果推理为主要目的研究,使用集成学习构建的预测模型可以更准确地对会计欺诈行为进行预测。因此,本文从宏观和微观层面入手,结合财务指标与非财务指标,运用机器学习的方法对债券违约风险进行预测。

本文以我国2014—2022年企业债、公司债和中期票据为研究对象,结合SMOTETomek(Synthetic Minority Oversampling Technique Tomek Links)采样算法以及GWO-XGBoost(Grey Wolf Optimizer Extreme Gradient Boosting)算法,构建债券违约风险预警模型。实证结果表明,该机器学习模型有较好的违约预测能力,在准确率、召回率、未加权平均召回率以及AUC值(ROC曲线下的面积)四个指标上均有不错的表现,为后续债券违约分析和预警提供了思路和依据。

本文的主要贡献体现为两个方面:(1)在研究方法上进行改进。相比传统的XGBoost机器学习模型,本文先以GWO智能优化算法对其进行优化。通过利用GWO算法计算出最优的弱分类器数量(n_estimators)、学习率(learning_rate)以及最大深度(max_depth)的方式,对XGBoost模型的参数进行调优。在此基础上,鉴于债券样本非平衡的特点,使用SMOTETomek采样算法,有效提升了小类别样本(即违约样本)的识别率。(2)在选取非财务指标上进行改进。本文创新性地引入了从上市公司年报中提取出的核心竞争力指标,并且发现该指标的加入对提升债券违约预警模型的性能有较大帮助。

二、文献综述与理论分析

债券违约一直是金融领域的热点话题之一。债券违约风险的识别意味着对债权人发生违约的可能性进行评估和预测。已有的研究主要从财务及非财务指标的选择、预测模型的建立,以及不平衡数据的处理这三个方面展开。

(一)指标选取

在财务指标方面,大量的研究将财务指标用于财务危机预警和企业违约风险的预测。具体而言,吴世农和黄世忠[ 2 ]从资产变现率、负债状况、资产使用效率以及盈利能力四个方面选取企业破产分析指标。吴世农和卢贤义[ 3 ]选取了包括资产收益率、负债比率以及资产周转率等在内的21个财务指标。吴育辉和唐浩博[ 4 ]的研究中则包括了资产负债率与企业成长性(营业收入同比增长率)等上述研究中未出现的指标。本文总结上述研究成果,从盈利能力、短期偿债能力、长期偿债能力、资产负债结构、营运能力、成长能力以及创现能力这七个维度出发,选取了包括资产负债率、净资产收益率、流动比率、总资产周转天数、应收账款周转天数、EBIT利润率在内的总计34个财务指标。这些财务指标可以帮助评估企业在不同层面的财务状况和经营业绩,从而为企业的管理和决策提供有价值的信息。

在非财务指标方面,本文考虑了宏观、行业及企业三个层面。具体而言,首先是宏观经济层面。吕峻和李梓房[ 5 ]以及卢永艳[ 6 ]研究发现,GDP、GDP增长率、消费者物价指数CPI以及狭义货币供给量M1的增长率这些宏观经济指标对公司陷入财务危机的影响显着;戴雅榕和沈艺峰[ 7 ]的研究表明,政府作为“看不见”的手,其隐性担保能力在债券违约预测中有着重要作用。因此,本文将GDP增速、CPI增速以及M1增速纳入全国层面的经济指标,将GDP增速以及政府隐性担保能力作为省级层面的经济指标。其次是行业层面。Chava和Jarrow[ 8 ]指出不同行业面临的竞争水平和破产可能性不同,成熟行业的破产率较高。此外,行业需求和行业集中度也会对企业破产概率产生影响。因此,本文选择发债主体所在行业以及该行业的行业集中度作为行业指标。最后是企业层面。根据吴世农等[ 9 ]的研究,企业的核心竞争力越强,未来的违约风险越低。因此,本文创新性地选取对上市公司年报进行文本分析和提炼得到的企业核心竞争力指标作为企业的非财务指标,这是既往债券违约预测中并未出现过的指标。

(二)模型选取

在获取具有研究价值的实验指标之后,通常需要利用统计方法或机器学习方法对大量数据进行详细分析。而在计量经济学中,主要使用统计方法分析指标间的相关性,并通过利用其理论背景对结果进行解释[ 10 ]。相比统计方法,机器学习方法在检测数据特征的非线性关系以及处理大量数据等方面具有重要优势[ 11 ]。

在诸多主流机器学习模型中,XGBoost模型自2016年由Chen和Guestrin[ 12 ]提出以来,因其在分类和预测方面的效果明显优于传统模型而广泛应用于风险预测领域。Barboza等[ 13 ]的实验结果表明,在破产预测方面,Bagging、Boosting以及随机森林(Random Forest,RF)比线性判别分析(Linear Discriminant Analysis,LDA)、逻辑回归(Logistic Regression,LR)和人工神经网络(Artificial Neural Networks,ANN)具有更好的性能。此外,Addo等[ 14 ]利用不同的机器学习和深度学习技术对贷款违约行为进行预测,证明了基于树的模型比基于多层神经网络的模型更加稳定。XGBoost模型作为机器学习模型用于债券违约预测,不仅在与传统的逻辑回归模型进行比较时展现出一定的优越性[ 15 ],而且相比基于树的其他模型(如决策树、梯度提升决策树等),在AUC、准确率、精确率、召回率以及F1值等指标上均有优势[ 16 ]。

参考Chen等[ 17 ]的研究,当数据样本不平衡时,可以引入未加权平均召回率指标对模型性能进行评估。精确率与F1值在面对不平衡样本时效果较差,故本文采用AUC、准确率、召回率以及未加权平均召回率这四个指标衡量由XGBoost模型构建的债券违约风险预测模型的性能。

然而,通过总结已有文献得出一个结论,即单一预测模型的效果往往有限。为了更好地提高预测的精度,可以引入智能优化算法来解决。EML(进化机器学习)是一类基于生物进化理论的机器学习算法,它模拟自然界中的生物进化过程,使用进化计算的方法来优化模型参数或解决优化问题。EML算法包括遗传算法(Genetic Algorithm,GA)、粒子群优化算法(Particle Swarm Optimization,PSO)、模拟退火算法(Simulated Annealing,SA)以及灰狼优化算法(Grey Wolf Optimization,GWO)等,在财务领域广泛应用。Ansari等[ 18 ]通过使用粒子群优化算法(PSO)来改进人工神经网络模型,成功降低了人工神经网络权值训练所需的时间复杂度,提高了ANN进行破产预测的效率和准确率。Wang等[ 19 ]利用灰狼优化算法(GWO)构建了一种用于破产预测的新型KELM(内核极限学习机)模型,其在准确性、I型和II型误差、AUC值以及计算时间方面都表现出了优越性。除此之外,肖艳丽和向有涛[ 20 ]的研究发现,GWO-XGBoost模型相比SVM(支持向量机)、KNN(K-近邻)、决策树、LDA以及RF等模型,在预测精度、稳定性和统计意义方面都具有更优异的性能,并对数据预测和决策具有重要的应用价值。前人的研究为本文提供了研究思路,即在进行预测任务时,可以考虑使用智能优化算法来辅助模型的选择和调整,从而获得更准确的预测结果。

但需要注意的是,在利用机器学习分析债券违约问题时,除了要关注预测精度的提升以外,还应重视模型结果的可解释性,尽量避免“黑箱”问题。近年来,源于Shapley值概念的SHapley Additive exPlanations(SHAP)值[ 21 ]在复杂模型的解释中得到了频繁的应用。SHAP值可以帮助衡量每个属性对预测分类的贡献,从而解释复杂模型的预测结果。通过将不同属性的SHAP值及其排名可视化,可以为进一步探索不同属性与债券违约之间的因果关系提供理论依据。

(三)不平衡数据处理

在债券违约风险研究领域,数据的不平衡性是一个常见的问题。违约的样本相较未违约的样本而言只占全样本的少数,因此在模型的训练过程中,往往会出现对少数类的识别精度较低的情况。不平衡的数据需要从数据层面或者算法层面加以处理。在算法层面,可以通过成本敏感型学习模型以及集成学习模型解决数据不平衡的问题;而在数据层面,可以通过采样方法来平衡数据[ 22 ]。上述方法中,采样方法是最为常用的解决数据不平衡问题的方法。

合成少数过采样技术(SMOTE)是一种主流的过采样方法,通过对少数类进行线性插值来生成新的综合训练数据。然而SMOTE方法对少数类的随机添加,可能会导致过度泛化和噪声数据的产生[ 23 ]。为了提高SMOTE方法的性能,可以采用欠采样方法来清理多数类中的噪声数据。一种基于SMOTE过采样方法开发出的SMOTE-Tomek Links方法,结合了SMOTE过采样方法和Tomek Links欠采样方法的特点,既保留了有效信息,又可以去除具有相似特征和重叠的噪声数据,从而减轻了边界模糊问题[ 24 ]。相比单独使用SMOTE方法,SMOTE-Tomek Links方法可以更有效地改善数据不平衡性,并提高模型识别少数类的准确性。因此,本文采用SMOTE-Tomek Links方法(简称SMOTETomek)作为非平衡数据的处理方法。

三、研究设计

(一)指标选取

1.财务指标

根据前文的文献梳理,选取以下财务指标进行分析:

(1)盈利能力:销售毛利率、销售净利率、EBIT利润率、营业利润率、总资产净利率(ROA)、净资产收益率(ROE)、投入资本回报率(ROIC)。

(2)短期偿债能力:流动比率、速动比率、现金比率。

(3)长期偿债能力:资产负债率、净现金负债率、有息负债权益比、利息保障倍数。

(4)资产负债结构:经营风险、资产结构、负债结构。

(5)营运能力:总资产周转天数、存货周转天数、应收账款周转天数、应付账款周转天数、预收账款周转天数、预付账款周转天数、现金周转天数、净营运周期。

(6)成长能力:营业收入增长率、净利润增长率、归母扣非净利润增长率、经营活动净现金增长率、净现金增长率、总资产增长率、净资产增长率。

(7)创现能力:收入获现率、利润获现率。

2.非财务指标

根据前文分析,选择以下指标作为非财务指标:

(1)宏观经济指标:全国层面包括GDP增速、CPI增速以及M1增速,省级层面包括地方GDP增速以及地方政府隐性担保能力。

(2)行业指标:发债主体所属行业以及行业集中度。

(3)企业非财务指标:上市公司核心竞争力指标。这部分指标参考吴世农等[ 9 ]的研究,利用Word2Vec模型以及命名实体识别法(NER)等文本分析技术,从2012—2022年中国A股上市公司年报中提取得出,主要包括传统资源指标(Tradition)、人才资源指标(Human)、品牌资源指标(Brand)、政策资源指标(Policy)、经营能力指标(Operation)、创新能力指标(Innovation)、管控能力指标(Management)、产业链协同能力指标(Industrychain)、社会责任履行能力指标(Society)以及其他能力指标(Other)共10个二级指标,通过上述二级指标求和得出上市公司核心竞争力综合指标(Core)。

指标定义见表1。

(二)数据选取与处理

本文数据均来源于Wind数据库。考虑到首次出现实质违约的样本可能不具代表性,并且删除发行日期早于2014年的样本有助于调整小类别样本的比例,因此本文选择了2014年1月至2022年12月之间发行的债券作为研究对象。已到期债券未来没有违约的可能,因此,本文选取已到期非违约公司债、企业债和中期票据数据作为模型的正向样本,同时选取了在此期间发生违约的全部公司债、企业债和中期票据数据作为模型的负向样本,即违约样本。样本去重后,得到正向样本8 002条,负向样本346条,总体样本8 348条。在匹配核心竞争力指标(Core)且剔除样本缺失值后,得到本文最终样本共计1 279条,其中债券违约样本106条。

为了排除异常值的影响,本文对财务数据进行了上下1%的Winsorize缩尾处理。由于样本存在部分缺失值,本文采用各属性的行业中值来填补缺失值,并对填补后的数据进行了归一化处理,将数据范围限制在[0,1]之间。

债券发行前3年披露的数据能够提供较为全面的历史信息,有助于捕捉可能对违约风险产生影响的因素。因此,本文以债券发行前3年的数据作为样本,以考察各项财务指标的表现。举例来说,当选择销售毛利率这一指标时,需要相应地提取债券发行前3年的销售毛利率数据,即销售毛利率(t-3)、销售毛利率(t-2)以及销售毛利率(t-1)。其中,t表示发行起始年,t-1表示发行日期的前一年,以此类推。

(三)研究模型设计

1.XGBoost模型

XGBoost(EXtreme Gradient Boosting)是一种集成学习算法,它结合了梯度提升算法(Gradient Boosting)和决策树模型,被广泛应用于回归和分类问题。该算法采用Boosting思想中的加法模型,通过逐步构建一系列弱分类器,并将它们的预测结果进行集成来提升整体性能。

2.GWO算法

XGBoost模型的参数选择对模型的预测结果具有重要影响。本文选择灰狼优化算法(GWO)来优化XGBoost模型的学习率(learning_rate)、弱分类器个数(n_estimators)以及最大深度(max_depth)的参数设置,并应用GWO-XGBoost模型来预警企业债券违约风险。灰狼算法是一种启发式优化算法,它由灰狼的种群机制推演而来,通过对掠夺行为的不断迭代,最终找到最佳解。该算法具有搜索速度快、易得到全局最优解和稳定性较强等优势。

3.SMOTE-Tomek采样模型

SMOTE和Tomek Links是两种常用的处理不平衡数据集的方法。它们可以结合使用,形成一种称为SMOTE-Tomek的组合方法。SMOTE-Tomek算法首先使用SMOTE对少数类别进行过采样,创建合成样本,然后使用Tomek Links方法删除生成的合成样本与原始样本之间的胶着样本对,以改进不同类之间的分离程度。这种组合方法旨在增强不平衡数据集的分类性能,并为少数类预测提供更稳健的模型。

四、研究结果

(一)评价指标

选择适当的模型评价指标对准确评估和比较不同模型的性能至关重要。由于债券违约风险预测问题本质上是二分类问题,本文以不平衡二分类问题中常用的准确率(Accuracy)、召回率(Recall)、未加权平均召回率(UAR)以及AUC值作为模型的评价指标。

对于每一个测试样本,模型有四种可能的预测结果,如表2所示。

以下是对上述指标的具体介绍:

1.准确率(Accuracy)

准确率是最直观和常用的指标,它表示模型预测正确的样本占总样本的比例。但在数据不平衡的情况下,准确率可能会因模型倾向于预测多数类别而产生误导,因此需要结合其他指标进行模型性能的评判。其具体计算公式如下:

2.召回率(Recall)

召回率衡量模型正确预测为正例的样本占实际正例样本的比例,高召回率表示模型能够较好地识别出正例,对于关注正确预测实际正例的应用非常重要。其具体计算公式为:

3.UAR(Unweighted Average Recall)

UAR针对实际的正样本和负样本计算相关概率,表示每类数据样本召回率(Recall)的平均值。因此,当样本不平衡时可以使用UAR对模型进行客观评估。其具体公式为:

其中,Recall0代表特异度[等于TN/(TN+FP)],Recall1代表召回率,分母为2代表二分类问题。

4.AUC值

AUC值是ROC曲线下的面积,用于度量二分类模型预测结果的整体性能。ROC曲线绘制了模型在不同阈值下的真正率[TPR,等于TP/(TP+FN)]和假正率[FPR,等于FP/(FP+TN)]之间的关系。AUC值越高,表示模型的性能越好。

(二)模型结果分析

非财务指标中的核心竞争力指标从上市公司年报中提取而来,因此在结合该指标后,样本量会有较大幅度的减少。为了系统地探究不同模型在债券违约风险预测方面的性能,以及不同特征与违约行为之间的联系,本研究将实验划分为三部分。第一部分,分别验证不同模型基于财务指标以及全部指标的债券违约预测能力;第二部分,利用SMOTE-Tomek采样算法对模型进行优化;第三部分,使用SHAP值法分析各指标对债券违约预测的影响力。

1.模型实验结果

本文对七个常用的机器学习模型进行了比较和分析,这些模型包括GWO-XGBoost、XGBoost、ANN、RF、KNN、SVM以及LR。其中,GWO算法通过优化XGBoost模型的准确率来获得最佳的弱分类器数量、学习率以及最大深度。基于财务特征的GWO-XGBoost模型最佳参数配置为n_estimators=250,learning_rate=0.3,max_depth=5;基于全部特征(即财务特征与非财务特征)的GWO-XGBoost模型最佳参数配置为n_estimators=300,learning_ rate=0.3,max_depth=6。

根据表3及图1可知,无论基于财务特征还是基于全部特征,XGBoost模型的综合性能都优于其他5个模型。经过GWO算法优化后,基于财务特征的XGBoost模型在Recall、UAR和AUC值这三个指标上都有明显的提高,基于全部特征的XGBoost模型在四个指标上的表现较默认模型均有所提升。

通过观察基于财务特征的GWO-XGBoost模型与XGBoost模型的预测值混淆矩阵(表4)可以发现,由于GWO算法以准确率为优化目标,且数据的不平衡性较强(即债券违约样本数量较少),因此,在提高准确率的同时,可能会导致少量违约样本被错误分类,进而造成召回率的小幅下降。但值得注意的是,优化后模型的UAR值与AUC值更高。其中,UAR指标只关注自类数据,即分别在正样本和负样本中观察相关概率问题,因此,该指标可以无视样本不均衡的情况,对模型进行客观评估。而AUC指标的计算方法同时考虑了学习器对正例和负例的分类能力,因此,该指标在样本不平衡的情况下同样可以对分类器做出合理的评价。由此可知,当模型具有更高的UAR值与AUC值时,说明该模型对不同样本的识别能力更强且综合表现更好。上述结论表明,基于本文中的数据样本,使用GWO算法对XGBoost模型进行优化可以提升模型的性能。

在引入非财务指标后,由于上市公司数量较少,样本的数据量有了较大幅度的缩减,这导致模型可以学习到的信息减少。然而,与仅使用财务指标的模型相比,使用全部指标的模型准确率以及UAR值都有所提高,同时,AUC值也有显着提高。这表明虽然样本数据的减少会对模型的训练造成一定的影响,但使用更全面的指标能够弥补这一缺点,并提高模型的性能。使用全部指标的模型能够更好地识别出正例并且减少误报率,具备更高的实用性和可靠性。

2.引入SMOTETomek采样算法

使用SMOTETomek采样算法后,原始数据经过重新平衡,得到了以下分类情况:非违约样本数量与违约样本数量的比例为1:1。具体而言,仅包含财务特征的样本中,非违约样本和违约样本的数量均为6 408条;而包含全部特征的样本中,非违约样本和违约样本的数量均为942条。

由表5可以观察到,在对数据进行SMOTETomek采样后,模型的召回率以及未加权平均召回率的值都有所提升,而AUC值和准确率变化不大。综合来看,通过采用SMOTETomek算法重新平衡数据,可以在不降低模型性能的情况下,有效提高模型对少数样本(即违约样本)的识别能力并降低模型的偏差,使模型能够更准确地判断正例和负例,并具有更高的实用价值。

3.特征重要性分析

Shapley Value是一种为合作博弈中的参与者分配收益的方法,衡量每个参与者对整个合作所产生的贡献程度。在机器学习中,可以将特征看作参与者,将预测结果看作合作博弈的收益。SHAP值基于Shapley Value的思想,可以用来衡量每个特征对单个预测结果的贡献。

从图2可以看出,SHAP值排名中最重要的10个特征为:地方政府隐性担保能力,预付账款周转天数(t-3),有息负债权益比(t-1),总资产同比增长率(t-2),存货周转天数(t-1),EBIT利润率(t-1),预付账款周转天数(t-2),现金周转天数(t-1),EBIT利润率(t-3)以及ROE(t-1)。而在129个特征中,核心竞争力指标的排名较为靠前,其中,C_Society排名14,C_Operation排名28,说明在进行债券违约预测时,核心竞争力指标具有较高的影响力。

在上述指标中,最重要的两个指标为地方政府隐性担保能力以及预付账款周转天数。本文以地方政府财政盈余与地方GDP增速的比值作为地方政府隐性担保能力的代理值。地方政府隐性担保反映了地方政府的财政实力,以及政府预算对当地国企与民企的软约束能力。由于预算软约束的存在,当企业产生资金问题时,政府可能会直接或者间接地向企业提供资金或其他方面的隐性支持,以缓解企业的经营压力,降低其破产风险。因此,债券发行人所属地区的财政实力越强,该债券对应的违约概率相对越小。

预付账款周转天数是衡量企业经营效率的一个指标,它反映了企业通过销售所获得的预付款项从销售到收回所需的平均时间。高预付账款周转天数表明企业预付款项和合同资产的资金占用情况较为严重,资金使用效率和运营效率较低。同时该指标越高,表明企业对供应商或客户的议价能力较弱,处于供应链中弱势地位,竞争力较弱。综上,普遍来说,预付账款周转天数越高,企业的经营风险越大。

总体来说,地方政府隐性担保能力以及企业的预付账款周转天数都与债券违约概率之间存在关联,但并不能单独决定债券违约的发生。不能简单地理解为高预付账款周转天数等价于高违约概率,或者高隐性担保能力等价于低违约概率。违约概率受到众多因素的综合影响,包括行业情况、市场环境、经营策略等,对违约成因的分析也应该综合考虑多个指标,并结合具体情况进行评估。

五、研究结论

本文以我国2014—2022年发行的公司债、企业债和中期票据为研究对象,从财务特征(盈利能力、短期偿债能力、长期偿债能力、资产负债结构、营运能力、成长能力、创现能力)和非财务特征(宏观经济、行业、企业核心竞争力)两大层面选取指标构建了基于SMOTETomek-GWO-XGBoost的债券违约风险预警模型并进行分析。为了提高模型结果的准确性和可靠性,本文采用了多种性能评估指标,如准确率、召回率、未加权平均召回率和AUC值,对比分析了基于财务特征和全部特征的情况下,GWO-XGBoost模型与其他5个基准模型以及未优化的XGBoost模型间的性能差异,以及在使用SMOTETomek采样算法前后的GWO-XGBoost模型的性能差异。此外,本文采用SHAP值法对指标重要性进行了分析,以解释模型结果。

实证结果表明:第一,本文所用的GWO-XGBoost 债券违约风险预警模型具有较好的泛化能力、更高的预测精度以及更强的稳定性,能够对债券的违约行为进行有效预测。第二,在结合SMOTETomek采样算法后,模型的召回率以及UAR值都得到了提高,可以说明SMOTETomek具有平衡样本和改善模型分类性能的作用。第三,应用SHAP值法可以定量展示不同特征对债券违约风险的影响力,增加机器学习模型的可解释性,避免违约风险预测过程中的“黑箱”问题。此外,本文根据SHAP值排名的结果,重点讨论了SHAP值排名前两位的指标,即地方政府隐性担保能力和预付账款周转天数与违约风险之间的关系。第四,值得注意的是,当数据量过少时,可能会导致过拟合的现象发生。因此,在应用机器学习模型解决实际应用问题时,应该关注数据量变化带来的影响。

本文将SMOTETomek-GWO-XGBoost机器学习方法引入财务学研究领域,并通过与其他机器学习方法的比较,证明了其对债券违约预警具有重要的帮助作用。在后续的研究中,可以进一步挖掘更多与公司经营管理、发展战略、行业特征、宏观环境方面相关的信息,提高财务风险预警的准确性、有效性和及时性,为防范化解重大金融风险提供支持。

【参考文献】

[1] BAO Y,KE B,LI B,et al.Detecting accounting fraud in publicly traded US firms using a machine learning approach[J].Journal of Accounting Research,2020,58(1):199-235.

[2] 吴世农,黄世忠.企业破产的分析指标和预测模型[J].中国经济问题,1987(6):8-15.

[3] 吴世农,卢贤义.我国上市公司财务困境的预测模型研究[J].经济研究,2001(6):46-55,96.

[4] 吴育辉,唐浩博.风险信息披露能预测债券违约风险吗?——来自债券募集说明书的经验证据[J].财务研究,2021(5):15-28.

[5] 吕峻,李梓房.宏观经济因素对企业财务危机影响的实证分析[J].山西财经大学学报,2008(11):94-100.

[6] 卢永艳.宏观经济因素对企业财务困境风险影响的实证分析[J].宏观经济研究,2013(5):53-58.

[7] 戴雅榕,沈艺峰.随机森林模型能够预测中国债券违约吗?[J].计量经济学报,2022(2):418-440.

[8] CHAVA S,JARROW R A.Bankruptcy prediction with industry effects[J].Review of Finance,2004,8(4): 537-569.

[9] 吴世农,唐浩博,张腾.中国国有上市公司的核心竞争力研究[C].2022年度“中国资本市场与国资国企改革”国际学术研讨会,2022.

[10] YILDIRIM M,OKAY F Y,?魻ZDEMIR S.Big data analytics for default prediction using graph theory[J].Expert Systems with Applications,2021,176:114840.

[11] KIM T,KIM H Y.Forecasting stock prices with a feature fusion LSTM-CNN model using different representations of the same data[J].PloS one,2019,14(2):e0212320.

[12] CHEN T,GUESTRIN C.Xgboost:a scalable tree boosting system[C]//Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining,2016:785-794.

[13] BARBOZA F,KIMURA H,ALTMAN E.Machine learning models and bankruptcy prediction[J].Expert Systems with Applications,2017,83:405-417.

[14] ADDO P M,GUEGAN D,HASSANI B.Credit risk analysis using machine and deep learning models[J]. Risks,2018,6(2):38.

[15] 冯雅情.基于改进的KMV-XGBoost的信用债风险度量[D].济南:山东大学硕士学位论文,2020.

[16] 谭本艳,袁神鹏.基于XGboost的企业债务违约特征预警分析[J].会计之友,2023(19):74-81.

[17] CHEN M,HE X,YANG J,et al.3-D convolutional recurrent neural networks with attention model for speech emotion recognition[J].IEEE Signal Processing Letters,2018,25(10):1440-1444.

[18] ANSARI A,AHMAD I S,BAKAR A A,et al.A hybrid metaheuristic method in training artificial neural network for bankruptcy prediction[J].IEEE Access,2020,8:176640-176650.

[19] WANG M,CHEN H,LI H,et al.Grey wolf optimization evolving kernel extreme learning machine:application to bankruptcy prediction[J].Engineering Applications of Artificial Intelligence,2017,63:54-68.

[20] 肖艳丽,向有涛.企业债券违约风险预警:基于GWO- XGBoost方法[J].上海金融,2021(10):44-54.

[21] LUNDBERG S M,LEE S I.A unified approach to interpreting model predictions[J].Advances in Neural Information Processing Systems,2017,30.

[22] 迟国泰,章彤,张志鹏.基于非平衡数据处理的上市公司ST预警混合模型[J].管理评论,2020,32(3):3-20.

[23] CHANDRA W,SUPRIHATIN B,RESTI Y.Median-KNN Regressor-SMOTE-Tomek links for handling missing and imbalanced data in air quality prediction[J].Symmetry,2023,15(4):887.

[24] HAIRANI H,ANGGRAWAN A,PRIYANTO D.Improvement performance of the random forest method on unbalanced diabetes data classification using smote-tomek link[J].International Journal on Informatics Visualization,2023,7(1):258-264.