基于数学统计的保险赔付风险预测模型设计

温晓楠董立伟朱亚培刘艳敏

摘要：设计基于数学统计的保险赔付风险预测模型，分别从使用量、驾驶表现、危险驾驶、出行习惯四个方面选取能够反映驾驶行为的20个风险因子构建指标体系，利用数学统计中的因子分析法从上述指标体系内选取6个能代表驾驶行为风险情况的典型风险因子;以选取的典型风险因子为基础结合二分类随机变量，利用具有优秀分类与回归性能的XGBoost模型构建保险赔付风险预测模型，预测变量所属类别与概率分布。实证分析结果显示，该模型迭代速度较快，AUC值与F值相较于传统Logistic模型分别上升67.4%和2.3%，显著高于对比模型。

关键词：保险赔付; 风险预测模型; 数学统计; 驾驶行为; 风险因子选取; 指标体系构建

中图分类号： TN919?34; F222.3 文献标识码： A 文章编号： 1004?373X（2020）22?0086?04

Abstract： A risk prediction model for the insurance compensation is designed on the basis of mathematical statistics， and 20 risk factors that can reflect driving behavior are selected in four aspects of usage amount， driving expression， dangerous driving and traveling habit to construct the index system. Six typical risk factors that can represent the risk situation of driving behavior are selected from the above index system by means of the factor analysis method in mathematical statistics. On the basis of typical risk factors， the XGBoost model with excellent classification and regression performance is used to build the insurance claim risk prediction model in combination with two dichotomy random variables for the prediction of the variables′ category and probability distribution. The results of empirical analysis show that the iteration speed of the model is faster， and AUC value and F value are increased by 67.4% and 2.3% respectively in comparison with the traditional Logistic model， which are significantly higher than those of the compared model.

Keywords： insurance compensation; risk prediction model; mathematical statistics; driving behavior; risk factor selection; index system construction

0 引言

随着社会经济与汽车制造行业的快速发展，保险公司中汽车保险业务占据比例逐渐增大[1]。相关研究资料中数据统计结果显示，2018年我国汽车保险业务原保费占保险公司总原保费收入的72%以上[2]，金额高达7 632.18亿元。但基于保险公司盈利角度分析，70%以上具有汽车保险业务的保险公司在汽车保险赔付方面均出现不同程度的亏损现象[3]。数据统计结果显示，2018年保险公司车险赔付亏损额度高达65亿元，与上一年度相比车险赔付亏损额度呈现上升趋势。研究总结发现，保险公司车险赔付亏损的主要原因在于车险保费与赔付风险不匹配[4]。由此可知准确的保险赔付风险预测是改善保险公司经济管理，提升保险公司利益收入的基础。

数学统计是预测保险赔付风险过程中的主要环节，常用的数学统计方法包括回归分析、方差分析、因子分析、Logistic分析、聚类分析等[5]。

利用数学统计法设计保险赔付风险预测模型，将因子分析法与聚类分析、回归分析相结合，实现高性能的保险赔付风险预测[6]。

1 保险赔付风险预测模型

1.1 研究样本及指标体系构建

选取我国60家保险公司作为研究样本，其中训练样本与测试样本各为30家。

以能够全方位描述驾驶行为风险为原则，分别从使用量、驾驶表现、危险驾驶、出行习惯四个方面选取能够反映驾驶行为的20个风险因子构建指标体系[7]。表1为指标选取结果。

1.2 指标体系处理

由于上述风险因子指标中不同指标间可能具有相关性，导致指标体系存在信息重复问题[8]，对保险赔付风险预测产生不利影响。因此，需通过因子分析法在20个风险因子中选取出最能全面体现驾驶行为状态的指标。

采用SPSS软件对选取的60家保险公司实施因子分析获取的KMO（Kaiser Meyer Olkin）检验统计量、Bartlett球形度检验近似卡方值以及相应的概率P值分别为0.683，1 582.821和0.00，由此可知所选风险因子内存在共同因子，能够实施因子分析。选取特征值大于1的因子，由此获取的前6个因子方差累计贡献率达到95%以上，这表示前6个因子能够描述95%以上的方差，如表2所示。所以前6个因子可以基本表示原始数据信息。

1.3 XGBoost模型

用[M]和[hi，zi]分别表示车险保单数量和各车险保单对应的观察值，其中，[hi]和[zi]分别表示的是单个保单是否赔付的二分类随机变量和第[i]份保单的风险因子。[hi]服从伯努利分布[10]，其值为1或0时分别表示第[i]份保单赔付和未赔付。设[zi]为[p]维向量，在其给定的基础上，利用XGBoost模型预测因变量[hi]所属类别与概率分布，即为保险赔付风险预测模型。

优化并拓展梯度提升决策树模型后得到的集成学习模型XGBoost（eXtreme Gradinet Boosting），针对数据分类与回归问题的分析求解具有十分突出的表现[11]，在当前诸多数学竞赛中许多获奖方案均采用该模型。

XGBoost模型同随机森林模型相同的是均由一系列决策树集合而成，两者有所差异的是XGBoost模型属于提升树模型，其中决策树在根据输入样本进行风险预测时，是以上一轮预测结果为基础的学习预测误差[12]，以此提升模型的风险预测精度。用[hit]和[ftzi]分别描述第[t]轮迭代后模型对第[i]个样本的预测结果和第[t]棵决策树对第[i]个样本的预测分数，那么式（1）为[hit]的描述形式：

基于式（2）和式（3），XGBoost模型在[hit-1]处利用泰勒级数将损失函数展开至二次项，同时利用了误差函数的一阶导数与二阶导数，因此该模型预测结果同梯度提升决策树模型相比，决策精度更高。在给定决策树结构的基础上，目标函数展开并进行相关变换后能够以一元二次函数最小值求解问题替代最优化目标问题[15]。利用贪心算法持续划分现有的叶子节点，同时对比划分前后目标函数的增益，直至确定第t轮迭代的最优决策树模型。通过上述过程获取准确的保单赔付风险预测值。XGBoost模型内风险因子的关键度可利用不同方法实施判断，例如确定全部决策树内风险因子作为分裂特征的次数、确定全部基于该特征实施分裂的节点基尼系数降低值、信息增益总和的确定。将全部风险因子的关键度依次排列，由此确定XGBoost模型内风险因子的关键度排列顺序。

2 实验分析

实验为验证本文所设计基于数学统计的保险赔付风险预测模型的应用性能，利用某保险公司数据为实验数据进行实证分析，实验数据中包含该保险公司2018年期间全部车险保单的承保、赔付信息和保单有效期内承保车辆驾驶员的驾驶行为信息。实验数据内赔付保单共718份，占总保单数量的36%左右。驾驶行为数据内包含车险保单对应车辆固定时间区域内不同时刻的行驶状态。

采用本文模型预测该保险公司赔付风险，预测过程中本文模型迭代过程如图1所示。

由图1可知，采用本文模型预测保险公司赔付风险过程中，通过173步迭代可完成模型训练，与传统Logistic模型通过316步迭代完成模型训练相比，本文模型具有较快的收敛速度，由此也能说明本文模型具有优异的预测效率。

为验证本文模型对于保险赔付风险的预测性能，选取十折交叉验证法。将全部实验数据分成10个数据子集，各数据子集均不重合，以其中9个数据集和剩余1个数据集分别为训练集和测试集。保险赔付风险预测是一个二分类问题，普遍使用的评价指标有F值与AUC值，二者是评估预测模型预测性能的指标，其值越靠近1，说明预测真实性越好。在计算这2个值时均以描述样本实际类别与模型预测类别交叉统计结果的混淆矩阵为基础。通过混淆矩阵评估预测模型的预测性能。表4为混淆矩阵针对保险赔付风险预测模型的基本结构。

1）在利用F值与AUC值评价模型预测性能过程中，只选取车辆使用量情况作为风险因子构建预测模型时，模型的预测精度相对较低。由此可知，当前市面上部分保险公司仅以被保汽车使用量情况为基础预测保险赔付风险的精度还有待提高。

2）相较于只利用驾驶表现情况作为风险因子构建预测模型相比，危险驾驶情况对于保险赔付风险预测更为重要。在上述四个模型内，仅使用危险驾驶情况构建的模型AUC值均高于使用车辆使用量情况作为风险因子构建的模型;除梯度决策树模型外，利用危险驾驶情况构建的模型的F值也高于使用车辆使用量情况构建的模型。

3）将全部风险因子相结合构建预测模型，则全部模型的预测能力都有不同程度的上涨。由此可知，利用驾驶行为风险因子构建保险赔付风险预测模型能够获取较好的风险预测性能。

以全部风险因子构建保险赔付风险预测模型，以传统Logistic模型为标准，将本文模型、神经网络模型和梯度决策树模型预测性能与标准模型相对比，如表5所示。

3 结论

汽车保险是当前保险公司的主要业务，在汽车保险中主要依照驾驶员对于汽车的驾驶行为预测车保赔付风险，由于驾驶行为与车辆赔付风险之间具有相关性，因此本文设计基于数学统计的保险赔付风险预测模型。选取20个驾驶行为风险因子构建评价指标体系，利用XGBoost模型分析驾驶行为风险因子在保险赔付风险预测中的应用。分析结果显示本文模型的预测性能显著高于对比模型。

注：本文通讯作者为董立伟。

参考文献

[1] 赵玉，严武，李佳.基于混合Copula模型的水稻保险费率厘定[J].统计与信息论坛，2019，34（8）：66?74.

[2] 王艳，袁宏俊，张焕明.基于C?UPWG算子的区间组合预测模型及其应用[J].统计与决策，2019（9）：63?66.

[3] 熊鸿斌，陆莹.基于Bow?Tie模型的中小型电镀厂退役搬迁环境风险分析[J].安全与环境学报，2018，18（4）：1615?1622.

[4] 刘展.基于倾向得分广义线性模型的非概率抽样统计推断研究[J].数学的实践与认识，2018，48（16）：175?184.

[5] 汪威.最优组合预测线性模型在旅游需求预测中的应用：以中国大陆赴澳门游客量预测为例[J].数学的实践与认识，2018，48（12）：49?58.

[6] 王润东，荚卫东，葛勇胜，等.加速康复外科方案在肝细胞癌手术的失败因素分析及风险预测模型的建立[J].中华外科杂志，2018，56（9）：693?700.

[7] 张文杰，袁红平.基于灰色马尔可夫模型的节能设备故障预测研究[J].系统科学与数学，2019，39（1）：65?75.

[8] 杜康，袁宏俊，郑亚男.基于三角模糊数及GIOWA算子的区间型组合预测模型[J].统计与决策，2019（16）：22?28.

[9] 高伟，冯海林.竞争风险下右删失数据的剩余寿命分位数回归预测[J].统计与决策，2018（21）：19?22.

[10] 文江平，郝洁，陶丽新，等.成年人2型糖尿病风险预测模型的建立[J].中华检验医学杂志，2017（40）：706.

[11] 于辉，吴腾飞.供应风险下营业中断保险的供应链模型分析[J].中国管理科学，2017（12）：39?47.

[12] 杨鹏，杨志江，孔祥鑫.Poisson?Geometric模型下时间一致的最优再保险?投资策略选择[J].应用数学，2019，32（4）：729?738.

[13] 武海滨，李康，杨丽，等.非平衡分类技术在人群糖尿病疾病风险预测模型中的应用[J].中国卫生统计，2019，36（4）：502?506.

[14] 任义方，赵艳霞，张旭晖，等.江苏水稻高温热害气象指数保险风险综合区划[J].中国农业气象，2019，40（6）：391?401.

[15] 王真，马建华.基于PLoS开放获取数据的单篇论文网络浏览量累积规律的数理统计及分析[J].图书情报工作，2018，62（12）：72?83.