基于数据挖掘的保险公司客户细分研究

樊英　朱灿

摘要：文章针对A保险公司的客户数据，首先选取客户的细分指标，然后进行数据预处理，进而利用两步聚类方法建立模型，最后利用模型进行数据分析。实证分析结果表明，客户被分为三类，第一类为职业风险高，收入居中并且投保金额高的男性，第二类为职业风险低，收入较高且投保金额居中的女性，第三类为职业风险较低，收入较低并且投保金额低的女性。为保险公司实现精准营销提供了辅助决策依据。

关键词：A保险公司客户细分两步聚类法

一、引言

随着国内保险市场对外开放，外资保险公司纷纷进入中国市场，给国内的保险公司带来了巨大的挑战，而要想在国内市场占有一席之地，就必须重视客户，增强客户意识。如何利用这些资源来进行更好的客户关系管理和精准营销已经成为各大保险公司必须解决的问题。

从已有的研究成果中可以发现，国内很多学者已经对保险行业的客户细分进行了一定的研究。郑直（2012）[1]提出了“重要客户”的概念，主张保险公司应该根据客户的重要程度采取不同的营销方式。颜可俊（2013）[2]基于客户利润贡献度和贡献增长率从横向与纵向两方面进行客户细分。王洪涛（2013）[3]建立交叉分析表并应用Apriori算法建立关联规则模型对购买车险的客户数据进行分析。程瑞芬（2013）[4]构建了基于C5.0算法的目标客户分析模型和基于Apriori算法的购物篮分析模型，并且利用基于K—means细分的交叉销售模型，综合三种模型进行保险行业的客户细分和识别开发。陈伟（2013）[5]利用理论研究与实证研究结合的方法，用SAS软件进行数据挖掘建立模型，最后对照模型进行测试来验证模型的可行性与准确性。孙钦杰（2013）[6]采用对保险公司已有客户进行问卷调查的形式来进行客户细分。王智平（2013）[7]采用数据挖掘的相关算法进行保险行业的客户细分，利用决策树、聚类分析、K-means算法的改进形式以及Apriori算法对保险客户样本数据实例进行分析。束晓君（2014）[8]提出用K-means聚类方法对太平洋寿险的客户进行细分。李杏谊（2014）[9]综合利用了决策树模型、贝叶斯模型、神经网络模型和逻辑回归模型来进行客户的识别细分，最后利用购物篮分析模型对客户数据进行产品购买关联的分析，利用模型的结果提出相应的建议。

从已有的研究成果中发现，从研究方法上来看，大多数的研究基于K-means算法、Apriori算法或者是购物篮分析来进行客户细分，而很少利用两步聚类方法来进行研究。在研究内容上，大多数研究或是从保险公司产品的角度来分析，或是从客户价值角度分析，并没有利用保险公司已有的客户基本信息来分析。因此文章从A保险公司的客户基础信息着手，来选取客户细分的指标后进行数据预处理，运用两步聚类方法来进行客户的细分，最后利用细分结果对A保险公司如何精准营销与客户关系管理提出合理的建议与意见。

二、研究设计

（一）指标选取

客户投保信息表中包含很多指标，总体可以分为三类，第一客户的特征数据，如性别、年龄、职业等，第二客户的地域属性，包括所属机构、代理人等，第三客户的消费行为数据，投保金额、缴费方式等。根据文献的阅读及A保险公司人员的经验，选取性别、年龄、收入、职业、缴费方式和投保金额作为客户细分的输入指标。

（二）数据预处理

将客户的年龄进行区间化处理，客户的职业按照保险业规定的职业类别进行分类以及将投保金额进行标准化处理等。

（三）模型建立

选取两步聚类方法建立模型并进行分析。两步聚类算法是Chiu等人于2001年在BIRCH算法基础上提出的一种改进算法。该算法优点突出，既可以处理数值型聚类变量，也可以处理分类型变量，并且能够根据一定的准则确定聚类数目，能够诊断样本中的离群点和噪声数据，通过两步实现数据聚类。两步聚类采用距离测度样本或类间的亲疏程度，如果聚类变量均为数值型，采用欧氏距离来测量，否则，需要同时考虑数值型和分类型变量，采用对数似然距离。

三、实证分析

利用Clementine11.1软件，采用两部聚类算法实现A保险公司的客户细分挖掘。下面对具体的分析过程进行描述。

（一）提取相关数据

利用SQL Server2012从A保险公司的数据仓库中抽取新投保客户相关数据，共12605条记录。

（二）数据的预处理

根据建立模型的需要，将年龄、收入、职业进行区间化处理，将投保金额进行标准化处理。

（三）建立模型

采用Clenmentine11.1中的两步聚类模型进行客户细分。首先进行数据链接，在数据源选项中直接选取Excel图标，将它拖到工作区中，选择数据文件所在地址并选取相应的字段，即性别、年龄、职业、收入状况、缴费方式以及投保金额；其次选取类型节点进行数据的读取及输入输出的设置，将性别、年龄、职业、收入状况、缴费方式以及投保金额设置为输入变量；然后在字段选项中选择分区节点进行训练集和测试集的设置，这里随机选取80%的数据作为训练集，选取20%的数据作为测试集；最后选择两步聚类模型，模型设置选择使用分区数据，采用自动计算聚类数，并将最小聚类数设置为2，最大聚类数设置为6。模型建立后可以利用矩阵节点对每一个输入指标在各类中的差异程度进行进一步分析。

（四）结果分析

模型将12605位客户聚为三类，六个输入变量对模型的建立作用都是重要的，下面对模型结果进行详细说明。

1、第一类客户的职业风险较高，客户的职业是货车司机、一般工人等。平均年收入在1.5万到6万之间，年龄集中在30到50岁，性别以男性居多，缴费方式为“Y”，投保金额在三类客户中是最高的。

2、第二类客户的职业风险较低，主要为会计、文职人员及家庭主妇等，收入水平比第一类及第二类中的客户稍高，一般为3万以上，年龄也是集中在30到50岁，性别以女性居多，缴费方式为“Y”，投保金额在三类客户中居中。

3、第三类客户的职业风险较低，与第二类相同，收入水平较低，大多数在1.5万以下，年龄大多数集中在40—60岁，性别以女性居多，缴费方式全为“W”，投保金额在三类客户中是最低的。

4、三类客户在性别方面存在差异，第一类以男性居多，第二类和第三类以女性居多；年龄没有显着的差异，都是集中在30—60岁；收入有明显的差异，第二类收入水平最高，第一类收入水平居中，第三类收入水平最低；职业有明显的差异，第一类客户职业风险较高，第二类和第三类客户职业风险较低；缴费方式有显着的差异，第一类和第二类中的客户缴费方式为“Y”，第三类中的客户缴费方式为“W”。

通过以上结果，A保险公司可以针对不同的客户推荐相应的险种，并采取相应的措施，比如针对第一类，客户的职业风险较高，在销售过程中要仔细对客户的风险情况进行评估；针对第二类，客户主要是职业风险低，收入较高的女性，投保金额较高，是公司的重点客户；针对第三类，客户主要是职业风险较低，收入较低的女性，销售人员应该推荐与她们的收入水平相适应的险种。

四、结论

文章针对A保险公司的客户数据，选取指标，利用两步聚类方法将客户准确分成了三类，第一类为职业风险高，收入居中并且投保金额高的男性，第二类为职业风险低，收入较高且投保金额居中的女性，第三类为职业风险较低，收入较低并且投保金额低的女性。A保险公司可以针对这三类客户的特征和消费行为进行客户关系的管理和精准营销。

另外文章仅考虑了客户的收入、职业等特征，没有考虑到其他的因素如家庭结构等，文章也仅采用了两步聚类方法进行客户细分。在以后的研究中还可以结合其他的聚类方法，选取多样的指标进行更加精准的客户细分和客户定位，使之更符合保险行业数据挖掘的需要。

参考文献：

[1]郑直.财产保险市场重要客户营销浅析[J]. 中国保险，2012（1）：53—56

[2]颜可俊.基于客户细分的客户保持最优投入模型—以S公司为例[D].华东理工大学，2013

[3]王洪涛.车险的大数据营销[J].通信世界，2013（10）：48—49

[4]程瑞芬.基于数据挖掘的保险业客户识别与开发研究[D].河南工业大学，2013

[5]陈伟.基于客户细分的保险电销保费提升的实证分析—以A保险公司为例[D].杭州：浙江工商大学，2013

[6]孙钦杰.基于客户关系管理的财产保险公司客户服务研究[J].时代金融，2013（20）：34—35

[7]王智平.数据挖掘在保险客户数据中的应用研究[D].昆明理工大学，2013

[8]束晓君.基于数据挖掘的保险公司精准营销研究[D].西安工业大学，2014

[9]李杏谊.数据挖掘技术在保险行业目标客户识别中的应用研究[D].中山大学，2014

（樊英，1966年生，陕西西安人，四川省经济和信息化委员会信息中心高级工程师。研究方向：信息管理与信息系统。朱灿，1994年生，湖南常德人，四川大学商学院。研究方向：管理系统工程数据挖掘方向）