摘要:随着职业教育改革的不断深化和毕业生人数的逐年递增,学生就业工作和职业生涯发展指导工作任务越来越重。该文以甘肃林业职业技术学院信息工程学院近四年的毕业生数据作为挖掘对象,采用了改进的ID3决策树算法对高职学校应往届毕业生的基本信息、学业成绩、实践能力、就业状况等数据予以挖掘,把挖掘到的规则运用到高职学生管理服务和教育教学中,为高职院校就业指导部门提供更多的理论决策支持。

关键词:数据挖掘;ID3算法;职业发展分析

中图分类号:TP311        文献标识码:A

文章编号:1009-3044(2019)15-0025-03

目前,许多高职院校都建立了诸如学生成绩管理系统、就业数据一站式管理系统等。但因缺乏数据挖掘技术,因而只能用于数据统计与汇总,潜在的和有价值的信息得不到充分发掘。本文采用决策树技术,探索和分析与高职学生职业发展相关的数据,利用改进后的ID3算法试图找出其中的规则,构造分类决策树,建立数据挖掘模型,利用该模型预测新数据,发掘高职学生职业发展的影响因素相关性研究及应用,以在学生职业规划中提供帮助和指导。

1 数据挖掘实施过程

1.1 挖掘对象及目标确定

本文选取甘肃林业职业技术学院信息工程学院2015-2018年的毕业生资料。通过数据挖掘和分析,管理者可以根据高职学生的不同特点制定对应的职业生涯规划指导方案。

1.2 数据采集

本文的数据主要来源渠道为:毕业生的基本信息和就业信息由招生就业处就业指导中心获取,计算机等级成绩、实践能力数据由二级学院竞赛情况数据获得。学业成绩、英语AB级成绩来自教务管理系统。

1.3 数据预处理

因为学院各部门业务重点不同,各自的数据库中所存储的数据也会和预期的数据格式有很大的差异,因此需要进行合理的数据预先处理,以解决该问题。

1.3.1 数据集成

把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中称之为数据集成。“学生基本信息表”“学业成绩表”“毕业生就业汇总表”等数据表众多,需要跨数据库去查找多个表,因此在收集到数据之后,根据数据属性间以及属性所在表之间的关系,去除所有代码项和无关的数据项,将全部所需数据项集成到一个数据表,命名为“就业信息汇总表”,如图1所示。

1.3.2 数据清理

在数据库中的数据中含有噪声、数据表示方式不一致等,有些数据不完整,有些感兴趣的属性可能缺少属性值,例如学生的全国计算机等级考试,如果未参加考试或者考试没有通过,则该项数据为Null,需要通过一些方式予以补充。同时对数据库中无效的数据记录进行清除,如有退学、开除的学生等,可将其记录予以删除。对于休学、留级的学生数据需要归集到复学后的班级中再予以挖掘。

1.3.3 数据归约

在收集到的学生相关信息数据库中所包含属性非常多,但是有些数据和数据挖掘并不是很相关,并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同,可通过冗余属性的删除,将属性有大量不同的值但是这个值影响因子较小的删掉;将各属性值进行转,如把就业状态分为“就业”“应征入伍”“升学”“待就业”四种情况;对连续数据值数据离散化,如学业课程成绩通常以百分比表示,需将所有课程的成绩进行汇总后计算平均值,利用GPA标准公式计算后将其离散为“优秀”“良好”和“一般”三类。

1.4 训练集与测试集的选择

本文对收集到1048条的学生相关信息进行整理,将2015-2017届毕业生数据处理后得到的629条有效记录作为训练样本数据,通过改进的ID3算法生成决策树模型,然后用2018届毕业生的228条数据作为测试数据集,作为验证模型验证规则。通过数据的归约,最终得到的数据样本集统计如表1所示。

2 改进的ID3算法在毕业生就业分析中的实施

改进的ID3决策树构造的步骤为:

(l)将表中属性值作数据源,通过公式[IX=-j=1mPjlog2Pj]分别计算各个属性的信息熵;

(2)通过改进的基于动态属性权值的ID3算法公式Gain(S,C)=I(S)–[ωI]*E(S,C)计算信息增益,将最大信息增益的属性设置为根节点;

(3)递归计算每个子集,步骤(1)和(2)被每一个子集依次调用。用相同的算法计算其余各属性值的信息增益并进行分类,直到每个属性对应于单一值或者树的增长超过一定的规模为止。

2.1 构造决策树

根据就业信息训练样本集记录统计表(表1),将其中2015-2017届毕业生数据共629条,作为训练样本数据集S,根据毕业生就业状况分为四类:就业(A)、应征入伍(B)、升学(C)、待就业(D)。

训练样本集S中有629个元组,A、B、C、D四个子集中元组个数分别为:S1=467,S2=25,S3=76,S4=61。

所以性别的熵值为:

用相同方式分别计算专业、是否为学生干部、学业成绩、实习实践成绩、英语AB级获得情况、计算机等级证获得情况、竞赛能力的熵值。

根据改进的属性权值选择方法,在此对训练样本集的计算属性权值和信息增益,最终结果如下表2:

通过以上结果分析发现,改进后的算法计算所得的实习实践成绩的信息增益值为0.360,远高于其余属性的信息增益值,所以“实习实践成绩”将作为决策树的根节点。计算每个分支并根据信息增益导出下一个决策属性,通过改进后的ID3算法计算信息增益,构建了初始决策树,通过后修剪决策树的方法,剪枝后的决策树如下图2所示:

2.2 规则提取

决策树分类规则的信息表示一般为生成规则方法,即对生成的决策树先序遍历,使用已建立的决策树,在每个节点上生成“IF...THEN”规则。根据上面生成的决策树,本文生成以的部分重要分类规则如下:

(1)IF(实习实践成绩=“优秀”)AND(是否班干部=“是”)THEN Prediction='就业'Probability=0.673

(2)IF(实习实践成绩=“优秀”)AND(是否班干部!=“是”)AND(学业成绩=“优秀”)THEN Prediction='就业'Probability=0.860

(3)IF(实习实践成绩=“优秀”)AND(是否班干部!=“是”)AND(学业成绩=“良好”)THEN Prediction='就业'Probability=1

(4)IF(实习实践成绩=“良好”)AND(竞赛能力=“强”)THEN Prediction='就业'Probability=0.848

(5)IF(实习实践成绩=“良好”)AND(竞赛能力=“中”)AND(性别=“男”)THEN Prediction='应征入伍'Probability=0.089

(6)IF(实习实践成绩=“良好”)AND(竞赛能力=“弱”)THEN Prediction='升学'Probability=0.508

(7)IF(实习实践成绩=“良好”)AND(竞赛能力=“弱”)THEN Prediction='就业'Probability=0.426

(8)IF(实习实践成绩=“一般”)THEN Prediction=“待就业” Probability=0.633

从决策树规则中可以得出,对于高职院校毕业生,实习实践成绩、计算机水平、专业课成绩、竞赛能力和是否班干部对职业发展的影响因子比较大,实习实践成绩、专业课成绩、竞赛能力和是否班干部高效的投入力度将对毕业生的职业发展起到极其重要的作用。

2.3 分类规则验证

将生成的规则按照IBMSPSS语法进行规范后,连同验证数据集导入SPSS软件,通过决策树分类预测功能,生成2018届228条毕业生的就业状态数据,预测结果保存到毕业去向字段中。

通过实验所得预测结果如表3所示。将预测得到的分类结果与学生初次就业情况统计表予以比较,其中正确的记录有172个,不正确的记录56条,正确率为75.4%,分类的准确度还是比较高的,模型可用于对准毕业生数据进行预测和决策支持。

对预测结论和误差分析,2018届毕业生中选择就业的人数大于了70%,为高职毕业生的发展主渠道,基本符合实际情况。应征入伍预测为4,属性对结果影响较小,很难准确预测。升学人数误差较大,这是因为部分学生会放弃升学而选择就业的情况。而待就业误差,主要是因政策原因有业不就的影响,但随着甘肃省就业政策的变动,因各类招考而有业不就的情况将有所减少。对于预测结果为未就业的学生,要加大关注度,从而提高毕业生的就业质量。

3 职业发展决策支持系统的实现

在前文得出模型的基础上,进一步建立决策支持系统,针对本文内容,经过分析系统的需求和功能之后,开发一个就业决策支持系统,系统中应用前文所得决策规则,实现学生就业状态的统计和预测,获得“职业生涯预测”结果,也可通过学生或姓名抽取学生信息,将预测出个体学生的就业状态,显示在预测状态栏中,如图3所示。

4 结语

本文首先提出了目前高职院校就业制度的实际情况,然后指出利用决策树技术挖掘学生职业发展信息的必要性,完成了问题确定、数据收集、集成、清理和转换等一系列的数据挖掘和处理任务,并利用改进的基于动态属性权值的ID3算法利用生成的决策树产生的分类规则,建立就业状态预测模型,通过在高职院校学生职业发展预测中的应用,并利用信息工程学院2018届毕业生的信息对就业状态预测模型进行验证。利用所得规则开发了职业发展决策支持系统。经分析验证,优化后的ID3算法——基于动态属性权值的ID3算法应用于解决高职院校学生职业发展预测问题效果良好,所得结论可为学院管理者做出合适的决策有所帮助,进一步提升职业生涯指导工作效果。

参考文献:

[1] 孙丽爽.决策树技术在高校就业分析系统中的应用[D].西安理工大学,2017.

[2] 武文廷.一种基于动态属性权值的ID3算法改进[J].电脑知识与技术,2019(2).

[3] 阴亚芳,孙朝阳.决策树算法在实践教学中的应用研究[J].计算机与数字工程,2018(06):1078-1088.

【通联编辑:代影】