窦芳

摘 要: 传统的科研成果管理多利用数据库将成果数据存储起来,由于科研成果的数据类型多,存储方式不统一,在决策分析时会成为获得有效成果数据的障碍,同时传统的科研成果系统只能单一提取成果信息。针对上述问题,研究提出了基于数据仓库的科研成果管理决策支持系统,结合数据仓库,联机分析处理以及关联规则挖掘算法,该系统支持管理人员发现成果的潜在趋势、评估科研项目工作组的能力、合理分配人力资源等,通过对学校论文库中的数据进行关联规则的挖掘,发现了论文数量与时间维度之间的关系,且与实际培养情况符合,验证了Apriori在系统中的有效性。

关键词: 科研成果管理; 决策支持; 数据仓库; 联机分析处理; 数据挖掘

中图分类号: TN911?34; TM417 文献标识码: A 文章编号: 1004?373X(2016)07?0120?04

Abstract: The traditional scientific research achievement management uses the database to store the result data. The multiple data types of the scientific research achievement and unified storage way become the obstacle to obtain the valid result data in decision?making analysis, simultaneously the traditional scientific research achievement system can only extract the result information. In view of the above problems, the scientific research achievement management and decision support system based on data warehouse is proposed, in which the data warehouse, on?line analysis processing (OLAP) and association rule mining algorithm are integrated. The system supports that the management personnel can discover the potential achievement, evaluate the scientific research projects, and reasonably allocate the human resources. The association rules of the data were mined in college paper database. It is found that paper quantity and time dimension have some relationship, which conforms with the practical training situation. The effectiveness of using Apriori in this system was verified.

Keywords: scientific research achievement management; decision support; data warehouse; OLAP; data mining

0 引 言

传统的科研项目管理过程费时费力,且浪费了大量的人力资源。科研过程中产生的有价值的信息,也被这样死板的管理方法给淹没了,人们不能也不愿意从纸质的资料文献中去发现价值。科研管理方式效率低会严重影响到科研项目开发的进度。随着科学技术的快速发展,科研单位虽然对传统方法进行了改进,开始建立管理系统,但是还远远不能满足要求[1]。

近年来,国内研究机构也开始重视科研项目管理方面的研究,目的多是为了提高项目管理的水平,对优秀的科研成果进行公示,共同分享研究信息[2]。科研成果管理决策支持系统的目的是为了解决传统科研管理系统对成果资源的浪费情况,加强对科研成果信息中潜在知识的利用,提高科研项目管理中对成果管理的有效性,利用数据挖掘充分发挥成果数据的潜力,为管理层提供决策支持依据[3]。

1 SRAM?DSS的需求分析

1.1 功能需求

科研成果管理决策支持系统主要面向科研项目的成果进行管理,这些成果包括学术论文、著作、期刊、专利等。数据仓库的应用可以对成果数据采取智能的分析,将成果数据进行归类和按照成果数据的分析要求进行整理,从中发现成果与项目、人员之间的联系和潜在的规律,帮助决策者调整科研定位,做出科学的决策。

基本管理功能要求用户可以利用本系统完成对成果的基本管理,包括成果提交、 审核、审批等流程的规范管理,还有对保密项目成果的加密处理,不仅要系统能够保存使用过程中存入的成果,还可以导入外部数据库的成果数据,为数据挖掘功能提供数据基础,对数据的集成程度要求很高,因此需要利用数据仓库存放成果数据[4]。

1.2 用户需求

系统的主要角色包括科研员,科研管理员,决策员,数据管理员,系统管理员。

2 总体设计

2.1 科研成果数据仓库的设计

对于科研成果数据仓库从概念模型、逻辑模型、物理模型三方面进行建模。需要根据不同的主题把数据仓库中的数据划分好具体的维度[5]。以成果主题为例,成果数据包括成果名称,成果类型,成果来源,成果性质,成果作者,成果审核结果,所属项目,成果完成时间,成果数量等,以此作为分析的依据。因为数据仓库是多维的,OLAP要在多维数据集之上才能进行,成果数据要满足分析的要求可以根据维层次继续划分,成果类型包括论文,专利,专著,软件成果等;成果性质包括科技,医药,航天等[6]。

(1) 逻辑模型

系统主要用户利用成果信息进行分析,以此来评估科研项目,并为决策者提供决策支持。分析成果事实表中的数据信息有用户维、成果维、时间维。在OLAP分析时可以按照不同的层次进行分析,如图2所示。

(2) 物理模型

在设计数据仓库的物理模型时,定义成果数据的数据标准是需要注意的重点,目的是使成果数据在数据仓库中都有一个统一的格式,定义表示成果的相关属性来描述成果逻辑关系,得到对成果数据仓库的特征进行完整描述。系统采用SQLServer2008建立数据库[7]。利用AnalysisServices获得后台数据库里面的信息,这样建立的数据仓库可以满足需求。

2.2 SRAM?DSS功能的设计

为实现科研成果管理科学,全方位管理,设计成果管理,决策支持,用户管理,系统管理四个模块的内容,并且用户在登陆系统之前要进行身份验证。

(1) 成果管理模块

成果管理主要包括成果查询,添加成果,申报成果,成果审核,成果加密以及成果导出等功能,系统采用分组加密方式进行加密。

(2) 决策支持模块

数据仓库是决策支持功能的数据基础,有了数据就需要更多的操作来完成决策支持。对于系统中不同的数据来源,包括外部导入数据利用ETL过程,实现规范化。然后将符合标准的数据装入数据仓库中。然后针对用户的要求进行联机分析处理和关联规则挖掘。

(3) 用户管理模块

用户在Web地址栏输入URL进入登录,用户名文本框内输入用户姓名,在密码框内输入密码。系统认证平台会判断用户身份,若是新用户要完成注册才能登陆,注册时要填写用户真实的信息,才能获得登陆权利,若用户输入的用户信息正确,登录成功。用户可以在用户管理中进行创建,添加到用户数据表中,也能获得系统的使用权限[8]。

(4) 系统管理模块

系统管理模块主要是针对系统的权限分配,系统维护以及一些常用工具的设计。不同的用户进行的操作不同,能够看到的信息不同,就要求系统控制权限,建立权限分配制度,有利于对用户权限进行合理的分配也保证了系统的安全运行。系统维护是管理系统中必不可少的关键功能,包括对系统用户数据,成果信息数据等的备份工作,实现数据库的安全管理,管理相应功能结构规范性,为系统的更新与升级提供支持。

3 系统实现

3.1 基于数据仓库的OLAP模型

联机分析处理技术能够高效的分析数据,发现事物发展规律,捕获异常和细节。OLAP支持数据分析,而数据仓库里的数据是经过ETL处理后集成到一起,保证了分析在一个快速的时间内给予响应。所以本阶段就是基于数据仓库建立OLAP模型,从而得到更为可靠的数据立方体,既降低了刷新代价又提高了响应速度。

OLAP包括了维和度量,在前面建立数据仓库时已经完成。利用SQL Server中的Analysis Services项目模板建立多维数据集,定义数据源以及建立事实表与维表之间的关系。

OLAP模型对数据仓库中的数据利用MDX进行多维查找,可以有效分析多维数据集。MDX是OLAP的查询语句,语法与结构化查询语言SQL很类似。在成果管理系统中,通过MDX语言把科研员和决策者需要的成果数据查询出来,展现在前台界面里。

利用OLAP模型进行分析,决策者可以依据分析要求,选择更多角度去分析数据,能得到的分析也更多,如下:

(1) 由科研成果的类型分布来看整体项目的侧重重点,以及在成果突出领域的发展机会和潜力;

(2) 由科研成果参与者和第一申请单位作者与项目之间的关系,可以看到参与者职称水平,技术支持水平对成果完成数量与质量的关系,并不是参与者越多的成果越完善,可以以此作为合理分配人才资源参与项目开发的依据,也可以以此评估参与人员的水平,作为考核参考;

(3) 以科研成果在一定时间内的增长,作为项目进度和发展的一个参考标准。也可以看到成果的趋势和项目完成单位的能力和业务的提升;

(4) 可以利用数据库,对以往成果信息进行分析,由于在传统的数据库中不具备OLAP的功能。

3.2 基于数据仓库的关联规则挖掘

基于数据仓库的关联规则挖掘,Apriori算法的核心是提高关联规则产生的效率。利用Apriori算法对科研成果数据进行分析的时候要明确成果的特征,根据成果特征描述来看,适合利用Apriori算法进行关联规则的挖掘。科研成果数据的特征如下:成果数据是按照项目进程时间节点进行录入的,存储在成果库中;成果评估方式不统一,对成果的评估应采取统一的标准;科研成果的数据存储在数据库中,每一个成果都对应一条记录,每一个记录的属性都一样。

以本校论文库的数据为实验数据,在论文管理系统中可导出相关TXT文档数据,利用系统成果导入功能,添加到系统中,对数据进行统一的处理。选取2012—2015年间,数学、物理、计算机、兵器学科的论文成果数据。论文所属学科层次划分到一级子学科,时间层次按照年→学年,继续划分下去。

(1) 数据预处理

数据经过清洗,转换,去掉无效的数据,采用统一的数据编码规则,用离散字母代替时间层次,同时将学科按照统一的编码规则,重新编码。进一步按照论文数量划分等级,五份为一级,等级越高代表论文数量越多。

(2) 算法实现

设置最小支持度 min_sup=4,支持度=40%,置信度=80%,通过Apriori算法计算出的关联规则信任度见表2。

(3) 结果分析

采用的实验数据来自于论文数据库,由于学校毕业论文按照培养计划有周期性,学术性硕士的培养周期为2.5学年,所以硕士毕业多集中于第一学年3月份左右,工程硕士的培养周期为第二学年9月份,所以对数据的分析结果多集中于上半年。

规则1表示,在2012年第一学年发表论文在5篇以内且2013年第一学年毕业论文在5篇以内的学科专业,则在2013年第二学年发表论文在5篇左右的支持度为40%,信任度为80%。

规则2表示,在2013年第一学年发表论文在5篇以内且2013年第二学年毕业论文在5篇以内的学科专业,则在2012年第一学年发表论文在5篇左右的支持度为40%,信任度为80%。

规则3表示,在2012年第一学年发表论文在5篇以内且2013年第一学年毕业论文在5篇以内的学科专业,则在2014年第二学年发表论文在5篇左右的支持度为40%,信任度为80%。

3.3 关联规则说明

由于系统中的测试数据多来自网络和本校的数据库,对关联规则的挖掘也许存在偏差,但是整体提供的关联规则数据信息还是符合实际的。简要介绍以下几点:

(1) 选取成果完成人的职称级别和所提交的成果类型与数量作为关联规则挖掘的维度,发现成果完成人职称较低的发表论文数量较多,存在关联规则;

(2) 选取固定时间内论文数量和专利数量进行关联规则挖掘,发现时间维度与论文数量多,关联较高;

(3) 对不同高校的成果数量进行关联分析,985与211高校的科研论文,期刊发表数量多具有关联规则。

4 界面展示

用户登陆界面:输入正确的用户名和密码登陆系统,用户可以选择“记住我”,在下次进入系统时可以免登陆,若是新用户第一次登陆系统,需要注册,完成注册后即获得登陆权限。

登陆后看到的首页,左侧导航栏显示了主要的功能,成果展示系统中的成果数量以及系统中的成果列表。

5 结 论

本文在调研了解科研成果管理的决策分析需求的基础上,认真研究了数据仓库的有关技术知识,联机分析处理技术的应用以及数据挖掘关联规则算法的原理。提出了基于数据仓库的科研成果管理决策支持系统。

开发系统应用的主要技术包括OLAP和Apriori算法,将OLAP和Apriori算法结合运用于实际的系统开发中,关联规则计算在OLAP物化了的多维数据集基础上进行,减少了重新计算的时间,使决策分析更加智能化,使数据挖掘的步骤更具目标化,全面提升辅助决策在科研成果管理中的实用价值。

参考文献

[1] 贺建英.大数据下MongoDB数据库档案文档存储去重研究[J].现代电子技术,2015,38(16):51?55.

[2] SUN Hongmei, JIA Ruisheng. Research on the analysis and design of general test database management system [J]. Procedia engineering, 2012, 29: 489?493.

[3] ESLAMIPOOR R, SEPEHRIAR A. Firm relocation as a potential solution for environment improvement using a SWOT?AHP hybrid method [J]. Process safety and environmental protection, 2014, 92(3): 269?276.

[4] KLAUS S R, NEUBAUER J, GOETZ?NEUNHOEFFER F. Hydration kinetics of CA2 and CA?investigations performed on a synthetic calcium aluminate cement [J]. Cement and concrete research, 2013, 43(1): 62?69.

[5] PENG G Y. Marketing decision and decision support system design based on Web [J]. Advanced materials research, 2013, 850: 1048?1051.

[6] 赵维宁.运用数据仓库技术构建电信企业经营分析系统[J].中文信息,2014(8):22?26.

[7] 辛金国,柯芳,李绍君,等.数据挖掘技术在经济统计中的应用探索[J].财经界(学术版),2014(5):24?27.

[8] 王辉鹏,董春游.决策支持系统发展研究[J].应用能源技术,2009(6):48?50.