作者/王微,沈阳职业技术学院计算机学院

一种基于云计算的数据挖掘平台架构设计研究

作者/王微,沈阳职业技术学院计算机学院

网络技术的快速发展给我们带来了大量的数据信息,同时也为我们在从大量的数据信息中发现自己需要的数据也增加了难度,数据挖掘技术的出现可以很好的解决这样的问题,数据挖掘技术在很多领域的决策分析的应用中越来越广泛。云计算可以提供虚拟化的高性能的计算平台,满足数据挖掘系统设计的需要。本文对云计算平台的特点进行了分析,对基于云计算的数据挖掘架构进行了设计,对基于云计算的数据挖掘系统的实现进行了研究。

云计算;数据挖掘;分布式系统;数据规约

随着计算机科学技术的快速发展,海量的数据被存储在计算机的存储介质中,这些数据具有复杂性和异构性的特点,为了满足科研和商业等领域的需要,我们需要对这些数据进行分析并且提取出来有价值的数据信息,数据挖掘技术作为一种交叉学科的新技术被应用进来,数据挖掘技术就是把数据库中大量的和模糊的应用数据从中提取出来,变为有用的知识信息的过程。

1. 云计算平台的特点分析

云计算技术是通过强大的数据计算处理能力,为科研和商业等领域动态的提供海量的各种类型的服务资源,云计算是分布在大规模的数据服务中心的,云计算采用网格计算和分布式计算等方式。云计算平台是利用虚拟化技术,根据用户的不同需求,为用户动态的提供虚拟计算服务和资源存储的服务等,在用户不使用云计算服务的时候可以将资源动态收回并再次分配给其他用户,为用户提供大规模的并行计算和数据操作等服务。

云计算规模巨大,拥有海量的服务器集群,云为用户提供强大的计算能力。云计算是虚拟化的,用户可以在任何时间和任何地点根据自己的需要来获取云计算的应用服务,云计算具有高效性的特点,云计算的高效性主要是通过数据多副本容错等技术手段来实现的,云计算在使用上要比本地计算机可靠很多。云计算不针对特定的应用,云计算是通用的,同一个云可以对多个应用程序来进行服务。云计算的规模可以根据需要来进行动态伸缩,云计算的扩展性比较高,可以满足应用和用户数量的增长变化的需要。云是一个庞大的虚拟资源池,云服务可以按需购买。

2. 基于云计算的数据挖掘架构设计研究

2.1 系统需求分析

随着云计算技术的出现和发展,云计算的分布式计算处理技术得到了广泛的应用。存储在网络中的海量的数据具有异构和复杂等特点,这样给数据挖掘带来了很大的难度,对数据的处理需要强大的计算能力才可以满足需要,在数据挖掘系统中云计算的分布式计算可以满足数据挖掘技术对计算能力的需要,可以实现大规模的分布式并行计算。云计算可以提供动态资源池,也可以提供高可用性的虚拟化的计算平台,基于云计算的数据挖掘平台设计可以提高数据挖掘的高效性,可以解决数据挖掘中异构数据之间访问的问题。

2.2 系统平台设计要点分析

2.2.1 插件系统框架设计要点

插件是以应用程序的开发接口为规范标准的程序,插件可以向上层提供服务。插件系统框架设计的系统具有良好的可扩展性,有利于系统模块的开发。本文提出的系统平台的设计可以处于长时间的运行状态,具有动态更新的功能,系统中的核心插件的开发和维护由系统管理员来完成,用户自定义的插件层是对外开放的,开发维护由用户自己完成,这样系统的扩展性和开放性就更强大了。插件设计主要包括主程序执行时系统内核插件和主程序制定的算法插件等。

2.2.2 开放接口设计要点

开放接口主要是在基于数据挖掘平台的应用程序开发时使用的,通过开放接口,我们可以使用数据挖掘平台提供的服务,本设计的开放接口的设计都是基于表达性状态转移REST的。REST的设计标,REST架构的设计都是以WEB应用为基础来进行设计的,可以减少系统设计的复杂性,增加系统的可伸缩性。REST设计原则, 网络上所有的事物都被成为资源,每个资源都被定义了一个唯一的资源标识符,我们通过连接器的接口对系统资源进行访问,对资源的任何的操作在原则上都不会对资源标示符做任何的改变,并且所有的操作都是在无状态下进行的。基于REST设计的接口的调用可以大大减少服务器的工作负担,如果系统在运行时由于用户数量增加的原因而造成系统底层发生瓶颈的时候,系统可以通过扩展吞吐量的方式来解决瓶颈的问题,所以系统具有强大的吞吐能力可以提高系统对性能的需求。

2.3 系统总体框架模型设计

在云计算平台的基础之上构建系统模型,为各用户提供终端用户界面的服务,为本系统的应用程序提供接口,用户在对系统进行访问的时候可以通过终端用户的界面对系统服务进行访问,也可以使用应用程序通过对系统接口进行调用的的方式间接的对系统进行访问来获取服务。在整个系统框架的设计中,用户不需要对系统的计算能力和存储能力担心,用户把自己的任务部署给系统,然后系统按照用户的要求去执行相应的操作,从而获得数据挖掘的数据结果就可以了。数据挖掘平台通过用户的终端界面和应用程序为用户提供服务,数据挖掘提供的接口开放功能服务对外部是可见的,用户界面可以对接口进行直接的调用来实现外部服务。系统模型设计如图1所示。

图1 系统模型设计

2.4 系统平台各层功能设计及分析

基于云计算的数据挖掘平台分层架构图如图2所示,在系统平台分层架构图中云计算平台的应用接口层是系统平台的最底层,用户界面及开放接口是系统平台的最顶层,用户通过对开放接口的调用来共享数据集和挖掘算法等服务,并且可以集成到用户应用中进行使用,这样就可以实现系统平台的共享特性。

图2 基于云计算的数据挖掘平台分层架构图

在基于云计算的数据挖掘平台分层架构图中算法层是实现算法调用和接口管理的,数据清洗算法调用服务是在数据挖掘之前对噪声数据集中的数据进行预处理调用接口,数据被清洗后存储在云计算平台的数据层里面为数据挖掘提供服务;数据挖掘算法调用服务为数据进行数据挖掘提供统一的调用接口服务;可视化算法调用是把数据挖掘的数据结果以表格等形式在调用接口表示出来;算法注册和注销服务主要是对算法模块进行管理的。应用层是把数据挖掘相关的数据和算法以任务的形式描述出来,并且提供调用和接口服务;应用调用服务为已经注册的应用提供调用接口;应用注册与注销服务是对任务应用模块进行统一的管理。用户层主要功能是对用户身份进行验证和提供身份授权服务的。在对系统平台功能设计上采用XML作为基本的通讯语言,用户可以给予任何层来进行开发,可以把自己需要的功能和服务导入进去,系统更具与开放性和可操作性,这也是数据挖掘平台设计的最大的特点。

3. 总结

基于云计算的数据挖掘平台架构设计具有强大的用户界面功能,提供了更多的开放接口可以为更多的系统开发人员使用,有效的解决了异构数据之间访问的问题。基于云计算的数据挖掘平台架构设计在系统的框架设计和系统的功能设计上更加完善。

* [1]基于小微型电子商务的数据挖掘的应用[J].宋朝霞,方旭儒,宋哲,姬晨迪,贾文静.中小企业管理与科技(下旬刊). 2015(10)

* [2]一种基于云计算的数据挖掘平台架构设计与实现[J].王祥瑞,韩成浩.数字技术与应用. 2015(09)

* [3]交通数据中心总体架构与数据共享交换平台的设计研究[J].汪祖云.交通运输系统工程与信息. 2014(03)

* [4]基于云计算平台Hadoop的并行k—means聚类算法设计研究[J].赵卫中,马慧芳,傅燕翔,史忠植.计算机科学. 2011(10)

* [5]一种结合RDBMS和Hadoop的海量小文件存储方法[J]. 刘小俊,徐正全,潘少明.武汉大学学报(信息科学版).2013(01)