龙睿

摘  要: 针对当前电商大数据背景下的数据分类与挖掘中存在递归效率低、周期频繁、冗余度高等问题,文中提出一种基于人工智能的大数据分类和挖掘算法。该算法采用快速Spark架构,在将获取到的电商大数据进行智能Spark分类的基础上,通过设置根据数据管辖维度进行控制的纵向序列,可以在较大程度上提高数据挖掘的效率。在数据挖掘的过程中构建各类数据所对应的挖掘模式,从而能够在最短的时间内生成用户行为树,降低数据挖掘中的冗余度。在数据分类时,将用户行为树及其数据的集合进行依次映射,从而解决因频繁搜索导致的周期收敛困难的问题。使用旅游业电商数据对所提算法进行仿真验证,结果表明,该算法在数据挖掘中消耗时间短、准确度高。

关键词: 数据挖掘; 数据分类; 电商大数据; 人工智能; Spark架构; 仿真验证

中图分类号: TN911?34                              文献标识码: A                     文章编号: 1004?373X(2020)14?0170?03

E?commerce big data classification and mining algorithm based on artificial intelligence

LONG Rui

(Shanghai Normal University, Shanghai 200233, China)

Abstract: In allusion to the inefficient recursion, frequent cycle and high redundancy in the data classification and mining under the background of e?commerce big data, a large data classification and mining algorithm based on artificial intelligence is proposed. On the basis of intelligent Spark classification of the obtained e?commerce big data, the fast Spark architecture is used in the algorithm to improve the efficiency of data mining to a large extent by setting the longitudinal sequence controlled by something according to the data jurisdiction dimension. In the process of data mining, the mining patterns corresponding to various data are constructed, so that the user behavior tree can generate in the shortest time and the redundancy in data mining is reduced. In the data classification, the user behavior tree and its data set are mapped successively to improve the difficult periodic convergence caused by frequent searches. The simulation verification of the proposed algorithm is performed by using the tourism e?commerce data. The results show that the proposed algorithm can consume less time and has higher accuracy in the data mining.

Keywords: data mining; data classification; e?commerce big data; artificial intelligence; Spark architecture; simulation verification

0  引  言

近年来,国内旅游人数呈爆发式增长,超过50%的游客在出行时选择如携程、艺龙等电商进行门票、酒店等消费。消费者在这些电商平台的消费中积累了海量的数据,这些数据包括消费者的常住地、性别、年龄、出行习惯、口味、个人爱好等。而这些数据可以帮助电商平台更优地对游客行为进行分析及预测,基于此开展相应的精准营销和信息推送。

当前大数据挖掘主要集中于云网络中,文献[1]针对关联数据提出了一种分布式评估机制,从而实现对稀疏数据的精确挖掘,但该算法在网络规模大、数据较多时效率较低;文献[2]使用维度参数作为数据挖掘的重要参数进行算法建模,其能够实现复杂网络下高效率的数据挖掘,但当数据内容相似性较高时,其数据挖掘效率、准确度等明显下降;文献[3]首先对用户数据进行建模,然后进行数据挖掘,使其挖掘过程中的抗干扰性有所增强、更稳定,但其实际应用领域较为受限。

本文针对当前电商需要对数据进行快速分类、处理等问题,利用Spark机制及维度控制机制,提高数据挖掘的稳定性、准确性。利用KNN算法对挖掘后的数据进行进一步的分类,为旅游电商的精准营销提供了新的方法与思路。同时,本文所提出的算法在复杂环境中保持了较高的准确性,具有较高的适用性。

1  数据挖掘算法

由于旅游电商的数据来源较广且较为复杂,因此本文采用两步法进行旅游电商大数据的数据挖掘。首先通过维度控制机制,对所获得的节点数据信息进行分割,使这些数据变为离散分布,以便于实现高维度的数据挖掘;其次,通过Spark机制,较快地形成对应的数据挖掘的数据集合。同时降低数据挖掘过程中数据信息冗余的问题,提高数据挖掘的准确性。

1.1  维度控制机制

1.1.1  构建数据模型树

首先对全网的所有数据进行全面的扫描,进而获取到各个网络节点的数据集合[J<1,2,…,n>],然后从其中选取出数据量最大的节点[i],作为初始的数据挖掘节点,最后对剩余的数据节点进行重排序。每个排序周期仅对数据量最大的节点进行数据挖掘操作。构建的数据模型树如图1所示。

1.1.2  构建用户行为挖掘树

为了帮助电商达到精准营销的目的,消费者的消费行为与当前节点的关系较为密切[4]。而当前数据的形成与用户的行为并未有一个正向波动的关系,因此需要对图1所构建的数据模型树根据消费者相应的消费、查看等行为进行相应的更改,根据周期对其用户行为进行排序。同时将用户行为发生最多的节点与相应的数据总量最大的节点进行排列,从而形成图2所示的用户行为挖掘树。需要注意的是,此处使用二叉树的方式进行数据的排列。

1.2  Spark机制

通过维度控制机制可以得到数据模型树和用户行为挖掘树两种数据模型,然后通过Spark机制,增强这两种数据模型之间的关联度,从而形成规模化的数据挖掘效应。其详细流程如图3所示。

相应的详细操作步骤如下:

1) 对上述的数据总量集合[J<1,2,…,n>]以列的方式进行排序,对排列后的数据进行傅里叶变换[5],并将前文得到的两种数据模式进行耦合操作,从而得到序列:[U1,U2,…,Un]。其中,Spark映射的方式为:

[FHTs,t=βstan1Msx+πMdsβtωt1Mty+πMdt]

(1)

2) 使用随机序列变换[6]的方式,将式(1)得到的序列[U1,U2,…,Un]进行随机变换,形成随机变换序列[F1,F2,…,Fn];

3) 使用RSO机制[7],对步骤2)中得到的序列进行结构化的混淆操作,同时结合步骤1)中形成的序列,进行RSO操作。整个网络中全部节点结束后,得到RSO混淆操作序列[H1,H2,…,Hn];

4) 对步骤3)中得到的序列,再次进行结构混淆RSO机制操作,得到最终的序列U。

2  数据分类

在进行数据挖掘后,对挖掘到的数据进行相应的清洗,然后使用相应的人工智能算法对上述挖掘、清洗后的数据进行处理[8?10],找到数据中所包含的规律,从而得到相应的模型,并可以将这些模型应用到相应的数据分析及预测中。本文使用KNN算法进行数据分类,其分类流程如图4所示。

2.1  数据预处理

将通过数据挖掘方式得到的数据序列U,根据消费者相应的消费意向、常住地、出行习惯、口味、个人爱好建立对应的关系,从而可以从多个维度进行数据的分类。同时,根据实际的消费情况,由于70岁以上及10岁以下人群并无准确的消费意向,为了避免其影响预测的准确度,在数据集中去除70岁以上及10岁以下人群的数据。

2.2  数据特征编码

本文使用汉明码距离,对各个样本数据之间的距离进行相应的度量。本文从以下几个方面进行特征编码:

1) 性别。根据旅游局的统计结果得知,当前旅游市场中女性更占有主导地位,因此将女性特征编码为1,男性为0。

2) 常住地。本设计中使用省份表示常住地,因此需要用5位数字来表示常住地信息,并根据省份的旅游热度进行相应的特征编码。

3) 近期出行次数。调查显示,近期出行次数能够较好地反应其出行的意愿及再次出行的可能性。因此,使用三位独热码的形式对其进行相应的编码描述。

2.3  KNN分类算法应用

通过数据的训练可以得到相应的K值,不同用户之间汉明距离在K值以内的用户可以分为同一组用户,在精准营销中能够为这部分用户投放相应的内容,从而实现成本降低。

3  仿真测试

为了对本文提出的基于人工智能的电商大数据分类与挖掘算法的性能进行评估,使用Matlab进行仿真测试,并采用当前数据挖掘中最常用的SCM及SGM算法作为对照。仿真参数如表1所示。

图5为不同挖掘强度下,本文所提出的算法与SCM,SGM两种算法在挖掘时间上的对比。由图5可知,在同等挖掘强度下,本文所提出的算法挖掘时间远小于其他两种算法;随着挖掘强度的增加,本文算法的挖掘时间的增长较为平缓。这是由于本文提出的算法在用户挖掘过程中,结合用户的行为,整合节点的资源,从而实现多维度的数据挖掘。

图6为在不同的挖掘强度下,本文所提出的算法与SCM,SGM算法在挖掘错误方面的对比。

由图6可知,在同等的挖掘强度下,本文提出的算法产生错误的概率小于其他两种算法;随着挖掘强度的增加,文中算法错误概率的增加较为平缓。表明本文所提出的算法能够在复杂的环境中进行较为准确的数据挖掘操作,进一步改善当前数据挖掘算法准确度低的问题。

4  结  语

本文针对当下对于大数据的分类与挖掘算法研究中存在的周期频繁、递归效率低下、待挖掘信息冗余程度高等问题,针对旅游电商的应用场景,提出一种基于人工智能的电商大数据分类与挖掘算法。

该算法通过将待挖掘数据离散化,并将获取的数据进行智能Spark分类,有效地解决了传统数据挖掘算法中的问题。通过相应的仿真测试实验表明,本文所提的数据挖掘算法,在降低挖掘时间的同时,能够大幅度降低错误挖掘的概率,可以在实际应用中进行推广使用。同时配合KNN数据分类算法,能够为旅游电商的精准营销提供相应的技术支持。

参考文献

[1] DONG X J, WANG Z, ZUO K. A novel block encryption scheme based on chaos and an S?box for wireless sensor networks [J]. Chinese physics B, 2012(2): 175?186.

[2] LIANG M, YANG L. Public key encryption and authentication of quantum information [J]. Science China, 2012, 55(9): 1618?1629.

[3] HUANG Q, WANG S. Generic certificateless encryption secure against malicious?but?passive KGC attacks in the standard model [J]. Journal of computer science and technology, 2010(4): 807?826.

[4] LI J, LI J, CHEN H, et al. A data transmission scheduling algorithm for rapid response earth observing operations [J]. Chinese journal of aeronautics, 2014, 27(2): 349?364.

[5] JIANG H B, JIN S D, WANG C G. Prediction or not? an energy?efficient framework for clustering?based data collection in wireless sensor networks [J]. IEEE transactions on parallel and distributed systems, 2011, 22(6): 1064?1071.

[6] ZENG L, LI X, JIANG H. Cross layer adaptive resource allocation algorithm with diverse QoS requirements for single cell OFDMA systems [J]. Journal of Harbin Institute of Technology, 2015(1): 15?22.

[7] AHMED A, ABU B K, CHAN N M. A survey on trust based detection and isolation of malicious nodes in ad?hoc and sensor networks [J]. Frontiers of computer science, 2015, 12(7): 280?296.

[8] 邱文珍.在线旅游平台中数据挖掘技术的应用研究[D].武汉:华中科技大学,2015.

[9] 黄玲.在电子商务中应用Web数据挖掘的研究[D].长沙:湖南大学,2014.

[10] 张华.基于数据挖掘技术的电子商务旅游线路推荐系统[J].软件,2013,34(3):57?58.