付学敏

摘要:短文本分类是数据挖掘的一个重要方面,半监督学习可以有效的解决标签数据不足的问题。然而,短文本数据的稀疏性极大的限制了半监督学习算法的应用。因此本文提出一种基于特征扩展的半监督协同短文本分类方法。该方法能改善文本的稀疏性问题,实验结果表明,本文所提方法可以有效的提高已有半监督算法的分类精度。

关键词:稀疏性;分类精度;半监督算法;短文本分类

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2018)29-0205-03

Abstract:Short text classification is an important aspect of data mining. Semi-supervised learning can effectively solve the problem of insufficient label data. However, the sparsity of short text data greatly limits the application of semi-supervised learning algorithms. Therefore, this paper proposes a semi-supervised collaborative short text classification method based on feature extension. This method can improve the sparsity of texts. The experimental results show that the proposed method can effectively improve the classification accuracy of existing semi-supervised algorithms.

1引言

随着互联网的发展,网络文本如博客、微博、产品评论等也随之大量涌现,这类数据包含了大量有价值的信息,然而这类数据往往缺失标签信息,因此,研究半监督的文本分类算法具有十分重要的意义。

半监督算法旨在利用少量的标签数据和大量无标签数据构建高性能分类器,解决标签数据不足的问题。当前的半监督算法主要分为增量式半监督学习算法和基于图的半监督学习算法。增量式半监督学习算法[1][2],以迭代方式根据某种选择方法选择部分较为信任的样本加入标签数据集来对分类器进行重新训练。而基于图的半监督学习算法如[3],将样本表示成图中的顶点,样本间的相似性表示成顶点间的边,迭代的将样本的标签通过图传递给未标记文本。这些方法一定程度上解决了样本标签数据不足问题,提高了最终的分类精度。

然而在文本分类中,数据普遍具有的稀疏性,从而极大的限制了半监督算法的运用[4],这在网络文本上尤其明显。在增量式半监督学习算法中,数据的稀疏性使得特征出现的频率不高,在标签文本中训练的分类器很容易出现过拟合现象,导致分类精确度较低,影响了增量式半监督学习算法的后续迭代过程[5]。

本文提出一种基于特征扩展的半监督协同短文本分类方法,该方法首先利用无标签文本数据统计特征间的共现关系,根据该共现关系计算特征间的相似度,然后针对文本中未出现的特征,计算特征与该文本中所有特征的相似性,用相似性较高的部分特征扩充原有特征空间,最后分别在原始数据和扩展数据上训练分类器,迭代的选择预测标签一致的无标签文本加入训练集。

2 基于特征扩展的半监督协同短文本分类方法(co-self-training svm)原理

2.1基本思想

给定仅包含少量标签的文本数据[L=xi,yimi=1]和大量无标签数据[U=(xi)ni=m+1],(m<

首先,利用特征在文本中的频率作为权重对x进行向量化表示,[x=],其中[tffi,x]为特征[fi]在文本[x]中出现的次数。文本数据普遍具有一定的高维稀疏性,即大多数[tffi,x]值为0,从而影响分类精度。因此,本文通过扩充样本的特征空间来改善文本的稀疏性,然后利用半监督算法训练得到一个高效的分类器。

2.2特征扩展方法

3.3方法准确率对比

表1列出了算法的实验结果对比,从表中可以看出,modified self-training svm算法和modified LP算法实验结果平均都大于基本的self-training svm算法和LP算法一个百分点,这证明了本文频率扩展方法可以有效的改善文本的稀疏性,提高半监督学习算法的效率,同时,本文提出的co-self-training svm算法实验结果高于所有的其他算法的实验结果,这显示了本文算法的有效性。

4 本文小结

针对半监督环境下短文本数据的稀疏性问题,本章提出一种基于特征扩展的半监督协同短文本分类方法,首先使用频率扩展方法改善文本的稀疏性,并使用扩展后文本和原始文本协同训练半监督算法。实验表明,在相同的数据集上,本章提出的算法在文本上分类性能优于所有其他基本算法。

参考文献:

[1] 郑文静,李雷. 基于聚类核的半监督情感分类算法研究[J].计算机技术与发展,2016(12):87-91.

[2] 苏艳,居胜峰,王中卿,等.基于随机特征子空间的半监督情感分类方法研究[J].中文信息学报. 2012(04):85-90.

[3] 郭涛,李贵洋,兰霞.基于图的半监督协同训练算法[J].计算机工程与设计.2012(09):3584-3587.

[4] 孙学琛,高志强.基于半监督学习的短文本分类方法[J].山东理工大学学报(自然科学版).2012(01):1-4.

[5] 王珏,周志华,周傲英.机器学习及其应用[M].北京:清华大学出版社,2006.

[6] 黄建校,邵曦. 一种改进的SVM增量学习算法研究[J].无线互联科技,2017(03):46-49.

[7] 刘家辰.集成单类分类算法及其应用研究[D].西安电子科技大学,2015.

[8] 冯爱民.结构驱动的单类分类器设计及拓展研究[D].南京航空航天大学,2011.

【通联编辑:唐一东】