米硕 孙瑞彬 李欣 明晓

摘 要:文章针对如何捕获电子邮件的语言特征来识别作者的问题进行了研究建模,首先使用NLTK自然语言处理工具对文本进行了预处理,然后使用Word2Vec和GloVe模型对文本内容进行了嵌入化处理得到了词向量,接着文章使用改进的基于TextCNN的网络架构,使用改进的基于CLSTM的网络架构和提出了一种新的基于循环神经网络(RNN)和卷积神经网络(CNN)的网络架构来解决文章的问题,并且采用集成学习的方法对上述三种单一模型进行模型融合作为最终的模型来识别作者,最终的效果较好。

关键词:循环神经网络;卷积神经网络;词向量;Python

中图分类号:TP391 文献标志码:A 文章编号:2095-2945(2018)10-0024-02

Abstract: In this paper, we study and model in view of how to capture the language features of email to identify the author. Firstly, we preprocess the text with NLTK natural language processing tool. Then we use Word2Vec and GloVe models to embed the text content to get word vector. Then we use the improved network architecture based on TextCNN and an improved network architecture based on CLSTM, and a new network architecture based on recurrent neural network (RNN) and convolutional neural network (CNN) is proposed to solve the problem of an article. And the integration learning method is used to identify the author by fusing the above three single models as the final model, with a good final effect.

Keywords: recurrent neural network (RNN); convolutional neural network (CNN); word vector; Python

1 模型的建立

笔迹分析是一种非常特殊的调查形式,用于将人们与书面证据联系起来。笔迹调查人员通常被要求在法庭或刑事调查中,以确定书面样本是否来自某个特定的人。由于许多语言证据现在都出现在电子邮件中,从广义上说,笔迹分析也包括了如何通过电子邮件的语言特征来识别作者的问题。本文基于此使用深度学习的方法建立了相应的模型。其为改进的基于TextCNN的分类模型,改进的基于CLSTM的分类模型和一种新的基于循环神经网络和卷积神经网络的分类模型,并且使用集成学习的方法对上述三种单一模型进行融合作为最终的分类结果。(见图1、图2、图3)

2 模型的求解

对于每个单一模型的输入都为用词向量替换的邮件原始正文文本数据的词向量矩阵,模型最终的输出为133维的向量,代表这封邮件属于这133个人的概率本文在训练中使用Ten-folder cross-validation(十折交叉验证)的方法来做数据进行训练和验证。本文所用的数据集大小为255636,首先留出5636个样本作为测试集,剩余的250000个样本分成十份,轮流的将其中九份作为训练数据,1份作为测试数据,进行试验,每次训练都会得出相应的准确率。10次的结果的准确率的平均值作为最终的准确率,最终来对算法准确性进行估计。

本文在进行模型训练时根据算法的准确性不断的进行参数的调节,并且使用GTX 1080Ti显卡进行足够时间的学习训练,力求使每个模型的准确率达到最高。

由训练集和测试集的准确率变化可知,该模型对于电子邮件作者的识别取得了不错的效果。较单一的传统模型效果更佳,故采用本文的方法能较好的解决该电子邮件识别问题。

3 模型的优缺点

3.1 模型的优点

(1)同时使用了Word2Vec模型和GloVe模型对文本进行了处理得到了原始文本的特征表示,使得模型能够从文本中提取到更加有效的特征来进行文本分类识别。

(2)使用了集成学习的方法来进行模型融合,这种方法相比使用单一的分类模型效果更好。

(3)在验证单一模型的使用的算法的有效性和正确性方面,使用十折交叉验证方法,证实了模型的准确率相对来说较好。

(4)本文创新性的提出了一种新的文本分类识别模型,并且在此文本分类识别问题上取得了不错的效果。

3.2 模型的缺点

(1)在模型过程中,可能未找到最优的模型参数值使得模型表现出最好的效果。

(2)因为单一模型的最后是全连接层,需要训练的参数较多,容易出现过拟合,深度模型容易出现梯度消散问题。

3.3 模型的改进

(1)通过迭代法找到模型表现出最好的效果时的模型参数值。

(2)对通过Word2Vec模型和GloVe模型得到词向量进行L1,L2正则化处理,以提高单一模型的泛化能力,也会使得最终的模型融合的效果更优。

参考文献:

[1]lan Goodfellow,Deep learning[M].Beijing:People's post and Tele

communications Press,2017.

[2]Shalini Ghosh,Orilo Vinyals, Contextual LSTM(CLSTM)models for large scale NLP tasks, arxiv.org,2016.

[3]杨静.基于SVM的中文电子邮件作者性别识别技术研究[D].河北农业大学,2007.

[4]聂小尘.电子邮件取证模型及关键技术研究[D].上海交通大学,2011.

[5]马建斌.基于SVM的中文电子邮件作者身份挖掘技术研究[D].河北农业大学,2004.