基于文本挖掘的旅游目的地游客旅游满意度探析

曹宛如

河北地质大学，河北石家庄 050031

引言

近年来旅游业实现开放式发展，在线订阅旅游行程成为一种人们追捧的新时尚，在线旅游APP用户规模稳步增长。在线旅游APP推出的旅游行程根据游客的不同需求推荐各类的方案，游客从推荐中根据个人的不同需求选取自己喜欢的产品自助订阅。

尽管各类在线旅游APP满足大众对旅游的多种个性化需求，但是存在的问题仍屡见不鲜，在线订阅的旅游行程后评价是游客分享旅游体验的主要渠道，评价的内容已经成为影响潜在游客的订阅在线旅游行程重要因素，逐渐成为旅游行业研究的对象之一，因此通过网络评论的内容分析游客对于在线订阅的旅游行程的满意度尤为重要。本文从网络环境下游客旅游评论的角度，对游客旅游满意度进行分析，以适应当前迅速变化的社会环境以及人们的消费心理的改变[2]。

一理论模型构建

本文文本分析涉及到的理论及方法包括结巴分词、决策树构建和LDA模型等。

根据游客对在线订购的旅游行程产品的评价，基于文本分析对旅游行业游客满意度进行分析，具体地，研究工作包含以下几个方面：

首先，通过结巴分词的方法进行分词处理[3]。根据前缀建立游客满意度评论词库，将处理过的评论内容进行分词处理，并进行词频统计，绘制词云图。

其次，采用分类回归决策树（CART），构建决策树衡量模型好坏。构造特征空间和标签，将样本数据划分为训练集和测试集，随机选取满意度影响因素与对应的情感综合评价多维数据矩阵中的75%作为测试集，其余25%作为验证集，词转向量后即可构建决策树。

然后，采用情感分析，利用词典资源、情感语集对分词的各词语的词性进行判断，建立情感词库，对词语的感情极性进行分析，即判断某个体对客体的感情倾向的方向，将评论内容进行分词、量化为数值型数据，根据权重匹配得到情感值，做出正面和负面词云图，分析结果。

最后，使用Python中的Genism库来构建LDA主题模型对评论内容进行分类，它可以以概率分布的形式给出每篇文档的主题，从而依据主题分布进行主题聚类或者是文本分类。需要建立词典及语料库，利用函数功能定义余弦相似度函数做出正面评论和负面评论LDA主题数寻优图，根据主题寻优图选取余弦相似度接近于零的主题数，基于每个主题下生成的最有可能词语分别对正面评论和负面评论进行两个潜在主题的特征词提取并分析。

二实证分析

（一）数据来源与处理

由收集的样例数据3990条评论，数据分为训练样本集和测试样本集两部分。首先需要对各网站评论内容进行去重和数据清洗处理，去重后评论有3814条，并删除评论中会含有对文本分析没用价值的词。

（二）文本分析

本文运用结巴分词对3814条评论内容进行分词处理，对每条评论的分词数量的分布情况进行分析。利用python做出分词后的词云图，用于呈现出现频次处于前100的高频词汇，在词云图中，字号最大的是“酒店”，说明作为游客在旅游中最关心的因素是酒店。其次是“厦门”“不错”“同程”“导游”“鼓浪屿”“服务”等，词云图中大部分的高频词都是偏积极或者中性的，说明大多数游客对于旅游体验持满意态度，并对酒店、导游、服务、时间、安排、早餐几方面比较看重。

通过构建决策树可实现对评论内容的情感分类，利用从训练集的评论内容中自动学习到的信息，对测试集评论的情感方向进行预测。经过处理后的2844个样本中，差评、中评和好评的数量分别为383条、342条和2119条。决策树计算结果显示，训练样本集上的准确率为78%，测试样本集上的准确率为78%。正面情感词汇的F1-score较高为87%，精确率为78%，召回率为99%。负面情感词汇的F1-score较低为36%，精确率为70%，召回率为24%。平均的F1-score为71%，总体来说构建模型的效果不错[4]。

（三）情感分析

采用知网发布的情感语集，并在词库中加入新词“赞”“推荐”“好评”等，以提高情感分析的准确性。接着对于不同的情感方向词语进行权重分配，然后利用表连接的方式将情感词库的权重匹配到前面处理过的评论分词中，正面词权重为1，负面词权重为-1。对于在评论中出现否定词或者双重否定的情况，修正情感影响。

根据每条评论得到的的情感得分对评论内容重新打上情感方向的标签，情感得分大于零的评论为“正”，得分小于零的为“负”，等于零的为“中”，得到带有情感方向的评论共3251条。在分析评论的情感方向时，主要分析的是游客对旅游感受的正负面情感方向，因此我们主要分析机器学习方法在正负面的准确率，计算得出总体判断准确率约为72%。

由正负面的情感词云图的对比可清晰看出，正面的情感词云图词语分布较为密集，负面词云图分布较为稀疏。说明对于自己的旅游体验感觉良好的游客占了绝大多数，只有很少一部分游客对于自己的行程不满意。主要的负面词包括“投诉”“失望”“难吃”“无聊”“贵”“不合理”“不负责任”等。由此反映出商家应在食物、服务、价格等方面做出相应改善，以减少游客在这些方面的不满[5]。

（四）主题分析

基于LDA模型的主题分析，它的优点能够精确的反映出他们的主题[1]。本文使用python的genism库来构建LDA主题模型对评论内容进行分类。本次分析中当主题数为2时余弦相似度几乎接近于零，因此将正面和负面评论的LDA主题数都定为2，同时每个主题下生成10个最有可能的词语。

根据对游客旅游积极评论内容的两个潜在主题的特征词提取，主题1的高频特征词如“酒店”“飞机”“房间”“接机”，说明游客对于整个行程中对交通和住宿方面的满意度较高。主题2的高频特征词如“行程”“导游”“厦门”“服务”。主要反映了游客对行程中导游的服务满意度较高。

根据对游客旅游消极评论内容的两个潜在主题的特征词提取，主题1的高频特征词如“差”“客服”“安排”“吃”，说明游客对于行程中客服的安排以及食物方面的满意度较低。主题2的高频特征词如“酒店”“导游”“飞机”“时间”“安排”“房间”。发现包含的范围计较广，无论是导游的服务、时间的安排还是住宿方面都没有达到游客的满意。说明商家在行程安排和住宿方面仍有很大的提升空间[6]。

三结语

本文利用文本挖掘技术在评论内容中获取游客的实际体验信息，将非结构化的评论内容通过结巴分词进行分词、量化处理，进而转化成结构型数据。进行决策树模型的构建，将原数据集细化区分为训练集和测试集，最后构建的模型在测试集上的预测准确率为78%，预测结果总体上良好。情感得分与游客的满意度呈现出正相关关系，总体准确率为72%。最后利用LDA模型对评论内容的主题进行提取，主要得出以下结论：游客对于旅游的正面评价远远多于负面评价，在对旅游体验进行评价时，游客往往会更关注两大方面。一方面是旅游过程中的刚性需求，比如住宿需求、出行需求、餐饮需求等，如在住宿时游客对于住宿环境、住宿质量以及酒店服务等方面十分看重，在选择出行工具时也会综合出行工具的性价比及舒适度加以考量。另一方面则是对行程安排、导游、景点客服非必选服务的抉择，如行程安排的合理性影响了游客对于旅游行程的实际体验感，导游的服务质量会影响游客对剩余行程的继续与否，景点客服的服务态度会影响游客对该景点的回访率等。