周艳聪 白家文

【摘  要】随着电商行业的快速发展,商家在网络购物平台的竞争越来越激烈。购买者对购买商品作出评价,将同时为商家和其他购买者提供大量参考信息,然而从大量的评价中筛选有意义的信息是非常困难的。论文对京东商城某品牌热水器的评论数据进行建模,对文本进行预处理、中文分词、停用词过滤,通过建立LDA主题模型,实现对文本评论数据的倾向性判断,从而为商家和购买者提供有价值的信息。

【Abstract】With the rapid development of the e-commerce industry, the competition among merchants in online shopping platforms is increasingly fierce. Buyers' comments on purchased goods will provide merchants and other buyers with a lot of reference information. However, it is very difficult to filter meaningful information from a large number of comments. This paper modeled the comment data of a water heater of a brand in Jingdong Mall, preprocessed the text, segmented Chinese words and filtered stop words, and realized the bias judgment of the text comment data by establishing the LDA theme model, so as to provide valuable information for merchants and buyers.

【关键词】用户评论;预处理;中文分词;LDA主题模型;情感分析

【Keywords】user comment; pretreatment; Chinese words segmentation; LDA theme model; emotion analysis

【中图分类号】F724.6;TP391.1                               【文献标志码】A                                   【文章编号】1673-1069(2020)06-0130-02

1 引言

互联网的快速发展,人类在网络上的交互方式为大量网络数据的产生提供了可能。随着电商的发展,购买者通过淘宝、京东、亚马逊等各种平台购买商品,并对商品进行评论以表达对购物体验及商品性能的满意程度。对产品的评论数据进行情感分析,进而挖掘购买者对商品的情感倾向,为其他购买者提供参考,或挖掘出购买者对商品的关注程度和情感倾向,以便企业能更好地提升商品及服务质量。因此,高效、准确地对互联网电商评论数据进行情感分析,对电商行业及购买者本身有很大的帮助。但如何高效合理地从海量评价文本数据中提取有价值的信息,一直是众多学者研究的课题。

凌洁等对电商平台在线评论分析进行了综合研究,刘玉林等以情感倾向为基础建立情感指数,从多方面对评论数据进行了多维度分析,景永霞等在评论分析中引入了LDA主题模型,并探讨了其在课程评论中的应用,李明等在商品评论情感倾向性方面进行了分析研究。文献分别在校园微博、汽车和电影评论等方面进行了研究分析。本文将综合应用情感分析技术对某品牌热水器评论数据进行情感分析,以为商家和购买者提供信息参考和相关支持。

2 评论数据处理

2.1 文本去重

本文采用京东商城某品牌空调产品评论数据。由于数据质量参差不齐,如重复或不知所云等。这些评论数据不仅不能提供价值,还会造成不必要的麻烦。因此,在对评论数据进行分析之前先要“文本去重”,把没有价值的数据去掉。

某些电商平台为了避免客户长时间不进行评论,往往设置为超期后系统自动好评。显然这些评论没有任何分析价值,而且这些评论大量重复,必须去除。经过去重处理后,共得到55400条评论。使用value_counts函数统计重复的评论,可以得到重复评论文本的重复数量,数量最大的评论文本是系统默认评论。

2.2 文本分词

在对评论文本进行分析之前,最重要的一步是对数据进行相应的分词,分词 是否准确,将会影响后面的工作质量。目前Python语言中的中文分析包“jieba”对评论文本进行分词,效果较好,在业内应用较广泛。本文利用其对自定义词典进行分词。

2.3 去除停用词

在SEO中,为节省存储空间和提高搜索效率,搜索引擎在索引页面或处理搜索请求时会自动忽略某些字或词,这些字或词即被称为Stop Words(停用词)。在自然语言处理中,停用词一般不携带有价值的信息,选择去除掉。从图1可以看出,经过停用词过滤后,之前的“是”“的”等停用词被去掉了,而且可以达到不错的去除效果。

2.4 特征提取

在文本处理中,特征选择是关键步骤。一个好的特征选择通常能够达到满意的分类效果。在特征提取中如果仅仅通过词频的方式来处理可能会得出错误的分析结果。但如果在实际操作中把所有的词语都作为特征词选项的话,则会导致特征空间的维度过大没有实际意义。本文首先从特征全集中采用某评价标准综合筛选出特征子集,同时对特征子集进行有效性验证,以此完成特征提取工作。

2.5 情感词典的构建

一个句子或是短语的情感倾向通常由句中的情感词决定,一个好的情感词典要能够较好地囊括研究领域的情感词,准确判断出相关文本的情感倾向,因此,构建情感词典是研究文本情感的基础。本文将电商评论中的情感词语作为特征项进行相关的提取工作,然后把形成的情感词典导入分词系统中形成自定义词典,设置好相关的分词词典的优先选择顺序,大大提高了分词结果的准确性。

3 基于情感分析的LDA模型主题分析

在机器学习和自然语言处理等领域,主题模型是一种在一系列文档中发现抽象主题的统计模型。一篇文档如果有多个主题,则这些特定的可代表不同主题的词语会反复出现,此时,运用主题模型,能够发现文本中使用词语的规律,并且规律相似的文本联系到一起,以寻求非结构化的文本集中的有用信息。LDA模型作为其中的一种主题模型,属于无监督的生成式主题概率模型。

对本文数据进行主题分析,提取的高频特征词有:“不错”“买”“好”“加热”“便宜”“价格”“实惠”“热水器”“好用”“保温”。然后取得每个主题的特征词并转换为DataFrame格式,如表1所示。

由表1可以看出,主题一主要为热水器售后服务安装方面相关内容,主题二主要为热水器的质量、价格、送货相关方面,主题三主要为热水器的安装、加热、保温效果相关方面。综上,主题特征词的DataFrame格式非常清晰地展示了每个主题的关键点以及评论的情感倾向。而且,从表中可以看出,评论中关于“安装”一词的出现频率较高,体现出顾客对于安装这项售后服务的关心。而且师傅、安装费等词相对出现频率较高,表明客户对安装师傅及其费用的关注度较高。关于产品性能“质量”“加热”等词,客户的反应为“好”“加热快”等正面评价。

基于客户对产品的评论可以看出,客户对商品的总体满意度较高。商家售后服务的进一步改进可以从降低安装费用、加快送货速度等方面入手。商家的进一步发展策略可以定位为保障商品质量的前提下,进一步提高送货速度,降低安装费用,公开使用材料等,综合提高售后服务水平,进一步获得客户的认可度,提高客户粘性。

4 结论

本文针对京东商城某品牌热水器的消费者文本评论数据进行建模,对评论文本进行进一步的预处理工作,完成了文本去重、中文分词、停用词过滤后、特征提取等工作,通过建立LDA主题模型的数据挖掘模型,实现了对文本评论数据的倾向性判断以及关于主题的高频特征词提取,并且通过高频词的频率分析,进一步提炼客户情感,从而为商家今后发展策略和其他客户购买产品提供进一步的建议。由于中文语言表达方式的多样性、句式的复杂性、各种不同的习惯用语以及网络用语的层出不穷,还需要增强对复杂评论的处理能力,这也是本文下一步的努力方向。

【参考文献】

【1】凌洁,刘玉林.电商平台在线评论分析研究综述[J].江苏经贸职业技术学院学报,2019(6):38-41.

【2】刘玉林,管利荣.基于文本情感分析的电商在线评论数据挖掘[J].统计与信息论坛,2018(12):119-124.

【3】景永霞,苟和平,刘强,等.基于主题模型的在线课程评论情感分析研究[J].兰州文理学院学报(自然科学版),2020,34(1):54-56,64.

【4】李明,胡吉霞,侯琳娜,等.商品评论情感倾向性分析[J].计算机应用,2019,39(S2):15-19.