秦斌 倪静

摘 要:针对目前意见领袖识别过程易受主观因素影响的问题,以微博为研究对象,采用熵权TOPSIS的相关理论建立意见领袖的识别模型。首先,从用户的静态网络结构特征、用户的个人属性信息和用户的交互信息三个方面建立综合测度的用户影响力评价指标体系。然后,采取熵权法得到各指标的权重,采用逼近于理想值的排序方法求得用户的重要度,根据重要度值的大小识别出意见领袖。最后,爬取微博社交平台中“校园暴力”话题的相关数据,对提出的意见领袖识别模型进行实验分析,并通过与单一维度测度指标的方法相比验证提出的意见领袖测度模型的有效性。

关键词:熵权法;TOPSIS;意见领袖

中图分类号:F224        文献标志码:A      文章编号:1673-291X(2021)13-0119-03

引言

微博、QQ、微信等在线社交平台的不断发展给人们的工作和生活带来了巨大的影响。人们通过这些便捷的社交平台,一方面可以轻松自由地交流和表达他们对特定产品、服务,甚至政治和经济领域的个人经验、情感和感受,但是另一方面,通过发帖、评论、转发等行为方式,可以使得舆论事件在很短的时间内呈现出病毒般的传播趋势,可能引发网络舆情危机,而在线社会网的意见领袖是社会舆情的重要引导者,很大程度决定舆情的发展走向,因此意见领袖的识别工作具有很好的研究前景。

一、相关研究

意见领袖的概念最初是由美国哥伦比亚大学的社会学家拉扎斯菲尔德提出的[1],他将意见领袖定义为具有吸引力的人,在其心理、身体和社会方面都具有突出的特征,且在某一领域具有可信的知识的人。随后“意见领袖”受到了国内外学者的关注,他们在各个领域展开了研究,研究发现意见领袖在政治、营销、教育等方面扮演着重要的角色。

目前,在线社会网络意见领袖的识别方法主要包括基于社会网络结构的识别方法和基于测度指标分析的识别方法。基于社会网络结构的识别方法主要包括基于网络中心性的识别方法、基于PageRank算法及其改进算法的识别方法和基于LeaderRank算法及其改进算法的识别方法等。刘广强等人基于中介中心性,计算用户节点的综合影响力[2]。琚春华等人融合紧密中心性和信任寻找电商化社交平台意见领袖[3]。Cha等人以Twitter为媒体平台对舆情信息的传播特征进行分析,从粉丝数、转发数和被提及数3个用户个性化特征指标的点度中心性,利用皮尔逊相关系数对用户影响力进行排序[4]。Jain等人利用网络中的各种结构性指标来衡量用户的声誉模型[5]。孙红等人改进PageRank算法识别微博网络中的意见领袖[6]。李志宏等人基于LeaderRank算法从网络结构、交互行为和交互信息三个维度识别微博网络中的意见领袖[7]。基于测度指标的识别方法主要包括基于影响力度量指标进行识别意见领袖。李玉贞等人选用3个方面的用户影响力评价指标构建一个评价指标体系,并利用层次分析法设计意见领袖影响力模型识别意见领袖[8]。彭丽徽等人基于用户的影响力、活跃度、认同度等构建影响力评价指标体系,并采用灰色关联方法建立意见领袖识别模型,进而识别意见领袖[9]。王佳敏等人从用户的影响力和活跃度两方面构建一个影响力评估指标体系,并采用改进的层次分析法识别社交网络的意见领袖[10]。

综上所述,国内外目前现有的在线社会网络的意见领袖识别工作各有优劣,但如果只是从网络拓扑结构进行分析,缺乏一定的全面性,且目前基于测度指标分析的方法,各指标的权重基本上是由专家主观确定为主,其客观准确度较低。针对以上存在的不足,综合考虑微博用户多个维度的影响力评价指标,然后采用熵权TOPSIS方法建立全面、客观的意见领袖识别模型。首先,基于用户的静态网络结构特征、用户的个人属性信息和用户的交互信息建立一个用户影响力评价指标体系。然后,采用熵权法计算各个指标的权重,采用TOPSIS方法对用户的影响力进行评估,进而识别出高影响力的用户。最后,通过抓取微博社交平台的“校园暴力”相关话题的数据对提出的意见领袖识别模型进行实验分析。

二、微博意见领袖测度指标选取和建模

(一)用户影响力评价指标体系构建

综合考虑用户的静态网络结构特征、用户的个人属性信息和用户的交互信息三个方面的影响指标作为意见领袖判定的基础。

1.静态网络结构特征指标选取。在社会网络中,一个节点的结构重要性越高,该节点的影响力越高,复杂网络分析中常以中心性指标衡量节点在网络中的重要程度。本文选用度中心性(A1)、紧密中心性(A2)和中介中心性(A3)来衡量用户在交互网络中的结构重要性。一个节点的度中心性表示与该节点所连接的边数,可以直观体现节点的重要程度。一个节点的紧密中心性用来衡量该节点影响网络中其他节点的能力,可以通过该节点到其他所有节点最短距离之和的倒数得出,其值越大,则表明该节点越处于社会网络的中心位置。中介中心性为网络中通过该节点的最短路径的数目与所有节点对之间最短路径数目的比值,其值越大,表示社会网络信息传播过程中流经该用户节点的信息流越大。

2.用户个人属性信息指标选取。用户的个人属性具体包括粉丝数(A4)、关注数(A5)、用户等级(A6)和是否认证(A7)。其中,用户的粉丝数是其影响力的直观衡量,一个用户的粉丝数越多,其发布动态的潜在关注度和转发率也相对更高,其对舆情产生的影响也相对较大。用户的关注者是其在平台中获取信息的重要来源,因此,其关注数可以在一定程度上反映用户信息来源渠道的广泛性。而用户等级和是否认证可以反映用户的资历和威望。对于是否认证,如果用户是认证状态就记作1,否则记为0。

3.用户的交互信息指标选取。用户的交互信息可以实时地反映用户参与舆情事件讨论的参与度和所发博文的传播能力,因此话题相关的用户所发博文的被转发数(A8)、被评论数(A9)和被赞数(A10)可以反映用户的影响力。一个用户发布的话题相关博文的被转发数和被赞数越高,表明该用户发布的信息及其表达的观点被越多人所认可,其传播的信息给舆情发展方向带来的影响也相对越大。一个用户话题相关博文的被评论数越多,表明该用户关于此舆情事件表达的观点对其他用户形成了一定影响,从而引发了更多的讨论,一定程度上也在引导着舆论事件的走向。

(二)意见领袖识别模型构建

目前此类研究中的指标权重基本上是由专家主观确定为主,其客观准确度较低,因此本文采用熵权法确定用户影响力评价指标的权重系数值,取代以专家主观确定权重的方法。然后将参与话题讨论的用户看作决策方案,将能够反映用户重要性的指标看作方案的属性,通过计算与每个属性的最佳方案的贴合程度来量化每个用户的重要程度。设U={u1,u2,u3,…,un}为话题相关的用户集合,D={d1,d2,d3,…,dm}为用户的属性集合,记用户ui上第j个指标的属性值为ui,j(i=1,2,3…,n;j=1,2,3,…m),那幺用户重要评估矩阵可以表示为:E=(ui,j)n×m。

其中,ci为用户ui与理想点的贴进度,ci的值越大,则用户ui的决策属性与正理想点越接近,其重要程度也越高。

三、实验数据获取与结果分析

(一)实验数据的获取和预处理

实验数据来自微博社交平台2019年5月29日至6月2日“校园暴力”话题相关的数据。通过Gooseeker爬虫网站获取话题相关的25 582 条用户信息,经过清洗各项数据均为0和重复的数据,最终得到738个有效用户数据,结合python网络爬虫技术和Gooseeker爬虫网站确定用户的交互关系并建立交互网络。

(二)实验结果及分析

首先,利用Gephi软件计算用户的网络中心性指标的值,同时将采集到的用户的个人属性指标和交互属性指标进行标准化处理。其次,利用熵权法对用户影响力评价指标体系各指标的权重进行赋值,得到的结果如表1所示。最后,通过TOPSIS确定话题相关的意见领袖,本实验得到的结果与通过基于上文提到的单一维度得到的意见领袖对比如表2所示。

从意见领袖识别的评价指标体系构成和实验结果进行综合分析。用户交互网络的结构特征一定程度上可以体现用户在舆论事件中的地位,但是也不能决定一个用户的影响力,比如“王志坤”和“陈小兜律师”在此次事件中的影响力应小于“微课堂”和“教育知事”。用户个人属性信息在很大程度上可以衡量一个重要程度,但是从几个方法识别的意见领袖排名第一的用户可以看出,这些用户均不是参与话题中粉丝最多的,同样的,“头条新闻”“中国新闻网”等新闻类用户在此次事件中的影响力小于相关的“太原校园”“头条校园”等用户。用户的交互信息反映了用户参与话题的积极性,意见领袖的观点可以引起了大多数人的转发、点赞,说明其在舆情意见领袖的识别过程中影响较大,但是可以从交互信息识别出的意见领袖都包括较多的非官方用户,这些非官方用户的其他属性不满足一个意见领袖的定义。而本文识别出的意见领袖均在以上各个维度都有意见领袖的典型特征,且是话题最相关的用户。通过以上分析,与考虑单一测度指标的意见领袖识别方法相比,本文方法较全面、准确和客观识别出了此次话题的话题导向者,识别出了话题中的意见领袖。

四、结论和展望

针对传统意见领袖识别方法的不全面性和主观性,从用户的静态结构特征、用户个人属性和用户交互信息三个方面建立了一个较全面的微博意见领袖指标体系,并基于熵权TOPSIS提出了微博意见领袖识别模型。通过与单一维度的意见领袖识别方法的对比可以得出,本文提出的模型方法识别出了与舆情相关度最高且符合意见领袖定义和特征的高影响力用户。在未来的研究中,一方面将会考虑增加文本感情、文本内容等属性,进一步提高意见领袖识别的客观性;另一方面,本文仅仅考虑了微博这一社交平台,具有一定的局限性,将会在其他平台验证本文提出的意见领袖识别模型的全面性和客观性。

参考文献:

[1]  祝阳,张汝立.“网络意见领袖人”与“网络意见领袖帖”的概念及内涵分析[J].情报杂志,2016,(6):70-74+143.

[2]  刘广强.基于中介中心性的网络传播节点影响力发现[D].哈尔滨:哈尔滨工程大学,2017.

[3]  琚春华,赵凯迪,鲍福光.融入紧密度中心性与信用的社交网络用户影响力强度计算模型[J].情报学报,2019,(2):170-177.

[4]  Cha M.,Haddadi H.,Benevenuto F.,et al.Measuring user influence in Twitter:the million follower fallacy[C]//Proceedings of the 4th International AAAI Conference on Weblogs and Social Media.Washington D C,USA,2010:10-17.

[5]  Jain K.,Katarya R.,Sachdeva S.Opinion leader detection using whale optimization algorithm in online social network[J].Expert Systems With Applications,2020,(142).

[6]  孙红,左腾.基于PageRank的微博用户影响力算法研究[J].计算机应用研究,2018,(4).

[7]  李志宏,庄云蓓.基于水军信任惩罚的多维用户影响力度量模型[J].系统工程理论与实践,2017,(7).

[8]  李玉贞,胡勇,熊熙.微博意见领袖的评估模型[J].信息安全与通信保密,2013,(2):79-81.

[9]  彭丽徽,李贺,张艳丰.基于灰色关联分析的网络舆情意见领袖识别及影响力排序研究:以新浪微博“8·12”滨海爆炸“为例[J].情报理论与实践,2017,(9):90-94.

[10]  王佳敏,吴鹏,陈芬,等.突发事件中意见领袖的识别和影响力实证研究[J].情报学报,2016,(2):169-176.

[责任编辑 马 学]