佟金铎,郭凤英,翟 兴,李 岩,陈晓倩

(北京中医药大学管理学院,北京 100029)

随着互联网开始普及,信息技术水平不断提高,社会各行各业信息化程度也随之逐渐加深。医疗行业作为一个与健康密切相关的行业,在信息技术改革的影响下,其医疗模式、医疗形态都有了巨大的改变,在传统就医模式的基础上发展形成了“在线医疗”的新型就医模式。患者可以足不出户,通过在线医疗网站选择合适医生进行问诊,随之产生了大量的就医行为数据,如医生热度、患者满意度、患者评价等。这些数据信息通过在线医疗网站也呈现在患者面前,影响着患者的就医选择。在考虑自身经济条件和对症的同时,医生所属医院、医生职称以及患者对医生的评价等信息同样对患者的就医选择有着巨大的影响。对于在线医疗网站的发展而言,分析影响患者就医选择的因素,进而为患者提供更加符合个性化需求的在线医疗服务,具有十分重要的意义[1]。本文主要通过分析患者就医的数据信息,判断患者就医的倾向性以及影响患者就医倾向性的因素,从而完善在线医疗网站的服务机制以提高患者的就医体验,为患者提供更加优质服务。

1 在线医疗网站数据采集

1.1 网络爬虫 网络爬虫是目前常用的网络数据采集工具,通过一定的代码程序实现自动检索目标网站网页信息的功能[2]。它的广泛应用为快速便捷地采集大量网页数据提供了工具和方法,取代了手动采集网页数据,对大数据技术的发展有着巨大的推动作用。

1.2 网页数据抓取的实现 随着爬虫技术的发展和成熟,市场上出现了许多功能完善的爬虫软件。本次主要采用八爪鱼爬虫软件,这款软件有简易采集和自定义两种采集模式,将数据采集过程简易化、智能化、可视化,极大地减轻了操作者的工作负担,提高了数据采集效率。本次选用自定义模式,共采集776名医生的结构化数据信息,主要包括以下字段:医生姓名、职称、所属医院、推荐热度、主治疾病、就诊费用和患者评价。

2 数据清洗和处理

2.1 原始数据集描述 从好大夫在线网站上采集到的原始数据,存在着数据冗余、缺失值等问题,需要进行数据清理。Azure Machine Learning 具有对数据集进行可视化并从很大的数据集中抽样的能力,可用来完成数据清理。在清洗和处理原始数据集之前,一般先要了解以下几个方面:①数据集的记录数;②属性的数量;③每个属性的数据类型;④名义属性有哪些值;⑤连续属性的统计分布情况;⑥每个属性有多少缺失值;⑦每个属性有多少不同的值。通过创建实验可视化数据集里的原始数据,见图1。

通过这些图表的内容,对该数据集的整体情况有了初步的认识和了解。在此基础上,还可以添加Descriptive Statistics 模块运行实验,进一步了解该数据集。该模块生成标准统计测量结果,描述数据集里的每个属性,见图2。观察该结果可以发现数据集存在的问题,包括图文问诊费存在15 个缺失值、电话咨询费存在22 个缺失值、部分字段重复等。

图1 可视化数据集

图2 标准统计测量结果

2.2 数据集的清洗 通过配置Azure Machine Learning 的Clean Missing Data 模块,设定清洗规则,解决数据集中包含缺失值和部分重复字段。

3 用户画像构建

3.1 用户画像概述 在大数据时代,互联网的数据总量逐年激增,海量的数据信息聚集在互联网上,蕴含着巨大的能量和价值。人们可以通过研究互联网上相关的数据信息,分析用户的属性和特征,从而有针对性地提供个性化服务。在充分利用大数据进行研究分析的众多工具和方法中,用户画像的应用最为广泛。用户画像通过从采集到的数据中提取特征化标签,挖掘和刻画用户的属性以及特征,通过给用户“贴标签”来构建画像模型,可以有效挖掘用户的个性化需求,制定个性化服务方案,从而使资源利用效率达到最优[3]。

3.2 用户画像构建流程 一般来说,构建用户画像大致分为以下三步:①采集数据:通过访谈、问卷调查、网络爬虫等方式进行数据采集;②提取特征:对采集到的数据进行数据挖掘和文本分析,从中提取出不同维度的特征化标签;③呈现画像:可视化特征标签,形成用户画像。本次通过网络爬虫来采集好大夫在线网站上的数据,将医生姓名、职称、所属医院、推荐热度以及收费标准等特征信息标签化,对患者评价进行文本分析,提取患者评价当中的特征词并分析该评价的情感倾向,归纳整理相关的特征化标签并将其可视化,最终形成该医生的可视化用户画像。

3.3 画像特征的提取 患者评价数据是非结构化数据,属于特定的自然语言,遵循特定的语法和语义。自然语言是人类为满足自身使用和沟通而形成并演变出来的语言,而不是像计算机编程语言那样由人工创造和构建的语言。语言的“自然性”导致了人们在进行文本分析的时候,不能只考虑文本数据本身,还要考虑到它背后的概念、它的本质、意义和其中包含的情感。通常相比在客观内容上,情感分析能够在患者评价这种主观内容上更好地工作。这是因为当一个文本拥有客观的上下文或视角时,文本通常描述一些正常的陈述或事实而不表达任何情感、感觉或情绪。好大夫在线医疗网站上的患者对医生的评价,包含了患者的就医体验和情绪,对它进行分析和挖掘找出患者最为关心要素,对于改善在线医疗服务意义重大[4]。

通过调用百度AI 平台的自然语言处理API,对患者评价数据进行情感倾向分析。利用client.sentimentClassify(text)命令,对命名为text 的文本进行情感倾向分析。以text='感谢信:诊断准确、快速!知性女医生,让病人感觉到温馨!'为例,得到以下结果'positive_prob':0.991941,'confidence':0.982091,'negative_prob':0.00805927,'sentiment':2。该结果表示文本内容属于积极类别的概率为0.991941,属于消极类别的概率为0.00805927,分类的置信度为0.982091,情感极性分类结果为正向。根据以上分析结果可以看出,本条患者评价表达的情感为正向情感且可信度很高,即该患者对其所评价的医生很满意,见图3。

图3 情感倾向分析部分结果

3.4 可视化画像的实现 从情感倾向分析的角度出发,根据患者对医生所做的评价分析患者的就医体验,在此基础上提取出该医生的特征并形成画像[5]。首先通过调用Python 的jieba 库来进行分词和统计词频的操作。以某医生的患者评价为例,从分析结果中可以发现在高频词当中,耐心一词出现了44次,感谢一词出现了27 次,认真一词出现了20 次,热情一词出现了18 次,和蔼一词出现了10 次,仔细一词出现了10 次。由此推断,患者对该医生提供的医疗服务很满意,这是一次愉快的就医体验[6]。将这些高频词提取出来,即可作为该医生的特征标签,见图4。再调用Python 的wordcloud 库来生成词云,在jieba 分词的基础上,生成该医生的词云,即医生画像,见图5。

图4 分词和统计词频的部分结果

4 基于机器学习的相关性分析

Microsoft Azure Machine Learning 的Filter -BasedFeature Selection 模块中内置了多种相关性分析算法,这些算法会计算数据集中的每个特征和目标属性之间的相关度,并据此给该特征一个分数来表示二者间的相关度。本文选取的卡方检验算法进行患者就医影响因素的相关性分析[7],选定“评分”列作为目标属性计算它和其他特征间的相关度。经计算每个特征和目标属性之间的相关度如下:“所属医院”:937.940468,“2 年内该疾病得票”:620.22737,“该疾病总票”:431.237631,“近两周答疑数”:174.726116,“图文问诊费”:141.400486,“电话咨询费”:128.346698,“职称”:56.571225。由此可以看出,“所属医院”、“2 年内该疾病得票”和“该疾病总票”三个特征和目标属性“评分”之间的相关度最大。即医生所属医院和医生口碑与患者就医体验之间的相关性最大。

图5 可视化医生画像

使用Power BI 可视化模型,将各个特征和目标属性“评分”之间的相关关系通过图表的形式呈现,见图6~图8。可知:①“评分”和“所属医院”之间的相关性很大,“评分”会随着“所属医院”的改变而改变;②“评分”和“两年内该疾病得票”之间,整体上呈正相关趋势;③“评分”和“职称”之间的相关性很小,“评分”基本不会随着“职称”的改变而改变;④“评分”和“图文问诊费”之间,呈近似正态分布关系;⑤“评分”和“该疾病总票”之间,整体上呈正相关趋势;⑥“评分”和“电话咨询费”之间,呈近似正态分布关系;⑦“评分”和“近两周答疑数”之间的相关性较小,“评分”在某水平线附近上下波动。其中“评分”代表患者就医体验,“所属医院”代表医生所属医院,“两年内该疾病得票”和“该疾病总票”代表医生口碑,“职称”代表医生职称,“图文问诊费”和“电话咨询费”代表收费标准,“近两周答疑数”代表医生最近的回复率。

图6 医生口碑和评分间的关系

图7 医生职称和评分间的关系

图8 收费标准和评分间的关系

5 总结

通过对好大夫在线网站上的相关数据进行分析发现,影响患者就医的因素主要包括:①该医生所属医院在该疾病领域的专业性;②两年内该疾病得票数;③该医生的技术水平和服务态度;④医生的收费标准。医生所属医院在该疾病领域的专业性越强,两年内该疾病得票数越高,服务态度越好,收费标准越合理,患者越倾向于选择该医生就诊。当医生的收费标准在200~400 元时,患者对其评价最高。其中,医生的服务态度对患者就医体验的影响非常大,很大程度上决定了患者下次是否还会选择该医生。而在其他条件相同的情况下,患者对不同职称医生的评价基本相同,从侧面说明了医生的服务态度才是影响患者就医体验的关键。

在线医疗网站可以将各个医院按照在不同疾病领域的专业性进行区分,有针对性地为患者进行推荐。同时制定严格的奖惩制度,对在同一疾病领域得票数高的医生给予更多推荐和宣传资源,对在同一疾病领域得票数低的医生进行限流。奖励服务态度好的医生,惩罚服务态度差的医生(情节严重者封号)。通过激励和约束平台上的医生,严格控制其收费标准,为患者提供更加优质的在线医疗服务。