王灵钰 刘子昂 朱兴杰 苏翀

摘要:新型冠状病毒肺炎(COVID-19)自2020年在世界范围内迅速传播,致死率极高,时至今日,一些国家的疫情仍无法得以有效控制,因此,新型冠状病毒肺炎趋势预测成为一大研究焦点。目前传统的趋势预测方法主要包括运用传统传染病预测模型。但是,传统传染病模型趋势预测方法缺少对实际情况防控传染病措施的考虑,模型建立不够完善等缺点。同时,随着机器学习热潮的到来,科研人员在此基础上构建了基于深度学习的COVID-19趋势预测模型,这些模型有效地辅助了医学专家、科研机构等对COVID-19的高效预测。首先,全面调研了目前主流的用于COVID-19趋势预测的相关评价指标;接着,对基于深度学习的新冠肺炎发展趋势预测模型进行了详细介绍,并对模型性能进行了比较分析。最后,对该领域的未来发展趋势进行了探讨分析。

关键词:深度学习;新冠肺炎;趋势预测;神经网络

中图分类号:TP311      文献标识码:A

文章编号:1009-3044(2021)23-0106-04

2020年初,新型冠状病毒肺炎疫情席卷全球,各地死亡人数不断激增,这一突发公共卫生事件对各地区经济、社会、政治等造成了不同程度的破坏。为尽可能减少疫情所带来的负面影响,赶在疫情发展前及时遏制病毒源的传播,及时疏散和管控可能接触病毒源的周边人员,防止疫情的二次爆发。许多学者利用深度学习理论,搭建模型分析不同情境下,对疫情发展趋势进行预测。本文收集并对比了2020年以来部分基于深度学习的新冠肺炎疫情传播趋势的预测模型,制定评价指标进行分析讨论,列举了国内外相关领域研究趋势和方向,希望为后续相关领域的研究提供有力参考。

1 概述

新型冠状病毒肺炎(COVID-19)是一种由新型冠状病毒感染引起的以肺部病变为主的新型传染病[1],世界卫生组织宣布,截至今年1月底,已核实的COVID-19感染人数为1亿,COVID-19感染率为75:1,死亡人数超过200万[2]。新发传染病在全球范围不断出现[3];特别是SARS(严重急性呼吸综合征,2003年)、H1N1(甲型流感,2009年)、MERS(中东呼吸综合征,2012)、寨卡病毒(2015年)以及2019-nCoV(新型冠状病毒肺炎,2019年)均严重影响了人类健康程度、全球政治和经济的发展。目前来看,这让全球遭受新发传染病的控制编程我们必须要解决的重大公共卫生问题[4-5]。新冠肺炎确诊人数还在不断激增,了解未来疫情发展趋势也是防疫工作的重要一环。

深度学习是一个由多个隐藏层组成的深层非线性网络,它可以通过将特征抽象为更抽象的特征或者更高的类别,从而让机器系统能够学习像人类一样分析。深度学习是机器学习包含的新领域,近年来已经在分类、检测、识别、预测等多项任务中取得了前所未有的成就,受到了各界的广泛关注。在深度学习的过程中,我们可以解决海量数据中存在的高维、冗杂等传统机器学习难以解决的问题。所以在全球疫情危机爆发的背景下,人们大量的利用深度学习,以达到帮助我们快速准确地预测出新冠肺炎患者病情危重的概率、对疫情进行动态监测及疫情未来发展趋势的预测等目的。

目前,SIR模型是传染病模型预测中最经典的模型,而COVID-19具有广泛的传染性,可以通过在所有其他传染病中使用不同的感染病例来建立COVID-19的传播方式[7]。但相对于传统的SIR模型而言,由于新冠肺炎的特殊性,如:不存在封闭情况,考虑开放体系;病人确诊后立即隔离,不会作为新的感染源等[8],还需对SIR模型进行适当的修改,考虑更多的因素,再通过实时数据拟合得到模型的参数,从而达到预测不同阶段疫情趋势变化的效果。

人工神经网络是通过连接权重结构配合激活函数模仿人脑做着类似的工作,其在传染病预测的应用越来越广泛。循环神经网络其实是一类递归神经网络,它将输入的序列沿着其发展方向递归,其后的结点均以链式的结构出现,用于输出计算。它具有处理时间序列数据的能力,尤其广泛应用在语音处理、自然语言处理等前沿领域[12]。

本文的主要贡献如下:

(1)对相关算法的评价指标进行了讨论和总结。

(2)对基于机器学习和深度学习的COVID-19趋势预测模型进行了全面系统的描述和总结。

(3)对前述代表性的COVID-19趋势预测模型依次进行讨论总结,探讨了基于深度学习的COVID-19趋势预测模型的未来研究方向。

2 国内外研究情况

机器学习领域有关传播性疾病的预测方法繁多,依据各方法假设,可将其分为定性与定量预测,当然也有一些方法综合使用了两种方法进行综合预测。

本文所列举的定性预测方法,是通过对某一地区传染病传播过程及特征等相关因素的预测,从而对病毒的进一步扩散提出建议数据支撑。常见的方法有流行比数图法、控制图法、Delphi法、“Z-D”现象、等。控制图法适用于分布性传染病,能够较好预测季节性、周期性传染病的传播趋势,简单易懂。目前,控制图法已被广泛应用与疾病检测及预警预测的实践中(例如麻疹、细菌性痢疾等疾病的预测)[13-14]。比数图法适用于发病数呈现正态分布的传播性疾病,其原理是通过比数(R)与其可信区间来判断某传染病是否传播趋势[15]。

本文所讨论的定量预测方法,是指利用数学模型,预测某种传播性疾病传播的发病数和发病率。常见的模型类型包括:基于动力学的微分方程模型、时间序列模型、多元回归分析和人工神经网络模型等。一般基于动力学的微分方程模型大多没有将人为因素纳入考量,描述的是疾病自然传播的过程预测结果,其模型与现实存在较大差距;时间序列模型适用于无法确定传染途径及方式的传播性疾病的预测,需要提供详尽的发病率数据,可行性较高,是目前使用频率较高的一种方法;多元回归常用于分析多因素影响分析,分析传染病流行的复杂特征,预测准确度高,但在实践中需要依据实际调整地区、病种等数据,因此限制了此类方法的推广。