(1 北京航空航天大学计算机学院,北京 100083; 2 青岛大学附属医院,山东省数字医学与计算机辅助手术重点实验室,山东省高等学校数字医学临床诊疗与营养健康协同创新中心; 3 北京建筑大学电气与信息工程学院)

随着计算机视觉技术与存储技术的快速发展,研究人员已经在医学影像领域提出了很多基于图像的分析、辅助诊断工具,例如自动并且高效地完成一些常规的病理图像分析任务,或精确地对一肿瘤组织给出定位或病理等级等等。近年来,随着深度学习技术特别是卷积神经网络(CNN)模型在目标检测以及分割方面的发展,基于CNN的方法连续在MICCIA的病理全切片肿瘤细胞识别挑战赛中取得了很好的成绩[1],CIREGAN等[1]基于CNN的概率图加后处理技术实现了对乳腺癌病理图像有丝分裂细胞的检测,借助非极大值抑制(NMS)提升最终的检测效果。DONG等[2]提出了一个9层的CNN结构,基于图像的YUV色彩空间信息对斑马鱼细胞进行探测。MAO等[3]提出了一个基于7层CNN的探测方法,并实现针对圆形肿瘤细胞的不同模态显微图像的探测。有学者将细胞检测问题转化为逐级优化问题,并实现了对神经细胞和肺癌细胞核的探测[4]。全切片技术可以对细胞进行多尺度成像,SONG等[5]针对此类细胞图像提出了一个多尺度CNN框架,从而实现了对细胞的多尺度交叉探测。本研究提出了一种基于U-Net的乳腺癌淋巴结病理切片中的细胞检测方法,用以辅助医生进行乳腺癌细胞的筛查。现将结果报告如下。

1 材料与方法

1.1 材料来源

样本来源于凯斯西储大学49例淋巴结阴性和雌激素受体阳性的乳腺癌病人[6]。每幅图像的尺寸为2 200×2 200像素,每张图片大约有1 500个核。HE染色乳腺组织病理学玻片,采用高分辨率全玻片扫描仪Aperio ScanScope digitizer在40倍光学放大率下扫描并输入至计算机。将图像随机分为两组进行训练。

1.2 数据预处理

将数据集中标注癌细胞的区域裁剪出来(图1A),并在标注为癌细胞的位置作出癌细胞的mask(图1B),作为训练过程的原始图像与目标图像(像素值均缩放到0~1范围内)。

1.3 研究方法

采用深度学习中的U-Net[7]网络架构对乳腺癌细胞的病理切片进行分割,并对乳腺癌细胞进行自动检测。

1.4 深度学习网络结构

在自然图像和医学图像领域,图像分割都是一个重要的步骤。CNNs将每个像素点用其周围的像素所表示来对每个像素进行单独的分类。原始的滑动窗口方法因为其每次计算相邻像素时都会有重叠部分,这使得相同的计算会重复多次。因为卷积和内积操作都是线性算子,所以将全连接层重写为卷积层,将大大提高卷积网络的效率。CNNs可以接受比其训练时尺寸更大的图像的输入,并且产生一个概率谱图。

然而,因为池化层的存在,将会导致输出的结果比输入图片的分辨率低。“转移和合并”是LONG等[8]在2015年提出的一种防止图片分辨率下降的方法。FCN通过将输出结果合并在一起,得到了高分辨率的输出结果,减少了由于有效卷积操作而带来的像素损失。

RONNEBERGER等[7]在同年吸取了FCN的优点,进一步地提出了U-Net结构。U-Net在基础的FCN结构之后又加入了上采样操作,将整个结构分为图像的收缩和扩张两个部分。虽然这不是首次提出在网络结构中加入上采样操作,但是U-Net在收缩和扩张两个过程之间加入了联结操作,使得输出的结果能够更加地逼近预期。FROMER等[9]在2016年将此方法运用在三维数据中并取得良好效果。MILLETARI等[10]同年基于U-Net延伸出了加入残差模块和Dice损失函数的V-Net,由于不再采用交叉熵损失函数,得到的分割结果更加接近于预期结果。

采用U-Net的端到端网络结构对数据集进行训练,U-Net结构图如图2。深度学习中主要通过卷积操作来获取图片中的信息,并通过这些信息来对结果进行预测。本文所用到的U-Net结构首先通过卷积操作来对乳腺癌病理图像进行信息提取(癌细胞的纹理、大小、形状、色泽等),再通过上采样操作使富集的信息“翻译”到整张图片上,得到每一个像素点处属于癌细胞的概率。

1.5 实验过程

通过数据增强来增加训练数据,本研究采用旋转和数据正则化两个操作来构建网络输入的生成器,使得训练及测试数据扩大了4倍。为了使得预测结果更加接近真实结果,本研究采用U-Net网络中常用的损失函数Dice:

其中,P为网络预测的结果,T为真实的癌细胞图像的mask。

通过损失函数Dice,网络的预测结果将逐渐逼近真实结果,在经过500次训练之后,将最后20次迭代的模型融合,得到较为准确的预测模型。见图3。

A:原始癌细胞图像;B:癌细胞的mask。

图2 U-Net结构图

A:原图像,B:预测结果,C:真实结果。

本实验采用十等分交叉验证对模型进行评估,即将训练集图片十等分,每次取其中9份作为训练集,剩下的1份作为验证集,最终将模型在测试集上进行评估。

2 结 果

Dice得到的准确率衡量预测结果与真实结果的重合程度,是对整张图片的度量,但由于癌细胞形状不都为规则的圆形,所以本文采用检测准确率对模型进行进一步评估,即对图片中每个细胞进行进一步的评估。

对每个癌细胞预测的准确率(p)作为评估标准。p=c_s-c_p,其中c_s为真实结果中癌细胞圆心所在位置的像素值(0~1),c_p为预测结果中癌细胞圆心所在位置的像素值(0~1)。将所有癌细胞进行统计分析,结果见表1。通过表1可以看出模型对于癌细胞非常敏感,图片中存在的癌细胞基本可以检测到。

表1 癌细胞检测结果(χ/%)

注:准确率为模型对每张图片拟合效果的度量结果;检测准确率为测试阶段针对每个细胞的度量结果。

3 讨 论

深度学习方法目前已经在很多实际任务上有所突破,并且这些任务可以应用到医学问题中,进而解决相应的医学问题[11-16]。同时,一些特定的医学领域如放射基因组学、预后评估等都可以用机器学习及深度学习来解决[17-20]。

本研究模型在不考虑假阳性的情况下达到了100%的准确率,通过实验结果可以看出,本模型漏诊概率小,但是会检测出相当一部分假阳性的细胞。有以下几种原因:①医生在进行判断时会对病人进行综合考虑,比如病人的病状、并发症等等,但网络只能从图片中获取信息。②标注的病理图像中有许多类似但标注不同的细胞,导致模型无法识别。③没有精确的mask给予网络进行学习。

本研究实验结果表明,深度学习在病理图像的细胞检测及分割方面具有良好的表现;模型泛化效果较好,对于不明显的细胞也能给出其为癌细胞的概率(通过结果中的颜色深浅表示)。

本实验说明深度学习可以比人识别得更快,虽然会有假阳性的出现,但这会大大减少病理医生的工作量。在医学图像方面还有很大的空间可以发挥深度学习的作用,如CT、MRI等图像都可以通过深度学习来进行疾病预测、病灶分割等实际应用。