基于改进ResNeXt的黑色素瘤识别算法

苏炅　曾志高　易胜秋　文志强　朱文球　袁鑫攀

关键词：注意力机制；黑色素瘤识别；辅助诊断；迁移学习

中图分类号：TP391 文献标识码：A

文章编号：1009-3044（2023）20-0036-04

0 引言

皮肤癌是一种危险的疾病，早期发现是提高生存率的必要条件。皮肤色素性恶性病变的死亡率非常高，尤其是黑色素瘤，发病率和死亡率更高。据统计，美国在2022年有99 780名成年人（57 180名男性和42600 名女性）被诊断出患有皮肤侵袭性黑色素瘤。2020年全球有324 635人被诊断患有黑色素瘤。黑色素瘤是日常生活中常见癌症。随着人们年龄的增长，黑色素瘤的发展更加常见。而且黑色素瘤和非黑色瘤在视觉上极为相似，很难分辨清楚。初期是一类可治愈的疾病，而且治愈率也很高，但等到晚期发现，生存率就会大大降低，并且治疗后生存期很短，一般治疗后存活时间只有6～9个月[1]。

黑色素瘤诊断一般是医生对皮肤镜图像进行目视检查，存在人为因素和传统的手工特征提取难以提取等问题。由于标记手段的限制，皮肤病变的大规模标注数据一般较难获得。近年来，随着深度学习的不断发展，卷积神经网络也在图像分类方向取得了很大进展，它也有能力帮助医生及专家做出正确的决定，从而高精度地诊断患者的病情。这些模型可以通过访问更多的数据来提高其性能，主要任务是对图像进行分类。研究关于黑色素瘤识别分类结合计算机辅助诊断具有一定的价值。

斯坦福大学人工智能实验室和斯坦福大学医学院与CNN深度学习方法合作，在文献[2]中实现了对皮肤科和临床皮肤病变图像的自动分类。他们使用一个单一的深度卷积神经网络GoogleNet Inceptionv3 [3] 进行皮肤病变分类，分类精度大概是55%～72%，通过图片特征的初筛略超过专家水平。Mijwil 等人[4]提出采用卷积神经网络模型，使用了数据集包含从2019年至2020年的ISIC（International Skin Imag?ing Collaboration）档案中获得的高分辨率图像，比较三种基础网络来进行实验，选择出识别皮肤图像分类的最佳架构，并能准确地将肿瘤类型分为良性或恶性。在完成所有测试之后，实验结果最好的架构是InceptionV3，这项工作的准确率约为86.90%。文献[5]用卷积神经网络结合传统的机器学习方法来进行皮肤疾病分类识别，提出了一种增强模型，将支持向量机作为决策的基分类器。在ISIC公开数据集上实现了86%的准确性，得到显著改善。赵宸等人[6]提出了基于自注意力的样式生成对抗网络，来解决样本不清晰等问题，但是模型可迁移性效果不好。Ha?sib Zunair等人[7]提出了一个两阶段框架网络，用于皮肤病变图像的自动分类，使用对抗训练和迁移学习进行黑色素瘤检测，相较之前的工作有一定提升，AUC值达到了81.18%。但是对抗训练的计算开销过高，耗时过长。

基于上述分析，一些皮肤癌分类任务中深层次网络容易过拟合、黑色素瘤和非黑色素瘤的区分难度大，以及黑色素瘤分类准确率还有待提高等问题，本文提出了一种改进的ResNeXt[8]模型的黑色素瘤分类算法。该算法添加了SE注意力机制，有助于模型更准确地定位和识别重点信息。使用迁移学习初始化网络模型的部分参数，并且引入了Focal loss函数，来解决样本不平衡的问题。算法中使用一系列数据增强手段进行训练，来加强模型的特征表达能力，进一步提升模型的分类性能。

1 方法介绍

针对黑色素瘤与非黑色素瘤的二分类问题，本文提出改进的算法包括三个模块，包括预处理模块、ResNeXt卷积模块、注意力机制模块。首先使用图像转置，旋转随机调整亮度等方法进行数据增强等预处理方式，再将预处理后的图像输入ResNeXt 卷积网络，经过特征提取后，结合注意力机制，最后利用全连接层与Softmax函数，将分类结果转化成概率分布进行分类识别。整个框架流程如图1所示。

1.1 ResNext_101网络层基本结构

ResNeXt是ResNet[9]和Inception的重构网络，其基本思想是将残差网络和多尺度思想结合起来，避免了网络模型过深带来的梯度弥散现象。ResNeXt使用了一种介于普通卷积和深度可分离卷积的方式：用组卷积代替传统卷积，降低训练参数量。使用ResNext_101的网络结构，表示此网络的深度101层。ResNeXt 的相同拓扑结构的分支设计有利于运行速度提升。ResNeXt_101网络层基本结构如表1所示。

ResNeXt网络的拓扑结构相同，超参数也减少了很多，在同等参数规模下增加了网络结构，提高了模型的表达能力。文献[10]中也用到了残差结构，提取皮肤镜图像的高维特征，使用残差学习能防止网络梯度退化、降低网络训练难度，图2为ResNeXt基本模块。

通过相同的拓扑结构增加了分支卷积方法，路径为分支的数目，使用整个结构能够减少复杂度，从而提高模型的准确率。

先对256个通道的输入特征进行卷积，输出128 通道的特征；将128个通道的特征分为32组，每组4个通道；在每一组中，对这4个通道的输入特征做卷积，输出4个通道的特征；将32组输出的特征在通道维度聚合，形成128个通道的输出特征；对128个通道的特征做卷积，输出256个通道的特征；将上述输出结果与输入特征进行元素相加。图3 为ResNeXt 结构示意图。

1.2 图像预处理

在数据集分布均匀且数量大的情况下，卷积神经网络能发挥出优秀的特征提取能力。ISIC数据集会存在分布不均匀的问题，而且容易受光照等其他因素影响，从而影响之后训练的结果，导致过拟合。为减轻过拟合现象，采用了图像转置、翻转、旋转、随机亮度调整、随机对比度调整，对数据集进行随机旋转（0°～10°），随机缩放（10%），随机移动等操作进行数据增强。

1.3 注意力机制

Hu J等人[11]提出了SE（Squeeze-and-Excitation）结构，提高模型的抗干扰能力和算法的准确度。图中存在的许多结构信息往往会在训练过程中丢失，造成识别精度降低。其主要结构如图4所示。图像经过图像预处理之后，经过ResNeXt网络，并融入注意力机制。其核心在于连接全连接层和下采样层构造压缩和激励模块来获得特征图的通道权重信息，从通道域的角度赋予图像不同位置不同的权重，得到更重要的特征信息。其中X是输入特征图、H为高、W为宽、C为通道数，最后通过一维特征向量对原来的特征图进行缩放。

1.5 Cosine Warm up 学习率策略

在网络训练的初期阶段使用较大的学习率，会造成网络模型对于数据的过拟合偏离最优点。CosineWarm up是一种学习率优化方法，通过预热学习率的方式，能够先让网络模型在早期训练时使用预热的较小学习率，使得网络模型慢慢趋于稳定。待到网络模型具有一定先验知识且相对稳定后，再使用较大的学习率进行训练，可以加速网络模型的收敛。

2 实验及结果分析

2.1 实验配置和数据集

实验运行环境为：编程环境为Python3.8，Py?Torch1.13深度学习框架，硬件环境处理器型号为Inter（R）Core（TM）i5-12400@2.5GHz，显卡型号为NVIDIAGe Force RTX 3060，内存为16GB，操作系统为Win?dows11。

实验数据集来自kaggle提供的公开数据集，包含国际皮肤成像协作组织ISIC2019 和ISIC2020融合的数据，图片大小为512×512，训练集与测试集划分比例为4 ： 1。

本文参数设置：训练过程中迭代次数（epochs）共为100，batch size设置为8。采用K折交叉验证的方法，K值取5。训练轮数控制在20轮。初始的学习率设置为0.000 3。损失函数使用Focal loss函数，使用迁移学习在ImageNet上训练好的模型开始训练。

2.2 实验具体步骤

实验首先使用图像增强手段，基于SE-ResNeXt-FCL算法的迁移学习模型，将大型自然图像ImageNet 数据集上预训练的深度残差网络提取特征，并对其使用均值池化操作得到特征向量。将训练集数据导入模型训练，等训练结束后，使用测试集检验模型最终的精确度与损失率，得到基于皮肤图像数据集的分类模型。在模型训练的过程中，模型输入图像后通过多层卷积操作可以提取出图像从低级到高级的复杂特征。在残差块后引入注意力机制，关注重要特征。经过所有卷积层的卷积操作，最终得到特征矩阵，再通过全连接层与Softmax函数将分类结果转化成概率分布来实现黑色素瘤的识别分类。

2.3 实验结果分析

实验结果使用AUC（Area under Curve）值和准确率进行性能评估。AUC实际上就是ROC（Receiver Oper?ating Characteristic）曲线下的面积，直观地反映了ROC曲线表达的分类能力。即计算所有的 P×N个正负样本对中，有多少个组中的正样本得分大于负样本得分。其中P为正类样本的数目，N为负类样本的数目。ranki 代表第i 条样本的序号（概率得分从小到大排，排在第rank个位置上），具体公式如式（4）所示：

为了验证SE-ResNeXt-FCL算法在黑色素瘤识别的准确性。还使用了准确率来进行对比实验。TP 是为黑色素瘤正确分类的个数，TN 为将非黑色素瘤正确分类的个数，FP 为将黑色素瘤分类错误的个数，FN为将非黑色素瘤分类错误的个数，有准确率（Accu?racy）公式如式（5）所示：

实验使用了一些经典神经网络在相同条件下进行对比。皮肤镜图像数据集在不同网络模型上的分类结果如表2所示，从实验结果可以得出以下结论：Mobilenet_v2是轻量化网络结构所以耗时最短，AUC 值也最低。Effientnet网络在Resnet101的基础上AUC 值进一步提高，但是增加了所耗时长。在识别的精度上，使用本文算法明显高于其他网络模型，证明了本文算法在皮肤病识别领域的优势。

由表2可知，提出的SE-ResNeXt101-FCL算法的AUC值最高。由于注意力机制增强了重要特征的权重，同时引入了Focal loss函数，在样本失衡问题上得到一定程度上解决，在样本失衡的情况下提高了准确性，但由于网络结构残差多次堆叠参数量的增大，包括注意力机制的融合，推理时间也会在一定程度上延长。为更好地明确加入不同结构的作用，消融实验结果如表3所示。

引入SE注意力模块后，能够明显提高神经网络特征提取能力，表现在AUC值较原算法有所提高。准确率提升即说明迁移学习能够在一定程度上提升模型的准确率。本文算法将迁移学习、SE和Focal loss 损失函数的优点结合，实现准确率为96.05%，改进的算法SE-ResNeXt101-FCL较原ResNeXt算法AUC值提升了5%～7%。

3 结论

本文提出的SE-ResNeXt101-FCL 算法，使用了ISIC公开数据集，并进行对比实验分析，验证了学习模型性能的改善。实验结果表明，使用SEResNeXt101-FCL算法，AUC值提升5%～7%，比传统的神经网络模型要高。同时，黑色素瘤识别准确率较原算法要高，准确率为96.05%，本文提出的模型参数较大，下一步的工作将是删去网络中不必要的结构，在保持较高准确率的前提下优化网络参数，加快推理速度也可以为其他疾病样本进行进一步的检测，以便于早日帮助医生提出更好的治疗方案，更好地满足临床应用。