方 恒,张 强,黄冬梅,敬光荣

(1.雅砻江流域水电开发有限公司,四川 成都 610000;2.成都万江港利科技股份有限公司,四川 成都 610000)

0 引 言

在水电站机组检修维护期间,发电机风洞内需进出大量工作人员,且携带大量的工器具和检修物资,检修工作过程中因金属物品遗落易造成发电机短路、机组扫膛、机组跳机等不安全事件的发生,故检修作业现场需对进出发电机风洞人员及随身携带物品进行严格登记和销账,由于传统的登记与核销方式效率较低,往往需要耗费大量的时间和人力,且难以保证精确性与实时性[1-2]。

随着科技的快速发展,图像分割与识别技术已经在各个领域得到了广泛应用,很多学者都曾对其进行了深入的研究,也取得了一些实用性成果[3-8]。文献[9]通过对分水岭基本算法的研究,改进了传统的分水岭算法,减少了图像分割受噪声的影响;文献[10]针对复杂环境下图像难以分割定位的问题,提出一种基于改进深度学习网络的方法解决难点;文献[11]基于融合领域特征向量与词向量的方法使识别的向量稀疏特征利用率更高。但上述研究对象却各有不同且对采样数据和硬件算力有苛刻的要求,至于工具方面,目前还没有一种普遍使用的方法能够有效解决。

本文设计了一种多尺度特征提取卷积模块,卷积过程中将图像分解为低频与高频分量,再采用双重注意力机制处理特征图的高低频分量,并对高频分量和低频分量进行信息交互,通过邻域内像素间的信息交换可以降低低频特征图的空间分辨率和冗余,同时对不同通道间的信息相关性进行建模,保证了工具分割算法的性能,最后通过特征表征的方式完成工具识别任务。该算法针对工具类图像在现场环境使用具有低功耗、易扩展等优点,具有实际应用价值。

1 研究方法

1.1 工具图像分割算法

1.1.1 ToolNet 模型结构

文献[12]提出一种深度学习模型——U-Net 语义分割网络模型,它不同于传统的深度卷积神经网络模型采用不断深化卷积结构的方法。U-Net网络模型由编码、解码和特征融合三部分组成。在编码过程中,采用多层下采样提取更全面的特征;在解码过程中,采用多层上采样还原特征结果;在特征融合阶段,在全连接编解码过程中生成特征结果和显著概率图。文献[13]在U-Net网络的基础上提出了一个两级嵌套U 结构模型U2-Net,该网络模型继承了U-Net 网络模型的编解码思想,但不再为每个样本使用单个卷积层或反卷积层,而是嵌入完整的U 结构残差块(Residual U-blocks)来替换单个卷积操作,如图1 所示。U 结构残差块解决了过去由于使用小卷积核而导致感受野过窄,只能提取局部细节的缺陷。同时,减少了因使用空洞卷积而导致的过度计算问题。U2-Net网络模型可以通过设计简单的框架逐层提取多尺度特征,从而提高识别效率。

图1 U 结构残差块(RSU)

针对工具分割任务提出的ToolNet 网络模型如图2 所示。ToolNet 由三部分组成:6 层编码层、5 层解码层和全连接层。每层包含一个U 形残差块,用于提取多尺度特征。每次训练样本通过一个编码层时,采样的训练样本向下传递,该层的训练结果传递给同级的解码层,计算损失函数。在图像特征提取阶段,使用改进的ToolRSU 模块来提取特征。遍历所有编码层和解码层后,将获得6 个提取结果,这些结果将恢复为与训练样本相同的大小。最后,将所有特征结果聚合到全连接层,将每个解码端的预测结果上采样到原始图像大小,并利用混合注意力机制,通过级联运算得到预测结果。通过不断迭代来减小损失函数的值,提高了模型的识别效果。

图2 ToolNet 模型结构图

1.1.2 ToolRSU 模块

与一般卷积不同,八度卷积(Octave Convolution)认为卷积层的输入输出特征图或通道具有高频和低频分量。低频分量用于支撑物体的整体形状,但它们往往是多余的,这在编码过程中可以得到缓解。高频分量用于恢复原始图像的边缘和细节纹理。

ToolNet 设计了一种新的ToolRSU 模块,用八度卷积替换RSU 中的普通卷积,以更好地抵用局部和全局上下文信息来提高分割效果。在八度卷积中,低频分量是指经过高斯滤波处理后得到的特征图,高频分量是指未经高斯滤波的原始特征图。由于低频分量的冗余,低频分量的特征图大小设置为高频分量特征图大小的1 2。将卷积层中的输入特征图X和卷积核W分为高频和低频分量,如下所示:

式中:XL和XH分别表示特征图的低频和高频分量;WL和WH分别表示用于低频分量和高频分量的卷积核。八度卷积在提取低频和高频特征的同时,在低频和高频分量的特征表示之间进行有效通信,如图3 所示。

图3 八度卷积以高频和低频进行特征提取

由于高频和低频特征图的大小不一致,无法执行卷积操作。因此,为了实现高频和低频特征之间的有效通信,当信息从低频更新到高频(过程WL→H)时,需要对低频分量进行上采样,见公式(2):

式中:f(X;W)表示具有卷积核W参数的卷积;Upsampling(f(·) ,k)表示上采样,使用步幅k= 2 的最近邻插值计算。

当信息从高频更新到低频(过程WH→L)时,需使用平均池化对高频分量进行下采样,见公式(3):

式中pool(X,k)代表实现降采样的平均池化运算,步幅k=2。

1.1.3 双重注意力模块

由八度卷积提取后得到的特征图具有高频和低频分量,在实验中通过双重自注意力模块对高频和低频特征图进行特征信息融合,如图4 所示。利用空间注意力机制来增强特征图中的重要信息,高频和低频分量同时以双频方式进行处理。

图4 八度卷积以高频和低频进行特征信息融合

低频特征从编码阶段的某一层上采样到与高频分量相同的尺度XHQi,用于通道拼接,然后特征图通过1×1的卷积运算得到空间注意力权重图。

对于特征图的高频分量,生成的注意力权重图首先通过sigmoid 函数进行归一化,然后直接与高频分量的特征图相乘,得到高频特征图,见公式(4):

式中:δ(·) 表示sigmoid 函数;Conv1×1(·) 表示通道拼接融合后的1×1 卷积;⊗表示生成的空间注意力图与每个高频特征图相应点作相乘运算;和分别表示第i层高频和低频分量特征图。

对于特征图的低频分量,首先将生成的注意力权重图下采样到与低频分量相同的尺度,然后使用sigmoid函数对其进行归一化,最后与低频分量相乘得到低频特征图,见公式(5):

式中Sub ( ·) 表示缩减采样函数。通过采用上述双重注意结构,实现了低频和高频特征之间的有效通信。同时,编码阶段某一层的高低频特征图经过特征增强后转移到解码阶段的相应层进行特征融合。

1.2 工具图像识别算法

工具识别算法的具体步骤如下:

1)工具检测。对工具分割图像进行轮廓检测,判断是否存在工具目标,若成功检测到工具,输出相应最小外接矩形框的位置坐标。

2)工具表征。将检测的工具目标输入到特征提取网络,将工具信息转换为一个512维的特征向量。特征提取网络使用轻量化模型EfficientNetV2-s,网络结构[14]见表1。

表1 EfficientNetV2-s 网络结构

EfficientNetV2 网络采用感知神经结构搜索技术,结合复合模型扩张法优化模型精度、训练速度和参数大小。通过使用MBConv 和Fused-MBConv 模块实现了更快的训练。

3)工具匹配。将特征信息进行对比,通过特征向量进行工具识别。根据预测的特征向量和特征库中每种类别工具的特征向量依次计算平均余弦相似度Sim。若平均余弦相似度Sim ∈[0,0.7),则工具特征库中没有匹配待检测工具的类别,如要识别该类工具需扩充特征库,增添此类工具的特征;若平均余弦相似度Sim ∈[0.7,1],则取最大值所对应的工具类别与待检测工具匹配。

2 实验结果分析

2.1 实验数据集

由于目前没有公开的工具检修图像数据集,实验基于常见的工具类别进行选取,搭建由黑色背景板、400 万像素高清摄像头组成的数据采集和检测实验平台。通过图像采集和数据增强,获取了10 类共5 645 张检修工具图像。工具类别清单见表2。

2.2 实验环境

为了科学评估实验的有效性,实验所有的软硬件环境保持一致,实验环境配置见表3。

表3 实验环境参数

2.3 实验分析

2.3.1 工具图像分割结果分析

为了验证模型的有效性,使用几种常见的语义分割模型Res-UNet++、U2-Net 与提出的针对检修工具的分割模型ToolNet 作比较,测试结果见表4。

表4 不同模型分割效果对比

从表4 中可看出,提出的ToolNet 分割模型相比U2-Net 在交并比和查准率上都得到了提升,并且分割的平均时间从1.23 s 降低到0.56 s,分割效率提升了54.47%。ToolNet 通过采用ToolRSU 模块减少了空间冗余和计算量,从而减少了分割处理的时间,通过引入双重注意力模块增强高频和低频分量的特性,进行特征增强提升分割精度。工具图像分割结果见图5。

图5 工具分割图像

2.3.2 工具图像识别结果分析

实验中图像工具识别通过特征提取器将待识别图像表征为512 维特征向量,然后与特征库中每个类别工具的特征向量进行相似度比对。该特征库由1 000 个特征向量组成,其中包含10 个类别工具,每个类别有100 个特征向量。工具识别结果见表5。

表5 工具识别结果

工具识别的正检率达到96.78%,每张待检测工具图像的平均检测时间为0.86 s,精度高满足实时检测的需求。工具识别结果见图6。

图像识别的精度取决于特征提取器的效果,实验中将图像分类网络的softmax 分类层删除,利用全连接层作为特征提取器。相比于直接进行图像分类,采用特征向量识别的方法更有利于工具类别的拓展,在需要新增加一种工具类别时,可以直接利用特征提取器对特征库进行扩充,从而不需要重新训练分类模型,对小数据集样本更具鲁棒性。

3 结 论

本文针对水电站检修场景下登记与核销检修工具效率低的问题,采用图像处理和识别、深度学习等理论和技术,设计一种基于机器视觉的检修工具图像检测与识别算法。将图像分割和特征匹配相结合,可以实现高效准确的工器具识别,并且可以很便携地扩充可识别的工具类别,对于提高管理效率和检修现场安全性具有重要的应用价值。