ResNet网络下教室人物姿态分类

倪照风马原东崔潇郦烜杰杨秀璋罗子江

摘要：该文首次将ResNet网络的思想对复杂教室环境下的人物进行多类别分类设计，改进了网络结构，有效解决了传统基于像素特征的方法分类效果不理想的问题。实验中通过卷积提取特征、不同感受野、保留像素间联系、多层卷积级联提取深层次特征等方法，在网络训练过程中进行参数调整，优化算法和网络参数来解决困难样本的识别，将多类别的分类准确率从83.5%提升到99.2%，并实现了多目标检测的11类样本的判定。最终选取ResNet18_16来进行高速有效的多类别识别。

关键词：姿态分类; ResNet网络; 卷积网络; 分类训练; 参数调整; 多类别识别

中图分类号： TN926?34 文献标识码： A 文章编号： 1004?373X（2020）12?0042?05

Abstract： The multiclass classification for the students in the complex classroom environment is designed with the idea of ResNet network， which improves the network structure， and effectively solves the problem that the classification effect is not ideal in the traditional method based on pixel feature. In the experiments， the convolution is used for the feature extraction， which adopts the different receptive fields， preserves the connections between pixels， uses the multilayer convolution cascade to extract the deep?seated features and other methods. The parameter adjustment is conducted in the network training process， and the algorithm and network parameters are optimized to identify the difficult samples， which increase the accuracy of multiclass classification from 83.5% to 99.2%， and realize the determination of 11 kinds of samples of multi?target detection. In this paper， Resnet18_16 is finally selected for the high?speed and effective multiclass recognition.

Keywords： gesture classification; ResNet network; convolution network; classification training; parameter adjustment; multiclass identification

0 引言

面对复杂的教室环境、多类别的人物姿态，神经网络[1]发展迅速，已出现在图像分类方法中，卷积网络表现出强大的特征提取能力。卷积采用局部感受野、权值共享，既能提取更深层次特征、保留像素之间联系，也能减少参数，提高训练速度。尼加提·卡斯木等人对沙漠腹地绿洲植物群落分布进行分类，并与传统方法进行比较，发现卷积神经网络效果最优[2]。闫河等人通过改进卷积神经网络来对网络图片进行分类，证实卷积网络结构的有效性[3]。在网络教学中，孙重亮采用了支持向量机和普通卷积网络的办法来对人体面部表情进行识别[4]，缺点是只能识别出单一目标人物的学习状态，无法应用在教室等多人复杂环境中，并且对学生的学习状态分类较为单一，在6种类别判定下的实验结果准确率达到81.5%。陆嘉慧对表情专门研究，并指出表情识别存在的局限性[5]。

针对教室复杂环境下人物多类别分类的问题，本文基于ResNet网络结构的思想，改进网络结构来更加细化特征类别，保留像素之间的关联性，提取深层次动作特征，并对复杂样本做了详尽标注和分类，加入扩充了大量hard样本，在11种类别判定下的分类准确率达到99.2%。

1 ResNet网络结构

ResNet[6]网络最开始是何凯明为解决训练中准确率先饱和后降低的问题而提出，将residual learning的思想引入深度学习领域，这一网络结构解决了网络退化的问题，避免了网络结构在很深时出现准确率降低、性能下降等问题。本文基于图1所示的网络结构重新设计了适用于复杂教室环境下的多目标多类别识别场景，ResNet网络采用卷积提取特征，实现了卷积核权值共享，计算量大大减少。ResNet在送入Block之前使用3×3替代原先的7×7卷积核，网络参数减少为原先的[15];随后pool层减小特征图，使后续计算量大大减少。卷积之后的特征图接入BN[7]，归一化特征数据，接入激励，增加非线性，激励后的特征图送入下一卷积，并在softmax[8]层输出属于每一类别的概率。

表1给出了改进后的ResNet在复杂检测场景下的检测性能，与支持向量机[4]相比，具有多人物、多姿态、高准确率等特点。

2 分类训练

2.1 制定复杂样本的标注标准

本文研究的数据集为上课教学视频，为了检测更加复杂情况下的人物姿态，本文选取了多种类别的样本及大量hard样本。

1）不同帧率下的视频流样本，包含不同人次的课堂（10人以内教室，30人左右教室）。下载视频，分析视频信息，截取视频（每秒约30帧）部分帧数据，为防止每个人动作变化不明显，采用每30 s截取一帧视频。

2）制定了11类样本类别标准，如表2所示。

3）充分考虑不同类别样本在周围像素特征的影响，在标注过程中会由于摄像机角度、光线、遮挡、时间等因素的影响，需要在制作样本时充分考虑训练集的特征提取，对每种状态都有其标注准则，并在制作数据集时考虑人物与人物之间的联系。

4）复杂hard样本的扩充如图2所示，其类别特征不明显。图2a）包含看书特征，但姿态特殊;图2b）包含笔信息、脸部视线信息。对此类样本进行样本扩充，如颜色增强、模糊、镜像、仿射变换等。

根据严格标准对数据图片进行标注，标注效果如图3所示。数据处理结果如图4所示。

1）训练集制作。本文数据采集于教学视频，共289 053张照片，切图过程中，图片有一定的像素偏移，扩充至多张图片。如图4可知，book，writing数据最多，flat_A0，flat_A45，flat_A?45，nofocus_F次之，nofocus_B，sleepy，flat_90，flat_A?90最少，后期工作中根据训练结果考虑样本均衡、数据扩充。训练结果中，较少样本特征较为明显，Writing，Book两类特征差异较小，数据最多。

2）测试集。保证图像特征完整，切出xml坐标图片，共32 016张图片。标准姿态如图5所示。

图5中，从左往右，从上到下分别是每种姿态对应的标准图片：Person，Writing，Book，Sleepy，Nofocus_F，Nofocus_B，Flat_A0，Flat_A45，Flat_?45，Flat_A90，Flat_A?90，Part。

3）数据预处理。首先使用ffmpeg将视频帧转换为图像数据;然后使用软件对图片进行标注，标注会给出每个框图的坐标，根据xml标注信息得到训练样本;再依据图像数据缩放金字塔[9];最后，经数据扩充后处理成同一大小。

处理后的图片如图6所示。

标注时需要兼顾书本和人物信息，由于坐姿不同，宽高比列不同，标注框不是标准矩形框。为方便训练，处理成同一尺寸：

1）以长边为准，切图，会出现一张图片出现多人情况;

2）短边截取，出现额头、手肘等部位信息丢失;

3）双线性内插值缩放[10]，图像变形，但对特征提取影响较小。训练过程中选择第3种切图方式。

图7a）为长边截取，图像内出现多人，动作特征干扰;图7b）为短边截取，部分动作特征丢失。当出现Person，Sleepy等宽高比较大姿态，该情况更严重。特征缺失或者特征干扰均对训练进行干扰，需尽可能避免该情况。

2.2 训练流程

参数设置：每次训练之前需要对训练过程中选择初始学习率、学习率下降方式、下降步长等参数，具体Solver文件配置参数如表3所示。

根据图8的训练流程，遍历图片，送入模型测试，判断Top1（最大概率属于标签类别）是否准确。

1）检查标签、GT位置，如果标签错误，人工修改，再训练;

2）标签无错，类别特征相近，对此类数据进行模糊、颜色、像素偏移扩充，并设计更深卷积级联，提取深层次特征。

2.3 训练

本研究是在WIN7系统，i7处理器，显卡GTX970上进行训练，批次256。通过设置输入尺寸和特征通道，减小模型尺寸，降低对显存需求，提高训练速度。

1）数据输入。数据输入之前缩放处理成64×64。照片尺寸过大，增加计算量，照片太小无法充分提取所需特征。经试验，64×64可观察出人物基本动作特征，符合训练特征需求。

2） ResNet训练。数据经过第一层卷积和池化到达stage1，尺寸缩小为16×16，尺寸缩小[12]，输出的特征通道数增大1倍，这样可以使特征图在尺寸减小的前提下不会一次性丢失太多信息。池化层放在第一层卷积之后，去除最后全局池化，防止信息损失过多导致特征提取不充分。经过残差网络的4个Stage，输出特征图为1×1×128。网络越深，提取的特征越复杂。最后一层接全连接，全连接输出送入Softmax计算得出概率，分析所属类别。

2.4 训练结果分析

对分类结果采用准确率（Accuracy）来表示：

式中：T为测试集分类准确的数量;P为测试集总量。

在整个测试集中，统计识别出正确类别数量，与总数进行计算，得出训练的准确率，可分析出网络模型性能。

图9中显示，当初始学习率（Ir）=0.05，准确率由0开始不断上升，前期为保证跳出局部最优，选择较大学习率，收敛速度较快，准确率上升斜率较大。迭代一定次数后在0.89附近振荡，随后根据经验选择合适下降学习率的迭代次数，本文选择40 000。当Ir=0.005，迭代40 000次后下降一次数量级，网络继续收敛，准确率提高，前期训练的学习率较大，下降数量级后有着较为明显的提升，约10%。当Ir>0.005，使用较小学习率进行微调，逐步提高准确率。下降两次数量级后，ResNet18_16网络达到99.2%。

2.5 改进ResNet性能比较

在相同数据训练集和测试集上，本文调整网络结构的各项参数进行实验，具体如表4所示，表5、图10给出不同网络性能比较及准确率比较结果。

1）准确率。随着网络层数加深、特征通道的增大，特征提取更充分，细节特征被提取，准确率有着较为明显的差距。通道一定的条件下，网络越深，准确率越高;网络深度一定的条件下，特征通道越多，准确率越高。图10a）准确率比较中，准确率从83.5%提高到99.2%。

2）速度。深度、特征通道的增大，带来计算量的增加，训练检测时间变长。实际应用场景下造成数据流帧率的下降。

3）模型尺寸。模型尺寸指训练结果中所有网络参数组成的文件大小。训练过程中通过迭代，不断学习参数，卷积级联越深、特征通道越多，需要学习的参数越多，导致模型尺寸增大。图10b）中模型尺寸从最小的184.9 Kb增大到10 975 Kb，训练耗时，导致实际检测帧率从30下降到10。

4）模型参数计算。输入通道×卷积核_W×卷积核_H* 输出通道×字节。

实际投入使用时需要综合考虑每一个网络的各方面性能，ResNet18_16与ResNet18_32相比，时间减少约62%，帧率提高80%，模型尺寸减少[34]，准确率从99.3%降低为99.2%，虽降低约0.1%，但仍保持极高的准确率。在后期的工程化设计中，会综合考虑每个学生的整体上课情况，0.1%准确率影响很小。因此，在综合考虑速度、准确率和模型尺寸的基础上，实际投入使用时选用ResNet18_16。

3 结论

本文从人物特征的技术发展研究现状出发，提出基于卷积神经网络的新型ResNet网络结构，首次将ResNet网络用于教室人物姿态的多类别的分类。本文制定了11种分类标准来衡量不同人物姿态类别之间的特征差异。通过在数据训练中对网络参数的不断调整，最终采用ResNet18_16的网络结构，使其在速度上满足软件使用要求，准确率达到99.2%。优化后的模型尺寸缩小很多，非常适用于实际系统。系统可实时监控每位学生状态，并对此进行分析、判断、统计，进而了解学生的上课状态，反映教学质量，对此进行评估，改进教学方式，对提高教学质量提供技术支持。

注：本文通讯作者为罗子江。

参考文献

[1] 修丽娜，刘湘南.人工神经网络遥感分类方法研究现状及发展趋势探析[J].遥感技术与应用，2003（5）：339?345.

[2] 尼加提·卡斯木，师庆东，刘素红，等.基于卷积网络的沙漠腹地绿洲植物群落自动分类方法[J].农业机械学报，2019，50（1）：224?232.

[3] 闫河，王鹏，董莺艳，等.改进的卷积神经网络图片分类识别方法[J].计算机应用与软件，2018（12）：193?198.

[4] 孙重亮.网络教学中的学习状态与学习情绪识别方法研究[D].长春：吉林大学，2018.

[5] 陆嘉慧，张树美，赵俊莉.基于深度学习的面部表情识别研究[J].计算机应用研究，2019（4）：1?8.

[6] HE K， ZHANG X Y， REN S Q， et al. Deep residual learning for image recognition [C]// IEEE Conference on Computer Vision & Pattern Recognition Workshop. Honolulu： IEEE， 2016： 47?53.

[7] 杨真真，匡楠，范露，等.基于卷积神经网络的图像分类算法综述[J].信号处理，2018（12）：1474?1489.

[8] 陈鹤森.基于深度学习的细粒度图像识别研究[D].北京：北京邮电大学，2018.

[9] IOFFE S， SZEGEDY C. Batch normalization： accelerating deep network training by reducing internal covariate shift [J]. Computer science， 2015（12）： 21?24.

[10] 郑伟民，叶承晋，张曼颖，等.基于Softmax概率分类器的数据驱动空间负荷预测[J].电力系统自动化，2019，43（9）：150?160.

[11] HE K M， ZHANG X Y， REN S Q， et al. Identity mappings in deep residual networks [C]// 14th European Conference on Computer Vision. Amsterdam： Springer， 2016： 640?643.

[12] 冯陈定，李少波，姚勇，等.基于改进卷积神经网络与动态衰减学习率的环境声音识别算法[J].科学技术与工程，2019（1）：177?182.

[13] 葛程，孙国强.基于卷积神经网络的图像分类研究[J].软件导刊，2018（10）：27?31.

[14] 毛丽，姬渊，董峡.HIS域中基于金字塔变换的影像缩放算法及实现[J].化工矿产地质，2005（2）：109?113.

[15] 王平，全吉成，赵柏宇.基于双线性插值的图像缩放在GPU上的实现[J].微电子学与计算机，2016（11）：129?132.