基于视觉注意机制的行人检测方法

张艳军邓永生田甄

(重庆邮电大学自动化学院，中国重庆400065)

0 引言

行人检测是智能交通和驾驶辅助系统的重要组成部分。快速准确的检测行人可以辅助司机提高行车安全，或者为智能车辆实现安全驾驶和自主导航提供关键技术，因此，这个课题近年来备受关注。

基于视觉的行人检测方法可以分为三大类：基于模板型、基于模型与基于学习型。基于模板型是以确定人体模板作为匹配初始条件，但人体的模板求解比较复杂；基于模型是采用建立好的模板在图像上进行匹配，从而完成车辆检测，该算法容易受光线变化、行人的姿态变化的影响，并对模板依赖较大，而且行人的姿态太多，统一建模困难；基于学习型的方法是通过提取人体的各种特征，然后利用模式识别的方法进行分类，其中基于梯度方向直方图(Histogr am of Oriented Gradient,简称HOG)的特征描述行人的方法最为主流，但是提取的人体特征向量维数较大，使得计算量较大，严重影响了实时性，加上线性SVM作为弱分类器进行级联训练，虽然节省了时间，但需要在整个图像区域匹配，影响了实时性与精确性。

针对以上的不足，本文引入了视觉注意机制，将模拟人类视觉注意机制的目标检测方法引入到行人检测中。在传统的注意模型[1]中加入形状特征描述，提取颜色、亮度和形状等特征[2]，将各个特征通过一定的特征合并策略将各注意图合并成一张显着图，以定位出行人检测区域。然后在行人检测区域利用行人训练得到的分类器进行检测。

1 基于注意机制的检测模型

人类视觉系统指导注意力分配的因素[3]有两个：自底而上的注意和自上而下的注意。其中，自下而上的注意，也称为数据驱动的注意选择，是最具代表性的是基于特征整合理论的显着性检测模型。

该模型的基本思想是，输入一幅图像，通过线性滤波提取视觉特征中的亮度、颜色和方向三种特征，通过边缘检测得到的边缘图形成对应的形状注意图，在多种尺度下通过高斯金字塔、中央周边差和归一化处理，形成相对应的亮度特征图、颜色特征图和方向特征图。这些特征图先经过特征内部的竞争，形成颜色、亮度、方向的关注图，然后通过特征之间合并生成最终的显着图，再经过生物学中赢者取全WTA(Winners Take All)网络，提取行人检测区域。

自底向上的数据驱动模式采用的是Saliency Tool模型。设r、g、b分别对应于输入图像的红、绿、蓝信道，于是可得灰度图L=（r+g+b）/3，及高斯金字塔I（σ）。为了从强度中分离出色度信号，使用I来归一化r、g、b信道。因为亮度非常低的色度变化是觉察不到的，所以归一化仅在灰度大于全图最大的1/10位置上进行，而其他位置的r、g、b值则被赋为0。

归一化后建立4个宽调谐的颜色通道：红色R=r-（g+b）/2，绿色G=g-（r+b）/2，蓝色B=b-（g+r）/2和黄色Y=（g+r）/2-|r-g|/2-b，负值则置为0。进一步根据这些颜色通道可建立4个高斯金字塔，可得具有方向选择性的实Gabor金字塔O（σ，θ）。

考虑3种特征，亮度、颜色和朝向。若中央周边差操作为Θ。

在人类视觉系统中，该特征是由对暗中央亮周边或亮中央暗周边敏感的神经元来检测的。神经元在被一种颜色所激励的同时，被另一种颜色所抑制，而在感受野的周边则相反。在人类的视皮层中，共有4种空间和颜色秸抗，分别为红/绿、绿/红、蓝/黄和黄/蓝颜色对。

其中，N(·)为特征图的归一化算子；⊕为逐点求和。

关于朝向特征，用θ∈｛0°，45°，90°，135°｝这4个方向的Gabor滤波器对亮度图进行滤波，得到方向图。

其中，O（c，θ）为实Gabor金字塔。

最后，将3种特征进行合并，生成显着图，再根据WTA机制找到显着图中的兴趣区域，映射回原图，得到目标区域。

2 基于HOG与SVM分类器相结合的行人检测方法

方向梯度直方图[4]（Histogram of Oriented Gradient,HOG）特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。通过检测窗口对整幅图像的整体信息转换为组向量数据集,即HOG特征向量，最后通过支持向量机(Support Vector Machine，SVM)判断人与非人。

2.1 HOG特征计算

HOG特征的计算过程如下：

1）灰度化（将图像看作一个x，y，z（灰度）的三维图像）；

2）采用Gamma校正法[4]对输入图像进行颜色空间的标准化（归一化）；目的是调节图像的对比度，降低图像局部的阴影和光照变化所造成的影响，同时可以抑制噪音的干扰；

笔者曾先后在2个班级进行基于BOPPPS教学模式的课堂设计实践，结果表明在讲解药物不良反应章节时，应用该模式能提高学生主动学习的积极性，教学效果有效提高。传统教学模式以教师讲授为主，学生被动接受课堂知识，照本宣科和死记硬背对提升学生的综合能力无益。有研究显示，BOPPPS教学法在调动学生主观能动性、提高综合分析能力及理论考试成绩等方面均明显优于传统教学法[6]。BOPPPS为临床药理学的课程教学提供了一种简洁、有效的设计模式。但是在实践中如何合理地运用，需要教师不断摸索和思考。

3）采用简单的梯度算子下[-1,0,1]平方向Gh和垂直方向Gv的梯度值；

4）计算梯度方向θ（x，y）；

5）将图像划分成小cells（例如6*6像素/cell）；

6）统计每个cell的梯度直方图（不同梯度的个数），即可形成每个cell的descriptor；

7）将每几个cell组成一个block（例如3*3个cell/block），一个block内所有cell的特征descriptor串联起来便得到该block的HOG特征descriptor。

8）将图像image内的所有block的HOG特征descriptor串联起来就可以得到该image（你要检测的目标）的HOG特征descriptor了。这个就是最终的可供分类使用的特征向量了。

2.2 SVM分类器

支持向量机将向量映射到一个高维的空间里,在这个空间里建立有一个最优超平面。在分开数据的超平面的两边建有两个互相平行的超平面。把待分类训练数据设为｛Xk，Yk｝其中取代表训练样本HOG特征向量,Xk代表样本种类(人用l，非人用-1)。首先通过函数将Xk映射到一个高维的空间里,然后用判断函数寻求最优超平而进行分类。本文应用台湾大学林智仁副教授等开发设计的快速有效的SVM模式识别的软件包。

其中，对于那些与人体样本十分相似的非人样本，在初始训练中，很难分辨，容易误判，需要对其结果进行再次训练，得到负样本集。这样可以提高检测率。

3 实验结果与分析

为了对本文的算法进行有效的评估，选取了三段校园里拍摄的视频图像，摄像头在拍摄过程中存在一定程度的抖动，增加了检测的难度，使得检测结果更具有效性。从每段视频中截取了20帧视频图像进行了实验分析，检测结果如图1所示。

对上述实验结果分析可知，本文算法可以较好的完成行人检测任务。

4 结束语

本文提出了一种基于视觉注意机制的交通标志检测方法。在传统视觉注意机制模型提取颜色、亮度、朝向特征的基础上，增加形状特征，根据显着程度找到感兴趣区域。实验结果表明，该方法克服了由于颜色分割的不完善造成的形状检测失误的缺点，在对各个特征之间相互独立检测的同时，又考虑亮度和朝向特征在检测中所起的作用。注意机制在目标与背景颜色相近时提取显着图的效果较差，并且本文方法整体的实时性较差。因此，今后将对这两方面进行改进。

［1］冯松鹤,郎丛妍,须德.一种融合图学习与区域显着性分析的图像检索算法[J].电子学报,2011(10).

［2］许言午,曹先彬,乔红.行人检测系统研究新进展及关键技术展望[J].电子学报,2008(05).

［3］田广,戚飞虎.移动摄像机环境下基于特征变换和SVM的分级行人检测算法[J].电子学报,2008(05).

［4］杜友田,陈峰,徐文立,李永彬.基于视觉的人的运动识别综述[J].电子学报,2007(01).