万 爽

(武汉理工大学,湖北 武汉 430070)

0 引言

模式识别诞生于20世纪20年代,是对表征事物或现象的各种形式的信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程。该学科主要研究使机器通过学习能做以前只能由人类才能做的事,具备人所具有的、对各种事物与现象进行分析、描述与判断的部分能力。模式识别所研究的理论和方法在很多科学和技术领域中得到了广泛的重视,目前已成功应用于指纹识别、印刷体字符识别、语音识别、车牌识别、人脸识别、手写体字符识别、自动文本分类、多媒体数据挖掘等领域。

本文基于统计模式识别方法来研究车辆识别问题。对待定的区域应用特征提取、特征选择的方法提取统计特征,根据统计模式识别原理对候选车辆区域行识别确认。特征提取采用PCA(主成分变换法),特征选择采用遗传算法,分类器设计是SVM(支持向量机)。

1 统计模式识别方法

基于统计方法的模式识别系统由四部分组成:数据获取、预处理、特征提取和选择、分类器设计和分类决策。

1.1 数据获取与预处理

数据获取就是通过一定的技术和手段对个别事物进行观测,从而获取该事物的时间和空间分布信息。这里需要将各种测量的量转换成计算机可以直接处理的数据。测量到的信号通常有一维信号,二维信号和逻辑信号。预处理阶段就是要将数据获取阶段所引入的噪声进行滤除,并对数据获取阶段所造成的信号退化进行复原,并为下一步特征提取提供必要的基础。

1.2 特征提取与特征选择

通常情况下,在数据获取阶段获得的数据量是相当大的。直接应用这些数据进行模式识别,数据量大,计算复杂。当向量维数达到一定维数时,就必须采取一定的措施能使系统能够处理这些数据和正常工作,即特征降维,模式识别中称为特征提取和选择。一般来说,特征提取和选择是模式识别系统中关键的一步,其好坏直接决定了模式识别系统的性能。

1.2.1 主成分变换法

主成分分析方法是应用最广泛的一种特征提取方法之一,它是一种统计学方法,在信号处理、模式识别、数字图像处理等领域得到了广泛的应用。主成分分析基本思想是提取出空间原始数据中的主要特征,减少数据冗余,使得数据在一个低维的特征空间被处理,同时保持原始数据的绝大部分的信息,从而解决数据空间维数过高的瓶颈问题。

所谓主成分就是原始数据的m个变量经线性组合后得到的变量,该变化使得其变换后的变量方差为最大(第一主成分)的部分。各个主成分之间是相互线性无关的(正交的)从第一主成分往后,主成分按方差大小的顺序排列。

1.2.2 遗传算法

遗传算法是建立在自然选择和遗传变异基础上的自适应概率性搜索算法,在该算法中,染色体是二进制字符串编码,每一编码字符串为一候选解,这种染色体有多个,即有一群候选解。染色体像生物进化一样有繁殖、交叉和突变三种现象,这些现象称为遗传算子。在每一代中,保持一定数目M为定值的解群,经过对各解的适应度值计算,使解群中的各个解得到评价,各个解的适应度值的大小作为染色体复制机会大小的先决条件。

遗传算法中有一个很重要的概念,称为适应度函数。如何将遗传算法中的不断进化的染色体与现实问题中的优劣选择相联系是该算法成功的关键。一般的方法是构造一个与现实问题相联系的适应度函数。

1.3 分类器

从数学观点来看,分类决策就是找出决策函数。当已知待识别模式的完整的先验知识时,可据此确定决策函数的数学表达式。如果仅知待识别模式的定性知识,则在确定决策函数的过程中,通过反复训练、调整,以达满意的决策函数表达式,从而作为决策分类的依据。

支持向量机是一种基于统计的学习方法,它是对结构化风险最小化归纳原则的近似,由于其出色的学习性能,使得SVM具有较好的推广能力。其原理是针对二值分类问题提出的,其核心思想是将结构风险函数引入到分类中。支持向量机通过引入结构风险函数恰恰能完成这个任务,从而提高了机器学习的泛化能力。这些特点使支持向量机能有效地克服高维问题。

2 实例分析

为了检验各个主成分变换特征提取方法和支持向量机分类器对车辆检测的识别率和有效性,我们进行了对比实验:特征提取和特征选择的方法与不同分类器方法进行组合测试。

为了检验本论文中提出的车辆检测方法,我们进行了实验测试。道路取景的来源国内城市道路。实验中选用的训练样本为3000,其中车辆为1500,其余为背景样本。

利用前文描述的方法,获得的特征提取器为:

T=[t(1),t(2),t(3)]

其中,特征向量为:

t(1)=(-0.5346,-0.0804,-0.8329,0.0444,-0.0794,-0.0224,

-0.0652,0.0317)

t(2)=

(-0.2102,0.8256,0.0754,0.4899,0.0516,0.0196,0.0355,0.0872)

t(3)=(-0.0812,-0.5261,0.1491,0.8244,-0.0161,0.0933,

-0.0048,0.0754)

同时增加了其它分类器配合进行测试,选用的分类器有KNN(K最邻近结点算法)、QDF(二次判别方程)、COS(基于朴素贝叶斯分类器)。测试样本为600,其中车辆300,背景300。测试结果为:SVM的车辆识别率为85.3%,背景识别率为94%;KNN的车辆识别率为82.6%,背景识别率为76.6%;QDF的车辆识别率为42.6%,背景识别率为79.3%;COS的车辆识别率为52%,背景识别率为97%。

通过对实验数据的分析,可以得出,特征提取的算法中,采用主成分变换法进行特征提取是所实现的特征提取算法中性能较优。同时,SVM分类器具有是具有最高的识别率。所以最终选择的是主成分变换法、遗传算法支持向量机的车辆识别算法组合。

3 结论

本文分析并实现了基于车辆统计特征的车辆识别算法。算法包括三个部分:特征提取,特征选择,和分类器设计。利用特征提取方法(PCA)对待确定的区域应用特征提取的方法提取统计特征,应用遗传算法对特征提取阶段的结果进行选择,其选择结果用于训练SVM分类器。最后应用训练好的SVM分类器进行分类识别检测。此外,还将此算法与其它车辆识别算法进行比较,实验结果表明,基于车辆统计特征的车辆识别算法不仅具有较好的有效性,而且能有效的提高识别率和降低误识别率,具有很好的应用前景。

[1]边肇祺,张学工.模式识别[M].2 版.北京:清华大学出版社,2007.

[2]杨和超,宋海歌.模式识别的主要方法及其应用[J].电脑知识与技术,2008(S2):156-157.

[3]赵喜林,等.模式识别方法及其比较分析[J].信阳农业高等专科学校学报,2004,14(3):37-40.