语义与统计相结合的智能行为分析关键技术研究

吴月娥边后琴

摘要:智能行为分析是计算机视觉领域的核心问题,行为分析的最大难点在于表示的基本元素跨度极大,而且物体的图像又是千变万化,因此在智能行为分析系统中必须结合语义与统计信息。针对建立智能行为分析系统的需求,首先建立既能表达用户语义,又能表达千变万化的场景和物体统计信息的“图像语法”;然后通过将学习过程理解为迭代投影过程,建立一个统一的机器学习方法,实现较复杂的场景和行为的分析和识别。

关键词:智能视频监控;语义信息;统计学习;图像语法

中图分类号:TP391

0 引言

近年来,视频监控系统随着它的需求的发展而飞速发展,其应用也越来越广泛,在保安、交通、金融、水利、电力等各行业都发挥着不可替代的作用。智能视频监控的关键技术集中在对视频内容的分析处理上。目前,多数情况下监控系统只充当了录像的功能,都是在发生异常事件后,重新回放,进行人工分析。而真正赋予视频监控全新意义的变革,在于当前正在推进的智能视频监控技术。其中“智能”是指通过多个网络摄像头自动识别和跟踪场景、行人、车辆等目标,从海量的视频录像中识别和提取复杂的行为和事件,及时供决策者使用和查询[6[CD*2]8]。

研发智能行为分析系统的复杂度远远超过了人们的预期,这主要是因为各种应用场景十分复杂(街道、大院、房间、公路等),场景的人物、物体、车辆等千变万化,光照、天气变化无常,根本无法预先设定和控制。特别是用户的需求不仅精确度高而且多种多样,某个行为和事件是否正常,与其所发生的场合或时间有关,必须由用户根据具体需要和当前任务来灵活决定,而且异常行为极少出现。因此建立智能行为识别与分析系统的一个关键技术是融合语义和统计信息‐[4,9]。语义信息是指系统必须提供一个可视化的符号语言或者事件语法,通过一组图形化的语义符号来表达用户根据不同场景、不同时间段而设定的其所感兴趣的物体和行为;统计信息是指通过统计学习方法建立的图像语法和统计模型,该模型将抽象的语义符号与千变万化的视频信号相结合。

1 融入随机上下文的图像语法表示

自然场景是高度复杂又高度结构化的,这种结构化正是图像语法的根源。图像语法的直观意思是:从统计的观点来看,图像中的某些元素在一起出现的概率很高,通过一些组合规则它们形成新的,更大的结构元素,如人眼,鼻,嘴,耳在自然图像中通常是一起出现的,它们共同构成了人脸这种视觉模式;通过对这一现象建模,即可利用与或图来建立图像语法,如┩1所示。与或图中包含三种节点:用实线圆圈表示的与节点,如┩1中獳,E,F等节点,与节点的孩子结点必须同时出现才能构成其本身;或节点,用虚线圆圈表示,如图1中獴,C,D等,或节点每次只选择一个孩子节点参加构造,表示一种实例;终端节点,用方框表示,如图中1,2,3等。与节点表示分解过程,或节点表示开关变量作用,用来选择一种配置,终端节点表示某个层次上的一种图结构;一个与或图包含多个解译树,通过在或节点处选择不同的孩子节点可以得到不同的解译树,图中粗线所示即为一种解译树。

一个与节点要么直接终结为一个终端节点,或能分解成几个构造部分:

式中:V璗={t1,…t﹎(T)獇是终端节点集,包含各种视觉字典的元素,如图像基元、子图和物体部分等;[WTHT]R[WTBX]是定义在节点间上的关系集,Ъ幢硎窘诘慵涞暮嵯蛄系:

Σ表示所有由与或图生产的有效配置,即与或图的语言:

玴是定义在与或图上的概率模型,包含定义在或节点上的随机上下文无关语法(SCFG)概率模型以及定义在不同节点之间关系的能量约束。

可知,与或图实际上是定义了一种随机上下文相关语法,用来表示图像语法,其中V璗是其字典,V璑表示其产生规则,Σ表示其语言,R表示上下文信息;与或图表示中,字典中元素的个数,以及产生规则的个数都很小,但是其语言表示能力强,即能表示的配置数目很大:￢璑∪V璗顋Σ|。

在融入图像语法的与或图中,通过对所有或节点处进行选择,可以得到一个解译图。就融入事件语法的时空与或图来说,通过对其中所有或节点进行选择,并将同一物体在时间维上的运动情况用轨迹描述,可以得到(x,y,t)坐标系下一个轨迹图,如图2所示。每帧图像表示为一个场景分解的解译图,以物体为基本描述单元,它们的运动由帧间轨迹表示。圆图表示的是运动中发生的一些离散的行动,即:①为行人上车;②为行人下车;③为车辆进入场景;④为车辆离开场景。具体表现为轨迹的分合。对应于解译图,一个轨迹图就代表一个场景的一段视频实例,如图3所示。对于图中左边的一段视频,对其中感兴趣物体(行人、车辆)进行识别和跟踪,从而可以在(x,y,t)坐标系下,得到对应的运动轨迹,形成轨迹图;这相对于在关于该场景的融入事件语法的时空与或图中,对所有或节点进行一次选择(通过识别和匹配),并将同一物体在时间维上的运动情况用轨迹描述,也可以生成一个轨迹图。同时对任一给定的时刻t,从轨迹图就可到对应帧图像的解译图,如图中右下角图所示。基于轨迹图中各个物体轨迹之间的各种关系,就可以对行为和事件进行分析。И

下一步的问题是如何在与或图上定义概率模型来对实际的场景和视觉模型进行建模,给定与或图,其概率模型定义为如下Gibbs分布形式:

2 统一机器学习

统一机器学习分为两步:

(1) 学习终端节点集V璗,即从自然图像中学习视觉字典,如衣服中的衣领等;

(2) 基于学到的V璗,通过构造,学习非终端节点V璑,Ъ囱习自然图像中的产生规则。

终端节点有两种类型:一种表示高熵模式,如各种纹理,来自图像空间的隐式流形,即可以通过隐式函数来描述,其维度比较高;另一种表示一些低熵模式,如各种刚性结构物体,卡通等,来自图像空间的显式流形,即可以通过显式函数来描述,其维度一般都比较低。

对终端节点的学习,即在它们所处的流形子空间上建立概率模型。在此通过有监督的方式来学习。给定Ω﹐bs1,定义在|∧珅=5×7到11×11上的原始图像块集合作为训练样本集,记f(I)为I在样本集中的出现频率,p(I)为所要学习的概率模型,通过最小化它们之间的KL[CD*2]测度:

式中:犷璮表示关于f的数学期望。根据极大似然估计,使用样本均值逼近数学期望,可得:

式中:Ω瑸为求解空间,实际学习过程是通过逐渐逼近求解:

学习了终端节点,相当于建立了与或图表示的字典。下一步通过构造,即在字典集上对各种关系进行测试,逐级向上学习各种非终端节点。

通过建立20类场景和100类物体的与或图表示,相当于建立图像语义解译的表示知识库:字典和关系库,形成了20类场景和100类物的产生式模型库Δゞen:

3 实验结果

图4所示为一个普通交通路口中约3 min的视频录像,第一行中最左边为一段视频示意图,中间为视频所对应的场景中物体(车和行人)在坐标系(x,y,t)中运动轨迹图,不同颜色代表不同类别的物体.最右边为┮欢为时间内所有运动物体轨迹的二维投影;第二行中,显示的是抽取的4帧图象中物体之间关系空间、运动方向以及相对速度等示意图。通过对物体运动轨迹的跟踪和分析,根据不同轨迹之间的空间和时序上的关系,场景的属性(是否红灯状态等)和物体本身的属性(速度、运动方向等),可以对各种事件(是否有车闯红灯、两车是否可能会碰撞、车是否在正确的行驶路段上等)进行检测和分析,并给出判断。

以街道十字路口的交通场景为例

4 结语

在针对通用智能视频行为分析系统的应用,研究了开发该系统所需的关键技术,建立一个既能表达用户高层语义,又能表达千变万化的场景和物体统计信息的统一知识表达及其模型,并通过机器学习方法来完善这个统一模型的结构与参数。通过对场景全局信息和运动