前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的卷积神经网络核心思想主题范文,仅供参考,欢迎阅读并收藏。
关键词: 动态纹理分类; 慢特征分析; 深度学习; 堆栈降噪自动编码网络模型
中图分类号: TN919?34 文献标识码: A 文章编号: 1004?373X(2015)06?0020?05
Dynamic texture classification method based on stacked denoising autoencoding model
WANG Cai?xia, WEI Xue?yun, WANG Biao
(School of Electronics and Information Engineering, Jiangsu University of Science and Technology, Zhenjiang 212003 China)
Abstract: To overcome the shortcomings of extracting the feature descriptors by manual operation and too high feature dimension for dynamic scene classification, a deep learning network model is proposed to extract dynamic texture features. Firstly, the slow feature analysis method is used to learn dynamic characteristics of each video sequence through before hand, and the learned feature is used as input data of deep learning to get the advanced representation of the input signal. The stacked denoising autoencoding model is selected for the deep learning network mode. SVM classification method is used for its classification. The experimental result proves that the feature dimension extracted by this method is low and can effectively describe dynamic textures.
Keywords: dynamic texture classification; slow feature analysis; deep learning; stacked denoising autoencoding model
0 引 言
动态纹理是指具有空间重复性、并随时间变化的视觉模式,这种模式形成了一系列在时间域上具有某种不变性的图像序列[1]。不同的动态纹理可能具有相似的外观,但是却具有不同的运动形式,所以表观和运动是动态纹理特征的两大方面。在目前的动态视频分析系统中,最关键的步骤是如何提取有效的动态纹理特征描述符。在过去几十年里,对纹理的研究大部分都集中在静态纹理特征的研究,动态纹理的研究相对静态纹理而言起步要晚的多。动态纹理的研究最早始于20世纪90年代初,由Nelson和Polana采用建立线性系统模型的方法对其进行研究[2],并且将视觉运动划分为三类[3]:行为、运动事件以及动态纹理。随后,Szummer 和 Picard提出采用时空自回归模型(Spatio?Temporal Auto Regressive,STAR)[4]对动态纹理序列进行建模。基于光流的识别法是目前比较流行的动态纹理识别法,因为其计算效率高,并且以一种很直观的方式来描述图像的局部动态纹理特征,Fazekas和Chetverikov总结出,正则性(Regulated)全局流与普通流(Normal Flow)相比,普通流可以同时包含动态特性和形状特性[5]。基于LBP的动态纹理方法是最近几年才提出的一种有效算法,典型的是Zhao等人提出的两种时空域上的描述子:时空局部二值模式(Volume Local Binary Pattern,VLBP)[6]和三正交面局部二值模式(Local Binary Pattern from Three Orthogonal Planes,LBP?TOP)[7],有效地结合“运动”和“外观”特征。2007―2008年是动态纹理研究最多的两年,各大期刊杂志连续刊登有关动态纹理的研究文章。
本文试图解决动态自然场景的分类问题(例如:烟火、河流、风暴、海洋、雪花等)。在计算机视觉领域,过去采用较多的是手动提取特征来表示物体运动信息(例如:HOF、基于STIP的HOG算法等),实验表明该类方法对人体行为识别非常有效。但是由于自然环境比较复杂,动态纹理表现不稳定,易受光照、遮挡等影响,而手动选取特征非常费力,需要大量的时间进行调节,所以该类方法并不适用于动态场景分类。Theriault等人提出利用慢特征分析的方法来提取动态视频序列的特征[8]。该方法虽然能有效表示动态纹理特征,但是其提取的特征维数较高。深度学习是机器学习研究中一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,近几年深度学习网络模型在大尺度图像分类问题中成功应用使得其得到越来越多人的重视。卷积神经网络、深度置信网络和堆栈自编码网络是三种典型的深度学习网络模型,而堆栈自编码网络模型不仅对高维数据有很好的表示,而且采用非监督的学习模式对输入数据进行特征提取,这对于传统的手动提取特征。利用堆栈自编码网络模型对慢特征进行进一步学习,不仅能降低数据维度,而且还能提取出数据更有效的特征表示。
1 基于堆栈自编码网络模型的慢特征分析法
1.1 慢特征分析法
文献[9?10]中提到,慢特征分析算法的目标是从不断变化的输入信号中学习不变量,即除了无意义的常值信号外,最具不变性质的信息,其实质也就是从快速变化的信号中提取缓慢变化的信号特征,这种特征是从混合信号中提取出来的源信号的高级表示,表征信号源的某些固有属性[11]。
实验证明,慢特征分析法在人体行为识别中有很好的描述作用,这为动态纹理分类提供了一个很好的选择。慢特征分析算法的核心思想是相关矩阵的特征值分解,其本质是在经过非线性扩展特征空间对目标函数进行优化,寻找最优解的线性组合。
给定一个时域输入信号序列:
[vt=v1t,v2t,…,vDtT]
目标就是学习一组映射函数:
[Sv=S1v,S2v,…,SMv]
使得输出信号[yt=y1t,y2t,…,yMtT]的各个分量[yj=Sjvt]的变化尽可能缓慢,而且仍然保留相关的重要信息。选用时域信号一阶导数的均方值来衡量输出信号个分量的变化率:
[minSj<y?2j>t] (1)
且满足以下条件:
(1) [<yj>t=0];
(2) [<y2j>t=1];
(3) [?j<j':<yj,yj'>t=0]。
其中:[<y>t]是[y]的时域平均值;[y?j]是[yj]的时域一阶导数。这三个约束条件保证慢特征分析的输出信号的各分量的变化率尽可能小,其中条件1和条件2确保输出没有无意义的常信号值,条件3确保输出各分量之间是非相关的,且不同慢特征承载着不同信息。值得注意的是,函数[Sv]是输入信号的瞬时函数,所以输出结果不能看成是通过低通滤波器的结果,慢特征处理速度要比低通滤波器快很多。如图1所示。
<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t1.tif>
图1 时域输入信号慢特征的提取
输出信号各分量按照变化率从小到大排列,且互不相关,其最优解问题可以看成以下公式的解特征值问题:
[Sj:<v?v?T>tSj=λjSj] (2)
求解得到的特征值按从小到大的顺序排列,即[λ1≤λ2≤???≤λM],输出信号的慢特征和最小特征值息息相关。输入信号[vt]可以是多种模式的图像特征(例如色彩,梯度,SIFT特征,HOG特征)。
这里采用的是v1特征[12?13],该特征对图像有很好的表示,确保预先学习到的慢特征能达到最优。
1.2 堆栈自动编码模型
自动编码器模型是深度学习网络模型之一,其尽可能复现输入信号,捕捉代表输入信号的主要成分。
如图2所示,对于给定输入信号[x],根据式(2)得到输出[y],此过程为编码过程:
[y=fθx=sWx+b] (3)
式中:[sx=11+θ-x];[W]是[d′×d]维权重矩阵;[b]是偏移向量。
为了验证输出[y]是否准确表达原输入信号,利用式(2)对其进行重构,得到重构信号[z]。此过程为解码/重构过程:
[gθ′y=sW′y+b′] (4)
从输入到输出的权值记为[θ=W,b],从输出到输入的权值记为[θ′=W′,b′]。逐层进行参数[θ]和[θ′]的优化,式(5)为其目标函数:
[θ?,θ′*=argminθ,θ′Lx,zLx,z=12x-z2] (5)
调整参数,使得重构误差达到最小,因此可以得到[x]的第一层表示。
<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t2.tif>
图2 普通DA和降噪DA
降噪自动编码器(Denoising Auto Encoder,Dae)是在自动编码器的基础上给训练数据加入噪声,编码器需要学习去除噪声而获得没有被噪声污染的输入信号,因此获得输入信号更加鲁棒的表达。堆栈自动编码模型(Sda)是将多个Dae堆叠起来形成的一种深度网络模型。利用优化后的参数[θ]得到当前层的输出[y](即下一层的输入),将得到的[y]作为新一层的输入数据,逐层进行降噪自动编码的过程,直到到达多层神经网络中间隐层的最后一层为止,算出该层输出,即为输出特征,如图3所示。
<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t3.tif>
图3 多层神经网络结构图
1.3 基于Sda的慢特征分析法
基于Sda的慢特征分析方法利用慢特征分析法预先学习动态视频序列的慢特征,将该特征作为模型输入,进行多层降噪自动编码网络模型参数的学习,最后使用SVM分类器对该模型的输出特征进行分类,具体步骤如图4所示。
2 实 验
2.1 实验数据集与评估准则
实验所用数据由10类动态场景构成(包括海滩,电梯,森林烟火,高速公路,闪电,海洋,铁路,河流,云,街道),且每一个类别由30个250×370 pixels大小的彩序列构成。这些视频序列全部来自于加拿大约克大学计算机视觉实验室于2012年的YUPENN动态场景数据集[14],该数据库主要强调的是对象和表层在短时间内场景的实时信息。如图5所示。
<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t4.tif>
图4 基于Sda的慢特征分析步骤图
<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t5.tif>
图5 YUPENN动态数据库
将所有彩序列进行尺度缩放,分别放大和缩小1.2倍,1.4倍,1.6倍,并且在每一个尺度上进行旋转,旋转角度分别为[2°,4°,6°,-2°,-4°,-6°]。所以样本总数为(10×30)×(6×6)=10 800个。实验性能使用混淆矩阵(Confusion Matrix)进行衡量。混淆矩阵是多分类问题中常用的衡量准则,它使得分类结果一目了然并能指出错误预测的影响。分类矩阵通过确定预测值是否与实际值匹配,将模型中的所有事例分为不同的类别。然后会对每个类别中的所有事例进行计数,并在矩阵中显示总计。实验中一共有14个类别的数据集,所以最后会产生一个大小为14×14的混淆矩阵。
2.2 实验结果与分析
实验选用线性SVM分类器,采用Leave?One?Out 分析法进行分类。所有视频序列全部转换成灰度视频进行慢特征分析,输出大小为4 032维的慢特征向量作为Sda网络模型的输入数据。
2.2.1 Sda网络模型大小
堆栈降噪自动编码器网络层数以及每一层的大小对输出特征的鲁棒性和SVM分类结果有重要的影响。当网络层数不一样时,模型学习到的特征也就不一样,网络层数过低,学习力度可能不够,特征达不到最佳表示效果,网络层数太高,可能会出现过拟合现象,隐层的大小和最后的分类结果也息息相关,所以选取不同网络层数和隐层大小分别进行实验,如图6所示,选取网络层数分别为1,2,3,隐层大小分别为500,1 000,2 000。由图6可知,当隐层大小为500时的分类得分显然比1 000和2 000时高很多;在隐层大小为500时,随着网络层数不断增加,实验结果不断提升,当网络层数由2层上升到3层时,实验结果已经非常接近(网络层数为2时score=95.9%,网络层数为3时score=96.3%)。可以得知,随着网络层数不断增加,分类的效果逐渐提高,当网络层数为3时,分类结果已非常接近。
<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t6.tif>
图6 不同网络层数和隐层大小的分类结果
2.2.2 噪声
Sdae对每一层的输入加入噪声,编码器自动学习如何去除噪声而获得更加鲁棒的动态纹理特征,因此每一层所加入的噪声的大小对提取的特征有很大的影响。因此,选取不同大小的噪声分别进行实验,如图7所示,选取噪声大小分别为10%,15%,20%,25%,30%,35%,40%,45%,50%,固定网络层大小为[500,500,500];由图可知,加入噪声对分类得分的影响呈类似抛物线形状,对每一层输入数据加入25%的噪声时score=0.964为最大值。
2.2.3 混淆矩阵以及实验与现有方法的比较
图8为实验最优参数所计算出的混淆矩阵,由图可知,海滩、电梯、高速公路以及海洋的分类效果达到100%,喷泉(Fountain)的分类效果虽然最差,但也已经达到83%左右,其容易被误分成森林火灾(17%错误分类)。由该混淆矩阵可以得知,实验所用方法能够达到将近96.4%平均得分。表1是本文所用方法与现有几个比较常用的动态纹理特征提取方法的比较,分别有HOF[15],GIST[16],Chaos[17],SFA[8]。由表格可以得知,SFA是几个方法中效果最好的,可以达到76.7%的分类效果,而本文所用方法SFA+Sda比SFA方法提高了将近20%的分类得分,并且在每一个动态场景中分类效果总是优于其他几种方法。
<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t7.tif>
图7 加入不同噪声的分类结果
<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t8.tif>
图8 混淆矩阵
表1 本实验与现有方法比较
3 结 语
本文提出一种基于多层降噪自动编码网络模型的动态纹理分类方法:预先学习动态视频序列的慢特征,以此作为多层降噪自编码网络模型的输入数据进行非监督的深度学习,网络最顶层的输出即为所提取的动态纹理特征,采用SVM分类器对该特征进行分类。本文对实验中的各种影响参数如网络模型的深度、每一层的大小以及加入噪声的大小做了充分的研究,实验证明,该方法所提取的特征对动态纹理有很好的表示作用,分类效果不错,在动态场景分类问题中有很大的应用价值。
参考文献
[1] DORETTO G, CHIUSO A, WU Y, et al. Dynamic textures [J]. International Journal on Computer Vision, 2003, 51(2): 91?109.
[2] NELSON R C, POLENA P. Qualitative recognition of motion using temporal texture [J]. CVGIP: Image Understanding, 1992, 56(1): 78?89.
[3] POLANA R, NELSON R. Temporal texture and activity recognition [J]. Motion?Based Recognition: Computational Imaging and Vision, 1997, 9: 87?124.
[4] SZUMMER M, PICARD R W. Temporal texture modeling [C]// Proceedings of 1996 International Conference on Image Processing. [S.l.]: [s.n.], 1996: 11?16.
[5] FAZEKAS S, CHETVERIKOV D. Normal versus complete ?ow in dynamic texture recognition a comparative study [C]// 2005 4th International Workshop on Texture Analysis and Synthesis (ICCV 2005). [S.l.]: [s.n.], 2005: 37?42.
[6] ZHAO G, PIETIK?INEN M. Dynamic texture recognition using volume local binary patterns [C]// European Conference on Computer Vision. [S.l.]: [s.n.], 2006: 165?177.
[7] PIETIK¨AINEN G Z M. Dynamic texture recognition using local binary patterns with an application to facial expression [J]. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2007, 29(6): 915?928.
[8] THERIAULT Christian, THOME Nicolas, CORD Matthieu. Dynamic scene classification: learning motion descriptors with slow features analysis [EB/OL]. [2014?09?17]. http://.
[9] FRANZIUS M, WILBERT N, WISKOTT L. Invariant object recognition with slow feature analysis [C]// ICANN 18th International Conference. Berlin: Springer?Verlag, 2008: 961?970.
[10] WISKOTT L, SEJNOWSKI T. Slow feature analysis: Unsupervised learning of invariances [J]. Neural Comput., 2002, 14: 715?770.
[11] 马奎俊,韩彦军,陶卿,等.基于核的慢特征分析算法[J].模式识别与人工智能,2011(2):79?84.
[12] DE VALOIS R, YUND E, HEPLER N. The orientation and direction selectivity of cells in macaque visual cortex [J]. Vision Research, 1982, 22: 531?544.
[13] HUBEL D, WIESEL T. Receptive fields of single neurons in the cat’s striate cortex [J]. Journal of Physiol, 1959, 4: 574?591.
[14] DERPANIS Konstantinos, LECCE M, DANIILIDIS K, et al. Dynamic scene understanding: the role of orientation features in space and time in scene classification [C]// International Conference on Computer Vision and Pattern Recognition. [S.l.]: [s.n.], 2012: 111?121.
[15] MARSZALEK M, LAPTEV I, SCHMID C. Actions in Context [C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2009: 2?6.