前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的卷积神经网络识别方法主题范文,仅供参考,欢迎阅读并收藏。
1 研究背景
手写数字识别是一个经典的模式识别问题。从0 到9这10 个阿拉伯数字组成。由于其类别数比较小,它在些运算量很大或者比较复杂的算法中比较容易实现。所以,在模式识别中数字识别一直都是热门的实验对象。卷积神经网络 (Convolutional Neural Networks,CNN),在手写体识别中有着良好的性能。卷积神经网络的神经元是局部连接,神经元之间能够共享权值。深度卷积神经网络不但可以解决浅层学习结构无法自动提取图像特征的问题,并且提高了分类的泛化能力和准确度。
2 深度卷积神经网络
深度卷积神经网络是一种具有多层监督的神经网络,隐含层中的卷积层和池采样层是实现深度卷积神经网络提取特征的核心模块,并通过使用梯度下降算法最小化损失函数来进行权重参数逐层反向调节,再经过迭代训练提高分类精确度。
深度卷积神经网络的首层是输入层,之后是若干个卷积层和若干个子采样层和分类器。分类器一般采用Softmax,再由分类器去输出相应的分类结果。正常情况下,一个卷积后面都跟一个子采样层。基于卷积层里权值共享和局部连接的特性,可以简化网络的样本训练参数。运算之后,获得的结果通过激活函数输出得到特征图像,再将输出值作为子采样层的输入数据。为了实现缩放、平移和扭曲保持不变,在子采样层中将之前一层对应的特征图中相邻特征通过池化操作合并成一个特征,减少特征分辨率。这样,输入的数据就可以立即传送到第一个卷积层,反复进行特征学习。将被标记的样本输入到Softmax分类器中。
CNN 能够简化网络的样本训练参数,降低计算难度。这些良好的性能是网络在有监督方式下学会的,网络的结构主要有局部连接和权值共享两个特点:
2.1 局部连接
深度卷积神经网络中,层与层之间的神经元节点是局部连接,不像BP 神经网络中的连接为全连接。深度卷积神经网络利用局部空间的相关性将相邻层的神经元节点连接相邻的上一层神经元节点。
2.2 权重共享
在深度卷积神经网络中,卷积层中每一个卷积滤波器共享相同参数并重复作用,卷积输入的图像,再将卷积的结果变为输入图像的特征图。之后提取出图像的部分特征。
在得到图像的卷积特征之后,需要用最大池采样方法对卷积特征进行降维。用若干个n×n 的不相交区域来划分卷积特征,降维后的卷积特征会被这些区域中最大的或平均特征来表示。降维后的特征更方便进行分类。
3 实验结果
为了验证卷积神经网络的有效性,本实验中使用以最经典的MNIST 和USPS 库这两个识别库作为评测标准。手写数字MNIST数据库有集60000 个训练样本集,和10000 个测试,每个样本向量为28×28=784维表示。手写数字USPS 数据库含有7291 个训练样本和2007 个测试样本,每个样本向量为16×16=256 维。
表1给出了卷积神经网络在MNIST 和USPS 库上的识别结果。从表1中可知,深度卷积神经网络对MNSIT 库识别率能够达到97.89%,与用BP 算法得到的识别率94.26%相比,提高了两个多百分点。对USPS 库识别率能够达到94.34%,与用BP 算法得到的识别率91.28%相比,也提高了三个多百分点。
因此,使用深度卷积神经网络算法训练在图像识别中获得更高识别率。因此,深度卷积神经网络在识别手写体字符时有着较好的分类效果。
4 总结
本文介绍深度卷积神经网络的理论知识、算法技术和算法的结构包括局部连接、权重共享、最大池采样以及分类器Softmax。本文通过深度卷积神经网络对两组手写识别库实验来验证CNN 有着较低的出错率。
参考文献
[1]赵元庆,吴华.多尺度特征和神经网络相融合的手写体数字识别简介[J].计算机科学,2013,40(08):316-318.
[2]王强.基于CNN的字符识别方法研究[D].天津师范大学,2014.
[3]Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification with Deep Convolutional Neural Networks.Advances in Neural Information Processing Systems,2012,25(02),1097-1105.
[4]郝红卫, 蒋蓉蓉.基于最近邻规则的神经网络训练样本选择方法[J].自动化学报,2007,33(12):1247-1251.
作者简介
关鑫(1982-),男,黑龙江省佳木斯市人。硕士研究生学历。现为中国电子科技集团公司第五十四研究所工程师。研究方向为计算机软件工程。
关键词:车牌;识别;专利;分析
引言
车牌识别技术[1-2]是指自动提取受监控区域车辆的车牌信息并进行处理的技术,其通过运用图像处理、计算机视觉、模式识别等技术,对摄像头捕获的车辆照片或视频进行分析,进而自动识别车辆的车牌号码。车牌识别技术可应用于停车场自动收费管理、道路监控等领域,在城市交通管理中发挥了重要作用。
1 中国专利申请情况分析
以CNABS专利数据库中的检索结果为分析样本,介绍车牌识别技术的中国专利申请量趋势以及重要申请人的状况。
1.1 第一阶段(2005年及之前)
在这阶段,申请量极少且申请人也极少,且针对的环境较为简单,处于技术的萌芽阶段,其中,专利CN1529276,通过车牌定位、字符分割和分类识别完成机动车牌号自动识别,其实现过程较为简单,具体细节描述较少。
1.2 第二阶段(2006年-2010年)
在这阶段的申请量比上一阶段有所增加,而且申请人数量相较之前也有增长,其中来自高校的申请量明显增加,反映出了高校研究者开始更加注重对研究成果的保护,这一阶段的专利所针对的环境场景更为复杂,识别准确率得到提高,对车牌定位、字符分割、字符识别等关键技术的研究更为深入。
1.3 第三阶段(2011年及以后)
在2011年之后车牌识别技术的专利申请量呈现快速增长,这一阶段车牌识别技术得到了更进一步的丰富,涉及的关键技术的解决途径也呈现出多样性,检测效率和精度也得到进一步提高,其中,专利CN104035954A,涉及一种基于Hadoop的套牌车识别方法,将云计算应用于车牌识别,使得与传统环境下不经过优化的方法相比具有^高的运行效率和加速比,可以有效地识别套牌车。
图2示出了中国重要申请人分布情况,申请量分布前十的申请人包括:电子科技大学、深圳市捷顺科技实业股份有限公司(捷顺科技)、浙江宇视科技有限公司(宇视科技)、信帧电子技术(北京)有限公司(信帧电子)、中国科学院自动化研究所(自动化研究所)、安徽清新互联信息科技有限公司(清新互联)、青岛海信网络科技股份有限公司(海信网络)、浙江工业大学、四川川大智胜软件股份有限公司(川大智胜)、上海高德威智能交通系统有限公司(高德威智能交通),从图2中可以看出,不同申请人的申请量差距不是很大,几乎保持在一个比较持平的状态。
电子科技大学在车牌识别技术的专利申请中,CN 101064011A提出一种基于小波变换的复杂背景中的车牌提取方法,可大大提高对晴天、雨天、雾天、白天及夜晚等环境的通用性和适用性,实现车牌的精确定位并提高车牌提取的准确度;CN 103455815A提出一种复杂场景下的自适应车牌字符分割方法,能快速、准确地搜索2、3字符间隔位置,实现自适应调整分割参数,使车牌字符分割稳定可靠,在复杂的环境中鲁棒性强,防止噪声干扰;CN 105005757A提出一种基于Grassmann流行的车牌字符识别方法,最大限度地利用了已获得的车牌字符信息以及同类字符之间的相互关系,对于车牌字符的成像质量要求更低,应用于复杂的环境中具有很好的鲁棒性和准确性。
2 关键技术分析
一个完整的车牌定位与识别系统,其前端包括图像采集和传输系统,末端还需要与数据库相连接。从定位到识别的核心算法上,主要包括图像预处理、车牌定位、字符分割和字符识别四大部分[3]。
图像预处理,是指通过对摄像头捕获的彩色图像进行预处理。常用的预处理方法包括图像灰度化、图像二值化、边缘检测等。
车牌定位,是指在经预处理后的车辆图像中,定位出车辆的车牌所在位置。常用的车牌定位方法包括基于纹理分析的方法、基于数学形态学的方法、基于边缘检测的方法、基于小波变换的方法和基于神经网络的方法等。CN 104298976A提出一种基于卷积神经网络的车牌检测方法,利用卷积神经网络完整车牌识别模型对车牌粗选区域进行筛选,获取车牌最终候选区域。
字符分割,是指将定位出的车牌区域图像分割成单个的字符图像。常用的字符分割方法包括基于轮廓的方法、基于投影的方法、基于模板匹配的方法和基于连通区域的方法等。CN 104408454A提出一种基于弹性模板匹配算法的车牌字符分割方法,基于弹性模板,通过插空进行模板序列形状的弹性调整,将车牌图片与理想模板进行匹配,获得全局最优匹配,确定字符位置,将分割算法作用于投影序列,实现对车牌字符的分割。
字符识别,是指对字符分割之后的单个字符图像进行识别,进而得到车辆的车牌号码。常用的车牌字符识别方法包括基于字符结构特征的识别方法、基于模板匹配的识别方法、基于神经网络的识别方法、基于模糊理论的模式识别方法和基于支持向量机分类识别方法等。CN 105975968A提出一种基于Caffe框架的深度学习车牌字符识别方法,以基于Caffe架构的深度学习为基础,解决了现有的车牌字符识别方法中对倾斜、断裂、相近字符识别精度不高的问题,大大提高了对于车牌字符的识别精度。
3 结束语
本文以车牌识别相关专利文献为样本,分析统计了该技术中国专利申请现状,并对车牌识别技术的关键技术进行简单分析。在经历了从无到有、从萌芽到飞速发展的阶段之后,车牌识别技术慢慢走向成熟,越来越多的企业和高校在车牌识别的研究上投入了大量的精力,也获得了丰硕的研究成果。
参考文献
[1]尹旭.汽车牌照定位研究综述[J].电脑知识与技术,2010,6(14):3729-3730.
关键词人脸识别;特征提取
1人脸识别技术概述
近年来,随着计算机技术的迅速发展,人脸自动识别技术得到广泛研究与开发,人脸识别成为近30年里模式识别和图像处理中最热门的研究主题之一。人脸识别的目的是从人脸图像中抽取人的个性化特征,并以此来识别人的身份。一个简单的自动人脸识别系统,包括以下4个方面的内容:
(1)人脸检测(Detection):即从各种不同的场景中检测出人脸的存在并确定其位置。
(2)人脸的规范化(Normalization):校正人脸在尺度、光照和旋转等方面的变化。
(3)人脸表征(FaceRepresentation):采取某种方式表示检测出人脸和数据库中的已知人脸。
(4)人脸识别(Recognition):将待识别的人脸与数据库中的已知人脸比较,得出相关信息。
2人脸识别算法的框架
人脸识别算法描述属于典型的模式识别问题,主要有在线匹配和离线学习两个过程组成,如图1所示。
图1一般人脸识别算法框架
在人脸识别中,特征的分类能力、算法复杂度和可实现性是确定特征提取法需要考虑的因素。所提取特征对最终分类结果有着决定性的影响。分类器所能实现的分辨率上限就是各类特征间最大可区分度。因此,人脸识别的实现需要综合考虑特征选择、特征提取和分类器设计。
3人脸识别的发展历史及分类
人脸识别的研究已经有相当长的历史,它的发展大致可以分为四个阶段:
第一阶段:人类最早的研究工作至少可追朔到二十世纪五十年代在心理学方面的研究和六十年代在工程学方面的研究。
J.S.Bruner于1954年写下了关于心理学的Theperceptionofpeople,Bledsoe在1964年就工程学写了FacialRecognitionProjectReport,国外有许多学校在研究人脸识别技术[1],其中有从感知和心理学角度探索人类识别人脸机理的,如美国TexasatDallas大学的Abdi和Tool小组[2、3],由Stirling大学的Bruce教授和Glasgow大学的Burton教授合作领导的小组等[3];也有从视觉机理角度进行研究的,如英国的Graw小组[4、5]和荷兰Groningen大学的Petkov小组[6]等。
第二阶段:关于人脸的机器识别研究开始于二十世纪七十年代。
Allen和Parke为代表,主要研究人脸识别所需要的面部特征。研究者用计算机实现了较高质量的人脸灰度图模型。这一阶段工作的特点是识别过程全部依赖于操作人员,不是一种可以完成自动识别的系统。
第三阶段:人机交互式识别阶段。
Harmon和Lesk用几何特征参数来表示人脸正面图像。他们采用多维特征矢量表示人脸面部特征,并设计了基于这一特征表示法的识别系统。Kaya和Kobayashi则采用了统计识别方法,用欧氏距离来表征人脸特征。但这类方法需要利用操作员的某些先验知识,仍然摆脱不了人的干预。
第四阶段:20世纪90年代以来,随着高性能计算机的出现,人脸识别方法有了重大突破,才进入了真正的机器自动识别阶段。在用静态图像或视频图像做人脸识别的领域中,国际上形成了以下几类主要的人脸识别方法:
1)基于几何特征的人脸识别方法
基于几何特征的方法是早期的人脸识别方法之一[7]。常采用的几何特征有人脸的五官如眼睛、鼻子、嘴巴等的局部形状特征。脸型特征以及五官在脸上分布的几何特征。提取特征时往往要用到人脸结构的一些先验知识。识别所采用的几何特征是以人脸器官的形状和几何关系为基础的特征矢量,本质上是特征矢量之间的匹配,其分量通常包括人脸指定两点间的欧式距离、曲率、角度等。
基于几何特征的识别方法比较简单、容易理解,但没有形成统一的特征提取标准;从图像中抽取稳定的特征较困难,特别是特征受到遮挡时;对较大的表情变化或姿态变化的鲁棒性较差。
2)基于相关匹配的方法
基于相关匹配的方法包括模板匹配法和等强度线方法。
①模板匹配法:Poggio和Brunelli[10]专门比较了基于几何特征的人脸识别方法和基于模板匹配的人脸识别方法,并得出结论:基于几何特征的人脸识别方法具有识别速度快和内存要求小的优点,但在识别率上模板匹配要优于基于几何特征的识别方法。
②等强度线法:等强度线利用灰度图像的多级灰度值的等强度线作为特征进行两幅人脸图像的匹配识别。等强度曲线反映了人脸的凸凹信息。这些等强度线法必须在背景与头发均为黑色,表面光照均匀的前提下才能求出符合人脸真实形状的等强度线。
3)基于子空间方法
常用的线性子空间方法有:本征子空间、区别子空间、独立分量子空间等。此外,还有局部特征分析法、因子分析法等。这些方法也分别被扩展到混合线性子空间和非线性子空间。
Turk等[11]采用本征脸(Eigenfaces)方法实现人脸识别。由于每个本征矢量的图像形式类似于人脸,所以称本征脸。对原始图像和重构图像的差分图像再次进行K-L变换,得到二阶本征空间,又称二阶本征脸[12]。Pentland等[13]提出对于眼、鼻和嘴等特征分别建立一个本征子空间,并联合本征脸子空间的方法获得了好的识别结果。Shan等[14]采用特定人的本征空间法获得了好于本征脸方法的识别结果。Albert等[15]提出了TPCA(TopologicalPCA)方法,识别率有所提高。Penev等[16]提出的局部特征分析(LFALocalFeatureAnalysis)法的识别效果好于本征脸方法。当每个人有多个样本图像时,本征空间法没有考虑样本类别间的信息,因此,基于线性区别分析(LDALinearDiscriminantAnalysis),Belhumeur等[17]提出了Fisherfaces方法,获得了较好的识别结果。Bartlett等[18]采用独立分量分析(ICA,IndependentComponentAnalysis)的方法识别人脸,获得了比PCA方法更好的识别效果。
4)基于统计的识别方法
该类方法包括有:KL算法、奇异值分解(SVD)、隐马尔可夫(HMM)法。
①KL变换:将人脸图像按行(列)展开所形成的一个高维向量看作是一种随机向量,因此采用K-L变换获得其正交K-L基底,对应其中较大特征值基底具有与人脸相似的形状。国外,在用静态图像或视频图像做人脸识别的领域中,比较有影响的有MIT的Media实验室的Pentland小组,他们主要是用基于KL变换的本征空间的特征提取法,名为“本征脸(Eigenface)[19]。
②隐马尔可夫模型:剑桥大学的Samaria和Fallside[20]对多个样本图像的空间序列训练出一个HMM模型,它的参数就是特征值;基于人脸从上到下、从左到右的结构特征;Samatia等[21]首先将1-DHMM和2-DPseudoHMM用于人脸识别。Kohir等[22]采用低频DCT系数作为观察矢量获得了好的识别效果,如图2(a)所示。Eickeler等[23]采用2-DPseudoHMM识别DCT压缩的JPEG图像中的人脸图像;Nefian等采用嵌入式HMM识别人脸[24],如图2(b)所示。后来集成coupledHMM和HMM通过对超状态和各嵌入状态采用不同的模型构成混合系统结构[25]。
基于HMM的人脸识别方法具有以下优点:第一,能够允许人脸有表情变化,较大的头部转动;第二,扩容性好.即增加新样本不需要对所有的样本进行训练;第三,较高的识别率。
(a)(b)
图2(a)人脸图像的1-DHMM(b)嵌入式隐马尔科夫模型
5)基于神经网络的方法
Gutta等[26]提出了混合神经网络、Lawrence等[27]通过一个多级的SOM实现样本的聚类,将卷积神经网络CNN用于人脸识别、Lin等[28]采用基于概率决策的神经网络方法、Demers等[29]提出采用主元神经网络方法提取人脸图像特征,用自相关神经网络进一步压缩特征,最后采用一个MLP来实现人脸识别。Er等[30]采用PCA进行维数压缩,再用LDA抽取特征,然后基于RBF进行人脸识别。Haddadnia等[31]基于PZMI特征,并采用混合学习算法的RBF神经网络进行人脸识别。神经网络的优势是通过学习的过程获得对这些规律和规则的隐性表达,它的适应性较强。
6)弹性图匹配方法
Lades等提出采用动态链接结构(DLA,DynamicLinkArchitecture)[32]的方法识别人脸。它将人脸用格状的稀疏图如图3所示。
图3人脸识别的弹性匹配方法
图3中的节点用图像位置的Gabor小波分解得到的特征向量标记,图的边用连接节点的距离向量标记。Wiskott等人使用弹性图匹配方法,准确率达到97.3%。Wiskott等[33]将人脸特征上的一些点作为基准点,构成弹性图。采用每个基准点存储一串具有代表性的特征矢量,减少了系统的存储量。Wurtz等[34]只使用人脸ICI部的特征,进一步消除了结构中的冗余信息和背景信息,并使用一个多层的分级结构。Grudin等[35]也采用分级结构的弹性图,通过去除了一些冗余节点,形成稀疏的人脸描述结构。另一种方法是,Nastar等[36]提出将人脸图像I(x,y)表示为可变形的3D网格表(x,y,I(x,y)),将人脸匹配问题转换为曲面匹配问题,利用有限分析的方法进行曲面变形,根据两幅图像之间变形匹配的程度识别人脸。
7)几种混合方法的有效性
(1)K-L投影和奇异值分解(SVD)相融合的分类判别方法。
K-L变换的核心过程是计算特征值和特征向量。而图像的奇异值具有良好的稳定性,当图像有小的扰动时,奇异值的变化不大。奇异值表示了图像的代数特征,在某种程度上,SVD特征同时拥有代数与几何两方面的不变性。利用K-L投影后的主分量特征向量与SVD特征向量对人脸进行识别,提高识别的准确性[37]。
(2)HMM和奇异值分解相融合的分类判别方法。
采用奇异值分解方法进行特征提取,一般是把一幅图像(长为H)看成一个N×M的矩阵,求取其奇异值作为人脸识别的特征。在这里我们采用采样窗对同一幅图片进行重叠采样(如图4),对采样所得到的矩阵分别求其对应的前k个最大的奇异值,分别对每一组奇异值进行矢量标准化和矢量重新排序,把这些处理后的奇异值按采样顺序组成一组向量,这组向量是惟一的[38]。
图4采样窗采样
综合上述论文中的实验数据表明[39],如表1:
表1人脸识别算法比较
8)基于三维模型的方法
该类方法一般先在图像上检测出与通用模型顶点对应的特征点,然后根据特征点调节通用模型,最后通过纹理映射得到特定人脸的3D模型。Tibbalds[40]基于结构光源和立体视觉理论,通过摄像机获取立体图像,根据图像特征点之间匹配构造人脸的三维表面,如图5所示。
图5三维人脸表面模型图6合成的不同姿态和光照条件下二维人脸表面模型
Zhao[41]提出了一个新的SSFS(SymetricShape-from-Shading)理论来处理像人脸这类对称对象的识别问题,基于SSFS理论和一个一般的三维人脸模型来解决光照变化问题,通过基于SFS的视图合成技术解决人脸姿态问题,针对不同姿态和光照条件合成的三维人脸模型如图6所示。
三维图像有三种建模方法:基于图像特征的方法[42、43]、基于几何[44]、基于模型可变参数的方法[45]。其中,基于模型可变参数的方法与基于图像特征的方法的最大区别在于:后者在人脸姿态每变化一次后,需要重新搜索特征点的坐标,而前者只需调整3D变形模型的参数。三维重建的系统框图,如图7所示。
图7三维建模的系统框图
三维人脸建模、待识别人脸的姿态估计和识别匹配算法的选取是实现三维人脸识别的关键技术。随着采用三维图像识别人脸技术的发展,利用直线的三维图像信息进行人脸识别已经成为人们研究的重心。
4总结与展望
人脸自动识别技术已取得了巨大的成就,随着科技的发展,在实际应用中仍然面临困难,不仅要达到准确、快速的检测并分割出人脸部分,而且要有效的变化补偿、特征描述、准确的分类的效果,还需要注重和提高以下几个方面:
(1)人脸的局部和整体信息的相互结合能有效地描述人脸的特征,基于混合模型的方法值得进一步深入研究,以便能准确描述复杂的人脸模式分布。
(2)多特征融合和多分类器融合的方法也是改善识别性能的一个手段。
(3)由于人脸为非刚体性,人脸之间的相似性以及各种变化因素的影响,准确的人脸识别仍较困难。为了满足自动人脸识别技术具有实时要求,在必要时需要研究人脸与指纹、虹膜、语音等识别技术的融合方法。
(4)3D形变模型可以处理多种变化因素,具有很好的发展前景。已有研究也表明,对各种变化因素采用模拟或补偿的方法具有较好的效果。三维人脸识别算法的选取还处于探索阶段,需要在原有传统识别算法的基础上改进和创新。
(5)表面纹理识别算法是一种最新的算法[52],有待于我们继续学习和研究出更好的方法。
总之,人脸识别是极富挑战性的课题仅仅采用一种现有方法难以取得良好的识别效果,如何与其它技术相结合,如何提高识别率和识别速度、减少计算量、提高鲁棒性,如何采用嵌入式及硬件实现,如何实用化都是将来值得研究的。
参考文献
[1]O''''TooleAJ,AbdiH,DeffenbacherKA,etal.Alowdimensionalrepresentationoffacesinthehigherdimensionsofspace.[J].JournaloftheOpticalSocietyof2America,1993,10:405~411
[2]张翠萍,苏光大.人脸识别技术综述.中国图像图形学报,2000,5(11):885-894
[3]A.Samal,P.A.Iyengar.Automaticrecognitionandanalysisofhumanfacesandfacialexpressions:asurvey[J].PatternRecognition,1992,25(1):65-67
[4]TurkM,PentlandA.Eigenfacesforrecognition[J].JournalofCognitiveNeuroscience,1991,3(1):71~86
[5]BartlettMS,MovellanJR,SejnowskiTJ.FaceRecognitionbyIndependentComponentAnalysis[J].IEEETrans.onNeuralNetwork,2002,13(6):1450-1464
[6]ManjunathBS,ShekharCandChellappaR.Anewapproachtoimagefeaturedetectionwithapplication[J].Patt.Recog,1996,29(4):627-640
[7]ChengY.LiuK,YangJ,etal.Humanfacerecognitionmethodbasedonthestatisticalmodelofsmallsamplesize.SPIEProc,Intell.RobotsandComputerVisionX:AlgorithmsandTechn.1991,1606:85-95
[8]NefianAVEmbeddedBayesianNetworksforFaceRecognition[A].Proceedings.IEEEInternationalConferenceonMultimediaandExpo[C]2002,2:133-136
[9]GuttaS,WechslerH.FaceRecognitionUsingHybridClassifiers[J].PatternRecognition,1997,30(4):539-553
[10]HaddadniaJ,AhmadiM,FaezKAHybridLearningRBFNeuralNetworkforHumanFaceRecognitionwithPseudoZernikeMomentInvariant[A].Proceedingsofthe2002InternationalJointConferenceonNeuralNetworks[C].2002,1:11-16
[11]M.Lades,J.C.Vorbruggen,J.Buhmann,ect.Distortioninvariantobjectrecognitioninthedynamiclinkarchitecture.IEEETrans.onComputer,1993,42(3):300-311
[12]NastarC,MoghaddamBA.FlexibleImages:MatchingandRecognitionUsingLearnedDeformations[J].ComputerVisionandImageUnderstanding,1997,65(2):179-191
[13]羊牧.基于KL投影和奇异值分解相融合人脸识别方法的研究[D].四川大学.2004,5,1
[14]白冬辉.人脸识别技术的研究与应用[D].北方工业大学.2006,5
关键词:深度学习;人脸识别;深度信念网络
中图分类号:TP391.41 文献标识码:A 文章编号:1009-3044(2016)35-0184-03
在实际应用中,采集到的人脸图像往往是具有多种姿态变化的,受姿态变化影响,人脸图像识别性能迅速下降,这是人脸识别中一个最为突出的难题。姿态变化将非线性因素引入了人脸识别,而现有的一些机器学习方法大多使用浅层结构,难以有效表示复杂函数。而深度学习可通过一种深层非线性网络结构实现复杂函数逼近,表征输入数据分布式表示,体现出它对于输入样本数据的强大的本质特征的抽取能力。因此本文将运用深度神经网络的方法克服姿态变量的影响,并在实验数据集上进行一系列验证试验从而得出结论。
1 简介
在实际应用中,姿态变化成为人脸识别的瓶颈问题。跨姿态人脸识别方法通常分为三类:通用型算法,二维算法和三维算法,在此仅介绍通用型算法。通用型算法是为解决一般的人脸识别而设计的,本身即包括处理图像中姿态变化等因素。通用型算法主要有以主成分分析(Prinxipal Componet Analysis,PCA,也称为特征脸)[[1]],Fisher判别分析(Fisher Discriminant Analysis,FDA,也称为线性判别分析,简称LDA)[2],局部二值模式(LBP)[3],自组织映射和卷积网络,模板匹配,模块化PCA等,这些方法都基于二维面部图像中提取的分类模式,从现有库已知的图像中识别输入的人脸图像。我们选取LDA方法作为研究基础,同时引入深度学习,通过构建具有多层隐层的机器学习模型和海量训练数据,来学习更有用的特征。
3.2 参数更新
采用自顶向下的监督学习,通过最小化的损失函数重建误差。基于第一步得到的各层参数进一步调节整个多层模型的参数,利用梯度下降法微调整个网络参数,对DBN进行优化。这一步是一个有监督训练过程。由于深度学习的第一步不是随机初始化,而是通过学习输入数据的结构得到的,因而这个初值更接近全局最优,从而能够取得更好的效果。
4 实验
4.1 实验数据
为了能够在较大范围不同姿态下评估该方法,我们选择了MultiPIE人脸数据库。它是由CMU采集的一组包含用姿态、光照和表情三个因素变化构成的人脸库。库中包含68个人,每个人有13种不同的姿态,3-4种不同的表情和多组不同光照。相较于其他数据库,MultiPIE人脸库包含因素最为丰富,采集条件最为真实,且包含较大的姿态变化和垂直深度上的旋转,便于我们对该方法进行充分评估。
4.2 实验结果
我们采用MATLAB2012B编写重构Demo,由此获得了重构后的人脸图像,图3截取了一部分实验结果。由此可以清晰看到,我们重构人脸的方法可以去除不同姿态的影响,并且保持了人脸轮廓和结构。
基于LDA算法,我们计算出了人脸重构前后的识别率,如表格1所示。显然,重构后人脸的识别率远高于重构前。经统计,旋转角度为+15°和-15°的人脸图像识别率平均上升7.75%,+30°和-30°的人脸图像识别率平均上升8.67%,而+45°和-45°的人脸图像识别率平均上升了13%,由此可见,我们的算法对于旋转角度大的姿态优势更加明显。
另外,我们将试验结果与其他关于姿态变化的研究结果进行了比较。如表格2所示,LGBP[11]属于二维方法,而VAAM,FA-EGFC[12]和SA-EGFC均为三维方法,且除FA-EGFC外,其他方法都需要知道探测器的角度。结果显示,我们所用的方法识别率在各个角度均为最高,且忽略角度的影响。显然,相较于这几种方法,我们的方法更具有优越性和稳定性。
5 结语
从结果分析中可以看出经过深度学习网络转换后的人脸识别率明显高于未经过转换的,且部分识别率达到了100%,显然本文的方法在姿态因素问题的处理上表现出明显的优势,尤其在旋转角度较大的情况下有较大提升。实验说明FIP特征不仅仅对姿态变化具有健壮性,而且可以用来重建人脸图像。
在未来的工作中,我们将扩展框架以便于在其他困难条件下进行人脸识别,同时会将FIP方法进行进一步的提高。
参考文献:
[1] TURK M A,PENTLAND A P. Face recognition using eigenfaces [C]. Computer Vision and Pattern Recognition,San Diego,1991:22-28.
[2] ZHAO W,KRISHNASWAMY A,CHELLAPPA R,et al. Discriminant analysis of principal components for face recognition [M]. Face Recognition. Berlin Heidelberg :Springer.1998
[3] S. Li, X. Liu, X. Chai, H. Zhang, S. Lao, and S. Shan. Morphable displacement field based image matching for face recognition across pose. In ECCV. 2012.
[4] C. D. Castillo and D. W. Jacobs. Wide-baseline stereo for face recognition with large pose variation. In CVPR, 2011.
[5] A. Asthana, T. K. Marks, M. J. Jones, K. H. Tieu, and M. Rohith. Fully automatic pose-invariant face recognition via 3d pose normalization. In ICCV, 2011.
[6] Zhenyao Zhu1,? Ping Luo1,3,? Xiaogang Wang2 Xiaoou Tang1,3,Department of Information Engineering, The Chinese University of Hong Kong,Department of Electronic Engineering, The Chinese University of Hong Kong,Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences
[7] Q. V. Le, J. Ngiam, Z. Chen, D. Chia, P. W. Koh, and A. Y. Ng. Tiled convolutional neural networks. In NIPS, 2010.
[8] G. E. Hinton, S. Osindero, and Y.-W. Teh. A fast learning algorithm for deep belief nets. Neural Computation, 18(7):1527C1554, 2006.
[9] N. Qian. On the momentum term in gradient descent learning algorithms. Neural Networks, 1999
[10] V. Nair and G. E. Hinton. Rectified linear units improve restricted Boltzmann machines. In Proc. 27th International Conference on Machine Learning, 2010.