前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的卷积神经网络存在的问题主题范文,仅供参考,欢迎阅读并收藏。
关键词: 列车车号; 车号识别; 卷积神经网络; LeNet?5
中图分类号: TN911.73?34; TP391 文献标识码: A 文章编号: 1004?373X(2016)13?0063?04
Abstract: For the character recognition of freight train license, the improved recognition method based on convolutional neural network LeNet?5 is proposed. Considering the structural features of the hierarchical convolutional neural network and local field, the parameters of quantity and size of each layer feature pattern in the network were improved correspondingly to form the new network model suitable for the freight train license recognition. The experimental results show that the proposed method has strong robustness to solve the license breakage and stain, and high recognition rate, which provides a guarantee for the accuracy of the entire license recognition system.
Keywords: train license; license recognition; convolutional neural network; LeNet?5
0 引 言
目前货运列车车号识别系统[1?2]主要是基于RFID技术实现的,但是,由于该系统的准确性依赖于列车底部安装的RFID标签,而RFID标签容易损坏、丢失,因此,此类系统无法保证车号识别的准确性。为此,研究者开发了基于图像的货运列车车号识别系统,系统根据视频采集到的图像,利用模糊集合论[1?2]、人工神经网络[3]、支持向量机[4]以及隐马尔可夫模型[4]等技术进行车号字符的识别。但是,由于货运列车车号存在因喷涂方式而导致的单个字符断裂,或者列车长期的野外运行导致的车厢污损,车号字符的残缺等现象,这使得目前的基于图像的货运列车车号识别系统的鲁棒性与识别率还有待进一步提高。
LeNet?5[5?7]是由YannLecun等人提出的一种专门用于二维图像识别的卷积神经网络,该网络避免了人工提取特征依赖于主观意识的缺点,只需要将归一化大小的原始图像输入网络,该网络就可以直接从图像中识别视觉模式。LeNet?5把特征提取和识别结合起来,通过综合评价和学习,并在不断的反向传播过程中选择和优化这些特征,将特征提取变为一个自学习的过程,通过这种方法找到分类性能最优的特征。LeNet?5已经成功应用于银行对支票手写数字的识别中。
为此,本文将卷积神经网络LeNet?5应用于列车车号字符的识别中,为了使之适用于列车车号字符的识别需求,去除掉了LeNet?5中的一些针对手写字符识别而特别设计的连接方式及参数,并在此基础上,改变网络中各层特征图的数量以形成新的网络模型。
1 LeNet?5的改进
卷积神经网络可以从很多方面着手改进。诸如多层前馈网络,可以考虑在误差函数中增加惩罚项使得训练后得到趋向于稀疏化的权值,或者增加一些竞争机制使得在某个特定时刻网络中只有部分节点处在激活状态等。本文主要从卷积神经网络的层次化以及局部邻域等结构上的特点入手,考虑卷积神经网络中各层特征图数量及大小对网络训练过程及识别结果的影响。
以LeNet?5结构为基础,去除掉LeNet?5中的一些针对手写字符识别而特别设计的连接方式及参数,得到改进后的神经网络。在此基础上,改变网络中各层特征图的数量以形成新的网络模型。定义一种新的网络模型,将其命名为LeNet?5.1,该网络结构与LeNet?5基本相同,主要做出以下改变:
(1) 将原先LeNet?5所采用的激活函数由双曲正切函数修改为Sigmoid函数,此时,网络中所有层的输出值均在[0,1]区间内,输出层的最终结果也将保持在[0,1]区间内。
(2) 省略掉F6层,将输出层与C5层直接相连,连接方式为全连接,而不是原LeNet?5中所采用的径向基函数(RBF)网络结构。
(3) 简化原LeNet?5中的学习速率。原LeNet?5网络中采用的学习速率为一个特殊的序列,而在本网络中将学习速率固定为0.002。
(4) 输入数据原始尺寸为28×28,采取边框扩充背景像素的方法将图像扩充至32×32。
之所以做以上相关改动,是因为原始的LeNet?5就是专门为手写字符识别任务而特殊设计的,这就造成了LeNet?5网络中相关的预处理及参数的选择过程或多或少均带有一些针对特定问题的先验知识。例如激活函数中参数的选择,学习速率定的速率序列以及数据预处理殊的填充方式等,这些特定的设计使得LeNet?5在其他任务的识别过程中并不一定适用,或者需要进行长期的观察实验以选得一组针对特定任务的较好的值,造成了LeNet?5不能快速的应用于除手写字符外其他的识别任务中。
2 改进后的网络对列车车号字符的识别
车号经过分割之后为一个个的单字符图像,采用边框扩充背景像素的方法将其归一化为32×32,如图1所示。
由图1中可以看出,待识别的字符图像质量不高,有的数字字符出现残缺、断裂或者严重变形。这都给识别任务提出了一定的挑战。
本文采集到的车号图像来自于不同型号的货运列车。从中选取400幅图像作为训练集,另外选取400幅图像作为测试集。用上一节提出的LeNet?5.1网络进行训练,误分类率曲线如图2所示。可以看出,在LeNet?5.1训练过程中,训练MCR(Misclassification Rate)和测试MCR的变化过程相对稳定,验证了改进后网络结构的合理性。在经过16次的迭代之后,测试MCR降至最低(5.75%),之后基本保持稳定,即16次迭代之后,网络达到了当前的最佳训练效果,达到了收敛状态。这时,训练MCR为0.5%,测试MCR是5.75%。
训练过程中的误分类率曲线
而针对相同的数据,采用原始的LeNet?5进行训练和测试后,误分类率如图3所示。从图3中可以看出,LeNet?5经过了18次的迭代后,测试MCR才达到相对稳定的状态,降至6%,最终的训练MCR为1%。相比之下,经过简化和改进的LeNet?5.1,由于改进了原始的LeNet?5中专门为手写字符识别任务而特殊设计的一些预处理及函数选择等固定模式,并且精简了网络结构,使得LeNet?5.1在列车车号的识别方面具有了更快的训练速度和收敛速度,另外,最终达到的准确度也有所提升。
在证明了改进后的LeNet?5.1网络的合理性之后,增加训练图像的规模,采用10 000幅车号数字字符图像用来训练,5 000幅用来测试。为了与其他方法进行比较,采用相同的训练数据对车号识别中常用的三层BP网络进行训练和测试,这里采用的BP网络隐含层节点数量为450,学习速率采用0.01。实验结果比较如表1所示。从表1可以看出,改进后的LeNet?5.1网络的识别率比BP网络的识别率高出4.62个百分点,在识别速度方面,LeNet?5.1也明显优于传统的BP神经网络。
3 针对车型号字母识别而改进的神经网络及其结果
货运列车车号的组成是由车型号与车号共同组成的,因此还需要对车型号进行识别,车型号中除了有阿拉伯数字字符之外,还有很多表示车种及车厢材质等属性的英文字母,这些英文字母同样采用卷积神经网络来识别。由于车型号很多,初期针对若干常用型号的列车进行识别,以测试网络的性能,后期对全车型进行识别。
3.1 常用列车车型的识别
在试运行阶段主要识别的车型局限于7种主要的车型:C64K,C64H,C70A,C70E,C80,C62AK和C62BK。由于车种都为敞篷车(第一个大写字母C),主要对后面代表该车型载重量的两位数字以及最后代表车厢材质等属性的字母进行识别。考虑到车型号字符串的固定模式,如图4所示,可以分别建立两个不同的卷积神经网络分别用来识别数字和字母,由于之前已经解决了数字的识别问题,接下来主要进行字母的识别。要识别的代表车厢材质的字母共有6个:K,H,A,E,A和B,为了尽可能的避免因字母分割问题而导致的识别错误,把AK和BK分别作为一个整体来识别,那么需要识别的字符组合变为:K,H,A,E,AK和BK。由于识别种类的减少,可以对网络模型LeNet?5.1进行相应的简化,命名该模型为LeNet?5.2。
LeNet?5.2是在LeNet?5.1的基础上进行改动而得到的:
(1) 卷积层C1的特征图由6个减少为4个,相应地,S2层的特征图也由6个减少为4个。
(2) 卷积层C3的特征图由16个减少为11个,相应地,S4层的特征图也由16个减少为11个。
(3) 卷积层C5的特征图个数由120个减少为80个。
(4) 输出分类的数目由10个减少为6个。
另外,卷积层C3层与次抽样层S2层的连接情况如表2所示。
表2的连接方式采用与表1相同的思想,每一列都说明了C3层中的一个特征图是由S2中的那几个特征图结合而成。卷积层C3中第0个至第5个特征图分别与次抽样层S2中的两个特征图相连接,一共6种组合。C3中的这6个特征图负责抽取上一层中某两个特征图所潜在的特征。C3层中第6个至第9个特征图中每个特征图分别对应上一层中的3个特征图的组合,而C3层中最后一个特征图则与上一层中所有的特征图相连接。这样卷积层C3中的特征图就包含了次抽样层S2中多个特征图的所有组合,这样使得卷积层C3抽取到的特征比S2层更抽象、更高级,同时,相对于输入数据,C3层相比S2层具有更好的对位移、扭曲等特征的不变性。
相比LeNet?5.1,LeNet?5.2将网络层中的特征图数量做了相应的削减,减少了网络中可训练参数的数量。
实验数据来自以上提到的7类常用车型。经过前面过程的定位和分割之后,将分割之后代表车厢材质等属性的字母图像收集起来。本实验中,共收集到6种代表不同车厢材质属性的字母共800幅,其中400幅用作训练数据,另外400幅用作测试数据。
图5为LeNet?5.2使用以上数据训练过程中得到的MCR曲线图。由图5中可以看出,在经过13次迭代之后,测试MCR达到最低的3.25%,并且在随后的迭代过程中基本保持稳定,而对应的训练MCR为0.75%。
3.2 全车型识别
经过对铁道行业标准《铁路货车车种车型车号编码》(TB2435?93)里面包含的所有车型号进行统计,除了10个阿拉伯数字外,包括了除O,R,V,Z四个字母外所有的大写英文字母,总共有32类字符。
训练过程中的误分类率曲线
针对车型号的识别需求,本文在LeNet?5.1的基础上提出了一种新的网络模型,称之为LeNet?5.3。与LeNet?5.2相反,LeNet?5.3是在LeNet?5.1的基础上对网络中各层的特征图数量进行扩充:
(1) 卷积层C1的特征图由6个增加至8个,相应地,S2层的特征图也由6个增加至8个。
(2) 卷积层C3的特征图由16个增加至24个,相应地,S4层的特征图也由16个增加至24个。
(3) 卷积层C5的特征图个数由120个增加至240个。
(4) 输出层神经元的个数由10个增加至32个。
其中卷积层C3层与次抽样层S2层的连接情况参考LeNet?5.2所采用的原则,使卷积层C3中的特征图包含次抽样层S2中多个特征图的主要组合。
与LeNet?5.1相比,LeNet?5.3需要有更多的输出类别,各层的特征图数量也做了相应的增加,以增加整个网络的识别性能。为了验证改进后的LeNet?5.3的性能,收集了大量真实列车车厢图片,经过车号定位和分割之后,将单个的数字字符或者大写字母字符图像尺寸依次归一化为32×32,分别建立训练图像库和测试图像库。
由于LeNet?5.1各层的特征图数量多,因此该网络涉及到的可训练参数也大大增加,这也意味着需要更多的数据样本用于网络训练。若训练集和测试集规模依然采用跟前面实验中一样的各400幅,训练过程中的误分类率曲线如图6所示,图6中的曲线变化非常不稳定,波动较大。测试MCR达到最低点后又突然升高,不能获得稳定的分类结果,训练过程无法收敛。
网络训练过程中无法收敛的主要原因在于相比网络中过多的需要训练确定的权值,数据集规模过小,已然不能满足学习的要求。从特征图角度来看,网络无法通过不充足的训练样本学习到稳定而有效的特征图组合,从而导致了网络不收敛。要解决这个问题需要加大测试样本的数量。
为了训练和测试LeNet?5.3,对数据集进行了扩充:训练图像库包含字符图像4 000幅,测试图像库包含字符图像2 000幅。训练过程中的误分类率曲线如图7所示。从图7中可以看出,经过32次迭代之后网络趋于收敛,并且达到了较好的识别率。
4 结 语
本文针对货运列车车号识别的难题,提出了基于卷积神经网络LeNet?5改进后的识别方法,主要对卷积神经网络中各层特征图数量及大小进行了改进。且与传统的BP网络进行了比较,从实验结果可以看出,改进后的卷积神经网络无论在鲁棒性还是识别率以及识别速度上都优于BP网络,可以很好地胜任列车车号识别任务。
参考文献
[1] 宋敏.铁路车辆车号自动识别系统的研究和开发[D].天津:河北工业大学,2011:1?5.
[2] LU S, CHEN B M, KO C C. Perspective rectification of document images using fuzzy set and morphological operations [J]. Image and vision computing, 2005, 23(5): 541?553.
[3] SHAH P, KARAMCHANDANI S, NADKAR T, et al. OCR?based chassis?number recognition using artificial neural networks [C]// Proceedings of 2009 IEEE International Conference on Vehicular Electronics and Safety (ICVES). [S.l.]: IEEE, 2009: 31?34.
[4] CHEN D, BOURLARD H, THIRAN J P. Text identification in complex background using SVM [C]// Proceedings of 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2001: 621?626.
[5] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278?2324.
[6] LECUN Y A, BOTTOU L, ORR G B, et al. Efficient backprop [M]// Anon. Neural networks: tricks of the trade. Berlin: Springer Berlin Heidelberg, 1998: 9?50.
关键词:PCA算法;人脸识别;五级并行PCA模型;权重计算;均值滤波
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)19-0147-02
Research on Face Recognition System Based on Parallel PCA Algorithm
ZHAO Ya-peng
(College of Information Science and Engineering, Shandong University of Science and Technology, Qingdao 266590, China )
Abstract:In order to solve the problem of fast and accurate face recognition, a face recognition method based on parallel PCA algorithm is proposed. Using principal component analysis (PCA) method can reduce the dimension of features, easy to implement, training time is short, the design and implementation of a parallel algorithm for PCA, first of all according to the whole image to extract the 4 part of face images, then the whole image and 4 partial images at the same time by the same structure of the PCA model of learning, face feature vector extraction, the Euclidean distance for matching calculation of the test images and training images, finally through the test image with the five level parallel PCA model identification results are weighted decision, in order to achieve face recognition. Using the image data of the ORL face database , the simulation results in Matlab show that the method has a great degree of improvement in accuracy, the recognition speed is relatively fast, with a high degree of robustness.
Key words:PCA algorithm;Face recognition;Five level parallel PCA model;Weight calculation;Mean filter
1 概述
随着智能终端设备(手机、Pad、门禁等)的不断发展,身份识别已经成为我们日常生活的重要组成部分,身份验证技术被广泛应用于各个领域,特别是人们对于个人隐私信息的保护,使得身份识别再次成为关注的焦点。人脸识别作为身份识别的重要手段之一,因其具有识别率高、采集性强、接受性高等特点,在身份识别的各类方法中具有独特的优势,成为了目前比较热门的研究领域。
目前,卷积神经网络(Convolutional Neural Networks)是图像识别领域最重要的研究热点,而且在语音识别领域也取得了不错的效果,但是卷积神经网络的整个训练过程比较费时,而且实现相对复杂,而基于PCA算法的人脸识别技术因其自身存在的许多缺陷,一直没有被广泛应用,但该方法实现简单、学习速度较快,因此,本文主要研究改进的并行PCA算法,以弥补传统PCA算法在人脸识别领域的不足。
本文提出的基于并行PCA算法的人脸识别技术,首先对原始图像进行预处理,如灰度归一化和中值滤波等操作,以消除图像噪声、光照等因素造成的影响,使得特征提取更加准确可靠。然后,通过5级并行PCA模型获取数据的不同特征矩阵,然后将训练图像和测试图像分别进行子空间的投影,利用欧氏径向基函数(Euclidean Radial Basis Function)进行人脸的匹配,最后根据训练得到的权值向量进行加权决策。本文通过ORL人脸数据库的仿真实验证明,该算法的效果明显好于PCA算法。
2 并行PCA算法
PCA(Principal Component Analysis)即主成分分析技术,PCA是基于K-L变换的统计学分析方法,是多元分析中常用的方法,其基本思想是将高维数据投影到低维空间,主要过程在于特征值的计算和矩阵的降维。将PCA应用于人脸识别时,首先将图像转化成矩阵向量,然后进行矩阵的奇异值分解(Singular Value Decomposition),将高维向量通过计算得到的特征向量矩阵投影到低维的向量空间,从而减少数据的计算量。
2.1 基于并行PCA算法的人脸识别流程
本文中提出的并行PCA算法,正是基于上述的PCA算法,通过建立5级的PCA算法模型同时进行数据特征的学习,使得最终的人脸识别准确率得到进一步的提高,具体的人脸识别流程如图1所示。
2.2 并行PCA算法的实现的步骤
2.2.1 人脸图像的预处理
首先,需要把ORL人脸数据数据库的所有训练图像大小进行归一化,并转化为像素矩阵,矩阵大小记为,为矩阵的行数,为矩阵的列数。之后利用均值滤波和灰度归一化进行图像的去噪处理,以消除光线等问题对图像造成的影响,以方便后期的特征提取等操作。
2.2.2 人脸图像的PCA降维
根据PCA的原理,可以将每一张图像看成是一个高维的向量,所有的图像可以看成是这个高维空间中的一点,PCA要做的就是找出另外一个尽可能多的反应图像特征的低维空间。
假如样本由n张大小为p*q的人脸图像组成,那么每一张图像可以保存为一列向量,向量维数是p*q,真个样本可以看成是一个行数为n,列数为p*q的矩阵记为矩阵A。
根据上述过程,首先求出矩阵A的协方差矩阵,然后求出协方差矩阵的特征值,选取前m个最大的特征值,然后求出对应的特征向量,组成一个特征矩阵。通常所说的“特征脸”就是这些特征向量,而特种功能矩阵就是“特征脸”空间或者说子空间。然后可以将每一张图片投影到该子空间,得到了每一张图像的投影矩阵(l*m)。
2.2.3 人脸图像的识别
对于待识别的图像,也可以看成是一列向量,投影到子空间得到一个投影矩阵,然后一一求出这个投影矩阵与样本图像投影矩阵最相似的。然而有可能该人脸不是人脸库中的,所以最相似的人脸也不一定是同一个人脸,还需要设置一个阈值来判断待识别人脸是否是人脸库中的。
人脸识别部分正是基于上述的PCA算法,在本文所提出的并行PCA模型中,是由5级的PCA模型同时进行人脸识别这一操作,最后根据训练得到的权值向量进行决策,通过使用多个PCA模型,从而使得整个识别过程的准确率得到进一步的提升。
3 系统设计及实现
3.1 系统总体设计
本文中所提出的基于并行PCA算法的人脸识别系统,包括人脸图像采集模块、图像预处理模块、识别模块。人脸图像采集模块主要是采集训练图像数据和测试图像数据,并由原始图像提取出4幅与之对应的部分图像;图像预处理模块主要就是进行图像归一化和图像的去噪工作,图像的归一化包括大小归一化和灰度归一化,可以使用比较常见的直方图均衡化等技术,而图像的去噪可以使用中值滤波技术,以去除比较常见的高斯噪声等;人脸识别模块是基于5级相互独立的PCA模型进行特征值的学习和比对,而且通过训练得到的权值向量进行最终的是脸识别决策。整个系统的实现是基于Matlab进行仿真实验的,实验数据来自剑桥大学AT&T实验室创建的ORL人脸数据库。
3.2系统功能模块实现
3.2.1人脸图像采集实现
图像采集模块主要就是将存储在本地的图像文件通过Matlab的imread函数读入矩阵中,以方便后期的PCA操作,其核心语句为Image{t}=imread([[filepath,FilDir(ii).name],'\',ImDir{ii}(jj).name]);
使用上述语句即可读入训练数据和测试数据文件。
3.2.2 图像预处理模块
该模块的主要任务就是利用中值滤波和直方图均衡化进行图像的去噪工作,以消除不同光照和图像噪声的影响,提高准确率。其核心代码为:
S1=zeros(1,256);
for i=1:256
for j=1:i
S1(i)=GP(j)+S1(i);
end
end
S2=round((S1*256)+0.5);
for i=1:256
GPeq(i)=sum(GP(find(S2==i)));
end
3.2.3 识别模块
图像经过之前的预处理之后,需要将图像矩阵转化为列向量,一幅图像就是一列向量,整个训练图像构成了整个特征空间矩阵,测试图像也会转化为一列向量,之后会利用矩阵之间的运算进行图像的分析计算。识别模块的工作就是根据测试图像和之前所有的训练数据进行对比,查找到与之最相似的图像,实验的结果如图2所示。
4 结论
PCA算法作为传统的人脸识别算法,因其自身存在的许多缺陷而没能发挥较好的作用,但是其自身具有其他算法所不具有的特点,本文设计的并行PCA算法虽然是基于PCA算法,但是借鉴了卷积神经网络的多层结构,而且使用加权操作进行最终人脸识别的决策。基于ORL人脸数据库的测试结果表明,该并行PCA算法的准确率和鲁棒性均得到了进一步的提升,与其他的单独PCA算法具有十分明显的优势。
参考文献:
[1] 张利芳. 基于PCA算法的人脸识别系统研究[D].太原:中北大学,2015.
[2] 杨海燕,蒋新华. 基于并行卷积神经网络的人脸关键点定位方法研究[J]. 计算机应用研究, 2015, 32(8): 2517-2519.
[3] 杨颖娴. 基于PCA算法和小波变换的人脸识别技术[J]. 微电子与计算机, 2011, 28(1): 92-94.
[4] 段宝彬,韩立新. 改进的卷积神经网络及在碎纸拼接中的应用[J]. 计算机工程与应用, 2014, 50(9): 176-181.
【关键词】照相软件 人脸识别技术 计算机
人脸识别作为一项现代化科技技术,具有极大的发展空间。1964年,人脸识别(AFR)这一领域逐渐出现在人们的视野里,至于1991年至1997年,若干具有代表性的人脸识别算法诞生于世,到如今,以支持向量机为代表的统计学习理论被应用到了人脸识别中来。前人的侧重点在于对其算法的延伸探究,但就笔者而言,存在一定程度上专业知识的限制,因而根据自身的知识储备与探究能力,将人脸识别技术这一宽泛概念的探讨缩小至相对更贴近生活,且较为容易理解与研究的一个主题――对于照相机软件中人脸识别技术的探究,并由此展开对计算机人脸识别的部分性探究。
1 对于人脸识别技术的初步了解
科幻性质的故事往往以其并不符合实际的奇幻情节,模糊得描绘了现实世界未来的发展蓝图。这里不得不提及一部具有启发意义的电影――《生化危机》,电影中追踪主角行踪的卫星定位人脸识别技术,是否未来也将存在于我们的现实社会当中?由此,便联想到生活中照相软件的人脸识别是否也是通过相似的原理而执行的。
关于人脸识别,其本质上隶属于生物特征识别的一支。其余包含指纹识别,虹膜识别,DNA识别等技术。当今最为广泛运用的是指纹识别,但随之而来产生的是一定的安全性问题。例如去年热门的高考替考话题,指纹贴的出现使指纹识别的安全性受到质疑。而人脸识别仍处于一个不完全成熟的发展阶段,就目前现状来说,其所具有的不可复制性、自然性、不可察觉性,使其安全性与实用性都处于相对较高的水平。但同样,其技术难度也呈正比例增长。
通过对与计算机信息科技的学习,能够得出这样一个总结性结论:“人脸识别是通过计算机视觉的一些算法所实现的。”
前人对从不断更新的研究中得出,人脸识别的基本算法有四种:
(1)基于人脸特征点的识别算法(Feature-based recognition algorithms)。
(2)基于整幅人脸图像的识别算法(Appearance-based recognition algorithms)。
(3)基于模板的识别算法(Template-based recognition algorithms)。
(4)利用神经网络进行识别的算法(Recognition algorithms using neural network)。
当然,如今也早已存在许多其他的的算法能够支持人脸识别技术的实现。而对于该项技术的应用的范围也在逐渐扩大,门禁考勤系统、住宅安全管理、电子身份等等,都将在很大程度上的得益于其的不断发展。
让我们回到主题:照相机的人脸跟踪究竟是如何实现的呢?围绕这一问题,由浅及深,笔者将本文中的探究内容主要分为以下三个部分:
(1)图像在计算机内部的存储方式。
(2)计算机如何区分出物体与其所在背景。
(3)计算机如何定位人脸并从而实现识别功能。(注:由于照相软件只是作为一个对于人脸识别问题的切入点,单单深究照相软件会带来一定的局限性,因此二、三两点将跳过作为载体的照相软件,直接对于照相机功能背后的原理作进一步探究。)
1.1 图像在计算机内部的储存方式
计算机通过往往通过bitmap的形式来储存图像,也就是像素矩阵。
从结构上讲,计算机中储存的图像一把可以分为两大类,即矢量图和位图。矢量图通过数学公式计算获得,优点在于不会失真,但其最大的缺点是难以表现色彩层次丰富的逼真图像效果。而位图的基本思想,则是把一幅图像按照行列进行分割,所获得的点成为像素。相机所拍摄获得的照片便是以位图的形式储存的。每一幅图像均是由无数像素组成,而每一个像素对应显存中1、8、16或24位二进制数来表示颜色信息。位数决定了图像所含的最大颜色数,位数越多,图像的色彩就越丰富。
1.2 计算机如何区分出物体与其所在背景
大致的过程可以由图1所知,用相对容易理解的话来解释,计算机对于区分物体与其所在背景,首先是通过对要是别的物体提取表面特征,然后再对真实的照片提取表面特征,最终在进行匹配,配合相应的算法,这样,计算机便可以区分出物体与其所在背景。
由此所延伸的科目是计算机视觉。
正如定义所提到:计算机视觉是一门关于如何运用照相机和计算机来获取我们所需的,被拍摄对象的数据与信息的学问。
通过这门科目,我们能够做到使用计算机来处理图像,并区分出目的对象。形象地说,在这门科目的辅助之下,计算机能够成为人类的第二双眼睛,对目标进行识别、跟踪和测量。
“One picture is worth ten thousand words.”图像的处理,将为人类提供巨大的便捷。
大致罗列出其处理所进行的步骤,分别是:图像获取、特征提取、检测分割、高级处理。
1.3 计算机如何定位人脸并从而实现识别功能
关于人脸的定位与识别,在很大一定程度上与区别物体与背景的技术存在着相似之处。但是人脸的定位与识别,又是更高于目标对象的识别的。这正是算法的不停更新与发展所带来的科技发展的结果。
目前比较流行的Cascade Classifier(Opencv中做人脸检测的时候的一个级联分类器)效果还是比较好的,正脸检测到的成功率能达到90%以上。
此外,在人脸局部区域特征提取时,一种叫做CNN(Convolutional Neural Network)卷积神经网络技术的运用――使用提取特征的filter对像素点进行几层处理,也为识别带来一定的便利。CNN运用到了深度学习,因此这里将拓展以下有关deep learning的概念:
deep learning的概念源于人工神经网络的研究。其三大框架为:CNN(Convolutional Neural Network,卷积神经网络),DBN(Deep Belief Network,深度置信网络),AE(AutoEncoder,自动编码机)。而目前在CV(Computer Vision的缩写,指计算机视觉)领域应用最广的是CNN。到近来也有很多人尝试用deep learning的方法来实现人脸识别,其与先前所提到的计算机区分物体和背景的原理也是相似的。
2 结论
回到最初的问题:照相机的人脸跟踪是如何实现的?综上所述,可以获得的结论是:照相机的人脸跟踪是通过计算机视觉的一些算法实现的。但这些算法在技术方面人仍然面临着一些难点,例如,在特征识别时,外界客观因素,有如,光线、着装遮挡、目标对象的姿态、脸型、样本缺乏等等尚未解决的问题。这些都使人脸识别技术尚有巨大的可发展空间。就像前段时间由推出的How Old do I Look线上脸部侦测服务,曾一度掀起热潮,可见,人们对于人脸识别技术的期望也是很高的。
那么,未来的人脸识别技术到底能够发展到何种程度呢?香港中文大学教授汤晓鸥、王晓刚及其研究团队曾在2014年6月宣布,他们研发的DeepID人脸识别技术的准确率超过99%,比肉眼识别更加精准。相信未来,计算机人脸识别技术将与我们共同成长,逐渐成熟与完善。毕业于UC Berkeley的博士贾扬清,创造了Caffe――全称Convolutional Architecture for Fast Feature Embedding,一个清晰而高效的深度学习框架,具有上手快、速度快、模块化、开放性、社区好等优点。如此不断迅捷发展的计算机技术,在这个数字化的时代,正是对未来发展很好的导向。
参考文献
[1]韦凤年.怎样写科技论文[J].河南水利,2006(09).
[2]董琳,赵怀勋.人脸识别技术的研究现状与展望[J].China Academic Journal Electronic Publishing House,2011,10.
作者简介
孙文倩(1998-),上海市人。现在上海市洋泾中学高中在读。
【关键词】互联网金融 人脸识别 信息安全 身份认证
一、引言
国家建设部于“十二五”期间颁布了关于开展国家智慧城市试点工作的通知,意在通过综合运用现代科学技术来营造社会建设和管理的新模式。伴随着智慧经济的建设和我国的传统金融行业对于创新变革的诉求,国内的互联网金融行业开始快速发展。人脸识别在国内互联网金融领域的应用也借助这一浪潮拉开帷幕。
二、人脸识别技术简介
进入21世纪,随着计算机技术、光学技术等技术的迅猛发展,人脸识别技术逐渐成熟,步入了应用阶段。人脸识别安防、考勤、支付等系统走进了我们的生活。
人脸识别算法蓬勃发展,尤其是基于深度学习的识别方法。深度学习利用其对大型数据集的优秀预测能力突破了之前在人脸识别过程中的精准率瓶颈。深度学习算法种类繁多,目前被广泛应用于人脸识别领域的主要是卷积神经网络。其现主要分为四个步骤。
首先是局部感知。在处理在图像处理中,把图像表示为像素的向量。只对局部的联系紧密的向量进行感知,初步降低参数;第二步是权值共享。挑选第一步中的某个局部参数提取特征,再将其作为探测器也就是卷积核,应用到图像的任意区域,对特征进行匹配,得到不同的激活值。将符合条件的激活值筛选出来;第三步是多卷积核。挑选更多的卷积核,不断重复第二步骤,学习更多特征;最后是池化。一个图像区域有用的特征极有可能在另一个区域同样适用,对不同位置的特征进行聚合统计可以简化对于大图像的描述,进一步降参。
三、互联网金融的人脸识别运用
互联网金融是借助于互联网技术、移动通信技术来实现资金融通、支付和信息中介等业务的一种新兴金融模式。毫无疑问,互联网金融正以其独特的运行方式和价值创造模式,影响着传统金融业务,逐步成为整个金融生态体系中不可忽视的一部分。
(一)互联网金融面临的风险
互联网金融行业也同传统金融行业一样,它们的核心问题都是如何预防和处理风险。目前我国的互联网金融行业面临着政策法律风险、监管风险、流动风险、市场风险、信用风险、技术风险这六大风险。
(1)信用风险。互联网金融的信用风险主要来自于对客户的真实身份的认证带来的信息不对称问题。由于国内的互联网信用业务还没有得到很完善的监管,互联网金融的虚拟性就会给对客户身份的认证带来不确定性素。例如,一些用户在P2P网贷平台进行身份信息造假骗取贷款。
(2)技术风险。互联网金融是互联网与金融的结合产物,自然避免不了对于网络信息安全的要求。传统的字符密码具有可复制性,容易被网络黑客、木马病毒所窃取,造成不必要的损失。传统的字符密码认证对互联网金融企业的网络技术安全提出了更高的要求,而我国的互联网金融企业大多还在成长阶段,无法维护庞大的信息数据库,给行业带来了很大的技术风险。
(二)人脸识别技术降低信用风险与技术风险
人脸识别技术依靠人脸独特性、难以复制性等优势可以很大程度上降低互联网金融的信用风险和技术风险。目前,国内的云从科技、Linkface等科技公司都在LFW数据库的实验环境下,取得了99.5%以上的人脸识别成功率,高于人眼识别97.52%的准确率。
在人脸识别模式下的开户过程需要用户先需要出示自己的二代身份证,系统在客户填写开户信息后继续发出指令,让客户进行基于视频流的身份认证,人脸识别系统会以此判别个人身份的真实性。同时,利用“活体检测算法”、“图像脱敏算法”以及“人脸比对算法”等算法对视频流的背景和人像的对比分析,可以避免一些用户利用录制好的视频来伪造身份信息。
识别开户成功后,系统自动上传用户信息至后台。当遇到支付等操作指令时调出信息,再次对客户进行基于视频流的身份认证来确定指令的安全性。
(三)互联网金融中的人脸识别运用
(1)招商银行“ATM刷脸取款”。我国的招商银行一直以勇于创新的先行者姿态活跃于金融领域,在手机银行和自助银行等多种电子信息化自助服务渠道中保持着领先地位。继在VTM渠道应用人脸识别技术以辅助柜员核实客户身份后,又率先推出“ATM刷脸取款”业务。首先收集客户的可信照片,再主要利用人脸识别技术并辅之以手机号码验证和密码验证来确认客户信息,误识率在万分之一以下。
这是国内银行首次将人脸识别技术应用到自助提款机上,也意味着招行“智能银行”再一次取得进展。
(2)蚂蚁金服的人脸识别体系。蚂蚁金服起步于阿里巴巴集团的支付宝,致力于推进互联网支付、消费、理财。蚂蚁金服于2015年在支付宝上推出人脸识别的功能,已在用户登录、实名认证、找回密码、商家审核、支付风险校验等多个场景中投入使用,利用人脸识别代替传统的密码输入。同年,阿里巴巴董事局主席马云在德国汉诺威消费电子、信息及通信博览会上展示了蚂蚁金服的“smiletopay”技术,用手机“刷脸支付”的方式在网上购买了一张1948年的汉诺威纪念邮票,完美展示了计算机人脸技术在支付中的应用。此项技术还在不断完善,蚂蚁金服的刷脸支付功能正式投入商用指日可待。
(四)人脸识别目前存在的问题
(1)没有统一的安全标准。人脸识别技术领域的实际应用还在起步阶段,目前还没有统一的行业标准与国家标准,主要都是技术厂家自己制定标准。然而厂家标准制定的不一致,会导致不同的安全状况与安全水平。只有通过制定统一的国家安全标准,才能解决人脸识别在技术推广过程中的障碍。
(2)识别中的“矫枉过正”。当人脸识别技术被作为加密技术投入实际应用时,我们最看重的就是它的安全性。而人脸识别技术的安全性可以用误接受率与误拒绝率两个指标来衡量。为了严格保证安全,技术厂商往往会尽量降低误接受率,但这同时会提高误拒绝率,使一些真正的用户也会被系统拒绝,“矫枉过正”,影响了用户体验。
(3)可信照片的分辨率低。目前互联网金融行业在使用人脸识别技术进行开户等操作时,用于确定客户信息的可信照片往往是居民二代身份证。而二代身份证的照片不仅分辨率低而且信息量少,这会降低人脸注册、识别的准确率。
(4)人脸的变化。随着时间的推移,用户的年龄增长,会发生胖瘦、常规的化妆、自然老化等变化。通常情况下,这些变化是在计算机的识别范围内的,但是如果出现整容、过浓的妆容、或者是佩戴眼镜与一些装饰性的饰物可能就会影响人脸识别的识别率。同时,由于双胞胎、多胞胎的人脸信息过于相像,双胞胎、多胞胎人脸信息的分辨在人脸识别技术中也是一个待攻克的难题。
四、未来发展应用趋势
(一)发展展望
(1)制定统一的行业标准。为了保障人脸识别技术在应用过程中的安全性、规范性,有关的人脸识别科技公司和互联网金融企业等应该联合国家相关机构,加速人脸识别技术系列标准和规范的起草进一步规范人脸识别的技术指标和要求,为业务的深入和推广提供基础参考。
(2)突破对源图信息提取瓶颈。计算机人脸识别技术中很关键的一环就是将可信的源图信息与后期获取图像的信息进行对比筛选,计算机才能做出精确的判断。在获取到的源图数据不充分、不理想的时,如何对信息进行有效的提取,到目前为止还没有很好的解决办法。但是,伴随着科技的高速发展,人脸识别技术的这一瓶颈在将来必定会被突破。
(3)与其他生物识别技术相结合。各种生物特征识别技术都有各自的优缺点,在具体的应用过程中,人脸识别技术可以和虹膜、静脉等其他生物特征识别技术相结合使用,降低对用户的误接受率和误拒绝率,进一步提高身份识别的整体安全性。
(二)应用展望
(1)全方位的身份查核。人脸识别身份验证技术的应用是对互联网金融业务的基础性工作的一项重要技术保障。在将来,人脸识别身份验证技术的应用应该从单纯的“登录认证”到扩展到“支付认证”,做到全方位的身份核查,提高群众服务的便捷性,同时保证业务更加安全、可靠。除此之外,人脸识别身份验证技术还可以带动其他行业的类似业务场景,从而在全社会范围内促成更广泛的工作流程改进和社会成本节约。
(2)全面的私人数据保护。在将来,用户的一切经济活动信息都可以通过人脸识别技术进行有效保护,避免敏感数据泄露,消除欺诈者利用不正当途径来窃取用户个人信息进行非法交易的可能,提升互联网金融行业客户的体验友好程度。
五、结语
对于互网金融行业来说,改革与创新、提高金融服务质量和安全防范是今后互联网金融行业发展的主要趋势,人脸识别等高科技技术投入互联网金融行业,会对整个行业的发展起到一种非常积极的作用。未来的人脸识别技术在互联网金融行业中的应用必会继续朝着远程化发展,进一步取代现在的柜台开户、字符密码认证等传统的服务流程,做到“智慧金融,智慧生活,智慧城市”。
参考文献:
[1]李子青.人脸识别结合视频监控看公安与金融市场应用[J].中国安防,2015,(8).
[2]吕晓强. 生物识别技术再造银行客户身份认证体系[J].金融电子化,2016,(4).
[3]廖敏飞,黄瑞吟,刘丽娟. 生物识别技术在金融行业的应用现状与前景分析[J].金融电子化,2016,(4).
关键词:裂纹实时监测系统;Linux操作系统;ARMS3C2440开发板;QT
中图分类号:TP29 文献标识码:A
文章编号:1004-373X(2009)21-138-03
Development and Research of Intelligent Building Crack′s Real-time
Measuring System Based on ARMS3C2440
ZUO Yongbo
(Electrical College,Hunan University,Changsha,410082,China)
Abstract:With the enhancement of variety of embedded processor′s speed and the development of integrated circuits,a large number of embedded devices are increasingly being applied in each aspects of people's living.In this study,with Linux operating system ARMS3C2440 development board for the development platform,the building crack monitoring system for real-time algorithm implementation and the final software development is completed.Different from the general crack detecting system,adopting edge of the crack detection and crack width measurement separately,making crack and measuring the results of locking position is more accurate.Using QT for interface design,making the software developed by a more intelligent,user-friendly and so on.
Keywords:crack real-time monitoring system;Linux operating system;ARMS3C2440 development board;QT
0 引 言
在建筑业中,评价墙体裂纹,地面裂纹是评价房屋质量的一项重要指标。由于传统的利用手工标尺进行裂纹宽度测量的方法既不准确又不方便,于是将嵌入式应用于自动测量建筑裂纹宽度成为了许多研究者的重要研究内容。
本研究将问题划分为以下两个部分:
(1) 裂纹宽度测量算法;
(2) 将以上所开发软件移植到ARM开发板,并优化算法提高软件运行速度。
1 裂纹宽度测量算法
计算裂缝宽度关键是要利用图像分割技术得到裂缝的真正边缘。虽然已有文献介绍了多种分割方法[1-4],但是未见有针对裂缝测试仪采集到的裂缝图像进行处理的方法。因此,本文针对裂缝图像,提出了结合OTSU图像分割与Sobel边缘检测的混合算法进行裂纹检测与宽度测量。
1.1 图像获取
图像获取过程如图1所示:被检测的裂缝通过光学系统在CMOS图像传感器上成像,然后通过USB接口将裂缝图像输出到ARM上进行处理。
裂缝图像如图2所示。裂缝宽度分布范围较广,自几十至几百像素不等,但远远小于图像的宽度值。裂缝周围有部分噪声,有的图像含有大量污染区域,这成为裂缝位置锁定的难点。
1.2 OTSU图像分割
通过与已有图像分割方法如:直方图法、OTSU法、区域分割法等进行比较发现,OTSU在最后的效果上占有明显的优势。因此采用OTSU方法进行图像的分割。
图像分割的结果如图3所示。观察结果,很容易发现图像的边缘很大区域被错分为与裂缝一样。于是直接计算裂缝宽度时会导致将错分的区域计算成裂缝。因此除了计算裂缝宽度外,对候选裂缝集合进行有效剔除是另一个重要任务。对选裂缝集合进行有效剔除将会在下一小节中进行讨论。
分割完图像后,计算所有可能成为裂缝的区域的宽度。采用从图像给定行的起始位置开始计算裂缝宽度,当发现像素灰度由0变为255,记为一个裂缝的左边缘起始位置;当查找到像素灰度由255变为0,记为一个裂缝的右边缘结束位置。通过这种方法可以获取给定行的所有可能的裂缝宽度。但是在具体试验中发现,计算对单行的裂缝进行宽度测量还是存在比较大的误差。于是采用求取给定行上下5行共10行的平均值的方法。这样可以有效地去除毛刺的干扰。通过这种方法,得到一个裂缝的候选集合,并且计算出候选集合中每一个位置的宽度。
1.3 Sobel边缘检测
以上小节得出了裂缝的候选集合,但是事实上这个候选集合含有大量的非裂缝区域。这一节中的主要内容是设计算法剔除这些干扰裂缝,获取更小的裂缝候选集合。在试验中,由于裂缝具有明显的边缘,而干扰图像区域有比较模糊的边缘或者仅有一个边缘等,通过分析,提出采用Sobel边缘检测的方法进行裂缝位置的锁定。Sobel算子由两个卷积核组成,如图4所示,图像中的每个点都用这两个核做卷积,一个核对通常的垂直边缘相应最大,而另一个对水平边缘相应最大。两个卷积的最大值作为该点的输出位。运算结果是一幅边缘幅度图像。
通过对原始图像采用Sobel边缘检测得到如图5所示结果。
但是,这个结果很明显存在很多微小的干扰,这些干扰必须予以剔除,否则将对锁定裂缝边缘没有任何效果。通过对边缘检测结果图像仔细分析发现,虽然存在微小干扰,但是他们的灰度值普遍偏小,针对这一发现,对缘检测结果图像做与上一节中一样的图像分割,这会将微小的干扰有效地剔除。实际的实验结果也验证了这一点,如图6所示。
同过对分割后的边缘图像进行观察,图像仍然存在一些微小的干扰,但这些干扰相对于未处理的缘检测结果图像已经很少,将在后续的处理中对图像裂缝添加附加约束,从而取出这些干扰的影响。
1.4 基于裂缝特征的附加约束
通过对大量的裂缝图像进行分析,发现图像裂缝有如下特点:
(1) 裂缝灰度值低于墙体的灰度值。
(2) 裂缝的宽度相对于整个图像不超过图像宽度的1/3。
(3) 污染的墙体区域一般呈大的块状出现,且很多仅含有一个边界,另一边界延伸至图像外面。
(4) 墙体的一些微小的干扰呈小块状出现。
(5) 裂缝一般为带状。
使用ARM处理器处理图像,由于其速度慢且有实时性要求,故不能处理整张的图像,换句话说,必须处理局部图像。这就很明显增加了剔除候选裂缝的难度。该系统显然是无法使用特点(4)、特点(5)的。因此仅使用了前三个特点,并提出了约束:剔除宽度高于图像宽度1/3的裂缝候选集,剔除宽度低于1/10的裂缝候选集。
通过添加以上约束,实验效果有了明显的提高。图7是PC机的结果,由于同时使用了5个约束效果比较好。图8是ARM系统运行的截图,由于在ARM上不方便分步计算出每一个步骤,故直接给出了带有测量结果的截图。
2 基于Linux的QT界面设计算法
前文讨论的是主要的算法部分,完整的裂纹测量系统还包括用户接口部分,即图形界面接口。在ARM上采用QT进行界面设计已经比较成熟,它具有以下主要特点:
(1) 入门容易、学习成本低。了解基本概念后就可以边查文档边写程序。
(2) 跨平台效果好。本来是Linux下的工具库,在Windows下默认观感也很好。
3 软件移植与程序优化
由于最终的程序是运行在ARM系统上,而由于ARM处理图像时的速度慢与裂缝测量仪器的实时性要求,必须对程序进行优化,并将算法移植到ARM系统上,使之可以正确运行。
软件的移植比较容易。由于一开始很注重将PC机上仿真成功的算法及时移植到ARM上,故程序的移植变得比较容易。
但是程序的优化是一个问题,虽然现在的ARM速度已经提高了很多,但是在处理图像时还是很吃力,加上算法中需要对原图像两次独立处理,相当于加倍了ARM的负担。通过对大量裂缝图像的分析,针对前文中提出的裂缝特点以及结合ARM本身的运算速度条件,提出剔除处理全部图像的算法。采用了只处理给定行位置上下10行的区域。通过只处理这20行图像,极大地提高了程序的运行速度。以上方法并行,还采用多线程编程方法,通过将图像采样与图像的处理分为两个进程完成,有效地提高了程序的运行速度。
4 实验结果分析
该程序分别在PC机和ARM开发板上运行,效果如图7,图8所示。
通过大量的实验发现该算法能较好地检测出裂缝的分布和宽度。在算法中采用了结合OTSU图像分割与Sobel边缘检测的混合算法进行裂纹检测与宽度测量。这种算法能分别有效利用边缘检测与图像分割两种方法各自的优点。另外在该算法中加入了一些分析获得的约束条件,这能极大地弥补边缘检测与图像分割混合方法的不足,从而有效地提高了裂纹位置锁定与裂缝宽度测量的精度。
5 结 语
针对墙体裂纹测量,设计出了一套适用于裂缝宽度检测的算法。该算法能较好地检测出裂缝的分布和宽度。采用边缘检测与图像分割混合的方法并通过对大量图像进行分析,对算法添加了一系列符合图像裂缝特征的约束条件,极大地提高了算法的准确性与健壮性。分别将程序运行于PC机系统与ARM系统,并针对ARM系统的特点对算法进行了一系列优化,引入了并行处理技术,在提高ARM运行速度的同时,使得ARM系统检测出的结果达到与PC机系统几乎同等的效果。
参考文献
[1]施树明,初秀民,王荣本.沥青路面破损图像测量方法研究 [J].公路交通科技,2004,24(7):12-16.
[2]陆玲,陈国明,戴扬.水下结构物裂缝特征定量分析与测量 [J].计算机测量与控制,2004,12(1):10-12.
[3]甘玲,李涛,赵辉,等.CP神经网络在图像边缘检测中的应用 [J].四川大学学报:自然科学版,2003,35(3):93-96.
[4]王大志,黄劫,徐树英.采用灰度直方图的孔型识别和二值化阈值自动匹配 [J].测控技术,2005,24(2):48-49.
[5]耿飞,钱春香.图像分析技术在混凝土收缩裂缝定量测试与评价中的应用研究 [J].东南大学学报:自然科版,2003,33(6):773-776.
[6]Kima K S,Kangb K S,Kangc Y J,et al.Analysis of an Internal Crack of Pressure Pipeline Using ESPI and Hearography[J].Optics&Laser Technology,2003,35(8):639-643.
[7]陈果,左洪福.图像阈值分割的两种新技术[J].模式识别与人工智能,2002,15(4):468-473.
[8]胡霞.国内外路面快速检测技术的现状与发展[J].中外公路,2003(6):95-99.
[9]张娟.基于数字图像处理的路面裂缝自动识别与评价系统[J].长安大学学报,2004(2):18-22.
[10]付忠良.图像阈值选取方法――OTSU方法的推广[J].计算机应用,2000,20(5):37-39.