公务员期刊网 精选范文 卷积神经网络的定义范文

卷积神经网络的定义精选(九篇)

前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的卷积神经网络的定义主题范文,仅供参考,欢迎阅读并收藏。

卷积神经网络的定义

第1篇:卷积神经网络的定义范文

1.神经网络的架构正变得越来越复杂。感知和翻译等大多数神经网络的架构正变得越来越复杂,远非此前简单的前馈神经网络或卷积神经网络(CNN)所能比。特别需要注意的是,神经网络正与不同的技术(如LSTMs、自定义目标函数等)相混合。

神经网络是多数深度学习项目的根基。深度学习基于人脑结构,一层层互相连接的人工模拟神经元模仿大脑的行为,处理视觉和语言等复杂问题。这些人工神经网络可以收集信息,也可以对其做出反应。它们能对事物的外形和声音做出解释,还可以自行学习与工作。

2.长短期记忆网络(LSTMs)。当你阅读本文时,你是在理解前面词语的基础上来理解每个词语的。你的思想具有连续性,你不会丢弃已知信息而从头开始思考。传统神经网络的一大缺陷便无法做到这一点,而递归神经网络能够解决这一问题。

RNN(循环神经网络)拥有循环结构,可以持续保存信息。过去几年里,RNN在语音识别和翻译等许多问题上取得了难以置信的成功,而成功的关键在于一种特殊的RNN――长短期记忆网络。

3.“注意力模型”。“注意力”是指神经网络在执行任务时知道把焦点放在何处。我们可以让神经网络在每一步都从更大的信息集中挑选信息作为输入。例如,当神经网络为一张图片生成标题时,它可以挑选图像的关键部分作为输入。

4.神经图灵机依然有趣,但还无法胜任实际工作。当你翻译一句话时,并不会逐词进行,而会从句子的整体结构出发。机器难以做到这一点,这一挑战就被称为“强耦合输出整体估计”。

神经图灵机就是研究者们在硅片中重现人类大脑短期记忆的尝试。它的背后是一种特殊类型的神经网络,它们可以适应与外部存储器共同工作,这使得神经网络可以存储记忆,还能在此后检索记忆并执行一些有逻辑性的任务。

5.深度学习让计算机视觉和自然语言处理不再是孤岛。卷积神经网络最早出现在计算机视觉中,但现在许多自然语言处理(NLP)系统也会使用。LSTMs与递归神经网络深度学习最早出现在NLP中,但现在也被纳入计算机视觉神经网络。

此外,计算机视觉与NLP的交汇仍然拥有无限前景。

6.符号微分式越来越重要。随着神经网络架构及其目标函数变得日益复杂,手动推导出“反向传播”的梯度也变得更加困难而且容易出错。谷歌的TensorFlow等最新的工具包已经可以超负荷试验符号微分式,能够自动计算出正确的微分,以确保训练时误差梯度可被反向传播。

7.神经网络模型压缩的惊人成果。多个团队以不同方法大幅压缩了训练一个良好模型所需的素材体量,这些方法包括二值化、固定浮点数、迭代修剪和精细调优步骤等。

这些技术潜在的应用前景广阔,可能将会适应在移动设备上进行复杂模型的训练。例如,不需要延迟就可以得到语音识别结果。此外,如果运算所需要的空间和时间极大降低,我们就可以极高帧率(如30 FPS)查询一个模型,这样,在移动设备上也可以运用复杂神经网络模型,近乎实时地完成计算机视觉任务。

8.深度学习和强化学习继续交汇。在“端对端”机器人等领域出现了令人激动的进展,现在机器人已经可以一起运用深度和强化学习,从而将原始感官数据直接转化为实际动作驱动。我们正在超越“分类”等简单工作,尝试将“计划”与“行动”纳入方程。

第2篇:卷积神经网络的定义范文

关键词:卷积神经网络;人脸识别;大样本;对抗生成网络

中图分类号:TP391 文献标识码:A 文章编号:2095-1302(2017)07-00-04

0 引 言

近几年,基于大量训练数据的卷积神经网络(Convolutional Neural Networks,CNN)在目标检测、目标识别、显著性检测、行为识别、人脸识别和对象分割等计算机视觉领域取得了举世瞩目的成果。这些令人鼓舞的成绩主要归功于以下几点:

(1)将大量有标签的数据作为训练集,学习出具有百万参数的模型,从而使卷积神经网络能够有效提取对象的本质特征;

(2)不断改进性能优异的网络结构,如Very Deep VGG Network[1],Google Inception Network[2]和Deep Residual Networks[3]等;

(3)各种并行计算硬件设备(如GPU)的支持,大大提高了CNN训练模型的效率。其中,将标签的大量数据作为训练集起着至关重要的作用。

本文以人脸识别为例,讨论和综述多样本算法的研究现状和发展方向。

有效的特征是目标识别的关键,对人脸识别问题来说亦如此。传统的主成分分析(Principal Component Analysis,PCA)[4,5],线性区分分析(Linear Discriminant Analysis, LDA)[6]和局部二值模式化(Local Binary Pattern,LBP)[7,8]等取得了不错的成绩。基于传统特征的人脸识别受限于环境,此类特征作用在复杂或者背景多变的人脸图像时,其识别性能往往大幅下降,如在LFW数据集上其识别率骤然下降[9]。

采用CNN作为特征提取模型,主要考虑到该模型的所有处理层,包括像素级别的输入层,均可从数据中学习到可调节的参数。即CNN能自哟哟笫据中学习特征,无需人工设计特征。合理有效的特征需从大量数据和大量参数中自动学习获取,从而达到优秀的识别性能。基于卷积神经网络的世界领先方法均使用了上百万的数据,其中最具有代表性的如VGG-Face网络需要260万个人脸图像样本进行训练[10],Facebook的DeepFace网络需要440万个有标签的人脸图像样本训练[11]。而Google更使用了2亿样本数据来训练FaceNet网络[12]。

1 多样本获取现状

如引言所述,有效合理的特征是目标识别的关键,而CNN能从大量有标签的数据中自动学习图像的本质特征。获得图像特征的关键因素是有标签的大数据。因此许多研究的前提工作均聚焦在人工获取数据和给数据加标签方面。然而,获取百万级的数据并非易事。大数据获取需要人工从网上下载、处理,然后给数据添加标签,耗费大量的人力物力。虽然也有一些公开免费的数据集,且收集该类数据相对比较容易,如CASIA-WebFace[13],有49万个图像,但远少于Facebook和Google的数据集。在这种情况下,缺乏大量样本直接阻碍了深度学习方法的使用,成为阻碍提高检测率和识别率的瓶颈。除了深度学习技术提取特征需要大量样本外,已有研究证明[14-19],基于传统方法的技术同样需要大量样本作为支撑。在这种形势下,通过图像处理与机器学习技术自动增加样本集已成为必要手段。

无论基于传统方法的识别问题,还是基于深度学习的识别问题,大量有标签的数据作为训练集在算法中起着举足轻重的作用。如果样本不足,算法往往过拟合,无法提高算法的性能。为了获得更多样本,一些研究工作从网络上获取数据,例如在IMDb上,已经把9万有标签的数据集扩大到了26万 [10]。除此之外,Facebook获取了440万个有标签的人脸进行DeepFace网络训练[11],而Google使用2亿个数据训练FaceNet网络[12]。

目前获取方法具有如下局限:

(1)现有方法耗时耗力,需要经费支持。获取百万级的数据并非易事。大数据获取需要人工从网上下载、处理,然后给数据添加标签,耗费大量的人力物力。这种情况下,只有像Facebook和Google这样的大公司会收集大量有标签的数据进行网络训练。而大多数情况下的数据收集涉及个人隐私与财力物力等问题,对于一般的小公司或科研院所而言,收集数据普遍难度较大。

(2)收集特殊图片困难。对于一些特殊的图像,如医学图像,遥感图像,现实中数量本身就少,加之无法直接从网上获取,因此小样本很容易导致过拟合。

2 样本集扩大算法研究现状

2.1 基于传统方法的多样本算法研究现状

对于传统的样本生成算法,如果数据集中有足够的训练样本,均可得到比较满意的识别结果,但在现实的人脸数据库中,人脸的数据样本却是有限的。文献[20]表明,增加图像样本的数量可以较大幅度提高识别的准确率。

为了增加样本数量,提高识别准确率,科研工作者已做了大量工作。其中,借助原始样本产生虚拟样本是一种有效的增加数据集方法。这种方法大致分为如下几类:

(1)通过人脸图像的对称性来得到原始样本的虚拟样本,如Xu[14,15]和Liu等[21]提出借助原始图像的“对称脸”和“镜像脸”产生虚拟样本,从而扩大数据集并提高人脸识别的正确率,Song[22]也提出相应的算法来改进人脸识别的性能;

(2)通过改变图像的光照、姿势和表情等来产生虚拟样本,例如Boom等用一种称为VIG的方法对未知光照情况进行建模[16],Abdolali[17]和Ho[18]等提出了类似的算法扩大数据集;

(3)基于人脸图像自身的特征生成虚拟样本,Ryu等根据原始样本的分布来产生虚拟样本[19],Liu等也根据图像本身特性来产生虚拟样本[23]。

(4)基于数学的多样本产生方法,如Zhang等提出利用奇异值分解的方法获得基于原始样本的虚拟样本[24]。借助图像合成方法生成的新样本如图1所示。

图1 借助图像合成方法生成新样本

除了借助图像处理方法获得原始样本的新样本外,还可以利用图像合成算法获取多样本,本研究做了相关实验,其结果如图1所示。假设数据集中有c类人脸图像,每类有ni个样本,令表示第i类中的第j个样本,这里i=1,2,…,c,j=1,2,…,ni,h和w分别代表样本xij的高和宽(均为像素值)。用X=[X1,X2,…,Xc]代表所有样本,则Xi=[xi1,xi2,…,xini],i=1,2,…,c代表第i类样本。则有:

其中, P(Xi)代表所生成的第i类新样本, f(g)表示图像处理函数,代表多个样本的串联,即将多个样本联合起来得到一个类别的新样本。

2.2 基于深度学习的多样本生成算法研究现状

大量有标签的训练数据是机器学习成功的关键,尤其对于强大的深度学习技术,大数据集能提高CNN的性能,防止过拟合[25]。为了扩充数据集,已有一些工作在不改变图像语义的情况下进行,如水平镜像[26]、不同尺度的剪裁[27,28]、旋转[29]和光照变化[27]等传统方法。

DeepID[30]采取了增大数据集手法来训练网络,只有大的数据集才能使得卷积神经网络训练得更加充分,该研究采用两种方法增大数据集:

(1)选择采集好的数据,即映入CelebFaces数据集。

(2)将原始数据集中的图片多尺度、多通道、多区域的切分,然后分别进行训练,再把得到的向量串联起来,即得到最后的向量。

以上方法仅局限于相对简单的图像处理技术,该类方法生成的多样本具有一定的局限性。比如,真正意义上的旋转应按一定的角度进行3D旋转,而不仅仅是图像本身的角度旋转。合成数据能一定程度上解决以上问题,如Shotton等通过随机森林合成3D深度数据来估计人体姿势,Jaderberg等使用合成数据来训练CNN模型识别自然场景下的文字[31]。这些研究的结果均优于使用剪裁,旋转等传统方法。但使用3D合成图像比较复杂,需要较多的前期工作。

近年来,借助生成对抗网络(Generative Adversarial Networks,GANs)来生成原始样本的方法吸引了很多学者。2014年6月,Goodfellow 等发表了论文《Generative Adversarial Nets》[32],文中详尽介绍了GANs的原理、优点及其在图像生成方面的应用,标志着GANs的诞生。早期的GANs模型存在许多问题,如GANs网络不稳定,甚至有时该网络永远不会开始学习,生成的结果无法令人满意。文献[32]中生成器生成的图片十分模糊,针对此问题,Denton等提出一个被称为 LAPGANs的模型[33],该模型用多个卷积神经网络连续生成图像,这些新图像的清晰度不断提高,最终得到高分辨率图像。GANs除了基于图像生成图像外,还可以通过文字生成图像,如文献[34]搭起了文本到图像的桥梁,通过GANs将文本直接转换成对的图像。文献[35]将GAN应用于超分辨率中,该文献提出了全新的损失函数,使得 GANs 能对大幅降采样后的图像恢复其生动纹理和小颗粒细节。另外,Radford 等提出了名为DCGANs的网络[36],该文献指出,用大数据集训练出的 GANs 能学习一整套层级的特征,并具有比其他无监督学习模型更好的效果。以上方法均为基于一大类原始样本生成另一大类图像。

基于GAN生成样本的过程如图2所示。首先将同类别的原始图像输入到生成对抗网络GAN的生成器网络G中,生成“假冒”图像G1和G2,接着借助判别器D来判断输入的图像是真实图像还是“假冒”图像。生成器G努力生成类似原始样本的图像,力争判别器D难以区分真假;而判别器D应不断提高自身性能,有能力鉴别出由生成器G生成的图像为赝品。生成器G和判别器D的价值函数如下:

生成器G最小化log(1-D(G(z))),判别器D最大化logD(x),使得最大概率按照训练样本的标签分类, 生成模型G隐式定义了一个概率分布Pg,希望Pg 收敛到数据真实分布Pdata。

图2 GAN生成新样本示意图

3 结 语

综上所述,基于原始样本的多样本生成算法是一个值得深入研究探索的问题,具备清晰而明确的理论意义和现实应用意义。虽然研究人员已经对相关问题进行了一些研究,取得了一系列成果,但是多样本的产生方法缺乏全面、深入的理解,尚未出现具有里程碑意义的研究成果。具体而言,本文认为,基于原始样本的多样本生成问题需要在如下几个方面展开深入的研究:

(1)在研究多样本生成算法时,保留原始样本的本质特征,如在人脸识别中,抛弃不必要信息(光照、表情和姿势)的影响是一项十分有意义的工作。

(2)在合成新样本时,设计合理有效的构造元素,使合成的新表示更接近自然亦是一个值得研究的方向。

(3)基于生成对抗网络,研究某一类对象的生成新样本的核心算法是一项有意义的工作。

参考文献

[1] K Simonyan, A Zisserman.Very deep convolutional networks for large-scale image recognition [Z]. Computer Science, 2014.

[2] C Szegedy,W Lin,Y Jia, et al. Going deeper with convolutions[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015.

[3] K He,X Zhang,S Ren,et al. Deep residual learning for image recognition[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016.

[4] Turk, Matthew, Pentland, et al.Eigenfaces for Recognition[J]. Journal of Cognitive Neuroscience, 2014,3(1): 71-86.

[5] A Pentland.Looking at People: Sensing for Ubiquitous and Wearable Computing[J].IEEE Transactions on Pattern Analysis & Machine Intelligence, 2000,22(1): 107-119.

[6] C Liu, H Wechsler.Robust coding schemes for indexing and retrieval from large face databases[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2000,9(1): 132-137.

[7] T Ojala,M Pietik?inen.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2002,24(7): 404-420.

[8] T Ahonen, A Hadid, M Pietikainen.Face Description with Local Binary Patterns: Application to Face Recognition[J]. European Conference on Computer Vision, 2004,28(12): 469-481.

[9] GB Huang, M Mattar, T Berg,et al. Labeled faces in the wild: A database for studying face recognition in unconstrained environments[Z].Month,2008.

[10] OM Parkhi, A Vedaldi, A Zisserman.Deep Face Recognition[C]. British Machine Vision Conference, 2015.

[11] Y Taigman,M Yang, Marc, et al. DeepFace: Closing the Gap to Human-Level Performance in Face Verification[C]. in Conference on Computer Vision and Pattern Recognition,2014.

[12] F Schroff,D Kalenichenko,J Philbin.FaceNet: A unified embedding for face recognition and clustering[C]. in IEEE Conference on Computer Vision & Pattern Recognition,2015.

[13] D Yi,Z Lei, S Liao, et al.Learning face representation from scratch[Z]. Computer Science, 2014.

[14] Y Xu, X Zhu, Z Li, et al.Using the original and ‘symmetrical face’ training samples to perform representation based two-step face recognition[J]. Pattern Recognition, 2013,46(4): 1151-1158.

[15] Y Xu.Integrate the original face image and its mirror image for face recognition[J]. Neurocomputing, 2014,31(7): 191-199.

[16] BJ Boom, LJ Spreeuwers, RNJ Veldhuis.Virtual illumination grid for correction of uncontrolled illumination in facial images[J]. Pattern Recognition, 2011,44(9): 1980-1989.

[17] F Abdolali,S Seyyedsalehi. Improving pose manifold and virtual images using bidirectional neural networks in face recognition using single image per person[Z]. in International Symposium on Artificial Intelligence and Signal Processing,2011.

[18] HT Ho,R Chellappa. Pose-invariant face recognition using Markov random fields[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2013,22(4): 1573.

[19] Y.-S., Ryu.,S.-Y., O..Simple hybrid classifier for face recognition with adaptively generated virtual data[J]. Pattern Recognition Letters, 2012,23(7): 833-841.

[20] A Wagner,J Wright, A Ganesh,et al.Toward a Practical Face Recognition System: Robust Alignment and Illumination by Sparse Representation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2012,34(2): 372-386.

[21] Z Liu,X Song,Z Tang.Integrating virtual samples and fuzzy discriminant analysis for sparse representation-based face classification[J]. Journal of Electronic Imaging, 2015,24(2): 23013.

[22] YJ Song,YG Kim,UD Chang,et al. Face recognition robust to left/right shadows; facial symmetry[J]. Pattern Recognition, 2006,39(8): 1542-1545.

[23] Z Liu, X Song, Z Tang.Fusing hierarchical multi-scale local binary patterns and virtual mirror samples to perform face recognition[J]. Neural Computing & Applications, 2015,26(8): 2013-2026.

[24] G Zhang,W Zou,X Zhang,et al. Singular value decomposition based sample diversity and adaptive weighted fusion for face recognition[J]. Digital Signal Processing, 2017,62: 150-156.

[25] K Chatfield,K Simonyan,A V edaldi,et al. Return of the devil in the details: Delving deep into convolutional nets[Z]. Computer science, 2014.

[26] H Yang, I Patras.Mirror, mirror on the wall, tell me, is the error small? [J]. Der Chirurg; Zeitschrift für alle Gebiete der,2015,69(12):235-240.

[27] A Krizhevsky, I Sutskever, GE Hinton. ImageNet Classification with Deep Convolutional Neural Networks [J]. Advances in Neural Information Processing Systems, 2012,25(2): 1097-1105.

[28] G Levi,T Hassner. Age and gender classification using convolutional neural networks[C].in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops,2015.

[29] S Xie, Z Tu. Holistically-nested edge detection[C]. in Proceedings of the IEEE International Conference on Computer Vision,2015.

[30] Y Sun, X Wang, X Tang.Deep Learning Face Representation from Predicting 10,000 Classes[C]. in Computer Vision and Pattern Recognition,2014.

[31] M Jaderberg, K Simonyan,A Vedaldi,et al.Synthetic data and artificial neural networks for natural scene text recognition[Z]. Eprint Arxiv, 2014.

[32] I Goodfellow,J Pougetabadie, M Mirza, et al. Generative adversarial nets[Z]. in Advances in neural information processing systems, 2014.

[33] E Denton,S Chintala,A Szlam. Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks[Z]. Computer science,2015.

[34] S Reed,Z Akata, X Yan,et al. Generative adversarial text to image synthesis[C]. in Proceedings of The 33rd International Conference on Machine Learning,2016.

第3篇:卷积神经网络的定义范文

【关键词】:高速公路 防逃 人脸识别 高清视

中图分类号:U412.36+6 文献标识码:A

人脸识别的分类与概述

人脸识别就是通过计算机提取人脸的特征,并根据这些特征进行身份验证。人脸与人体的其他生物特征(指纹、虹膜等)一样与生俱来,它们所具有的唯一性和不易被复制的良好特性为身份鉴别提供了必要的前提;同其他生物特征识别技术相比,人脸识别技术具有操作简单、结果直观、隐蔽性好的优越性。人脸识别一般包括三个步骤:人脸检测、人脸特征提取和人脸的识别与验证。其处理流程如图

输入图像 人脸图像人脸特征输出结果

人脸识别的一般步骤

人脸识别方法繁多,早期研究较多的方法有基于几何特征的人脸识别方法和基于模板匹配的人脸识别方法。目前人脸识别方法主要研究及应用的是基于统计的识别方法、基于连接机制的识别方法以及其它一些综合方法。下面是这几类方法的基本介绍:[2]

(1)基于几何特征的人脸识别方法

几何特征矢量是以人脸器官如眼睛、鼻子、嘴巴等的形状和几何关系为基础的特征矢量,其分量通常包括人脸指定两点间距离、曲率、角度等。早期的研究者Brunelli[3]等人采用改进的积分投影法提取出用欧式距离表征的35维人脸特征矢量用于人脸识别。Huang Chung Lin等人[4]采用动态模板[5,6,7]与活动轮廓模型提取出人脸器官的轮廓[8,9,10]。基于几何特征的人脸识别方法有如下优点:符合人类识别人脸的机理,易于理解;对每幅图像只需要存储一个特征矢量,存储量小;对光照变化不敏感。但这种方法同样存在一些问题,如从图像中提取这些特征比较困难;对强烈的表情变化和姿态变化的鲁棒性差等。

(2)基于模板匹配的人脸识别方法

模板匹配大都采用归一化相关,直接计算两幅图之间的匹配程度。最简单的人脸模板就是将人脸看成一个椭圆[10,11]。另一种方法就是将人脸用一组独立的小模板表示,如眼睛模板、嘴巴模板、鼻子模板等,采用弹性模板方法提取这些模板特征[12]。Brunelli等人专门比较了基于几何特征的人脸识别方法和基于模板匹配的人脸识别方法,他们得出的结论是:基于几何特征的人脸识别方法具有识别速度快和内存要求小等优点,但基于模板匹配的识别率要高于基于几何特征的识别率。

(3)基于统计的人脸识别方法

基于统计特征的识别方法包括基于特征脸的方法和基于隐马尔可夫模型的方法。特征脸(Eigenface)方法[13]是从主成分分析导出的一种人脸识别和描述技术。主成分分析实质上是K-L展开的网络递推实现,K-L变换是图像压缩中的一种最优正交变换,其生成矩阵一般为训练样本的总体散布矩阵。特征脸方法就是将包含人脸的图像区域看作是一种随机向量,因此可以采用K-L变换获得其正交K-L基底。对应其中较大特征值的基底具有与人脸相似的形状,因此又称之为特征脸。

隐马尔可夫模型(HMM)是用于描述信号统计特性的一组统计模型。基于人脸从上到下、从左到右的结构特征,Samaria等人[14]首先将1-D HMM和2-D Pseudo HMM用于人脸识别。Kohir等[15]采用1-D HMM将低频DCT系数作为观察矢量获得了好的识别效果。Eickeler等[16]采用2-DPseudo HMM识别DCT压缩的JPEG图像中的人脸图像。Nefian等[17]采用嵌入式HMM识别人脸。

(4)基于连接机制的人脸识别方法(神经网络弹性图匹配)

基于连接机制的识别方法,包括一般的神经网络方法和弹性图匹配(Elastic Graph Matching)方法。神经网络在人脸识别应用中有很长的历史[18]。Demers 等[19]提出采用PCA方法提取人脸图像特征,用自相关神经网络进一步压缩特征,最后采用一个多层处理器来实现人脸识别。Laurence等[20]通过一个多级的SOM实现样本的聚类,将卷积神经网络(CNN)用于人脸识别。Lin等[21]采用基于概率决策的神经网络(PDBNN)方法。最近,径向基函数RBF神经网络因具有逼近性好、空间描述紧凑和训练速度快等特点而被用于人脸识别。Gutta等[22]提出了将RBF与树分类器结合起来进行人脸识别的混合分类器结构,后来他们用RBF神经网络进行了针对部分人脸的识别研究[23],他们的研究表明利用部分人脸也可以有效地识别人脸。Er等[24]采用PCA进行维数压缩,再用LDA抽取特征,然后基于RBF进行人脸识别。Haddadnia 等[25]基于PZMI(Pseudo Zernike Moment Invariant)特征,并采用混合学习算法的RBF神经网络进行人脸识别。此外,Lucas 等采用连续的n-tuple网络识别人脸。

弹性图匹配方法是一种基于动态链接结构的方法[26]。在人脸图像上放置一组矩形网格节点,每个节点的特征用该节点处的多尺度Gabor幅度特征描述,各节点之间的连接关系用几何距离表示,从而构成基于二维拓扑图的人脸描述。根据两个图像中各节点和连接之间的相似性可以进行人脸识别。Wiskott等[27]将人脸特征上的一些点作为基准点,强调了人脸特征的重要性。他们采用每个基准点存储一串具有代表性的特征矢量,大大减少了系统的存储量。Würtz 等[28]只使用人脸面部的特征,进一步消除了结构中的冗余信息和背景信息,并使用一个多层的分级结构。Grudin等[29]也采用分级结构的弹性图,通过去除了一些冗余节点,形成稀疏的人脸描述结构。Nastar等[30]提出将人脸图像I(x,y)表示为可变形的3D网格表面(x, y, I(x,y)),将人脸匹配问题转换为曲面匹配问题,利用有限元分析的方法进行曲面变形,根据两幅图像之间变形匹配的程度识别人脸。

(5)基于形变模型的方法

基于形变模型的方法是一个受到重视的方法。通过合成新的视觉图像,可以处理姿态变化的问题。Lanitis等[31]通过在人脸特征边沿选择一些稀疏的基准点描述人脸的形状特征,然后将形状变形到所有人脸图像的平均形状,再根据变形后的形状进行纹理(灰度)变形,形成与形状无关的人脸图像。然后分别对形状和灰度进行PCA变换,根据形状和纹理的相关性,用PCA对各自的结果进一步分析,最终得到描述人脸的AAM(Active Appearance Model)模型。通过改变这些参数可得到不同变化的人脸图像,模型参数能够用于人脸识别。Romdhani 等[32]采用激光扫描仪获得人脸的3D数据,分别对一些基准点构成的形状和基准点的灰度(或彩色)完成PCA,得到3D人脸形状和灰度(彩色)基图像,通过变化参数就可获得不同的3D人脸模型。通过施加一些先验约束可以避免合成不真实的人脸图像。利用线性形状和纹理误差,通过3D模型向2D输入图像的自动匹配实现人脸识别。

项目采用的识别算法

人脸自动识别技术经过多年来的研究已经积累了大量研究成果。但是仍然面临很多问题,尤其是在非约束环境下的人脸识别。结合本研究项目及应用环境综合考虑,采用特征脸方法对视屏资料中的司机脸部进行提取识别。

特征脸方法是90年代初期由Turk和Pentland提出算法,具有简单有效的特点, 也称为基于主成分分析(principal component analysis,简称PCA)的人脸识别方法。把人脸图像空间线性投影到一个低维的特征空间。PCA实质上是K-L展开的网络递推实现。K-L变换是图像压缩技术中的一种最优正交变换。人们将它用于统计特征提取。从而形成子空间法模式识别的基础。若将K-L变换用于人脸识别,则需假设人脸处于低维线性空间。由高维图像空间K-L变换后,可得到一组新的正交基,由此可以通过保留部分正交基获得正交K-L基底。如将子空间对应特征值较大的基底按照图像阵列排列,则可以看出这些正交基呈现出人脸的形状。因此这些正交基也称为特征脸,这种人脸的识别方法也叫特征脸法。

特征子脸技术的基本思想是:从统计的观点,寻找人脸图像分布的基本元素,即人脸图像样本集协方差矩阵的特征向量,以此近似地表征人脸图像。这些特征向量称为特征脸(Eigenface)。

利用这些基底的线性组合可以描述、表达和逼近人脸图像,因此可以进行人脸识别与合成。识别过程就是将人脸图像映射到由特征脸张成的子空间上,比较其与已知人脸在特征脸空间中的位置,具体步骤如下:[33]

(1)初始化,获得人脸图像的训练集并计算特征脸,定义为人脸空间;

(2)输入待识别人脸图像,将其映射到特征脸空间,得到一组权值;

(3)通过检查图像与人脸空间的距离判断它是否为人脸;

(4)若为人脸,根据权值模式判断它是否为数据库中的某个人。

1. 计算特征脸

假设人脸图像包含个像素,因此可以用维向量Γ表示。如人脸训练集由幅人脸图像构成,则可以用表示人脸训练集。

其均值为:

(2-1)

每幅图像与均值的差为:

(2-2)

构造人脸训练集的协方差矩阵:

(2-3)

其中 。

协方差矩阵的正交分解向量即为人脸空间的基向量,也即特征脸。

一般比较大(通常大于1000),所以对矩阵直接求解特征向量是不可能的,为此引出下列定理:

SVD定理:设是一秩为的维矩阵,则存在两个正交矩阵:

(2-4)

(2-5)

以及对角阵:

(2-6)

满足

其中:为矩阵和的非零特征值,和分别为和对应于的特征矢量。上述分解成为矩阵的奇异值分解(SVD),为的奇异值。

推论:

(2-7)

由上述定理可知:

人脸训练集所包含的图像一般要比图像的像素数小的多,因此可以转求矩阵

(2-8)

的特征向量,M为人脸训练集图像总数。

矩阵的特征向量由差值图像与线性组合得到:

=(2-9)

实际上,m(m

(2-10)

识别

基于特征脸的人脸识别过程由训练阶段和识别阶段两个阶段组成。在训练阶段,每个己知人脸映射由特征脸张成的子空间上,得到m维向量:

(2-11)

距离阈值定义如下:

(2-12)

在识别阶段,首先把待识别的图像映射到特征脸空间,得到向量

(2-13)

与每个人脸集的距离定义为

(2-14)

为了区分人脸和非人脸,还需计算原始图像与其由特征脸空间重建的图像之间的距离:

(2-15)

其中:

(2-16)

采用最小距离法对人脸进行分类,分类规则如下:

(1)若,则输入图像不是人脸图像;

(2)若,则输入图像包含未知人脸;

(3)若,则输入图像为库中的某个人脸。

实际上,特征脸反映了隐含在人脸样本集合内部的信息和人脸的结构关系。将眼睛、面颊、下颌的样本集协方差矩阵的特征向量称为特征眼、特征颌和特征唇,统称特征子脸。特征子脸在相应的图像空间中生成子空间,称为子脸空间。计算出测试图像窗口在子脸空间的投影距离,若窗口图像满足阈值比较条件,则判断其为人脸。

基于特征分析的方法,也就是将人脸基准点的相对比率和其它描述人脸脸部特征的形状参数或类别参数等一起构成识别特征向量,这种基于整体脸的识别不仅保留了人脸部件之间的拓扑关系,而且也保留了各部件本身的信息,而基于部件的识别则是通过提取出局部轮廓信息及灰度信息来设计具体识别算法。现在Eigenface(PCA)算法已经与经典的模板匹配算法一起成为测试人脸识别系统性能的基准算法;而自1991年特征脸技术诞生以来,研究者对其进行了各种各样的实验和理论分析,FERET测试结果也表明,改进的特征脸算法是主流的人脸识别技术,也是具有最好性能的识别方法之一。

该方法是先确定眼虹膜、鼻翼、嘴角等面像五官轮廓的大小、位置、距离等属性,然后再计算出它们的几何特征量,而这些特征量形成一描述该面像的特征向量。其技术的核心实际为"局部人体特征分析"和"图形/神经识别算法。"这种算法是利用人体面部各器官及特征部位的方法。如对应几何关系多数据形成识别参数与数据库中所有的原始参数进行比较、判断与确认。Turk和Pentland提出特征脸的方法,它根据一组人脸训练图像构造主元子空间,由于主元具有脸的形状,也称为特征脸,识别时将测试图像投影到主元子空间上,得到一组投影系数,和各个已知人的人脸图像比较进行识别。

结束语

从目前国情来讲,在一段时间内高速公路收费还会继续存在,某些司机逃费的侥幸心也同样会有。通过带路径识别功能的 RFID 复合卡作为通行卡,利用 RFID 卡的信息对车辆进行跟踪,在不增加硬件投入的情况下,直接可以给车道收费系统提供抓拍高清图像,以及其它报警联动系统提供图像等,可有效解决高速公路冲卡逃费问题,可广泛应用于封闭式管理的公路收费系统。

参考文献:

[1]江艳霞. 视频人脸跟踪识别算法研究. 上海交通大学博士学位论文,2007.

[2]Brunelli R and Poggio T., Feature Recognition: Features Versus Templates. IEEE Transactions on

PAMI, 1993, 15(10):1042 -1052.

[3]李刚. 基于特征脸法的正面人脸识别研究. 国防科学技术大学硕士学位论文,2002.11

[4]JOHN CANNY. A Computational Approach to Edge Detection. IEEE TRANSACTIONS ON PATTERN

ANALYSIS AND MACHINE INTELLIGENCE, VOL.PAMI-8, NO.6, NOVEMBER 1986.

[5]张建飞、陈树越等. 基于支持向量基的交通视频人车识别研究[J]. 电视技术,2011

[6]肖波、樊友平等. 复杂背景下基于运动特征的人面定位[J]. 重庆大学学报,2002

[7] 《中华人民共和国交通部公路联网收费技术要求》,交通部

[8] 《广东省高速公路联网收费系统》,DB44 127-2003,广东省质量技术监督局

[9] 《视频安防监控数字录像设备》,GB 20815-2006

[10]《安全防范工程技术规范》,GB 50348-2004

第4篇:卷积神经网络的定义范文

关键词:图像分割 阈值分割 遗传算法 小波变换

中图分类号:TP391 文献标识码:A 文章编号:1002-2422(2010)02-0001-03

图像分割是按照一定的规则把图像划分成若干个互不相交、具有一定性质的区域,把人们关注的部分从图像中提取出来,进一步加以研究分析和处理。图像分割的结果是图像特征提取和识别等图像理解的基础,对图像分割的研究一直是数字图像处理技术研究中的热点和焦点。图像分割使得其后的图像分析,识别等高级处理阶段所要处理的数据量大大减少,同时又保留有关图像结构特征的信息。图像分割在不同的领域也有其它名称,如目标轮廓技术、目标检测技术、阈值化技术、目标跟踪技术等,这些技术本身或其核心实际上也就是图像分割技术。

1 经典图像分割方法

1,1阈值分割方法

阈值分割是常见的直接对图像进行分割的算法,根据图像像素的灰度值的不同而定。对应单一目标图像,只需选取一个阈值,即可将图像分为目标和背景两大类,这个称为单阈值分割:如果目标图像复杂,选取多个阈值,才能将图像中的目标区域和背景被分割成多个,这个称为多阈值分割,此时还需要区分检测结果中的图像目标,对各个图像目标区域进行唯一的标识进行区分。阈值分割的显著优点,成本低廉,实现简单。当目标和背景区域的像素灰度值或其它特征存在明显差异的情况下,该算法能非常有效地实现对图像的分割。闽值分割方法的关键是如何取得一个合适的阈值,近年来的方法有:用最大相关性原则选择阈值的方法、基于图像拓扑稳定状态的方法、灰度共生矩阵方法、最大熵法和谷值分析法等,更多的情况下,阈值的选择会综合运用两种或两种以上的方法,这也是图像分割发展的一个趋势。

1,2基于边缘的图像分割方法

边缘总是以强度突变的形式出现,可以定义为图像局部特性的不连续性,如灰度的突变、纹理结构的突变等。边缘常常意味着一个区域的终结和另一个区域的开始。对于边缘的检测常常借助空间微分算子进行,通过将其模板与图像卷积完成。两个具有不同灰度值的相邻区域之间总存在灰度边缘,而这正是灰度值不连续的结果,这种不连续可以利用求一阶和二阶导数检测到。当今的边缘检测方法中,主要有一次微分、二次微分和模板操作等。这些边缘检测器对边缘灰度值过渡比较尖锐且噪声较小等不太复杂的图像可以取得较好的效果。但对于边缘复杂的图像效果不太理想,如边缘模糊、边缘丢失、边缘不连续等。噪声的存在使基于导数的边缘检测方法效果明显降低,在噪声较大的情况下所用的边缘检测算子通常都是先对图像进行适当的平滑,抑制噪声,然后求导数,或者对图像进行局部拟合,再用拟合光滑函数的导数来代替直接的数值导数,如Mart算子、canny算子等。在未来的研究中,用于提取初始边缘点的自适应阈值选取、用于图像层次分割的更大区域的选取以及如何确认重要边缘以去除假边缘将变的非常重要。

1,3基于函数优化的分割方法

此方法是图像分割中另一大类常用的方法。其基本思路是给出一个目标函数,通过该目标函数的极大化或极小化来分割图像。GA.Hewer等人提出了一个具有广泛意义的目标函数。统计学分割方法、结合区域与边缘信息的方法、基于贝叶斯公式的分割方法等是目前几种活跃的函数优化方法。

统计学分割方法是把图像中各个像素点的灰度值看作是具有一定概率分布的随机变量,且观察到的实际物体是作了某种变换并加入噪声的结果。统计学分割方法包括基于马尔科夫随机场方法、标号法、混合分布法等。

区域增长法和分裂合并法是基于区域信息的图像分割的主要方法。区域增长有两种方式,一种是先将图像分割成很多的一致性较强的小区域,再按一定的规则将小区域融合成大区域,达到分割图像的目的。另一种实现是给定图像中要分割目标的一个种子区域,再在种子区域基础上将周围的像素点以一定的规则加入其中,最终达到目标与背景分离的目的;分裂合并法对图像的分割是按区域生长法沿相反方向进行的,无需设置种子点。其基本思想是给定相似测度和同质测度。从整幅图像开始,如果区域不满足同质测度,则分裂成任意大小的不重叠子区域,如果两个邻域的子区域满足相似测度则合并。

2 结合特定工具的图像分割算法

虽然图像分割目前尚无通用的理论,但是近年来大量学者致力于将新概念、新方法应用于图像分割,结合特定理论的图像分割方法在图像分割方面取得了较好的应用效果。如小波分析和小波变换、神经网络、遗传算法等数学工具的利用,有效地改善了分割效果。

2,1基于遗传算法的图像分割

遗传算法是模拟自然界生物进化过程与机制求解问题的一类自组织与自适应的人工智能技术。对此,科学家们进行了大量的研究工作,并成功地运用于各种类型的优化问题,在分割复杂的图像时,人们往往采用多参量进行信息融合,在多参量参与的最优值求取过程中,优化计算是最重要的,把自然进化的特征应用到计算机算法中,将能解决很多问题。遗传算法的出现为解决这类问题提供了新而有效的方法,不仅可以得到全局最优解,而且大量缩短了计算时间。王月兰等人提出的基于信息融合技术的彩色图像分割方法,该方法应用剥壳技术将问题的复杂度降低,然后将信息融合技术应用到彩色图像分割中,为彩色分割在不同领域中的应用提供了一种新的思路与解决办法。

2,2基于人工神经网络技术的图像分割

基于神经网络的分割方法的基本思想是先通过训练多层感知器来得到线性决策函数,然后用决策函数对像素进行分类来达到分割的目的。近年来,随着神经学的研究和进展,第三代脉冲耦合神经网络(PCNN)作为一种新型人工神经网络模型,其独特处理方式为图像分割提供了新的思路。脉冲耦合神经网络具有捕获特性,会产生点火脉冲传播,对输入图像具有时空整合作用,相邻的具有相似输入的神经元倾向于同时点火。因此对于灰度图象,PCNN具有天然的分割能力,与输入图像中不同目标区域对应的神经元在不同的时刻点火,从而将不同区域分割开来。如果目标区域灰度分布有重叠,由于PCNN的时空整合作用,如果灰度分布符合某种规律,PCNN也能克服灰度分布重叠所带来的不利影响,从而实现较完美的分割。这是其一个突出的优点,而这恰恰是其他的分割方法所欠缺的,其在未来的图像分割中将起主导作用。

2,3基于小波分析和变换的图像分割

近年来,小波理论得到了迅速的发展,而且由于其具有良好的时频局部化特性和多分辨率分析能力,在图像处理等领域得到了广泛的应用。小波变换是一种多尺度多通道分析工具,比较适合对图像进行多尺度的边缘检测。从图像处理角度看,小波变换具有“变焦”特性,在低频段可用高频率分辨率和低时间分辨率,在高频段可用低频率分辨率和高时间分辨率,小波变换在实现上有快速算法具有多分辨率,也叫多尺度的特点,可以由粗及精地逐步观察信号等优点。近年来多进制小波也开始用于边缘检测。另外,把小波变换和其它方法结合起来的图像分割技术也是现在研究的热点。

3 图像分割的应用现状

在图像处理中,图像分割是一种重要的技术,是图像分析的基础。随着图像分割技术研究的深入,其应用日趋广泛,几乎出现在有关图像处理的所有领域,并涉及各种类型的图像。凡属需要对图像目标进行提取、测量的工作都离不开图像分割。通常,图像分割是为了进一步对图像进行分析、识别、压缩、编码等,图像分割的准确性将直接影响后继的工作,因此,分割的方法和精确程度是至关重要的。目前,图像分割在图像工程中占据非常重要的位置,图像分割已在交通、医学、遥感、通信、军事和工业自动化等诸多领域得到广泛应用。表1是应用领域表。

第5篇:卷积神经网络的定义范文

关键词:小波变换,非整数次谐波,谐波检测

 

1 引言

近年来,随着电力电子技术的迅速发展,各种变频器、变流器、开关电源和电抗器等非线性设备的应用日益增多,产生了大量的高次谐波,造成电力系统电压、电流严重畸变,引发了一系列问题。

传统的快速傅氏变换以求和替代积分,以降低精度为代价来提取实时性,可以得出各次谐波的幅值相位。

瞬时无功功率理论自20世纪80年代提出后,突破了传统的平均值为基础的功率定义,具有较好的实时性,抗干扰能力强。

神经网络方法其特点是算法基于误差曲面上的梯度下降,权调数量与输入量一致,并保持与误差的负梯度方向一致,因此能保证网络的收敛性。

小波变换理论适合于对局部频域进行精确分析,它提供了一个自适应的可调采样窗口,具有更强的实时性。而且小波变换理论分析时频问题的良好特性使得它在检测非整数次谐波方面优于其他理论。本文采用连续小波变换分析系统中的整数次与非整数次谐波,并通过Matlab仿真得到了较好的分析结果,表明了小波变换具有检测电力系统中各种谐波的良好功能。

2 谐波检测原理

小波变换公式:。论文格式。

其中,为小波基函数,a为伸缩因子,为平移因子,x(t)为待分析信号。

由上式可知,小波变换实质上是信号x(t)与小波母函数的卷积,是对信号满足一定附加条件的滤波。而滤波的范围则是由参数α, 来决定,反映在小波母函数和小波因子的选择上。可见,小波变换是按频带而不是按频点的方式处理频域,因此信号频率的微小波动不会对处理产生很大影响,且不要求对信号进行整周期采样;其次,由小波变换的时间局部性可知,在信号局部发生波动时,它不会像傅立叶变换那样把影响扩散到整个频谱,而只改变当时一小段时间的频谱分布,这使其可以跟踪时变信号和暂态信号。

由于小波变换具有良好的时频局部化特征,使得小波变换应用于电力系统的谐波检测有着很好的理论基础,可以根据不同尺度的小波变换系数的幅值来测量谐波的频率。由连续小波变换公式可见,信号的连续小波变换相当于信号通过有限长的带通滤波器不同的尺度因子α决定带通滤波器的带通特性。如果能够使不同频率的谐波位于不同的频带中,就能够把包括整数次非整数次的不同频率的谐波分离出来。因此,利用小波变换可以实现整数次和非整数次的谐波含量的测量。

本文中采用Daubechies小波对函数进行小波变换。论文格式。一般将其简写为dbN,N是小波的阶数。dbN没有明确的表达式(除了N=1外),但转换函数h的平方模是很明确的。

令,其中为二项式的系数,则有:

式中,。

3 仿真结果分析

对本文提出的检测方法进行数字仿真,其中3.1是对于含有基波、2、3.4次谐波检测信号的仿真,3.2是对含噪的的谐波信号检测的仿真。论文格式。

3.1 含有基波、2、3.4次谐波检测信号的仿真

由于非线性元件和电力电子器件的广泛应用,使电力系统中存在着大量的整数次与非整数次谐波。采样一个周期,而系统中分别有基波、2、3.4次谐波时,采用db3小波对信号进行5层分解。

图1 线形组合后的信号

图2 小波分解后各层的逼近信号

图3 小波分解后各层的细节信号

当信号中含有基波、2次、3.4次谐波时,其线形组合后的信号如图1所示,对组合信号进行5层db3分解后的逼近信号如图2所示,细节信号如图3所示。从图2可以看出,逼近信号a1显示了3.4次谐波,逼近信号a2显示了基波,二次谐波则出现在细节信号d2中。由此可知,对于常规傅立叶变换不能检测非整数次谐波的问题,可以利用小波变换分析系统中存在的非整次谐波。通过分析小波变换对谐波检测的特点,选用了db3小波变换并分析了含有非整次谐波的系统,证明了小波变换对于解决含有非整次谐波的检测和分析具有良好的特性。

3.2对含噪的谐波信号的仿真

在电网电压中,由于各种现代电力电子设备的干扰,不但存在谐波信号,而且有着广泛的噪声信号。采样一个周期,而系统中分别含有3.7次谐波和噪声信号时,采用db3小波对信号进行5层分解。

图4 含噪声信号线形组合后的信号

图5 含噪声信号小波分解后各层的逼近信号

图6 含噪声信号小波分解后各层的细节信号

当信号中含有3.7次谐波和噪声信号时,其线形组合后的信号如图4所示,对组合信号进行5层db3分解后的逼近信号如图5所示,细节信号如图6所示。从图6可以看出,3.7次谐波体现在逼近信号部分,而白噪声体现在细节信号部分。由此可知,小波变换不但具有良好的非整次谐波的检测能力还具有良好的噪声分辨能力。

4 结论

小波变换是针对快速傅立叶变换在分析非稳态信号方面的局限性形成和发展起来的一种十分有效的时频分析工具,它克服了快速傅立叶变换的缺点,采用不同尺度的分析方法,能在信号的不同部位得到最佳的时域分辨率和频域分辨率,为非稳态信号的分析提供了一条新的途径,通过本文的仿真可知,它对于含有整数次、非整数次谐波和含噪谐波的检测有着很大的优越性。

参考文献

1 石国萍、田立军. 基于小波变换的统一电能质量控制器检测方法研究. 2004,16(1):34-37

2 林易群等. 基于小波多孔算法的暂态电能质量检测方法. 中国电力,2002,35(10):54-57

3 张庆超. 基于小波神经网络的输电线路故障检测. 天津大学学报,2003,36(6):710-713

4 薛蕙、杨仁刚. 利用Morlet连续小波实现非整次谐波检测. 电网技术,2002,26(12):41-44

5 欧阳森. 基于小波原理的电能质量检测数据实时压缩方法. 电网技术,2003,27(2):37-39

第6篇:卷积神经网络的定义范文

关键词 Sobel算法;算子;边缘检测;多方向模板;边缘细化

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)27-0159-03

Abstract: Edge extraction is an essential part of image research. In this paper, a variety of edge extraction methods were compared. The traditional Sobel algorithm is described. In view of the traditional Sobel algorithm, the existence of the detection direction is not strong and edge extraction of the characteristics of the rough, an improved 5*5 template extraction method for multi direction algorithm is proposed.. After getting the picture again using the algorithm to deal with edge thinning. According to the experimental results, it can be concluded that compared with the traditional Sobel, the improved algorithm is more fine and the direction is stronger than the traditional one.

Key words:sobel arithmetic; operator; edge detection; multi direction template; edge thinning

1 引言

唐卡在藏族文化、历史、政治等各个领域都有涉及,凝聚着藏族人民的智慧,记载了藏族历史发展,具有很高的研究价值。 在日常生活中,人们主要采用语音和图像这两种方式来进行信息的传递[1],随着科学技术和数字媒体的不断发展,图像所包含的信息越来越丰富。在医学、气象监控、艺术创作、传真、微生物工程等都有很大应用,因而图像处理的技术变得越来越重要。而图像边缘是整个图像的整体概貌,图像的边缘提取也就成了图像处理技术过程中最基础也最重要的一步,人们也希望找到一种方法可以抗噪强、定位准、不漏检、不误检[2]。目前,边缘提取算法主要可以分为三大类:

第一是基于导数的方法,比如[3]:1)Sobel算法:一阶微分算法,在图像空间利用两个方向模板与图像进行卷积;2)Roberts算法:一阶微分的边缘检测算子,利用相邻对角方向的两个像素之差检测边缘;3)Prewitt算法:一阶微分算法,利用水平和垂直两个方向的卷与图像的每个像素进行卷积,两者得出的最大值即为结果;4)Kirsch算法:利用8个方向算子与图像的像素进行卷积检测边缘;5)Canny算法:一种多级算法;

第二是基于能量准则的算法,比如:1)松弛算法: 指对于每个顶点v∈V,都设置一个属性d[v],用来描述从源点s到v的最短路径上权值的上界,称为最短路径估计;2)神经网络分析: 从神经心理学和认知科学研究成果出发,应用数学方法发展起来的一种具有高度并行计算能力、自学能力和容错能力的处理方法;3)Snake算法: 给出初始的轮廓,然后进行迭代,使轮廓沿能量降低的方向靠近,最后得到一个优化的边界;

第三种是刚发展的一些新技术,比如:小波变换: 一种新的变换分析方法,它继承和发展了短时傅立叶变换局部化的思想,同时又克服了窗口大小不随频率变化等缺点,能够提供一个随频率改变的“时间-频率”窗口,是进行信号时频分析和处理的理想工具。

2 常用边缘提取算法的比较

传统的边缘算法主要有Sobel算法、Prewitt算法、Roberts算法、Kirsch算法、Canny算法。这些边缘检测算法操作简单,速度快,但是检测的边缘容易受到噪声的干扰,所以都存在检测出的边缘不准确,造成误差的原因主要有:1)图像本身所具有的真实灰度与我们想检测的灰度值之间不完全吻合;2)算子模板方向固定,忽略了其他方向的边缘;3)都比较容易受噪声影响。[4]

表1对传统边缘提取的算法在边缘输出、漏检、假检、边缘检测精度、耗时、抗噪能力等方面进行了比较。从表中可以看出,Sobel算法除了耗时比较长以外,是几种传统算法中最实用的一种算法,本文通过比较,以传统Sobel算法为基础,在此分析基础上提出了一种改进后的Sobel算法。

3 传统的sobel算法

3.1 传统Sobel算法基本理论

Sobel算法是基于梯度的一阶导数的边缘检测方法,由于图像的灰度边缘处会有跳变的现象[6],从而根据此现象来进行边缘的检测。传统Sobel算子在图像空间利用两个方向模板与图像进行卷积,一个是水平梯度方向,来检测垂直边缘;一个是垂直梯度方向,来检测水平边缘。模板中的数字为模板系数,中间的点表示中心元素,梯度方向与边缘方向总是正交垂直。两个方向的算子如图1所示:

3.2 算法实现

首先分别将水平和垂直方向上的两个模板的中心点与图像中的每个像素对应;然后用模板与图像进行卷积;最后两个模板与图像进行卷积后得出的两个值,比较大小,选出最大值,则为某点的新的像素值。也可理解为是求最大值的方法,用公式定义如下:

g(i,j)=|f(i-1,j+1)+2f(i,j+1)+f(i+1,j+1)-f(i-1,j-1)-2f(i,j-1)-f(i+1,j-1)|+|f(i-1,j-1)+2f(i-1,j+1)+f(i+1,j-1)-2f(i+1,j)-f(i+1,j+1)|

卷积模板如图1,卷积的最大值为该点的输出值。由于传统的Sobel算法只考虑了水平和垂直两个方向,忽略了边缘的多方向性;其次,检测出的边缘有很多的伪边缘,并且检测出的边缘较粗,本文提出了8方向的5*5模板的改进方法。

4 改进后的sobel算法

4.1 8个方向模板

传统的Sobel算法只考虑了水平和垂直两个方向,检测出的边缘较粗,并且具有伪边缘,因此,有人提出了一些改进的方法,例如:1)先用Sobel进行边缘检测,用ostu二值化,最后用多像素边缘细化算法进行细化;2)先用Sobel进行边缘检测,用Sobel进行细化,最后用自适应的动态阈值计算方法进行二值化;3)基于Sobel算法梯度相乘的热红外图像边缘提取;4)自适应权值的改进算法等等。而本文的改进方法是将边缘方向扩展为0°、45°、90°、135°、180°、225°、270°、315° 8个方向,以此增加边缘方向的准确性。如图2,图3所示[6]:

4.2 改进后算法的实现

设(i,j)为图像上各点像素坐标,g(i,j)为图像在该点的灰度值,[g(i,j)]矩阵为将要检测的图像,w(i,j)为最后检测所得的结果,由于8个方向模板为5*5,s[g(i,j)]即为以点(i,j)为中心的5*5模板,f(k)为图3中8个模板(其中k为0、1、2、3、4、5、6、7、),m为长度为8的数组。

第一步:将f(k)与s[g(i,j)]进行卷积,将计算所得的结果的绝对值存放在数组m中;

第二步:目的是:查找第一步算出的8个结果中的最大值,在一组数组中查找最大最小值,有二分法、冒泡排序法、选择排序法等等,由于本文涉及的数组中数据较少,因此选择顺序查找法来找出数组中的最大值,顺序查找法就是假定要从n个整数中查找最大值, 则从头到尾逐个查找。具体步骤如下:

a、 令max=m[0],k=1;

b、 若m[k]>max,则max=m[k];否则,k=k+1;

c、 若k

第三步:将max赋给w(i,j),即为该点的输出值[7]。

最后的输出值即为该点新的像素值。

4.3 边缘细化

我们采用改进后的算法对图像进行边缘提取,得到的图像1与原始的图像相比,图像1的边缘灰度有变化,在此基础上,我们在对图像1进行同样的处理,再用改进后算法进行提取,得到的图像2在图像1的基础上,中间的图像部分变成了背景,得到的边缘更细,两次所到的图像边缘进行相减,即:2-1得到图像3,关于图像3,我们将其边缘像素的负值全部改为0,所得到的图像即为细化后的结果图。

5 实验结果

为检测改进后的算法与传统算法的效果,在VC++环境下,以转经筒和唐卡为例对进行边缘提取后的效果图进行对比。图4图5为原图;图6图7为传统算法提取的结果;图8图9为改进后的效果图。有图可以看出,;图6检测出的边缘相对清晰完整,而图5提取的边缘比较模糊,并且数据比较乱,图6相对图5检测的边缘更加丰富,总的来说,本文的方法很好保护了各方向的边缘,得到了更好的效果。

6 结论

针对传统Sobel算法的一些弊端,本文扩展成5*5的8方向模板,重新定义了模板中的权值,和传统Sobel算法相比,在一定程度较好的保留并检测出了各个方向的边缘,且相对简单,对于传统的其他算法,如Roberts算法、Prewitt算法等都可以依据此方法进行改进,增加模板、扩展边缘方向为8个或者更多,以此得到更好的应用。

参考文献:

[1]郑英娟.基于八方向Sobel算子的边缘检测[J].数字信息处理,2013(S2).

[2]章毓晋.图像工程[M].北京:清华大学出版社,1999.

[3]何春华.基于改进Sobel算子的边缘检测算法的研究[J].信息光学与图像处理,2012(3).

[4]李安安.几种图像边缘检测算法的比较和展望[J].信息 技术与通信,2009(12).

[5]高飞.Sobel边缘检测算子的改进研究[J].算法分析,2016(1).

第7篇:卷积神经网络的定义范文

本文结合计算机行业的发展,对计算机网络云计算技术进行了分析研究,希望能为计算机技术的进步提供一定的理论支持。

一、计算机网络的云计算技术概念

美国的网络公司最早提出计算机网络云计算技术的概念,随着科学的进步与发展已经逐渐成为了一门成熟的技术,有着丰富的理论基础与实践经验。现在的“云计算”技术是指能将网络、硬件、设备相融合,同时实现规模性、安全性、虚拟性的技术。目前来看,对计算机网络云计算的定义还没有统一的趋势,每一名研究人员都有自己的研究与看法,通过研究与分析,本文对云计算的观点是:首先,每一个“云”都是独立的计算机分布体系,基于网络化、虚拟化的计算机服务层,与计算机中的资源保持一定的节奏,实现计算机资源的同步。其次,计算机网络云是一个综合体,并非是独立的,计算机软件的开发中离不开云计算的环节,其重点就是网络云计算特征的研究。对于计算机网络的使用者来说,计算机集成软件层面,能被接受与理解的就是云计算,在本文重点突出的就是云计算的属性。最后,计算机网络的使用者没有进行长期的规划后使用,很容易出现浪费现象,目前的云计算技术可以实现分或秒内的数据计算,可以很好地避免资源过载或资源浪费现象。

通过研究可以看出,计算机网络云计算技术可以定义成计算机网络中进行的某种服务形式,其中相关的硬件设施与软件系统统称为计算机网络云计算。定义中包括网络计算机、超级计算机、集成技术等,相关的技术既有区别又有联系。计算机网络云计算技术的原理是:大量的数据分布于分布式计算机中,同时保证用户的数据系统与计算机同步运行,进而实现及时将需要的资源切换到相应的应用中,根据使用者的访问需求进行存储系统与计算机系统的定位。计算机网络云计算技术可以基于用户服务需求及时提供所需的网络信息资源。计算机网络云计算技术适应性强,弹性好,专业技术性高,发展前景十分好,应用越来越广泛。

二、计算机网络云计算技术的分类

基于多样化的标准,计算机云计算的分类也有多种方式。比较常见的是:根据服务方式的不同,云计算可以分为私有云和公有云。私有云是根据用户的自身情况进行独立使用,同时建立平台,操作性与实用性十分好。公有云是ζ渌用户的资源进行开发利用。在选择私有云与公有云时,应该考虑的主要因素是:

1.服务的延续性

大部分情况下,公有云提供的服务容易受外界影响,如网络故障等情况,而私有云则不会出现这种问题。

2.数据安全性

如果对于稳定性与安全性不存在过高要求,则比较适合使用公有云。

3.综合使用成本

通常状况下,如果对于计算资源要求不高可以选用公有云,如果对于计算资源要求较高则比较适合建立自己的私有云平台。

4.监控能力

公有云可以将使用用户对系统的监控能力屏蔽起来,这对于金融保险投资行业是十分有必要的。

三、计算机网络云计算技术的实现

为了将计算机系统的系统处理过程进行简化,通常将该过程划分为预处理过程与功能实现过程两大部分。对系统的各项功能进行分解,得到一些不需要进行功能实现过程与预处理过程的功能。对于可以进行预先处理过程的功能通常是一次性处理,在执行过程中,可以将预处理过程得到的结果直接使用,以此完成特点的系统功能。该方法与原则的采用,极大地简化了系统,大幅度提高了系统运行效率。计算的云化中的系统就是计算云化系统,它的计算量十分巨大,系统计算运行效率极高。但因为计算云化系统为一次处理系统,只要计算云规则生成,计算云化系统的使命与任务也就完成,而不是在对计算机加以应用时需要该系统。通常在计算机网络云计算中形成的系统就是云计算系统,是一个十分简单的系统,对计算机的处理能力没有过高要求,同时应用于各类计算机系统计算中。

四、计算机网络云计算的计算与优势

建立计算机网络云计算过程的第一步是服务器架构的建立,其对计算机网络云计算技术中的IAAS部分进行充当。目前来看,仍没有关于网络云计算服务器架构的专门、统一的标准出现,这需要一定的相关技术进行支持,例如计算区域网SAN和附网NAS等,这都是应用比较多的服务器架构技术。NAS文件计算系统是松散结构型的集群,它的架构有很明显的分布式特征。NAS文件系统集群中的各个节点具有互补与相互影响的特点,文件是最小的单位,因为只要在集群存储文件就可以计算出文件的数据信息,直接减少了很多计算的冗余性。它的拓展性很高,同时成本较低,安全控制系统安全稳定。如果客户发出过多的请求,NAS系统的限制就表现出来,二级计算就可以通过NAS的云服务完成。

SAN是一种紧密结合类型的集群,在集群中存储文件之后,可以分解成很多个数据块。相比于集群之中的节点,各数据块之间能够进行相互访问。节点可以借助于访问文件间的数据块针对客户的请求进行处理。SAN系统之中可以通过节点数量增减来响应请求,同时提升界定本身的性能。为了能够将以SAN为基础的OBS发展起来,就需要更好的性能与更低的成本。而SAN计算建构的硬件价格十分高,同时依托于SAN的服务价格,因此可以适当地降低一下性能,保证更好的性能与更低的成本。

五、实例――基于谷歌云计算技术的AlphaGo亮点分析

AlphaGo通过谷歌云计算技术,拥有与人类棋手类似的“棋感”,其技术远胜于1997年IBM公司研制的超级电脑“深蓝”。“深蓝”面对的是相对围棋简单多的国际象棋,设计理念为根据棋局情况不断演算各种可能的步骤,最终从各种步骤中选定走棋方案。AlphaGo背后的云计算技术,可以让AlphaGo无需“暴力”分析演算所有步骤,只需要把运算能力都集中在“棋感策略”网络中最有可能的情况上。其背后的深层算法,具备三大亮点:(1)深度卷积神经网络学习技术:“棋感策略”网络的本质学习人类围棋大师走法思维。AlphaGo藉此拥有强大的盘面评估能力。(2)增强学习算法技术:此算法可通过自我对弈来持续提升AlhpaGo的棋感策略和盘面评估能力,并且给出落子选择。(3)蒙特卡洛搜索技术:“评价网络”的核心,可以融合棋感策略和盘面评估能力,修正落子选择而最终给出落子方案。

六、计算机网络云计算技术发展遇到的问题

在目前计算机网络云计算技术广泛地运用到各个领域的过程中,云计算技术也存在一些缺陷与不足还需要引起我们的重视,同时在云计算的应用过程中应采用足够的措施来对数据信息的安全性进行可靠的保障,这是计算机网络云计算技术发展过程中十分重要的一项课题。现在的大部分云端是通过浏览器进行接入的,浏览器是计算机系统中非常薄弱的地方,存在着很多的缺陷与漏洞,因此用户的云端接入浏览器时,用户证书与认证密钥特别容易因为浏览器漏洞而产生泄密。同时由于不同的应用都需要在云端中进行认证,这就需要保证认证机制的高效性与安全性。在应用服务层之中,应该采取安全有效的措施来保护用书的隐私安全,在基础设施层中要采取安全可靠的方法保C数据的安全性。

七、采取措施保障网民数据安全

如果数据的安全不能得到保障,就会对云计算的发展产生不利影响,所以为了能够保障网民数据的安全。就需要采取切实可行的手段来保证数据的安全性。

1.隔离操作系统与数据

为了能够切实有效地保障网民信息的安全,就需要充分使用Hypervisor,从而将网民的操作系统与数据资源隔离起来,从而有效地保证了计算资源的安全性,避免了网民操作系统所带来的可能的不利影响。

2.重置API保护层

服务商提供给用户API,用户根据需要进行应用。但同时第三方也有可能对这些API进行使用。为了保证数据的安全性,就需要你安装API保护层,重叠保护API。

3.严格身份认证

服务商应严格的执行身份认证,防范冒充网民身份的行为,加强对账号与密码的管理控制,确保网民只访问自己的程序与数据,从而保证数据资源的安全性。

第8篇:卷积神经网络的定义范文

【关键词】清晰度评价函数;一体化摄像机;高斯噪声

The research of focusing evaluation function based on the room camera

HAN Seng-jie

(Civil Aviation University of China,College of Electronics and Information engineering,Tianjin,300300,China)

Abstract:Focusing evaluation function is important as to the room camera to achieve the focus of image and get high-quality image.We have a comprehensive performance comparison of several commonly used focusing evaluation functions,quantitative analysis of the efficiency of different algorithms including no bias,single peak and sensitivity according to the simplicity and real-time.The results showed that:Brenner functions and Laplace function is suitable for small-scale precision focusing for its relatively narrow peak width,high sensitivity.Tenengrad function,Robert function and squared gradient function is suitable for mid-range auto-focus, because they have relatively high sensitivity,and also they have a certain focus range.It’s instructive to the room camera to achieve automatic focusing.

Key words:focusing evaluation function;room camera;Gauss noise

1.引言

一般来说,一体化摄像机是指可以自动聚焦、镜头内建的小型摄像机。外观上,具有美观、小巧。应用上,其电源、视频、控制信号均有直接插口,安装方便。功能上可自动聚焦,近些年,一体化摄像机在视频会议、安防监控、高速公路监控等场合的应用越来越广泛。

自动聚焦技术的发展对一体化摄像机的广泛应用也起着非常重要的作用。传统的聚焦方法基本属于测距法,利用超声波或者红外线测量目标与摄像机之间的距离从而调整焦距以实现自动聚焦。由于要有发射和接收装置,提高了成本,并且会使得摄像机显得笨重。

随着数字图像处理理论的不断成熟,越来越多的自动聚焦算法是基于图像处理理论的。数字图像处理理论认为,信号或图像的大部分能量集中在幅度谱的低频段和中频段,但是图像细节的丰富度和轮廓的锐度取决于图像的高频成分。因此,各种检验图像边缘信息或计算图像高频分量的自动聚焦算法应运而生。一帧图像中的高频成分值被称为清晰度评价函数,自动聚焦的过程就是求取清晰度评价函数最大值的过程。当图像清晰时,图像细节丰富,在空域表现为相邻像素的特征值,如灰度、颜色等变化较大,在频域表现为频谱的高频分量多。可以评判图像中高频分量的大小,并判断对焦正确与否。

确定合适的清晰度评价函数是自动调焦的核心问题。理想的自动调焦评价函数必须具备以下几个特征[1]:

a.无偏性。计算出来的曲线要和图像的清晰度变化事实相吻合;

b.单峰性。在成像系统的正焦位置取得单一的极值,不能出现其他局部极值;

c.灵敏度。是指对不同程度的离焦图片,清晰度评价值要求有一定的差别;

d.具有足够的信噪比。在一定的噪声干扰条件下,保证系统正确地检测到离焦信号,完成自动调焦;

e.高效性。计算能够满足实时性要求,保证迅速完成自动调焦过程。

图1是图像高频成分含量与聚焦镜头位置之间的关系。

2.常用清晰度评价函数的研究

图像清晰度评价函数在基于图像处理的自动调焦技术中起着关键的作用。图像清晰度识别技术近年来已引起国内外学者的重视,其中最流行的是时域对比度评价函数,常用的有Brenner函数、Tenengrad函数、Robert函数、Laplace函数、方差函数和平方梯度等[2][3][4];还有频域的频谱评价函数[5];小波变换评价函数[6];基于DCT变换的评价函数[7];神经网络评价函数[8]。其中频域类、统计学类等调焦函数由于在调焦过程中对环境的稳定性要求较高,并且其调焦曲线非常不理想,大多数都不能正确的表达焦点的位置,同时考虑到聚焦速度和准确性的要求,因此没有列入,我们选择常用的时域对比度评价函数进行分析。

Brenner函数,是最简单的与梯度有关的评价函数[9][10][11],它只是计算相差两个单位的两个像素的灰度差,该函数的优点是具有较高的灵敏度且计算量较小,其表达式为:

式中,I(x,y)表示图像中第x行第y列像素的灰度值。当调焦评价函数F(I)数值最大时,图像最清晰。

Robert梯度评价函数,是在灰度差分绝对值之和算法基础上考虑I(x,y)和I(x+1,y+1),灰度差的像元位置关系后,采用的一种评价函数,其表达式如下:

式中I(x,y)表示图像中第x行第y列像素的灰度值。

方差函数,清晰聚焦的图像应有比模糊的图像具有更大的灰度级差异,所以方差函数也可以作为一个对焦清晰的评价标准[9][12]。方差函数定义为:

式中μ为平均灰度级,

I(x,y)表示图像中第x行第y列像素的灰度值。

平方梯度函数,它用相邻点的差分计算一个点的梯度值[12],其算法如下:

其中I(x,y)为一幅图像在点(x,y)的灰度值。

Tenengrad函数,它使用Sobel算子来算图像在水平方向和垂直方向的梯度,为了使图像边缘的梯度最大,对梯度进行平方运算,其表达式如下所示:

其中,S(x,y)>T(T为灰度阈值)

为梯度幅度Gx(x,y),Gy(x,y)的计算模版为

在此模版下,

Laplace函数,使用Laplace算子和图像进行卷积得到图像的二阶微分,其微分平方和作为最后评价结果,其表达式如下:

3.清晰度评价函数的性能分析

为了便于比较这六种算法的性能和特点,按照清晰度评价函数应具备的特性,我们从三个角度对这六种清晰度评价函数的性能进行分析。本文采用小龙电器公司自主研制生产的一体化摄像机SMC-480,其光学系统参数表如表1所示。

3.1 清晰度评价函数的曲线特性对比

本文为研究清晰度评价函数,其数据源都是针对同一组图像进行处理,同时该组图像是对同一平面目标,通过控制一体化摄像机调焦镜头的前后纵向位置来实现图像的调焦,前后纵向移动的步进间隔距离为0.004mm。在聚焦点位置前后分别采集24个欠焦和24个过焦图像。加上聚焦良好图像,共得到50幅图像。采集的图像大小为640 pixel×480 pixel。本文的数据分析是以采集到的图像数据为依据,并将图像序号按由最远的欠焦状态经过聚焦状态后,再到过焦状态编排,共采集了50张图片,如图2给出了其中的12幅示意图。

为了便于比较各种算法的性能和特点,本文将上述六种算法的仿真结果描绘出来,如图3所示。它的纵坐标表示各种算法的归一化图像清晰度评价值,横坐标表示不同程度的离焦图片的序号,共50张。图4是对图3函数极值的局部放大。

从图3和图4中可以得出如下结论:1)对图像的单峰性来说,Brenner函数、Tenengrad函数、Robert函数、Laplace函数和平方梯度等能得到比较一致的结果,并且只有一个极值点,具有单峰性,符合要求,而方差函数的极值点不够突出,容易产生误调焦,因此不能使用。2)从图像的无偏性来说,Brenner函数、Tenengrad函数、Robert函数、Laplace函数和平方梯度等的清晰度评价值都随着图像的离焦或者变焦程度变化而变化,都在第25幅图像位置取得最大值,这和肉眼看到的事实是相符合的。3)从图像的灵敏度角度来看,Laplace函数和Brenner函数的峰顶宽度相对较窄,相对而言,Laplace函数更为尖锐,灵敏度高,因此适合于小范围精确调焦。也就是说,对微小焦距的改变更为敏感,性能上更加优良。Tenengrad函数、Robert函数和平方梯度的灵敏度居中,在焦点附近具有比较高的灵敏度,同时也有一定的调焦范围,适于中等范围的自动调焦。

3.2 图像加噪声后清晰度评价函数的曲线特性

我们对标准图像加入噪声,根据模糊成像原理,可以用高斯函数对标准图像进行处理。高斯模糊的基本思路是根据二维正态分布公式生成一个高斯矩阵,求新图像中的每一点时,将高斯矩阵的中心对准旧图像的这一点,并将所有点根据高斯矩阵上对应的点加权平均。二维正态分布公式如下:

u,v分别为水平、竖直距离。高斯模糊的标准差σ,表示模糊的延伸距离,它的缺省值一般设为1。当时,高斯矩阵上对应的权值已经小得可以忽略,因此可以只计算一个大小为的矩阵。通过设置不同的模糊半径(radius)参数即需要移位的像素数,达到不同程度的高斯模糊效果。图像数据源仍是图二所示中采集到的图像,现在我们对标准图像分别进行1×1-6×6半径的高斯模糊,同时添加方差为20的高斯噪声,得到6幅图像,图5给出了其中一幅聚焦清晰和一幅清晰图像的加噪图像。

实验结果如图6所示,纵坐标是每个清晰度评价函数的归一化值,横坐标是受不同噪声影响的6幅不同图像,从图中可以看出,Laplace函数和Brenner函数在峰值附近变化明显,在一定的噪声干扰条件下,能识别出噪声影响的程度,该函数性能灵敏度高,具有足够的信噪比,其聚焦分辨力和抗噪性能明显优于其他方法。而Tenengrad函数、Robert函数和平方梯度的信噪比居中,方差函数的抗干扰性能则最差。

3.3 清晰度评价函数实验验证

上述中本文对清晰度评价函数的性能和特点进行了分析,不过为了进一步验证Laplace函数、Brenner函数、Tenengrad函数、Robert函数和平方梯度函数的性能,本文采集了另外图像进行验证。通过控制一体化摄像机调焦镜头的前后纵向位置来实现图像的调焦,前后纵向移动的步进间隔距离为0.008mm。在聚焦点位置前后分别采集14个欠焦和14个过焦图像。加上聚焦良好图像,即第15幅,共得到29幅图像。采集的图像大小为630 pixel×490 pixel。

通过matlab仿真,本文得到如下结论,如图8所示。

在图7中,Laplace函数、Bren-

ner函数、Tenengrad函数、Robert函数和平方梯度函数的归一化清晰度评价函数值的最大值都在图像序号为15的位置,也刚好是最佳聚焦图像。这和实际图像采集中是相对应的。同时,就Laplace函数和Brenner函数相比较而言,他们都满足单峰性,不过Laplace函数更为尖锐,灵敏度高。Tenengrad函数、Robert函数和平方梯度和图3及图4的结论相一致。

4.结论

清晰度评价函数是数字图象处理的一个重要内容之一,对于实现一体化摄像机自动对焦具有重要的意义。本文在小龙电器公司生产的一体化摄像机SMC-480研究的基础上,针对目前常用的清晰度评价函数的实用性能加以评价,对比实验证明,Laplace函数和Brenner函数的峰顶宽度相对较窄,灵敏度高,因此适合于小范围精确调焦。Tenengrad函数、Robert函数和平方梯度的灵敏度居中,在焦点附近具有比较高的灵敏度,同时也有一定的调焦范围,适于中等范围的自动调焦。

参考文献

[1]屈玉福.视觉瞄准测头的研究[D].哈尔滨:哈尔滨工业大学,2001:20-24.

[2]沈庭芳,方子文.数字图像处理及模式识别[M].北京:北京理工大学出版社,1998.

[3]夏德深,傅德盛.现代图像处理技术与应用[M].南京:东南大学出版社,1997.

[4]Castleman K R.数字图像处理[M].北京:电子工业出版社,1998.

[5]李奇,冯华君,徐之海,等.数字图像清晰度评价函数研究[J].光子学报,2002,31(6):

736-738.

[6]谢攀,张利,康宗明,等.一种基于尺度变化的DCT自动聚焦算法[J].清华大学学报,2003,43(1):55-58.

[7]陈国金,朱妙芬,施浒立等.基于最小各向同性小波滤波的图像清晰度识别[J].光子学报,2008,37(2):395-399.

[8]陈国金,朱妙芬,施浒立.小波变换与神经网络复合的图象清晰度识别研究[J].红外技术,2007,29(11):670-674.

[9]TTE Yeo,S H Ong,Jayasooriah and R Sinniah.Autofocusing for Tissue Microscope.Image and Vision Computing.1993,11(10):629-639.

[10]Lawrence Firestone,Kitty Cook,Kevin Culp,Neil Talsania,and Kendall,Preston,parison of Autofocus Methods for Automated Microscopy.1991(12):195-206.

[11]Brenner,J F,Dew,B S,Horton,J B,King,T,

Neirath,P W and Sellers,W D.An Automated Microscope for Cytologic Research.1971(24):

100-110.

第9篇:卷积神经网络的定义范文

1图像特征表示方法概述

设计图像的特征表示是计算机视觉中一项非常基本的研究内容,图像的分类、检索、标注等工作都是以提取图像特征为初始步骤,好的特征表示可以在相关图像分析中取得更佳的效果.因此,图像特征的设计与构造,直接影响算法的性能.而如何定义一个好的图像特征却是非常困难的:一方面,设计的图像特征对于同一类别下图像之间的变化(比如尺度、光照变化、对象位置变化等)要有足够的鲁棒性;另一方面,设计的图像特征要具备足够的判别性来处理不同类别间图像的变化.近年来,研究者提出了大量的底层特征用于各种图像分析任务,其中最具有代表性的是基于梯度朝向直方图的SIFT(scale-invariantfeaturetransform)[1]和HOG(histogramoforientedgradient)[2].尽管这类特征取得了一定意义的成功,但研究者发现,这类单一的底层特征并不足以在某些应用上达到更好的效果,因此提出了一类中间层的图像特征表示方法.其中,BoW(bagofwords)[3]是这类图像特征表示方法的典型代表,该方法在场景分类中获得了较好的性能.BoW算法生成图像特征表示分为3个过程:图像底层特征的获取、学习过完备字典和计算图像的码字直方图表示.然而,BoW方式并没有考虑特征向量在图像空间上的位置关系,使得其特征描述能力并没有达到最大化.为了弥补这一缺陷,空间金字塔匹配(spatialpyramidmatching,简称SPM)[4]方法通过在一幅图像的不同层次上计算码字直方图,形成了一个BoW多层特征,将BoW模型与图像空间进行合理融合.然而,由于SPM方法利用直方图交核函数来度量两幅图像间的相似度,导致无法产生低维度的图像特征表示,而且需要完整计算训练集图像间相似度的Gram矩阵,因此,其算法复杂度为O(n2)(其中,n为训练集中图像的个数).为了解决这一问题,有效匹配核算法(efficientmatchkernel,简称EMK)[5]在码字间相似性的基础上构造了一个低维特征映射空间,整个图像的特征可以表示为码字映射在这个低维特征空间后的平均,且可以采用线性SVM方法训练分类器,在图像分类应用中获得了非常不错的效果.然而,有效匹配核算法仍然依赖于人为定义的图像局部特征(如SIFT或HOG),只不过是通过计算有限维空间的局部线性特征表示来推出整体图像的线性特征.

Bo等人扩展了有效匹配核算法并提出了核描述子(kerneldescriptor,简称KD)[6]方法.这种方法只需定义任意两个局部图像块之间的相似性,且该相似性函数满足核函数定义.由于每个核函数都隐性定义了一个映射,它将图像块映射为再生核希尔伯特空间(reproducingkernelHilbertspace,简称RKHS)中一个非常高维的向量,这样,核函数可以表示为RKHS中两个高维向量的内积,通过核主成分分析(kernelprincipalcomponentanalysis,简称KPCA)[7]算法,可以由核函数推出图像块特征的有限维线性表示.这种低维空间中的表示就称为核描述子,并且采用EMK算法将其推广到整个图像的特征表示.尽管核描述子方法的设计思想较为新颖,但仍然存在计算复杂度过高这一缺陷,限制了其在大规模图像数据库上的应用.事实上,在KPCA方法的离线阶段,所有联合基向量对之间的相似性都需要计算,这是非常耗时的.更重要的是:在线阶段计算一个新图像块的特征映射时,该图像块与所有联合基向量之间的相似性也是需要计算的,而这实际上是不需要的.Xie等人[8]通过使用不完整Cholesky分解替代KPCA算法,成功地解决了这个问题,并且通过迭代,应用不完整Cholesky分解算法表示整个图像特征[9].但文献[8,9]中,通过不完整Cholesky分解得到的标志联合基向量并没有对应实际的图像块,因此,其产生的特征判别能力并没有最大化地得到利用.

Wang等人提出了有监督的核描述子方法[10],该方法利用训练集中的图像类标来辅助设计底层图像块特征.尽管他们利用该特征取得了不错的分类效果,但这个算法运行过程中需要大量有类标的图像,并且对象优化函数求解过程复杂,时间复杂度过高.除了上述生成图像底层特征表示的方法以外,另外一类构成图像特征的方法基于深度学习理论.2006年,Hinton等人[11,12]提出了用于深度信任网络(deepbeliefnetwork,简称DBN)的无监督学习算法,DBN的多层结构,使得它能够学习得到层次化的特征表示,实现自动特征抽象,文献[12]将DBN模型成功用于手写数字识别应用上.Bengio等人在文献[13]中提出了基于自编码器(auto-encoder)[14]的深度学习网络,在手写数字识别图像数据库上得到了类似的实验结果.另外,文献[1517]提出了一系列基于稀疏编码的深层学习网络,在图像应用中取得了一定的成功.LeCun等人用误差梯度设计并训练卷积神经网络(convolutionalneuralnetwork,简称CNN),其在图像分类,特别是手写体字符识别应用中得到优越的性能.在此基础上,Krizhevsky等人[21]将CNN模型应用到分类大规模ImageNet图像数据库,更加充分地显示了深度学习模型的表达能力.尽管在深度学习模型下获得的图像特征有很强的判别表示能力,但其要求计算机硬件条件较高,单机环境下很难实现.除此之外,更加详细地介绍图像特征描述子领域的综述可以参考文献[23].本文在大数据时代背景下,为了能够快速得到图像块的线性特征表示,提出了有效图像块描述子(efficientpatch-leveldescriptor,简称EPLd)方法.该方法在不完整Cholesky分解基础上,可以自动地进行图像块筛选,对于求解新图像块的线性特征表示,只需计算它和一小部分基图像块的相似性就足够了.有了图像块的特征表示之后,一幅图像就对应着一个图像块特征的集合,该集合可以看作是特征空间中基于某个分布的样本集,这样,两幅图像之间的差异可以看作两个分布的距离.本文采用基于高维概率分布的MMD距离[24]进行估算,进而计算两幅图像间的相似性.本文首先介绍核描述子方法,然后给出有效图像块描述子算法的具体实现过程以及如何利用MMD距离计算两幅图像的相似性,并在几个著名的图像分类数据库上进行实验,最后给出工作的结论和展望.

2核描述子方法简介

核描述子方法是对图像像素点属性(梯度/形状/颜色+位置)基础上生成的联合基向量应用KPCA方法,从而计算新图像块的有限维特征表示.为了方便叙述,本文采用像素点的梯度属性来介绍核描述子方法.通过公式(2)可以看到,核描述子方法的主要缺陷有以下3点:(1)算法计算复杂度高,因为需要对dodp维的联合基向量形成的Gram矩阵计算特征值分解,如果联合基向量的维度过高或者个数过多,KPCA算法甚至无法实施;(2)对联合基向量进行KPCA获得的tij并不是稀疏的,这也就意味着在计算新图像块的特征表示时,需要和所有的联合基向量进行在线计算,所以算法需要存储全部的联合基向量;(3)算法无法进行特征选择,即,并不知道联合基向量中哪些样本最具代表性.

3有效图像块描述子算法

针对核描述子方法的3点不足之处,文献[8]解决了其主要缺陷的第一、第二两点,但是文献[8]在本质上仍然使用联合基向量,所以没有明确地进行特征选择,即,找出哪些图像块是最具代表性的,使得其特征表示能力并没有达到最大化.为了更加完善地解决核描述子方法的缺陷,本文提出了一种新的图像块特征表示方法,称为有效图像块描述子.该方法基于对图像块相似度矩阵执行不完整Cholesky分解。总体上来说,有效图像块描述子算法由两部分构成:1)首先从训练图像集中均匀抽取足够的图像块,然后在这些图像块形成的Gram矩阵上执行不完整Cholesky分解算法.如果设定N代表图像块的个数,M代表分解后矩阵的秩,通常情况下,M<<N.这样做的好处有两点:首先,在分解过程中只需要按需计算O(MN)个Gram矩阵元素的值;其次,对Gram矩阵执行Cholesky分解的时间复杂度为O(M2N),远远低于KPCA算法的O(N3).2)经过第1步分解步骤之后,选择出了M个最具代表性的基图像块,新图像块的特征表示仅仅通过O(M)次计算就可以得到.算法的具体步骤将在以下部分详细介绍.

3.1Gram矩阵的低秩近似半正定的Gram矩阵K可以分解为GGT,所以不完整Cholesky分解的目标就是找到一个矩阵G,其大小为NM,使得TGG在M足够小的情况下近似K.在执行不完整Cholesky分解算法的过程中,选择出M个最具代表性的基图像块,利用所有图像块和这M个基图像块之间的相似性,可以近似恢复Gram矩阵K.这里,M的值是可以通过算法在线确定的,由算法中提前给定的近似精度参数来控制.关于不完整Cholesky分解的详细执行过程可以参考文献[26],其中,作为输入参数的Gram矩阵K实际上是按需计算的,即,算法执行过程中需要用到哪两个训练图像块间的相似度,就按照公式(1)计算得到.算法执行后,就得到了一些具有代表性的基图像块,用向量P保存基图像块的索引序号,同时得到了矩阵G,使得.TGGK

3.2构造图像块特征映射算法一旦获得了NM的矩阵G,新图像块的特征(有效图像块描述子)就可以由G构造.其中,新图像块特征维度大小由M确定,每一维度i的值可由新图像块与P(i)所指示的基图像块间相似性K(newpatch,P(i))恢复得到。通过算法1可以看到:选择出的M个最具代表性的基图像块可以看成是一系列局部图像块的非线性滤波器,将每个新图像块和这些基图像块进行相似性度量的过程,也可看成是对这个新图像块进行特征提取的过程.另外,针对图像块相似度矩阵执行不完整Cholesky分解往往可以保证获得精度非常高的低秩近似,且分解过程中只与某些训练样本(图像块)有关.也就是说,利用这些训练样本就可以很好地近似恢复相似度矩阵,所以训练集中的图像块具有不同程度的重要性.因此,我们称重要性最高的前M个图像块为“最具代表性”的基图像块.为了更加形象地展示这些重要的基图像块,我们在Scene-15图像库上提取了最重要的前16个基图像块,如图1所示(每个图像块由其像素点的梯度幅值来表示).可以看到,每个图像块都包含了丰富的边缘和纹理信息.本文提出的有效图像块描述子算法不只继承了文献[8]的有效性,而且很好地解决了核描述子算法中的第3点缺陷,最大限度地发挥了图像块特征的判别能力.

4利用MMD距离计算图像间的相似性

基于算法1,每一个图像块都可以用有效图像块描述子来表示.一幅图像通过稠密采样确定很多关键点,每一个关键点都对应着一个局部的图像块,因此,一幅图像就对应着一个局部特征的集合.假定图像I1包含m个图像块,则其特征集合可以表示为Fp(patchp1,patchp2,…,patchpm),图像I2包含n个图像块,其特征集合表示为Fq(patchq1,patchq2,…,patchqn).Fp可以看作特征空间中来自分布p的一个样本集,同样,Fq也可以看作是来自分布q的样本集.这样,图像I1与I2之间的差异性就可以由p和q两个分布的距离表示.当然,这两个概率分布之间的距离只能通过这两个样本集进行估算.为此,本文采用基于高维概率分布的MaximumMeanDiscrepancy(MMD)距离[24]进行估算.MMD距离可以看作是将两个概率分布,通过非线性核函数映射到再生核希尔伯特空间(RKHS)后均值的距离.对于上述分布p和q的MMD距离估计可由公式(3)计算。单纯地利用公式(3),并没有考虑局部特征在整幅图像上的空间分布信息.为了解决这个问题,本文首先采用空间金字塔方法将整幅图像进行逐层划分;然后,在两幅图像每个层次对应的小图像上计算它们之间的MMD距离;最终,将所有层次的MMD距离按照其对应层次的权重进行汇总求和,然后度量两幅图像I1与I2之间的差异性.

5实验

本文使用像素点的梯度、形状和颜色属性分别构造基于梯度的有效图像块描述子(EPLd-G)、基于形状的有效图像块描述子(EPLd-S)和基于颜色的有效图像块描述子(EPLd-C).为了测试有效图像块描述子算法的性能,分别在3个著名的图像分类数据库(Scene-15,Caltech-101[28]和UIUC-8[29])上做了实验.在接下来的实验中,计算3个不同类型的有效图像块描述子都是首先将图像按照固定比率缩放到不超过300300像素点;特别地,在计算EPLd-G和EPLd-S时,将缩放后的图像中的像素点的灰度值标准化为[0,1]范围.图像块通过每隔8个像素点的稠密采样方式从训练集图像中进行抽取,大小为1616像素点.EPLd-All是将EPLd-G,EPLd-S和EPLd-C这3个描述子串接起来形成的.训练线性SVM分类器使用LIBLINEAR[30],其中,图像间的相似性利用MMD距离来定义.在计算MMD时,将图像按照11,22和33分为3个层次来汇总求和,尺度参数在不同的数据库上利用交叉验证方法确定.所有的实验均重复10次,每次的训练集和测试集都随机抽取确定,将10次分类准确率的平均值和方差记录下来.实验中的其他参数从公平比较的角度考虑,与文献[6,8]设置相同.

5.1Scene-15Scene-15场景数据库包含4485张图片,这些图片分属15个类别,有室内场景和室外场景,每一个类别包含200张~400张图片不等.按照惯例,从每个类别中随机抽取100张图片作为训练,剩余图片作为测试.在算法中设置Pivots的个数为200,即,利用不完整Cholesky分解选出200个最具代表性的基图像块来构造维度为200的有效图像块描述子.实验结果列在表1中(其中,KD代表核描述子方法[6],EKD代表有效核描述子方法[8],EPLd代表本文提出的有效图像块描述子方法),EPLd方法获得在这个数据库上的最佳分类准确率(87.0%).另外,EPLd方法在所有4种不同情况(梯度、形状、颜色和上述3种属性的汇总)下的性能均超过了文献[6,8].在实验中,除了测试分类准确率来体现EPLd的判别能力,还通过不同维度下测试分类准确率来体现EPLd的有效性.我们发现,在特征维度只有50维的情况下也获得了接近最优分类准确率的性能,这充分体现出EPLd算法的有效性和健壮性.事实上,通过表2可以看到:特征维度从50维增加到300维,分类准确率并没有得到明显的提升.造成这一现象的原因是,不完整Cholesky分解容易获得高质量的低秩近似.表2中的数据表明:即使是50维的低秩近似也足以体现Gram矩阵中的关键信息,而这些关键信息直接决定了分类的性能.在后面的实验中,从算法效率的角度考虑都使用了100维的特征表示.

5.2Caltech-101Caltech-101图像数据库包含9144张图片.这9144张图片隶属于101个对象类别外加一个背景类别,每个类别中的图片在31张~800张不等.表3中,将EPLd与其他有代表性的描述子算法进行了对比.同样根据惯例,每个类别随机挑出30张图片进行训练,从剩余图片中挑选不超过50张进行测试.可以看到:EPLd算法达到了最佳的分类准确率(77.1%),甚至在仅仅使用梯度属性的情况下(EPLd-G)也达到了非常不错的分类效果(73.7%).

5.3UIUC-8UIUC-8图像数据库包含1579张图片,这1579张图片隶属于8个运动类别,每个类别下包含图片137张~250张不等.按照惯例,随机从每个类别中抽取70张图片进行训练,从剩余图片中挑选60张进行测试.分类准确率结果列于表4中.通过表4可以看到,EPLd-All非常接近最佳分类准确率(87.2%vs.87.23%).在实验部分的最后,本文对比了构造3种不同描述子(EPLdvs.KDvs.EKD)的计算效率.其中,最耗时的是形状特征,一幅标准图像(最大300300分辨率,图像块大小为1616像素点,图像块间隔8个像素点)上的EPLd-S与EKD-S描述子在Matlab环境下计算需要耗时2s,而KD-S需要耗时2.5s.对于梯度特征,EPLd-G与EKD-G描述子耗时0.9s,KD-G耗时1s.以上对比结果列在表5中.表5中的对比结果是在生成100维特征情况下得到的,如果提高特征的维度,EPLd与EKD的计算效率提升相对于KD会表现得更加明显.另外一点需要指出的是:EPLd与EKD的计算耗时虽然基本相同,但EPLd描述子的特征判别能力相对于EKD描述子要强很多,这一点通过在3个图像数据库上的实验对比结果可以得到印证.所以,综合考虑,EPLd描述子无论在计算效率还是在判别能力上都要优于EKD和KD描述子.

6结束语