前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的卷积神经网络的特征主题范文,仅供参考,欢迎阅读并收藏。
1概述
深度学习(Deep Learning)是人工智能、图像建模、模式识别、神经网络、最优化理论和信号处理等领域的交叉学科,主要构建和模拟人脑进行分析学习,它属于机器学习的新兴领域。
2大数据与深度学习
目前,光学检测、互联网、用户数据、互联网、金融公司等许多领域都出现了海量数据,采用BP算法对于训练神经网络出现了梯度越来越稀疏、收敛到局部最小值只能用有标签的数据来训练等缺点。Hinton于2006年提出了深度学习的概念,Lecun等人提出了卷积神经网络,卷积神经网络利用空间关系减少参数数目以提高训练性能。
CPU和GPU计算能力大幅提升,为深度学习提供了硬件平台和技术手段,在海量大数据处理技术上解决了早期神经网络训练不足出现的过拟合、泛化能力差等问题。
大数据和深度学习必将互相支撑,推动科技发展。
3深度学习模型
深度学习模型实际上是一个包含多个隐藏层的神经网络,目前主要有卷积神经网络,深深度置信神经网络,循环神经网络。
1)卷积神经网络
在机器学习领域,卷积神经网络属于前馈神经网络的一种,神经元不再是全连接的模式,而是应用了局部感受区域的策略。然而传统的神经网络使用神经元间全连接的网络结构来处理图像任务,因此,出现了很多缺陷,导致模型⑹急剧增加,及其容易过拟合。
在卷积神经网络中,网络中的神经元只与前一层的部分神经元连接,利用图像数据的空间结构,邻近像素间具有更强的相关性,单个神经元仅对局部信息进行响应,相邻神经元感受区域存在重叠,因此,综合所有神经元可以得到全局信息的感知。
另外,一个卷积层中的所有神经元均由同一个卷积核对不同区域数据响应而得到,即共享同一个卷积核,使得卷积层训练参数的数量急剧减少,提高了网络的泛化能力。
一般在卷积层后面会进行降采样操作,对卷积层提取的特征进行聚合统计。降采样区域一般不存在重叠现象。降采样简化了卷积层的输出信息,进一步减少了训练参数的数量,增强了网络的泛化能力。
卷积神经网络实现了局部特征的自动提取,使得特征提取与模式分类同步进行,适用于处理高分辨率的图像数据。目前,卷积神经网络在图像分类、自然语言处理等领域得到广泛应用。
2)深度置信网络
深度置信网络是一种生成模型,网络中有若干隐藏层,同一隐藏层内的神经元没有连接,隐藏层间的神经元全连接。神经网络经过“反向运行”得到输入数据。
深度置信网络可以用做生成模型,通过前期的逐层无监督学习,神经网络可以较好的对输入数据进行描述,然后把训练好的神经网络看作深度神经网络,最后得到分类任务的深度神经网络。
深度置信网络可以用于图像识别、图像生成等领域,深度置信网络可以进行无监督或半监督的学习,利用无标记数据进行预训练,提高神经网络性能。但近几年由于卷积神经网络的飞速发展,深度置信网络已经很少被提及。
3)循环神经网络
循环神经网络是一种专门用于处理时序数据的神经网络,它与典型的前馈型神经网络最大区别在于网络中存在环形结构,隐藏层内部的神经元是互相连接的,可以存储网络的内部状态,其中包含序列输入的历史信息,实现了对时序动态行为的描述。这里的时序并非仅仅指代时间概念上的顺序,也可以理解为序列化数据间的相对位置。如语音中的发音顺序,某个英语单词的拼写顺序等。序列化输入的任务都可以用循环神经网络来处理。如语音、视频、文本等。对于序列化数据,每次处理时输入为序列中的一个元素,比如单个字符、单词、音节,期望输出为该输入在序列数据中的后续元素。循环神经网络可以处理任意长度的序列化数据。
循环神经网络可以用于机器翻译、连写字识别、语音识别等。循环神经网络和卷积网络结合,将卷积神经网络用于检测并识别图像中的物体,循环神经网络用于识别出物体的名称为输入,生成合理的语句,从而实现对图像内容的描述。
4深度学习应用
1)语音识别
语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。其应用领域主要有语音输入系统、语音控制系统和智能对话查询系统,语音识别极大地推动了人工智能的快速发展。1952年Davis等人研究了世界上第一个能识别10个英文数字发音的实验系统。大规模的语音识别研究是在20世纪70年代以后,在小词汇量、孤立词的识别方面取得了实质性的进展。2012年,微软研究院使用深度神经网络应用在语音识别上将识别错误率降低了20%,取得了突破性的进展。2015年11月17日,浪潮集团联合全球可编程芯片巨头Altera,以及中国最大的智能语音技术提供商科大讯飞,共同了一套DNN语音识别方案。
2)图像分析
图像是深度学习最早尝试的应用领域。1989年,LeCun和他的同事们就发表了卷积神经网络的工作。2012年10月,Hinton和他的两个学生用更深的CNN在ImageNet挑战上获得了第一名,使图像识别向前跃进了一大步。
自2012年以来,深度学习应用于图像识别使得准确率大大上升,避免了消耗人工特征抽取的时间,极大地提升了效率,目前逐渐成为主流的图像识别与检测方法。
关键词:机器学习;深度学习;推荐算法;远程教育
深度学习(DeepLearning),也叫阶层学习,是机器学习领域研究的分支,它是学习样本数据的表示层次和内在规律,在学习的过程中获取某些信息,对于数据的解释有巨大帮助。比如对文字数据的学习,在网络上获取关键字,对图像数据的学习,进行人脸识别等等。
一、深度学习发展概述
深度学习是机器学习领域里一种对数据进行表征学习的方法。一句话总结三者之间的关系就是:“机器学习,实现人工智能的方法;深度学习,实现机器学习的技术。深度学习目前是机器学习和人工智能领域研究的主要方向,为计算机图形学、计算机视觉等领域带来了革命性的进步。机器学习最早在1980年被提出,1984年分类与回归树出现,直到1986年,Rumelhart等人反向传播(BackPropaga-tion,BP)算法的提出,解决了感知模型只能处理线性分类的问题,1989年出现的卷积神经网络(ConvolutionalNeuralNet-works,CNN)也因此得到了一定的发展。在1990年至2012年,机器学习逐渐成熟并施以应用,GeoffreyHinton在2006年设计出了深度信念网络,解决了反向传播算法神经网络中梯度消失的问题,正式提出了深度学习的概念,逐渐走向深度学习飞速发展的时期。随后,各种具有独特神经处理单元和复杂层次结构的神经网络不断涌现,深度学习技术不断提高人工智能领域应用方面的极限。
二、深度学习主要模型
1、卷积神经网络卷积神经网络(ConvolutionalNeuralNetworks,CNN)是指有着深度结构又包含着卷积计算的前馈神经网络。卷积物理上理解为系统某一时刻的输出是有多个输入共同叠加的结果,就是相当于对一个原图像的二次转化,提取特点的过程。卷积神经网络实际上就是一个不断提取特征,进行特征选择,然后进行分类的过程,卷积在CNN里,首先对原始图像进行特征提取。所以卷积神经网络能够得到数据的特征,在模式识别、图像处理等方面应用广泛。一个卷积神经网络主要由三层组成,即卷积层(convolutionlayer)、池化层(poolinglayer)、全连接层(fullyconnectedlayer)。卷积层是卷积神经网络的核心部分,通过一系列对图像像素值进行的卷积运算,得到图像的特征信息,同时不断地加深节点矩阵的深度,从而获得图像的深层特征;池化层的本质是对特征图像进行采样,除去冗杂信息,增加运算效率,不改变特征矩阵的深度;全连接将层间所有神经元两两连接在一起,对之前两层的数据进行分类处理。CNN的训练过程是有监督的,各种参数在训练的过程中不断优化,直到得到最好的结果。目前,卷积神经网络的改进模型也被广泛研究,如全卷积神经网络(FullyConvolutionalNeuralNetworks,FCN)和深度卷积神经网络(DeepConvolutionalNeuralNetworks,DCNN)等等。2、循环神经网络区别于卷积神经网络在图片处理领域的应用,循环神经网络(RecurrentNeuralNetwork,RNN)主要应用在自然语言处理领域。RNN最大的特点就是神经元的输出可以继续作为输入,再次利用到神经元中循环使用。RNN是以序列的方式对数据进行读取,这也是RNN最为独特的特征。RNN的串联式结构适用于时间序列的数据,可以完好保持数据中的依赖关系。循环神经网络主要有三层结构,输入层,隐藏层和输出层。隐藏层的作用是对输入层传递进来的数据进行一系列的运算,并将结果传递给输出层进行输出。RNN可用于许多不同的地方。下面是RNN应用最多的领域:1.语言建模和文本生成,给出一个词语序列,试着预测下一个词语的可能性。这在翻译任务中是很有用的,因为最有可能的句子将是可能性最高的单词组成的句子;2.语音识别;3.生成图像描述,RNN一个非常广泛的应用是理解图像中发生了什么,从而做出合理的描述。这是CNN和RNN相结合的作用。CNN做图像分割,RNN用分割后的数据重建描述。这种应用虽然基本,但可能性是无穷的;4.视频标记,可以通过一帧一帧地标记视频进行视频搜索。3、深度神经网络深度神经网络(deepneuralnetworks,DNN)可以理解为有很多隐藏层的神经网络。多层神经网络和深度神经网络DNN其实也是指的一个东西,DNN有时也叫做多层感知机(Mul-ti-Layerperceptron,MLP)。DNN内部的神经网络层也是分为三类,输入层,隐藏层和输出层,一般来说第一层是输入层,最后一层是输出层,而中间的层数都是隐藏层。深度神经网络(DNN)目前作为许多人工智能应用的基础,并且在语音识别和图像识别上有突破性应用。DNN的发展也非常迅猛,被应用到工业自动驾驶汽车、医疗癌症检测等领域。在这许多领域中,深度神经网络技术能够超越人类的准确率,但同时也存在着计算复杂度高的问题。因此,那些能够解决深度神经网络表现准确度或不会增加硬件成本高效处理的同时,又能提升效率和吞吐量的技术是现在人工智能领域能够广泛应用DNN技术的关键。
三、深度学习在教育领域的影响
1、学生学习方面通过网上学习的实时反馈数据对学生的学习模式进行研究,并修正现有教学模式存在的不足。分析网络大数据,相对于传统在线学习本质区别在于捕捉学生学习过程,有针对性,实现学生个性化学习。举个例子,在学习过程中,可以通过学习平台对学生学习课程所花费的时间,参与的程度,知识的偏好等等数据加以分析。也可以通过学生学习某门课程的次数,鼠标点击次数、停留的时间等,来推断学生学习情况。通过以上或类似数据汇总分析,可以正向引导学生学习,并给予积极的学习评价。这种利用计算机收集分析出来的客观数据,很好展示了学生学习行为的结果,总结学习规律,而不需要教师多年的教学经验来判断。对于教育研究者而言,利用深度学习技术可以更客观准确地了解学生,使教学工作良好发展更进一步。2、教学方面学习平台的数据能够对教学模式的适应度进行预测,通过学生的考试成绩和对教师的线上评价等加以分析,能够预测出某一阶段的教学方式发发是否可行,影响如何。通过学生与教师的在线互动,学生测验时完成的时间与完成的结果,都会产生大量的有效的数据,都可以为教师教学支持服务的更好开展提供帮助,从而避免低效率的教学模式造成教学资源的浪费。
四、成人远程教育中深度学习技术的可应用性
深度学习方面的应用在众多领域都取得了成功,比如电商商品推荐、图像识别、自然语言处理、棋类博弈等等。在远程教育方面,深度学习的技术还有很大的发挥空间,智能网络教育的实现是人们的众望所盼。若要将深度学习技术应用到远程教育平台,首先要清楚学生的需求和教学资源如何分配。1、针对学生的学习需求与学习特征进行分析美国斯坦福大学克里斯皮希研究团队的研究成果显示,通过对学生知识学习进行时间建模,可以精确预测出学生对知识点的掌握情况,以及学生在下一次学习中的表现。深度学习的应用可以帮助教师推测出学生的学习能力发展水平。通过学生与教学环境的交互行为,分析其学习风格,避免教师用经验进行推断而产生的误差。2、教学资源的利用与分配深度学习技术能够形成智能的分析结论。计算机实时采集数据集,对学生的学习情况加以分析,使教师对学生的学习状态、情绪状态等有更加清晰、准确的了解。有了上面良好的教学模式,教师对学生的学习状态有了更准确的掌握,对学生的学习结果就有了更科学的教学评价。基于深度学习的人工智能技术,还可以辅助教师实现智能阅卷,通过智能阅卷自动总结出学习中出现的问题,帮助教师减少重复性劳动,减轻教师负担。作为成人高校,远程教育是我们的主要教学手段,也是核心教学方式,学校的教学必定是在学生方便学习的同时,以学生的学习效果为重。通过深度学习技术,可以科学地分析出学生的学习效果,对后续教与学给予科学、可靠的数据支撑。我们可以在平台上为每位同学建立学习模型,根据学生的学习习惯为其定制个性化方案,按他们的兴趣进行培养,发挥他们专业的潜能。同时,可以将学生正式在线参加学习和考试的学习行为和非学习时间浏览网站的行为结合到一起,更加科学地分析出学生在学习网站上感兴趣的地方。采用深度学习算法,根据学生学习行为产生的海量数据推算出学生当前状态与目标状态之间的差距,做到精准及时的学习需求反馈。有助于帮助学生明确学习目标,教师确立教学目标,真正做好因材施教。基于深度学习各种智能识别技术,可以为教师的线上教学活动增光添彩,在反馈学生学习状态的同时,采用多种形式的教学方法吸引学生的注意力,增强教学活动的互动性,达到良好的教学效果。
关键词:卷积神经网络;语言模型;分析
1 卷积神经网络语言模型
CNN语言模型基本结构包括输入层、卷积层、池化层及后续的分类层。输入层是表示语言的矩阵,该矩阵可以是通过Google word2vec或GloVe预训练得到的词嵌入表示,也可以是从原始数据重新训练的语言的向量表示。输入层之后是通过线性滤波器对输入矩阵进行卷积操作的卷积层。在NLP问题中,输入矩阵总是带有固定顺序的结构,因为矩阵的每一行都表示离散的符号,例如单词或者词组等。因此,使用等宽的滤波器是非常合理的设置。在这种设置下,仅需要考虑滤波器的高度既可以实现不同尺寸的滤波器做卷积操作。由此可知,在处理NLP问题时,卷积神经网络的滤波器尺寸一般都是指滤波器的高度。
然后,将卷积层输出的特征映射输入池化层,通过池化函数为特征映射进行降维并且减少了待估计参数规模。一般的,CNN池化操作采用1-max池化函数。该函数能够将输入的特征映射统一生成维度相同的新映射。通过池化操作,可以将卷积层生成的特征连接成更抽象的高级特征,所得到的高级特征尺寸与输入的句子不再存在直接关系。
最后,将得到的高级特征输入softmax分类层进行分类操作。在softmax层,可以选择应用dropout策略作为正则化手段,该方法是随机地将向量中的一些值设置为0。另外还可以选择增加l2范数约束,l2范数约束是指当它超过该值时,将向量的l2范数缩放到指定阈值。在训练期间,要最小化的目标是分类的交叉熵损失,要估计的参数包括滤波器的权重向量,激活函数中的偏置项以及softmax函数的权重向量。
2 卷积神经网络语言模型应用分析
CNN语言模型已经广泛应用于诸如文本分类,关系挖掘以及个性化推荐等NLP任务,下面将对这些应用进行具体的介绍与分析。
2.1 CNN在文本分类中的应用分析
kim提出了利用CNN进行句子分类的方法。该方法涉及了较小规模的参数,并采用静态通道的CNN实现了效果很优异的句子分类方法。通过对输入向量的调整,进一步提高了性能实现了包括情感极性分析以及话题分类的任务。在其基础上为输入的词嵌入设计了两种通道,一种是静态通道,另一种是动态通道。在卷积层每一个滤波器都通过静态与动态两种通道进行计算,然后将计算结果进行拼接。在池化层采用dropout正则化策略,并对权值向量进行l2约束。最后将该算法应用于MR、SST-1与SST-2、Subj、TREC、CR以及MPQA等数据集。MR数据集为电影评论数据集,内容为一句话的电影评论,其分类包括积极情感极性与消极情感极性两类。SST-1与SST-2数据集为斯坦福情感树库是MR数据集的扩展,但该数据集已经划分好了训练集、验证集及测试集并给出了细粒度的标记,标记包括非常积极、积极、中性、消极、非常消极等情感极性。Subj数据集为主观性数据集,其分类任务是将句子分为主观句与客观句两类。TREC数据集为问题数据集,其分类任务是将所有问题分为六类,例如关于数字、人物或位置等信息的问题。CR数据集为评论数据集,包括客户对MP3、照相机等数码产品的评论,其分类任务是将其分为积极评价与消极评价两类。MPQA数据集是意见极性检测任务数据集。通过实验证明,该方法在这几个典型数据集上都能取得非常优异的效果。
2.2 CNN在关系挖掘中的应用分析
Shen等人提出了一种新的潜在语义模型,以词序列作为输入,利用卷积-池化结构为搜索查询和Web文档学习低维语义向量表示。为了在网络查询或网络文本中捕捉上下文结构,通过输入单词序列上下文时间窗口中的每个单词来获取词汇级的n-gram语法特征,将这些特征聚合成句子级特征向量。最后,应用非线性变换来提取高级语义信息以生成用于全文字符串的连续向量表示。该模型的不同之处在于,输入层与卷积层之间加入了word-n-gram层与letter-trigram层,它们能够将输入的词序列转变为letter-trigram表示向量。在卷积层通过上下文特征窗口发现相邻单词的位置特征,并变现为n-gram形式。然后通过max池化将word-n-gram特征合并为句子级的高级特征。在池化层之后增加了语义层来提取更高级的语义表示向量。
2.3 CNN在个性化推荐中的应用分析
Weston等人提出了一种能够利用标签(hashtag)有监督的学习网络帖子短文本特征表示的卷e嵌入模型(Convolutional Embedding Model)。该方法利用提出的CNN模型在55亿词的大数据文本上通过预标注的100,000标签进行训练。该方法除了标签预测任务本身能取得好的效果外,学习到的特征对于其它的文本表示任务也能起到非常有效的作用。该模型与其它的词嵌入模型类似,输入层为表示文本的矩阵,但是,在用查找表表示输入文本的同时将标签也使用查找表来表示。对于给定的文档利用10万条最频繁出现的标签通过评分函数对任何给定的主题标签进行排序。
其中,econv(w)表示CNN的输入文档,elt(t)是候选标签t的词嵌入表示。因此,通过对分数f(w,t)进行排序可以获取所有候选主题标签中排序第一的话题进行推荐。实验数据集采用了两个大规模语料集,均来自流行的社交网络文本并带有标签。第一个数据集称作people数据集,包括搜集自社交网络的2亿1000万条文本,共含有55亿单词。第二个数据集被称作pages,包括3530万条社交网络文本,共含有16亿单词,内容包括企业、名人、品牌或产品。
3 结束语
卷积神经网络应用于语言模型已经取得了非常大的发展,对于自然语言处理中的各项任务均取得了优异的结果。本文通过对几项典型工作的分析,探讨了不同卷积神经网络模型结构在不同任务中的表现。通过综合分析可以得出以下结论。首先,CNN的输入采用原始数据训练的向量表示一般效果会优于预训练的词嵌入表示;其次,在卷积层滤波器的尺寸一般采用宽度与输入矩阵宽度相等的设置;最后,为了优化结果可以采用dropout正则化处理。
[关键词]卷积网络,mnist,深度学习;
中图分类号:TP391 文献标识码:A 文章编号:1009-914X(2017)02-0168-01
1 概述
几年来,深度卷积网络技术飞速发展,在图像,语音,自然语言处理等多个人工智能领域纷纷取得领先。深度卷积网络作为深度神经网络的一种,其具有独特的类似于人眼局部感受野的卷积核,以及类似于生物神经的层次级联结构。由于权值共享的特性,网络的参数大大减少,同时降低了对训练数据过拟合的风险,具有比其他种类的深度网络更加易于训练的好处。
2 深度卷积网络
2.1 深度卷积层的结构
一个典型的深度卷积网络结构如图2-1所示。
深度卷积网络的第一层是输入层,接下来是若干个卷基层和下采样层,最后是一个分类器,如softmax分类器,由分类器输出相应的分类结果。通常,每一个卷基层后面都紧跟一个下采样层。在卷基层,利用局部连接和权值共享可以减少网络的训练参数,降低计算的复杂性。通过卷积运算,得到的卷积结果通过sigmoid等激活函数的输出得到这一层的特征图,然后作为下一层(下采样层)的输入。在下采样层。将前一层对应的特征图中相邻若干个特征通过池化操作合并成一个特征。输入的图像数据可以直接传送到第一个卷积层,进行逐层特征学习,最后利用有标签样本数据输入到softmax分类器,通过后向反馈微调整个网络的参数。
2.2 深度卷积网络的学习算法
2.2.1 卷积层的学习
卷积层是利用局部连接和权值共享,减少网络的自由参数个数,降低网络参数选取复杂度。在每一个卷积层中,用一个可学习的卷积核与上一层若干个特征图进行卷积,再通过一个激活函数f,如sigmoid利用式2-1就可以得到相应的输入特征。
这里l表示层数,k是卷积核,*表示二维卷积,表示偏置,是输入特征图集合。
2.2.2 下采样层的学习
下采样层利用图像局部相关性原理,对图像进行子抽样,在减少数据处理量的同时保留有用信息。这里通常是对前一层对应的特征图中的向量特征进行池化操作。池化分为平均池化和最大池化等,池化后特征图数量不变,但特征图变小,输出的特征可用式2-2计算。
其中对应权值,b表示相应偏置,dowm表示下采样函数。
深度卷积网络,输入端直接输入图像像素,采用由前向后的逐层学习方式,计算损失函数,再通过bp算法对整个训练参数进行调整。
3 深度学习中常用方法
3.1 线性校正单元
线性校正单元(ReLU)是当前最普遍使用的非线性激活函数,其函数形式为f(x)=max(x,0)。在过去神经网络通常使用Tanh或Sigmoid函数作为激活函数。研究表明,生理神经元编码可能是以稀疏分布的形式表示,因为神经元的活动电位和突出后效应消耗了绝大部分能量,同时能激活的神经元数量预测在1%至4%之间,所以大部分神经元处在静息状态。尽管ReLU非线性,并且在零点处不可微分,但是它可以生成真正的零来进行稀疏表示,所以对生理神经元激活的拟合更好。实验表明,ReLU作为激活函数,在网络中学习的更快。
3.2 Dropoup
在网络的训练过程中,过拟合是个常见的问题,尤其是在训练大规模网络的时候,Dropout 是处理这个问题的一种方法。Dropout 是指在训练的时候,以随机概率抛弃神经元的连接,进而增加网络的健壮性。若在训练中使用了 Dropout,则会导致网络连接数变少,所以测试的时候需要通过对该层的所有权值等比例缩小,以平均近似训练时的网络。神经元与Dropout 随机挑选的单元进行训练,会使得每个单元不依赖于特定单元从而变得更加健壮,进而产生有用的特征信息。
4 仿真实验
本文采用matlab仿真环境,网络采用五层结构,前两层为卷积层,卷积核分别为3和5。中间两层为全连接,最后一层是softmax分类器。实验结果如图4-1所示。结果可以看到,错误率大约为0.48%左右,此网络拥有很高的识别率。
参考文献
[1] 段宝彬,韩立新. 改进的深度卷积网络及在碎纸片拼接中的应用[J].计算机工程与应用,2014,50(9):176-181.
[2] 郑昌艳,梅卫,王刚. 基于深度卷积神经网络的蛇形机动航迹图像识别[J].火力与指挥控制,2016.05.
[3] 张宏毅. 基于深度卷e网络的同款商品图像检索研究[J].图形图像,2016.04.
[4] 刘畅. MRI脑影像的深度卷积网络分割和三维可视化[D].
[5] Glorot X, Bordes A, Bengio Y.Deep sparse rectifier neural networks;International Conferenc e on Artificial Intelligence and Statistics[C], 2011.
[6] Lennie P.The cost of cortical computation [J].Current biology,2003,13(6):493-497.
摘要:
针对带钢表面缺陷检测系统的速度滞后,精度偏低等问题,在分析成像理论和图像检测理论的基础上,设计并实现了一种带钢表面缺陷高速高精度在线检测系统.该系统首先采用大功率半导体均匀发光激光器技术、高速线扫描成像技术和基于图形处理器的Gabor纹理滤波技术实现了高速高分辨率的图像采集和处理,然后采用基于嵌套循环的K-折交叉验证、信息增益率和BP神经网络方法构建了高准确率的分类器,以达到对带钢表面缺陷高速高精度在线检测.实验结果表明,该系统满足了现有带钢生产速度的要求,具有较高的精度和准确率.
关键词:
图像采集和处理;图像检测;Gabor纹理滤波;神经网络
0引言
钢铁企业为了提高竞争力,对带钢的生产提出了新的要求,也对带钢表面检测系统提出了更高的要求,既要有更高的检测速度还要有更加准确的检测精度[1].而与此同时,跟随机器视觉技术的发展,带钢表面检测系统也得到了广泛的研究与应用[2].主要研究包括:①光源技术.由于带钢检测对光源要求频度高、体积小,这限制了传统光源在其应用[3],激光具有方向性好、亮度高、体积小等优点,被广泛应用于带钢检测应用中,国内的徐科等[4]提出热轧钢检测中用绿光作为激光光源,但激光照明需解决均匀性问题.②扫描技术.由于电荷耦合元件能够实现实时检测,成为目前研究和应用的主流技术[5].但是,CCD电荷耦合器需在同步时钟的控制下,以行为单位一位一位地输出信息,速度较慢,而互补金属氧化物半导体光电传感器采集光信号的同时就可以取出电信号,还能同时处理各单元的图像信息,速度比CCD电荷耦合器快很多[6].③图像处理算法.受限于带钢加工过程的特性,带钢表面呈现出随机纹理的特点,对于随机纹理图像的处理分析,目前常用的方法有共生矩阵法、频域滤波法、分形法等.作为频域滤波法的代表,二维Gabor滤波器有着与生物视觉系统相近的特点[7],广泛应用于纹理图像的处理分析.但是,CPU很难满足现在的带钢检测的实时要求[8].④分类算法.特征选择的主流算法是主成分分析和信息增益.主成分分析存在特征向量方向不一致的问题,而且如何确定主成分存在主观性[9].信息增益可以衡量特征的优劣,利用它可对特征进行排序,方便后面的特征选择,但信息增益适用于离散特征,信息增益率既适用于离散特征也适用于连续特征[10],被广泛应用于特征选择的过程中.图像分类算法主流算法包括支持向量机和BP神经网络.支持向量机不适用于大样本的分类问题[11].BP神经网络方法具有能够解决非线性分类问题,对噪声不敏感等优点,被广泛应用于带钢检测中,如王成明等[12]提出的基于BP神经网络的带钢表面质量检测方法等,但是BP神经网络的超参的设定往往具有随机性,这严重影响了分类效果[13].本文首先介绍了带钢表面缺陷高速高分辨率成像系统的设计,针对光源的不均匀性、图像处理速度慢等问题,提出改进方法,然后介绍了分类器的构建,针对样本划分的随机性、特征选择的随机性以及BP神经网络超参设定的随机性问题,做出改进,最后介绍试验结果.
1带钢表面缺陷高速高分辨率的成像系统的设计
1)大功率半导体均匀发光激光器技术.激光能够保证带钢表面缺陷的检出率[14],本系统选用808nm半导体激光器作为照明源,出光功率可达30W,亮度可达1500流明.激光照明需解决均匀性的问题,本文采用了基于鲍威尔棱镜的激光线发生办法,解决了激光照明的均匀性问题,其光路如图1所示.该方法首先在激光聚焦位置放置圆形球面透镜,负责将发散的激光束汇聚成准平行光,同时控制光柱的粗细,然后,利用鲍威尔棱镜的扩散效果对圆柱的一个方向进行扩束,最终形成激光线.为保证亮度及宽度的适应性,激光器出光口距离圆透镜、鲍威尔棱镜的距离可以精密调整.为了降低反射亮度损失,在透镜表面镀上808±5nm的T≥99%的增透膜.
2)基于GPU的Gabor纹理滤波技术.二维Ga-bor滤波器具有易于调谐方向、径向频率带宽及中心频率等特征,本文采用该方法来进行图像处理,二维Gabor函数为guv(x,y)=k2σ2exp-N2(x2+y2)2σ[]2×expi(k•()xy[])-exp-σ2{()}2(1)其中:k=kxk()y=kvcosψμkvsinψ()μ;kv=2-v+22π;ψμ=μπN;v的取值决定了Gabor滤波的波长;μ的取值表示Gabor核函数的方向;N为总的方向数.设f(x,y)为图像函数,guv(x,y)为卷积函数,则卷积输出N(u,v)可表示为N(u,v)=f(x,y)*guv(x,y)(2)二维Gabor滤波算法计算量较大,为了保证了带钢表面缺陷检测的实时性,采用基于GPU的并行处理架构,其计算流程如图2所示.GPU的算法分为两个流程:训练过程主要针对无缺陷图像进行,通过训练完成纹理图像的背景建模,一方面消除背景变化带来的干扰,另一方面形成有效的Gabor卷积参数,以便在检测过程中得到最优的检出效果.检测过程对实际拍摄的缺陷图像进行分析,首先按照GPU的核心数和缓存大小对图像进行分解,本文所有GPU的核心数为1024,显存2G,因此将原始图像分解为1000块,分别加载到1000个核心中,同时并发运行卷积运算.最后将各个窗口的卷积结果合并到一起,得到完成的滤波结果,最后借助于背景模式,将背景的干扰消除,得到干净的缺陷区域.
3)成像系统.根据缺陷检测的精度要求(1800m/min的检测速度,0.25mm的精度),带钢的规格要求(1900mm规格),对带钢进行成像系统设计.基于互补金属氧化物半导体(CMOS)的成像芯片具有速度快,用电低等优势.选用两个4K线扫描CMOS相机作为成像核心器件,选用CameraLinkFull接口作为数据输出.两个4K扫描中间重叠100mm作为图像拼接区.两组线激光光源与线扫描组成系统的主要成像模块.成像系统结构如图3所示.
2构建分类器
检测缺陷类别及其特征描述如表1所示.
1)训练集和样本集划分.主要缺陷类别有5个,每个类别收集样本7000,共计35000个样本.为了避免训练集和样本集划分的盲目性,采用10-折交叉验证的方式划分训练集和测试集,即将样本集分成10份,从中选1份为测试集,剩下的为训练集,如图4所示,究竟选择哪一份作为测试集,需在后面的嵌套循环中实现.
2)特征选择.缺陷区域的长度、宽度、面积、区域对比度等共计138个特征形成初始特征集合,利用信息增益率来对各个特征排序.设样本集T的某个特征子集S中,相异值构成集合A,集合A把特征子集S划分为多个子集{S1,S2,Sv,…},|Sv|、|S|为集和大小,信息增益率的公式为Gainration(S,A)=Gain(S,A)Intrinsiclnfo(S,A)(3)式中Gain(S,A)为信息增益,是分裂前的信息减去分裂后的信息,公式为Gain(S,A)=InfoBefore(S)-InfoAfter(S)=Entropy(S)-∑v∈Values(A)|Sv||S|Entropy(Sv)(4)式中Entropy(S)为集合S的熵,公式为Entropy(S)=Entropy(p1,p2,…,pm)=-∑mi=1pilogpi(5)式中pi为第i个类别的概率.式(3)中,Intrinsiclnfo(S,A)为内在信息,公式为Intrinsiclnfo(S,A)=∑v∈Values(A)|Sv||S|log(|Sv||S|)(6)利用信息增益率对特征进行排序,再利用循环(从1到138循环)实现最优的特征个数的确定.
3)BP神经网络隐含层节点数的确定.BP神经网络应用到带钢表面质量检测上具有很多优势,但也存在一些问题,主要体现在隐含层节点数选取的盲目性和初始权值选取的随机性.对于隐含层节点数确定问题,利用隐含层节点数常用计算公式[15](2(m+n)+1,n+槡m+a,log2n,n为输入层节点数,m为输出层节点数,a为的[1,10]常数)求得节点数的可能取值集合n1,求得该集合最大值n1-max和最小值n1-min,从n1-min开始到n1-max,利用循环,节点数逐个增加,确定最优的隐含层节点数[16];
4)BP神经网络初始权值的选取.当隐含层节点数确定后,需要确定输入层和隐含层之间、隐含层和输出层之间的初始权值.首先生成10组随机数数组,利用循环确定最优的随机数数组.
5)判别标准和嵌套循环.上述各循环中,分类效果好与坏的判别标准是分类的总体精度,公式为OA=∑niin(7)式中:nii为样本被预测为类别i,n为样本个数.上述各循环组合在一起就是一个嵌套循环,其N-S盒图如图5所示,最外层是测试集和训练集的10折交叉验证,第1层是确定最优的特征数,第3层是确定最优的隐含层节点数,第4、5层是确定最优的输入层和隐含层、隐含层和输出层的初始权值[17-20].经以上循环,确定D3作为测试集,最优特征数为23个,最优的隐含层节点数是46个,同时也确定了最优的初始权值,对应的3层BP神经网络的网络模型如图6所示.
3实验结果
1)鲍威尔棱镜与柱透镜进行对比在实际工作距离1.5m处,采用0.1m为间隔使用光功率计测试光源功率,如图7所示,横轴为测试点,纵轴为测试点的光功率.实验表明,鲍威尔棱镜均匀性优于柱透镜.
2)Gabor滤波方法与其他方法比较将动态阈值法+Blob分析法(方法A)和灰度共生矩阵纹理背景消除法(方法B)两种方法与Gabor滤波方法进行比较,如图8所示.由于缺陷与背景灰度相近(图(a)),致使方法A缺陷丢失(图(b)),由于缺陷与背景纹理相近(图(d)),致使方法B产生噪声(图(e)),Gabor方法取得了不错的效果(图(e)、(图(f))).
3)GPU与CPU比较以4096×4096的图像为例,选10幅有代表性图像,利用CPU(最新的inteli7-2600处理器,4核8线程,2.6GHz,内存8G)和GPU(nVidiaGTX970,4G缓存显卡)进行Ga-bor运算,计算时间如表2所示,GPU计算效率明显优于CPU,其中CPU的平均耗时为290.4ms,而GPU的平均耗时为31.7ms.
4)检测效果在产线速度为1775m/min,最小检测缺陷的尺寸为0.25mm的检测系统中,对带钢的主要4种类型缺陷进行检测统计,检测结果如表3所示.可计算出整体检出率99.9%,检测准确率99.4%.
4结论
本文提出将基于鲍威尔棱镜的大功率激光器应用到光源的设计中,保证光源光照的均匀性;提出了新的带钢表面缺陷检测系统的成像系统结构设计,保证了快速、高精度的生成图像;提出了基于GPU的二维Gabor滤波图像处理的算法,满足了实时处理的要求;提出了基于嵌套循环的分类器择优算法,避免了样本集选择、特征选择和BP神经网络参数设定的盲目性.借助上述技术,系统实现了较好的效果,满足当前带钢生产的检测需求.
参考文献:
[1]张长富.中国钢铁工业运行情况和发展展望[J].中国钢铁业,2013(4):5-8.
[2]刘彩章.基于机器视觉的带钢表面缺陷成像系统理论与实验研究[D].武汉:武汉科技大学,2012:2-4.
[3]高瑀含,安志勇,李娜娜等.高斯光束整形系统的光学设计[J].光学精密工程,2011,19(7):1464-1471.
[4]徐科,杨朝霖,周鹏.热轧带钢表面缺陷在线检测的方法与工业应用[J].机械工程学报,2009,45(4):111-114.
[5]李霞.基于CCD的钢板测宽仪系统设计[D].秦皇岛:燕山大学,2014:5-10.
[6]石东新,傅新宇,张远.CMOS与CCD性能及高清应用比较[J].通讯技术,2010,43(12):174-179.
[7]高梓瑞.Gabor滤波器在纹理分析中的应用研究[D].武汉:武汉理工大学,2012:6-10.
[8]王成顺.表面缺陷检测GPU并行图像处理技术[D].合肥:合肥工业大学,2012:3-6.
[9]徐永智,华慧川.对主成分分析三点不足的改进[J].科技管理研究,2009(6):128-130.
[10]李佳龙,阎威武,白晓慧,等.基于数据驱动与信息增益率多指标决策模型的生活饮用水水质评估[J].大连理工大学学报,2016,56(1):92-96.
[11]张晓雷.支持向量机若干问题的研究[D].北京:清华大学,2012:1-20.
[12]王成明,颜云辉,李骏,等.基于BP神经网络的冷轧带钢表面质量检测研究[J].机械设计与制造,2007(6):106-108.
[13]高正中,张晓燕,龚群英.基于BP神经网络的超声波流量计的设计[J].现代电子技术,2016,39(16):6-9.
[14]周洋,何平安,蒋千年等.激光束整形光学系统的设计与研究[J].光学与光电技术,2006,4(2):26-28.
[15]飞思科技产品研发中心.神经网络理论与Matlab7实现[M].北京:电子工业出版社,2005.
[16]沈花玉,王兆霞,高成耀等.BP神经网络隐含层单元数的确定[J].天津理工大学学报,2008,24(5):13-15.
[17]文冬林.BP神经网络中一种逃离局部极小点的方法研究[D].贵阳:贵州大学,2008.
[18]甘胜丰.带钢表面缺陷图像检测与分类方法研究[D].北京:中国地质大学,2013:3-20.
[19]吴彬彬.机器视觉方法在带钢表面缺陷检测中的应用研究[D].武汉:武汉科技大学,2015:4-50.
关键词:图像分割;边缘检测;算子
中图分类号: 文献标识码:A 文章编号:1007-9599(2011)22-0000-02
Image Segmentation Stud and Achievement Based on Visual C + + Image Edge Detection
Lei Xun,Cheng Luyu,Zheng Tao,Wang Xidi
(Xinjiang Agricultural University of Computer and Information Engineering,Urumqi 830052,China)
Abstract:Recalling the definition of image segmentation and classification algorithms,introduces the emerging modern image segmentation techniques:transform based on wavelet analysis and neural network-based image segmentation.In visual C++ platform to achieve several edge detection simulation.
Keywords:Image segmentation;Edge detection;Operators
图像分割是计算机视觉领域中最基本、也是最困难的问题之一,分割结果的好坏直接影响到后续工作的优劣。由于图像的多样性和复杂性,目前还没有一种完全通用的分割方法可以实现对所有图像的正确分割,因此图像分割技术一直是图像处理邻域的研究热点之一。
一、图像分割算法介绍
(一)图像阈值分割。对灰度图像的阈值分割就是首先对图像中的所有像素点根据灰度值来进行分级,之后通过算法来确定一个确定的阈值相比较,将大于以及小于阈值的灰度值对应的像素点进行分类,而后对两类不同的像素点进行二值化。可以看出,阈值的确定是图像阈值分割算法研究的重点。
(二)图像边缘检测法。图像的边缘是指图像局部区域亮度变化显著的部分。该区域的灰度剖面一般可以看做一个阶跃,即从一个灰度值的很小的缓冲区域内急剧变化到另一个灰度相差较大的灰度值。[1]边缘检测主要是图像的灰度变化的度量,检测和定位。边缘检测的基本思想:先利用边缘增强算子,突出图像中的局部边缘,然后定义像素的“边缘强度”,通过设置阈值的方法提取边缘点集。[2]
(三)区域提取法。区域提取法有两种方法:区域生长法和区域分裂合并法。区域生长法是从某个像素出发,按照一定的准则,逐步合并邻近像素形成所需的分割区域,当满足一定的条件时,区域分割完毕;区域分裂合并法是从整个图像出发,逐渐分裂切割得到各个子区域。在实际应用当中通常是这两种基本方法的结合。两种方法的关键都是如何选择合适的相似准则。
(四)结合特定理论工具的分割算法。基于小波分析和变换的分割方法:小波分析计算复杂度低,抗噪声能力强,且容易与其它方法结合进行图像分割。小波分析发展了传统的傅立叶变换思想,对非平稳信号具有更好的分析能力。[3]基于小波分析的动态阈值分割方法,先由二进制小波变换将图像的直方图分解为不同层次的小波系数, 然后依据一定的分割准则和小波系数选择阈值门限,利用阈值标出图像分割的区域。把小波分析引入图像分割,利用小波分析动态取得阈值,可以实现很好的分割效果。
基于神经网络的分割方法:人工神经网络,也称为神经网络(Neural Networks),即从生物学神经系统的信号传递而抽象发展成的一种方法。是由大量模拟神经元的数学模型相互连接,模拟人脑处理信息的方式,通过学习可以进行并行分布处理的非线性网络系统。在神经网络的应用中,相当多的神经网络模型都是采用BP神经网络或者它的改进形式。
二、边缘检测的Visual C++实现
(一)原理和算法
边缘是一定数量点灰度发生变化的地方,那么边缘检测大体上就是计算这个灰度变化带的导数。对这种变化最有用得两个特征是灰度的变化率和方向,分别以梯度向量的幅度和方向来表示它们。
基于灰度的一阶导数可以得到了原始数据灰度的梯度,可以利用此数据搜寻图像灰度峰值,基于灰度的二阶导数实质上是灰度梯度的变化率。在理想的连续变化情况下,在二阶导数中检测过零点就是梯度中的局部最大值,峰值检测就是边线检测,边缘检测算子检查每个像素的邻域并量化灰度变化率,也包括方向的确定。
1.Roberts边缘检测算子。Roberts边缘检测算子是2 X 2 算子模板,利用斜向上的4个像素交叉差分定义。因此该算子对45度和135度方向上的边缘较为敏感。该模板数学表示为:g(x,y)=[ - ]2+ - ]2}1/2 ,其中f(x,y)是具有整数像素坐标的输入图像。
2.Prewitt边缘算子
为了在边缘检测中减少噪声的影响,1970年Prewitt提出Prewitt算子。Prewitt算子从加大边缘检测算子模板大小出发,由2X2扩大到3X3来计算差分算子,其水平方向和垂直方向上的算子模板为以下两个:
. .
3.Sobel边缘算子
Sobel算子从不同的方向检测边缘,距离不同的像素具有不同的权值,在边缘点处达到极值的现象进行边缘检测。图像中的每个点都用下面这两个卷积核做卷积,一个核对通常的垂直边缘响应最大,而另一个对水平边缘响应最大。
一个是检测水平边沿的 .一个是检测竖直平边沿的 。
4.拉普拉斯算子是对二维函数进行运算的二阶导数算子。通常使用的拉普拉斯边缘检测算子如下:
.
由于拉普拉斯算子是一个二阶导数,所以它将在边缘处产生一个陡峭的零交叉。而噪声点对边缘检测有一定的影响,所以可以利用平滑滤波器进行平滑后再进行边缘检测效果会更好,譬如高斯拉普拉斯算子。
(二)仿真实验与分析
本实验采用的软件环境为Windows XP,编程环境Visual C++6.0,对bmp文件进行格式分析后先将24位位图转换为256位图,二值化后再利用边缘检测算子对图片分别进行卷积运算。
实验结果如下所示:
原图
Robert算子 Prewitt算子
Sobel算子 拉普拉斯算子
Robert算子利用4个像素进行计算,边缘定位准,对噪声敏感,适于处理陡峭的低噪声图像。Prewitt 算子对噪声有抑制作用,但Prewitt算子对图像边缘的定位不如Robert算子,与Prewitt算子相比,Sobel算子对于像素的位置的影响做了加权,因此效果更好。Laplacian 算子同样对噪声比较敏感,所以通常都是用Laplacian 算子和平滑算子结合生成的模板进行图像分割处理。
结论语:
本实验只是利用各种边缘检测算子对灰度图像的分割进行了研究,但通常图像信息中空间复杂性和相关性都比较强,每种方法也只局限于特定的分割对象。实际应用中往往是各种算法的综合处理。各种算法虽然都可以不断改进,但如果要从根本上提高图像处理质量的话,未来需要成功加入高层的语义信息才能满足社会更多的需求。
参考文献:
[1]殷国军,秦莉.图像分割算法研究综述[J].河北工程技术高等专科学校学报.2009,(02)
[2]黄锋华,刘琪芳,冀金凤.基于MATLAB数字图像边缘检测算子的研究[J].机械工程与自动化,2011,(04)
[3]王彪,李建文,王钟斐,基于小波分析的新阈值去噪方法,计算机工程与设计,2011,(03)
[作者简介]
关键词: 积分投影; 循环神经网络; 长短时记忆网络; 防止过拟合技术; 精度; 留一法
中图分类号:TP391.4 文献标志码:A 文章编号:1006-8228(2017)04-13-04
Abstract: The existing research on micro expression recognition is mainly based on the improved LBP (local binary patterns) algorithm and SVM (support vector machine). Recently, integral projection has been applied in the field of face recognition. The long and short memory network (LSTM), as a kind of recurrent neural network, can be used to process time series data. So LSTM-IP model, which combines integral projection with LSTM, is proposed, and experimented on the latest micro-expression database CASME II. The horizontal and vertical projection vectors obtained by integral projection are used as the input of LSTM and classified, and the over-fitting preventing method is used. The experimental results show that LSTM-IP algorithm gets better results than the previous method.
Key words: integral projection; recurrent neural network; long and short memory network; prevent over-fitting; accuracy; leave-one-subject-out cross validation
0 引言
人们表情的短时间变化,也叫微表情,心理学在这方面的研究很早就开始了。近年来,有关利用机器学习的方法来对微表情进行研究的学者越来越多,其成为当前一个热门研究方向。微表情的研究成果可用于测谎[2-4]、临床诊断等方面,因橐话闳思幢闶切睦硪缴也很难注意到1/25~1/5秒人表情的变化[1],而这时,机器可以很好的对微表情进行自动的识别。
最近,基于积分投影和纹理描述符的方法被用在人脸识别[5],然而,很少有研究将积分投影用于包含人脸的时间序列中进行识别。微表情与人脸识别有很大不同,特征很难单从每帧图片中提取,这时就需要考虑时间轴。LSTM可以对时序数据进行分类,以前基本用在语音识别和自然语言处理的任务中,很少用于图像识别,可能是因为LSTM处理的是一维的数据,而图像是二维的数据。将图像的二维信息积分投影到一维(水平方向和垂直方向),并以此作为LSTM的输入并分类,这样就能将二者很好的结合起来。
本文构造了基于积分投影和LSTM的深度学习的模型来对微表情进行识别。得到的结果不仅比以前的基于局部二值模式(LBP)的方法好,而且也略微的优于最近基于积分投影的论文中的方法。
1 CASME II微表情数据集介绍
2014年,中科院心理研究所建立了更进一步改进的自然诱发的微表情数据库CASMEII[8]。CASMEII有26个平均年龄为22岁左右的亚洲人,9类表情(happiness, surprise, disgust, fear, sadness, anger, repression, tense, negative)组成。用来录制的高速相机为200 fps。高速相机可以捕捉更细节的微表情。CASMEII是据我们所知目前最好的自然诱发的微表情数据库。
2 基于差分图像的积分投影
Mateos等人的开拓性工作[6-7]表明积分投影可以提取同一人脸图像的共同基本特征。积分投影将人脸的特征水平和垂直投影,可以用公式⑴和⑵表示:
其中It(x,y)表示时间为t时,图像位于(x,y)时的像素值,Ht(y)和Vt(x)表示水平和垂直积分投影。直接将积分投影应用到CASME II微表情数据集上效果如图1所示。
然而,由于微表情的变化是十分微小的,若直接采用上面的积分投影会有很多噪声,从图1(c)可以看出区分不是很明显。因此,我们采用改进的积分投影方法。可以用公式⑶和⑷表示:
我们将每个视频下的2到N帧微表情的图像减去第1帧,将得到的差分图像做积分投影,效果如图2所示。
从图2的(c)可以看出,采用基于差分图像的水平积分投影效果更好,去掉了不必要的噪声。
3 长短时记忆网络
循环神经网络(RNN)可以用来处理时序数据,但它有一个明显的缺陷,就是不能记忆发生在较久以前的信息。长短时记忆网络(LSTM)[9]是一种特殊的RNN,比RNN多了一些特殊的门和细胞,可以学习长期依赖信息。LSTM结构如图3所示。
最上面横着带箭头的线包含细胞单元,作用是记忆之前LSTM单元的信息。x和+表示点分的乘法与加法,表示Sigmoid激活函数(如公式⑸),tanh表示双曲正切激活函数(如公式⑹)。
最下面圆圈中的X和最上面圆圈中的h分别表示时序输入和输出。
通用的LSTM结构可以参考图4,图4中,底层节点为输入,顶层节点为输出,中间层为隐藏层节点或记忆块。(a)描述的是传统的 感知机(MLP)网络,即不考虑数据的时序性,认为数据是独立的;(b)将输入序列映射为一个定长向量(分类标签),可用于文本、视频分类;(c)输入为单个数据点,输出为序列数据,典型的代表为图像标注;(d)这是一种结构序列到序列的任务,常被用于机器翻译,两个序列长度不一定相等;(e)这种结构会得到一个文本的生成模型,每词都会预测下一时刻的字符。
4 LSTM-IP模型
因为CASME II数据集每个视频下微表情图像帧数是不一样的,为了方便我们统一LSTM的输入,所以我们提取了最能代表这个视频微表情的10帧,同时,本文将整个数据集图像的尺寸统一到200×200像素,将原来彩色图像转化为灰度图像。通过基于差分图像的积分投影,得到一个视频下差分图像每帧图像的水平和垂直投影,一个图像可以得到一个200维的水平向量和一个200维的垂直向量,因为差分图像是后面9张减去了第一张图像,所以一个视频下共有9个水平向量和9个垂直向量,初始化两个9×200大小的一维向量分别保存水平向量和垂直向量。
本文采用图4(b)和图4(e)结合的LSTM结构,如图5所示。
顶层的X_IP表示将一个视频下9个差分图像的水平投影组成的9×200的一维特征向量作为输入,经过第一层LSTM得到9×128的一维特征向量,接着经过第二层LSTM得到9×128的一维特征向量,最后经过一层LSTM得到一个128的特征向量,Y_IP也是同样的处理过程。最后将这两部分的128的特征向量连接起来作为一个256的特征向量输入softmax分类器,结果输出属于五类微表情的哪一类。在图5的每两层之间加入一层Dropout层,Dropout的比率设为0.5。LSTM内部参数初始化采用了glorot_normal,相比较于其他初始化方法,glorot_normal效果最好。
Softmax和Dropout在深度学习中都是常用的技术。Softmax是逻辑斯特回归应用于多分类的推广。Dropout[10]这种技术的作用是减少过拟合,是一种正则化技术,通过防止由完全连接的层引起神经元的参数过多,有助于减少神经网络的过度拟合问题。给定 dropout率p,其在我们的LSTM中被设置为0.5,50%单位将被保留,而另外50%将被放弃。简单地说,“Dropout”只是随机忽略一些神经元。然而在测试阶段,每个神经元的输出将通过因子1-p(保持率)加权以保持与训练阶段中产生相同的效果。如图6所示。
我们的实验采用基于Theano的keras框架,keras借b了Torch的搭建深度学习网络的方式,而且使用笔者比较熟悉的Python语言(Torch使用Lua语言),keras的底层可以是Theano或者Tensorflow,可能是因为keras最先在Theano开发的,经过实验比较单个GPU下,Theano的速度要比Tensorflow快,所以我们的底层采用Theano。
5 实验结果与分析
现在微表情识别的算法主要是基于LBP改进的算法,例如LBP-TOP[11](Local Binary Pattern-Three Orthogonal Planes)、LBP-SIP[12](LBP-Six Intersection Points)和LOCP-TOP[13](Local ordinal contrast pattern-
TOP)等。我们将LSTM-IP算法与以前的方法做了比较,如表1所示。
实验是在CASME II上做的,因为CASME II微表情数据集是最新最好的微表情数据集。STLBP-IP也是基于积分投影的,结合了1DLBP来提取特征。通过表1的比较我们发现,基于积分投影的算法效果好于原来基于LBP的算法,可以得出,采用提取积分投影特征的方法在微表情数据集CASME II上效果比较好。可以看出,STLBP-IP的性能优于文献[27]的重新实现,STLBP-IP的精度提高了20.64%。从表1中可知,时间插值法(TIM)可以提高LBP-TOP的性能,其中LBP-TOP增加到39.68%。然而,与STLBP-IP相比,LBP-TOP在微表情识别上的效果上有很大的差距(19.43%)。比较两种基于积分投影的方法,本文提出的方法略微好于STLBP-IP,但通过阅读STLBP-IP的论文笔者发现,这种方法存在繁琐的调参过程,比如图像如何分块,SVM核参数的选择,而本文提出的LSTM-IP算法可以自动从差分图像的积分投影中学习,调参的内容比较少,而且速度也很快。这些结果表明,LSTM-IP实现了令人满意的效果,而不是LOCP-TOP和LBP-SIP。 这部分地解释了LSTM-IP通过使用积分投影来保持形状和辨识的能力。
实验采用了留一法交叉验证,CASME II有26个subjects,通过把每个subject作为测试,其余作为训练,循环26次,最后把每次测试得到的正确视频个数相加除以总的视频数,得到识别精度,这种方法现在是微表情识别主流的验证方法。
6 Y束语
基于差分图像的积分投影方法,保存了我们微表情形状的特征,然后增强微表情的辨别力。深度学习在图像识别领域已经取得了很不错的成绩,而现在深度学习的技术还没有应用于微表情识别。本文将差分图像的积分投影与LSTM结合,从实验结果上看,结果要好于以前的方法。我们认为深度学习的探索不会停止,会有越来越多新的网络模型产生,也会有越来越多的深度学习的技术应用于微表情识别。
我们将继续探索基于深度学习的微表情识别的方法及技术手段。卷积神经网络在图像识别上取得了很好的成绩,但笔者也将卷积神经网络应用于微表情上,效果并不好,可能是因为微表情在图像上变化比较细微,卷积神经网络不容易捕捉到特征,但如果考虑了一个视频时间序列的特性,也许会有比较好的结果,对此还有待进一步研究。随着技术的进步,相信微表情识别效果会越来越好,并最终能够应用于我们的生活中。
参考文献(References):
[1] Ekman P. Micro Expressions Training Tool[M]. Emotion-
srevealed. com,2003.
[2] Ekman P. Darwin, deception, and facial expression[J].
Annals of the New York Academy of Sciences,2003.1000(1):205-221
[3] Ekman P. Lie catching and microexpressions[J]. The
philosophy of deception,2009:118-133
[4] Ekman P, O'Sullivan M. From flawed self-assessment to
blatant whoppers: the utility of voluntary and involuntary behavior in detecting deception[J]. Behavioral sciences & the law,2006.24(5):673-686
[5] Benzaoui A, Boukrouche A. Face recognition using 1dlbp
texture analysis[J]. Proc. FCTA,2013: 14-19
[6] Mateos G G. Refining face tracking with integral projections
[C]//International Conference on Audio-and Video-Based Biometric Person Authentication. Springer Berlin Heidelberg,2003: 360-368
[7] García-Mateos G, Ruiz-Garcia A, López-de-Teruel P
E. Human face processing with 1.5 D models[C]//International Workshop on Analysis and Modeling of Faces and Gestures. Springer Berlin Heidelberg,2007:220-234
[8] Yan W J, Li X, Wang S J, et al. CASME II: An improved
spontaneous micro-expression database and the baseline evaluation[J]. PloS one, 2014.9(1):e86041
[9] Hochreiter S, Schmidhuber J. Long short-term memory[J].
Neural computation,1997.9(8):1735-1780
[10] Hinton G E, Srivastava N, Krizhevsky A, et al. Improving
neural networks by preventing co-adaptation of feature detectors[J]. Computer Science,2012.3(4):212-223
[11] Zhao G, Pietikainen M. Dynamic texture recognition
using local binary patterns with an application to facial expressions[J]. IEEE transactions on pattern analysis and machine intelligence,2007.29(6).
[12] Wang Y, See J, Phan R C W, et al. Lbp with six
intersection points: Reducing redundant information in lbp-top for micro-expression recognition[C]//Asian Conference on Computer Vision. Springer International Publishing,2014:525-537
[13] Chan C H, Goswami B, Kittler J, et al. Local ordinal
contrast pattern histograms for spatiotemporal, lip-based speaker authentication[J]. IEEE Transactions on Information Forensics and Security,2012.7(2):602-612
关键词:深度学习;器材管理;深度信念网络;效率;损耗
1.引言
深度学习是机器学习的延伸和进一步发展,它基于机器学习,从广义上讲是机器学习的一种,但与机器学习有较大不同,深度学习的模型和人脑皮层结构有较大相似,从某种意义上讲,深度学习是智能学习,可对复杂数据进行有效处理[1]。深度学习模型既可以作为特征提取器,也可以用作特征分类器,并且二者可以同时应用,直接得到想要的分类结果。器材有成千上万种,每种器材的性能、数量、有效期、生产厂家这些基本要素Ю戳舜罅康氖据,而深度学习应用于大数据挖掘方面,实践中已经取得较好的效果。现在是一个“大数据+深度学习”的时代。本文研究在器材管理中如何运用深度学习,来探寻器材管理中蕴含的内在规律,通过得出的管理规则进行器材管理,来提高器材管理的信息化水平。
2.深度学习的典型模型
深度学习基础是受限玻尔兹曼机(RBM),玻尔兹曼机( BM)可以认为是一种能量模型。即参数空间中每一种情况均有一个标量形式的能量与之对应。对全连通玻尔兹曼机进行简化,其限制条件是在给定可见层或者隐层中的其中一层后,另一层的单元彼此独立,即为受限玻尔兹曼机。深度学习的典型模型主要有:自动编码器(AE),卷积神经网络(CNN),深度信念网络(DBN)三种[2]。
(1)自动编码器
自编码器的基本原理:将输入的原始信号进行编码,使用编码得到的新信号重建原始信号,求得重建的元信号与原始信号相比重建误差最小。它的优点是可以有效的提取信号中的主要特征,减少信息冗余,提高信息处理效率。模式分类中经常用到的以下方法:K均值聚类、稀疏编码、主成分分析等均可理解为是一个自动编码器。
(2)卷积神经网络
卷积神经网络(CNN)善于提取数据局部特征,模型复杂度较低,权值的数量较少,它组合局部感受野(滑动窗口)、权重共享(减少自由参数数量)、和空间或时间上的子采样这3 种结构去确保平移和变形上的不变性。
(3)深度信念网络
深度信念网络(DBN)主要采用贪婪逐层训练方法。简言之通过预先训练与反向调节来训练整个DBN网络:在预先训练阶段,先逐个训练每一个受限玻尔兹曼机RBM,逐层叠加,并将下一层的RBM 的输出作为上一层RBM 的输入; 在反向调节阶段可以采用BP训练,通过误差函数进行反向调节.
3.基于深度信念网络(DBN)的器材管理方法
器材管理的目的是在最大器材利用率下所用资金最少,耗费管理人员精力最少。从模型分析上来说,这是一个求最优化模型的问题。深度信念网络在求取最优化方面具有一定的优越性。深度信念网络(DBN)的优点:(1)采用并行结构,可同时处理多组数据,计算效率得到较大提升,对处理大数据有优势;(2)可以用较小的模型参数波动得到较高的分类结果,模型稳定性较好[3]。
对器材管理者来说如何制定性价比最高的器材采购方案,最优的器材下发方案,最优的器材存储方案是急需解决的三个问题。
器材采购方案:其制定主要基于器材的价格,储存年限,采购批次,采购量,售后服务等因素,针对每种器材的上述指标进行量化打分,再根据每种器材的侧重点分配量化系数,整合成10种数据输入。将这些数据输入到训练好的深度信念网络(DBN)中得出每种器材的采购点数,根据点数决定采购的器材数量、品种、规格和型号。
器材的下发方案:器材的下发要考虑不同单位的需求,现有库存情况,近期器材补充情况,近期大项工作需求情况,根据不同情况对不同单位,不同器材,具体工作设定不同颜色的标签,通过标签整合,将这些数据输入到训练好的深度信念网络(DBN)中得到具体的下拨方案。
器材储存方案:储存主要包括使用单位库存情况,仓库库存情况,供货单位协议代储情况,运用深度信念网络(DBN)对器材消耗情况进行分析,进而得出,单位库存的数质量,使用单位库存的数质量,供货单位协议代储数质量,使三者处于一个最优化状态,既不影响使用,又可降低库存空间的需求,减少资金占用。
4. 实验结果
本文采用深度信念网络(DBN)对1000种器材采购、运输、库存、消耗使用以及不同品牌的通用器材采购成本进行了实验分析,通过深度信念网络(DBN)的优化,采购效率提高10%,运输时间缩短20%,库存量降低15%,使用消耗准确度提高5%,采购成本降低18%。
5. 未来发展与展望
深度学习方法在器材管理中的应用还处于初步探索之中,但是初步运用表明,其在“大数据+云计算”时代,对提高器材管理的信息化水平具有较大的实用价值和经济价值,用于器材管理的深度学习模型,还较为简单,还有进一步发展的空间,实践应用中对器材数据特征的提取还有待加强,只有深刻的理解器材管理的特征及需求,才能有针对性的建立模型,提高模型的可靠性和有效性。使器材管理水平更上一层楼,使器材管理跟上信息化发展的步伐。
参考文献:
[1] 孙志军,薛磊,许阳明.基于深度学习的边际Fisher分析特征提取算法[J].电子与信息学报,2013,35(4):805-811.
[2] 孙志军,薛磊,许阳明,等.深度学习研究综述[J].计算机应用研究, 2012, 29( 8) : 2806 - 2810.
[3] 胡晓林,朱军.深度学习―――机器学习领域的新热点[J].中国计算机学会通讯, 2013,9( 7) : 64 - 69.
作者简介:
康克成(1981.04-)河北昌黎人,研究生,硕士,工程师,中国人民92819部队,研究方向:信息与通信工程;
王强(1981.02-)山东胶州人,本科,助理工程师,中国人民92819部队,研究方向:装备管理;
关键词:边缘检测;边缘;梯度算子
中图分类号:TP391
边缘检测是图像处理中最基本最经典的技术问题之一,它对于图像分析和图像理解有着重要作用。因此,边缘检测在模式识别等高层次图像处理领域有着重要的地位。然而由于图像前期处理过程中的失误易造成图像的模糊和变形使得边缘检测很困难,这就要求研究性能更好的边缘检测算子。经过多年的发展,到现在算法已有成百上千种。
边缘为图像中灰度发生急剧变化的区域边界,两个具有不同灰度值的相邻区域之间总存在着边缘,可以利用微分运算方便地检测到。人们提出了用图像灰度分布的梯度来反映图像灰度变化的微分边缘算子,如1965年提出的Robert算子[1],在其基础上改进得到的Sobel算子、Prewitt算子和Kirsch算子等。这些算子由于计算量小和操作简单在当今使用较多,但易产生较宽的响应,故需作细化处理,影响了边缘定位的精度。因而又产生了与边缘方向无关的二阶微分边缘检测算子,即Laplacian算子[2]。它利用图像强度的二阶导数零交叉点使边缘的定位更准确。
近年来随着应用的需要,传统方法越来越难以满足要求。针对这种情况,人们提出了许多新的边缘检测方法。这些新的方法利用各种新的理论工具对图像进行边缘检测,例如基于数学形态学的检测技术,借助统计学方法的检测技术[4]、利用神经网络的检测技术[5]、利用模糊理论的检测技术[6]、利用信息论的检测技术[7]、利用遗传算法的检测技术等得到了兴起与发展,表现异常活跃。
由于实际图像中含有噪声和物理和光照等原因,利用一种边缘检测算子不可能有效的检测出这些边缘,当需要提取多空间范围内的变化特性时,要考虑多算子的综合应用。因此,传统的边缘检测算法检测效果并不理想。
1 边缘检测的步骤
1.1 边缘检测的步骤
(1)滤波:边缘和噪声同属于图像中强度剧烈变化部位,因此噪声对边缘检测有很大的影响,于是有必要使用滤波器来改善边缘检测算子的性能。
(2)增强:增强边缘的原理是确定图像各点邻域强度的变化值。增强算法可以将邻域灰度值有显著变化的点突显出来。
(3)检测:在图像中,有许多点的梯度幅值比较大,而这些点并不都是边缘,所以需要确定哪些点是真正的边缘点。最简单的办法是利用梯度幅值的阈值作为判据。
(4)定位:边缘定位即精确的确定边缘点的具置。
图像边缘检测的基本步骤如图1所示:
1.2 边缘检测要求
对于图像的边缘检测来说,一般在检测过程中出现各种各样的情况,导致误差的出现。因此,对边缘检测有如下的要求:
(1)漏检率与误检率较少。
(2)边缘定位较准确。
(3)对于每一个边缘只有一个响应。
2 经典边缘检测算法
2.1 经典边缘检测的基本算法
一阶微分算子是通过梯度算子或一阶导数算子估计图像灰度变化的梯度方向,增强图像中的灰度变化区域,然后将梯度值与给定的阈值进行比较来确定具体的边缘。
对于连续函数 ,它在点 处的x方向,y方向和 方向的一阶方向导数为:
它在点 处的梯度是一个矢量,即
梯度幅值为:
梯度方向角为:
基于上述理论人们提出了许多经典算子的,如Sobel算子、Roberts算子、Prewitt算子等。但在实际应用中,常常以图像的一阶差分运算代替图像的一阶微分运算。所有这些基于梯度的边缘检测算法主要有两点区别:1)边缘检测算子的方向。2)在同一方向上近似图像一阶导数合成梯度算子的方式。
2.1.1 Sobel算子
Sobel是一种将方向差分运算与局部平均相结合的边缘检测方法。它计算一个图像强度的梯度近似值。该算子是在以(x,y)为中心的3 3邻域上计算 的偏导数。为了抑制噪声,给它的中心点加一个权重,则它的数字梯度近似等于下式:
梯度大小为:
它的卷积模板算子如下:
用以上模板与图像进行卷积运算后,按照式9可以求出图像的梯度幅度值g(x,y),然后选择适当的阈值T,如果在(x,y)处g(x,y)>T,则此点为边缘点;否则为非边缘点。
在较小的邻域范围内,Sobel算子比较理想,受噪声的影响比较小。当使用到大的邻域时,抗噪声特性会更好,但计算量会增加,得出的边缘较粗。因为局部平均计算的原因,易产生误检,造成边缘定位精度不够高。因此,Sobel算子在精度要求不高的情况下,是一种不错的边缘检测算法。Sobel算子对噪声具有平滑作用,提供较为精确的边缘方向信息。如果它与其他的算法相结合可能会达到更好的检测效果。
2.1.2 Canny算子
Canny边缘检测方法是通过计算图像像素点的梯度,根据局部极值来获得边缘信息的方法。1986年,Canny通过对过去一系列边缘检测算子的方法和应用,进行总结分析,用数学的形式推导出最优边缘检测算子。Canny认为一个良好的边缘检测算法应满足以下几点要求:
(1)定位能力好。检测出的边缘点尽可能落在实际图像边缘的中心。
(2)优良的检测性能。误检和漏检的概率小。
(3)单一响应。尽可能减少虚假边缘的响应和多个响应的发生,最好是单一边缘只产生一个响应。
Canny边缘检测算法主要步骤:
第一步:平滑。使用高斯函数对待检测图像进行平滑滤波处理,得到平滑图像。
第二步:计算平滑图像中每个像素点的局部梯度幅度值和边缘方向。
第三步:对梯度进行非极大值抑制。在梯度幅度的集合图像中,在边缘强度的极大值附近会产生屋脊带。为了细化边缘,寻找梯度幅值图像中极大值的点,并将所有非极大值的像素设为零。
第四步:得到图像边缘信息。给定两个阈值T1和T2,T1
Canny边缘检测算子的缺点与改进:1)高斯滤波对于某些特定的噪声效果不是很好,还有待改进,提供性能更好的自适应去噪方法。2)双阀值的参数是人为设定,不能根据图像的边缘特征来确定的,有可能对噪声的抑制不是很好,同时也可能丢失边缘信息,导致边缘检测效果是很理想,即对于不同的图像不具有自适应性。因此,有必要根据图像的特征自适应确定图像的阀值来达到理想的检测效果。3)在多角度上计算梯度。
3 基于形态学边缘检测
设g(x,y)为输入图像,E(x,y)表示图像的边缘函数,f(x,y)为检测算子。形态学中的膨胀会缩小图像的背景区域,扩张图像的目标区域;而腐蚀恰恰相反,它会扩张背景区域,缩小目标区域。根据这样性质,可以构造图像的边缘检测算子如下:
灰度膨胀运算表示: (11)
同理灰度腐蚀运算表示: (12)
那么膨胀腐蚀型边缘检测算子可如下表示:
由以上的操作运算,我们知道膨胀运算会使图像边缘变的模糊,腐蚀运算会使图像边缘信息损失一些细节信息。为了避免上述情况,对上述算子加以修改:
边缘算子修正为:
边缘算子改进以后,添加了一些原图像边缘信息,也可能添加了一些噪声。
4 神经网络边缘检测算法
为了检测有256灰度值的灰度图像的边缘,可以考虑一个类似BP神经网络[3][9]的模型,该模型由8个子BP神经网络组成,每一个子网络可以检测2值图像的边缘。每一个子BP神经网络对应灰度图像的一个位平面。每个神经网络的输出会根据每个位平面的权重做调整。8个位平面的权重依次为1/256、2/256、4/256、8/256、16/256、32/256、64/256、128/256。通过类似的模型,可以很精确的检测出灰度图像的边缘。结构如图2所示:
5 总结
边缘检测是图像处理领域中最基本的问题,也是图像处理其他工作的基础。如何准确、快速地进行边缘检测一直是图像处理领域的热点。一个边缘检测算法的好坏主要体现在能否做到以下两点:一是正确地检测出所有边缘并不出现伪边缘;二是尽可能地抑制噪声对图像的影响,即去噪能力。通过上面的分析可知,前人提出的很多经典算法,比如微分算子法,BP神经网络算法,基于形态学的检测算法,基于关联规则的检测算法[8]等,对于现在边缘检测的要求而言,其效果都不是特别理想。这就需要我们寻找更好的算法,其研究更多的向多尺度、多领域、多方法融合的方向发展。
参考文献:
[1]冈萨雷斯.数字图像处理[M].北京:电子工业出版社,2007:467-471.
[2]孙即祥.数字图像处理[M].河北出版社,1993.
[3]Weiqing Li,Chengbiao Wang,Qun Wang,Guangshe Chen,An Edge Detection Method Based on Optimized BP Neural Network. ? 2008 IEEE DOI 10.1109/ISISE.2008,310.
[4]S.Konishi,A.Yuille and J.Coughlan.A statistical approach to multi-scale edge detection.Image and Vision Computing,2003,21:37-485.
[5]S.C.Douglas,T.H.Meng.Design of Edge Detection Templates Using a Neural Network.Proc.International Joint Conference on Neural Networks,1990,2:331-334.
[6]D.S.Kim,W.H.Lee and I.S.Kweon.Automatic edge detection using 3*3 ideal binary pixel patterns and fuzzy-based edge thresholding.Pattern Recognition Letters,2004,25:101-106.
[7]Q.Tian,X.Li and N.M.Bilgutay.Multiple Target Detection Using Split Spectrum Processing and Group Delay Moving Entropy.IEEE Trans.On UFFC,1995,42(6):1075-1886.
[8]洪俊田,陶剑锋,李刚.基于灰色关联的数字图像去噪研究[J].武汉理工大学学报,2006,2:15-17.
[9[S.C.Douglas.TH.Meng.Design of Edge Detection Templates Using a Neural Network.Proc.International Joint Conference on Neural Networks,1990,2:331-334.