前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的卷积神经网络的优点主题范文,仅供参考,欢迎阅读并收藏。
(江苏科技大学电子信息学院,江苏镇江212003)
摘要:在实际交通环境中,由于运动模糊、背景干扰、天气条件以及拍摄视角等因素,所采集的交通标志的图像质量往往不高,这就对交通标志自动识别的准确性、鲁棒性和实时性提出了很高的要求。针对这一情况,提出一种基于深层卷积神经网络的交通标志识别方法。该方法采用深层卷积神经网络的有监督学习模型,直接将采集的交通标志图像经二值化后作为输入,通过卷积和池采样的多层处理,来模拟人脑感知视觉信号的层次结构,自动地提取交通标志图像的特征,最后再利用一个全连接的网络实现交通标志的识别。实验结果表明,该方法利用卷积神经网络的深度学习能力,自动地提取交通标志的特征,避免了传统的人工特征提取,有效地提高了交通标志识别的效率,具有良好的泛化能力和适应范围。
关键词 :交通标志;识别;卷积神经网络;深度学习
中图分类号:TN911.73?34;TP391.41 文献标识码:A 文章编号:1004?373X(2015)13?0101?06
收稿日期:2015?01?09
基金项目:国家自然科学基金面上项目(61371114)
0 引言
随着智能汽车的发展,道路交通标志的自动识别[1?3]作为智能汽车的基本技术之一,受到人们的高度关注。道路交通标志识别主要包括两个基本环节:首先是交通标志的检测,包括交通标志的定位、提取及必要的预处理;其次是交通标志的识别,包括交通标志的特征提取和分类。
如今,交通标志的识别方法大多数都采用人工智能技术,主要有下述两类形式[4]。一种是采用“人工特征+机器学习”的识别方法,如基于浅层神经网络、支持向量机的特征识别等。在这种方法中,主要依靠先验知识,人工设计特征,机器学习模型仅负责特征的分类或识别,因此特征设计的好坏直接影响到整个系统性能的性能,而要发现一个好的特征,则依赖于研究人员对待解决的问题的深入理解。另一种形式是近几年发展起来的深度学习模型[5],如基于限制波尔兹曼机和基于自编码器的深度学习模型以及卷积神经网络等。在这种方法中,无需构造任何的人工特征,而是直接将图像的像素作为输入,通过构建含有多个隐层的机器学习模型,模拟人脑认知的多层结构,逐层地进行信息特征抽取,最终形成更具推广性和表达力的特征,从而提升识别的准确性。
卷积神经网络作为深度学习模型之一,是一种多层的监督学习神经网络,它利用一系列的卷积层、池化层以及一个全连接输出层构建一个多层的网络,来模仿人脑感知视觉信号的逐层处理机制,以实现视觉特征信号的自动提取与识别。本文将深层卷积神经网络应用于道路交通标志的识别,通过构建一个由二维卷积和池化处理交替组成的6层网络来逐层地提取交通标志图像的特征,所形成的特征矢量由一个全连接输出层来实现特征的分类和识别。实验中将加入高斯噪声、经过位移、缩放和旋转处理的交通标志图像以及实际道路采集交通标志图像分别构成训练集和测试集,实验结果表明,本文所采用的方法具有良好的识别率和鲁棒性。
1 卷积神经网络的基本结构及原理
1.1 深度学习
神经科学研究表明,哺乳动物大脑皮层对信号的处理没有一个显示的过程[5],而是通过信号在大脑皮层复杂的层次结构中的递进传播,逐层地对信号进行提取和表述,最终达到感知世界的目的。这些研究成果促进了深度学习这一新兴研究领域的迅速发展。
深度学习[4,6?7]的目的就是试图模仿人脑感知视觉信号的机制,通过构建含有多个隐层的多层网络来逐层地对信号特征进行新的提取和空间变换,以自动学习到更加有效的特征表述,最终实现视觉功能。目前深度学习已成功地应用到语音识别、图像识别和语言处理等领域。在不同学习框架下构建的深度学习结构是不同的,如卷积神经网络就是一种深度的监督学习下的机器学习模型。
1.2 卷积神经网络的基本结构及原理
卷积神经网络受视觉系统的结构启发而产生,第一个卷积神经网络计算模型是在Fukushima 的神经认知机中提出的[8],基于神经元之间的局部连接和分层组织图像转换,将有相同参数的神经元应用于前一层神经网络的不同位置,得到一种平移不变神经网络结构形式。后来,LeCun 等人在该思想的基础上,用误差梯度设计并训练卷积神经网络[9?10],在一些模式识别任务上得到优越的性能。
卷积神经网络本质上是一种有监督的深度学习算法,无需事先知道输入与输出之间精确的数学表达式,只要用已知的模式对卷积神经网络加以训练,就可以学习到输入与输出之间的一种多层的非线性关系,这是非深度学习算法不能做到的。卷积神经网络的基本结构是由一系列的卷积和池化层以及一个全连接的输出层组成,可以采用梯度下降法极小化误差函数对网络中的权值和阈值参数逐层反向调节,以得到网络权值和阈值的最优解,并可以通过增加迭代次数来提高网络训练的精度。
1.2.1 前向传播
在卷积神经网络的前向传播中,输入的原始图像经过逐层的卷积和池化处理后,提取出若干特征子图并转换成一维特征矢量,最后由全连接的输出层进行分类识别。
在卷积层中,每个卷积层都可以表示为对前一层输入图像的二维卷积和非线性激励函数,其表达式可用式(1)表示:
式中:Yj 表示输出层中第j 个输出;Y l + 1i 是前一层(l + 1层)
的输出特征(全连接的特征向量);n 是输出特征向量的长度;Wij 表示输出层的权值,连接输入i 和输出j ;bj表示输出层第j 个输出的阈值;f (?) 是输出层的非线性
1.2.2 反向传播
在反向传播过程中,卷积神经网络的训练方法采用类似于BP神经网络的梯度最速下降法,即按极小化误差的方法反向传播调整权值和阈值。网络反向传播回来的误差是每个神经元的基的灵敏度[12],也就是误差对基的变化率,即导数。下面将分别求出输出层、池采样层和卷积层的神经元的灵敏度。
(1)输出层的灵敏度
对于误差函数式(6)来说,输出层神经元的灵敏度可表示为:
在前向传播过程中,得到网络的实际输出,进而求出实际输出与目标输出之间的误差;在反向传播过程中,利用误差反向传播,采用式(17)~式(20)来调整网络的权值和阈值,极小化误差;这样,前向传播和反向传播两个过程反复交替,直到达到收敛的要求为止。
2 深层卷积神经网络的交通标志识别方法
2.1 应用原理
交通标志是一种人为设计的具有特殊颜色(如红、黄、白、蓝、黑等)和特殊形状或图形的公共标志。我国的交通标志主要有警告、禁令、指示和指路等类型,一般采用颜色来区分不同的类型,用形状或图形来标示具体的信息。从交通标志设计的角度来看,属于不同类型(不同颜色)的交通标志在形状或图形上有较大的差异;属于相同类型(相同颜色)的标志中同类的指示信息标志在形状或图形上比较接近,如警告标志中的平面交叉路口标志等。因此,从机器视觉的角度来分析,同类型中同类指示信息的标志之间会比不同类型的标志之间更易引起识别错误。换句话说,相比于颜色,形状或图形是正确识别交通标志的关键因素。
因此,在应用卷积神经网络识别交通标志时,从提高算法效率和降低错误率综合考虑,将交通标志转换为灰度图像并作二值化处理后作为卷积神经网络的输入图像信息。图2给出了应用卷积神经网络识别交通标志的原理图。该网络采用了6层交替的卷积层和池采样层来逐层提取交通标志的特征,形成的特征矢量由一个全连接的输出层进行识别。图中:W1i(i=1,2,…,m1),W1(j j=1,2,…,m2),…,W1k(k=1,2,…,m(n?1))分别表示卷积层L1,L3,…,Ln - 1 的卷积核;Input表示输入的交通标志图像;
Pool表示每个池采样层的采样池;map表示逐层提取的特征子图;Y 是最终的全连接输出。
交通标志识别的判别准则为:对于输入交通标志图像Input,网络的输出矢量Y = [y1,y2 ,…,yC ],有yj = Max{y1,y2 ,…,yC},则Input ∈ j,即判定输入的交通标志图像Input为第j 类交通标志。
2.2 交通标志识别的基本步骤
深层神经网络识别交通标志主要包括交通标志的训练与识别,所以将交通标志识别归纳为以下4个步骤:(1) 图像预处理:利用公式Gray= 0.299R +0.587G + 0.114B 将彩色交通标志图像转换为灰度图像,再利用邻近插值法将交通标志图像规格化,最后利用最大类间方差将交通标志图像二值化。
(2)网络权值和阈值的初始化:利用随机分布函数将权值W 初始化为-1~1之间的随机数;而将阈值b 初始化为0。
(3)网络的训练:利用经过预处理的交通标志图像构成训练集,对卷积神经网络进行训练,通过网络前向传播和反向传播的反复交替处理,直到满足识别收敛条件或达到要求的训练次数为止。
(4)交通标志的识别:将实际采集的交通标志图像经过预处理后,送入训练好的卷积神经网络中进行交通标志特征的提取,然后通过一个全连接的网络进行特征分类与识别,得到识别结果。
3 实验结果与分析
实验主要选取了我国道路交通标志的警告标志、指示标志和禁令标志三类中较常见的50幅图像。考虑到在实际道路中采集到的交通标志图像会含有噪声和出现几何失真以及背景干扰等现象,因此在构造网络训练集时,除了理想的交通标志以外,还增加了加入高斯噪声、经过位移、旋转和缩放处理和实际采集到的交通标志图像,因此最终的训练样本为72个。其中,加入的高斯噪声为均值为0,方差分别为0.1,0.2,0.3,图像的位移、旋转、缩放的参数分别随机的分布在±10,±5°,0.9~1.1的范围内。图3给出了训练集中的交通标志图像的示例。图4是在实际道路中采集的交通标志图像构成的测试集的示例。
在实验中构造了一个输入为48×48个神经元、输出为50 个神经元的9 层网络。网络的输入是像素为48 × 48 的规格化的交通标志图像,输出对应于上述的50种交通标志的判别结果。网络的激活函数采用S型函数,如式(2)所示,其输出范围限制在0~1之间。
图6是交通标志的训练总误差EN 曲线。在训练开始的1 500次,误差能迅速地下降,在迭代2 000次以后是一个平稳的收敛过程,当迭代到10万次时,总误差EN可以达到0.188 2。
在交通标志的测试实验中,为了全面检验卷积神经网络的识别性能,分别针对理想的交通标志,加入高斯噪声、经过位移、旋转和比例缩放以及采集的交通标志图像进行实验,将以上测试样本分别送入到网络中识别,表2给出了测试实验结果。
综合分析上述实验结果,可以得到以下结论:(1)在卷积神经网络的训练学习过程中,整个网络的误差曲线快速平稳的下降,体现出卷积神经网络的训练学习具有良好的收敛性。
(2)经逐层卷积和池采样所提取的特征具有比例缩放和旋转不变性,因此对于旋转和比例缩放后的交通标志能达到100%的识别率。
(3)与传统的BP网络识别方法[11]相比较,卷积神经网络能够达到更深的学习深度,即在交通标志识别时能够得到更高的所属类别概率(更接近于1),识别效果更好。
(4)卷积神经网络对实际采集的交通标志图像的识别率尚不能达到令人满意的结果,主要原因是实际道路中采集的交通标志图像中存在着较严重的背景干扰,解决的办法是增加实际采集的交通标志训练样本数,通过网络的深度学习,提高网络的识别率和鲁棒性。
4 结论
本文将深层卷积神经网络应用于道路交通标志的识别,利用卷积神经网络的深层结构来模仿人脑感知视觉信号的机制,自动地提取交通标志图像的视觉特征并进行分类识别。实验表明,应用深层卷积神经网络识别交通标志取得了良好的识别效果。
在具体实现中,从我国交通标志的设计特点考虑,本文将经过预处理二值化的图像作为网络的输入,主要是利用了交通标志的形状信息,而基本略去了颜色信息,其优点是在保证识别率的基础上,可以简化网络的结构,降低网络的计算量。在实际道路交通标志识别中,将形状信息和颜色信息相结合,以进一步提高识别率和对道路环境的鲁棒性,是值得进一步研究的内容。
此外,本文的研究没有涉及到道路交通标志的动态检测,这也是今后可以进一步研究的内容。
参考文献
[1] 刘平华,李建民,胡晓林,等.动态场景下的交通标识检测与识别研究进展[J].中国图象图形学报,2013,18(5):493?503.
[2] SAHA S K,DULAL C M,BHUIYAN A A. Neural networkbased sign recognition [J]. International Journal of ComputerApplication,2012,50(10):35?41.
[3] STALLKAMP J,SCHLIOSING M,SALMENA J,et al. Man vs.computer:benchmarking machine learning algorithms for traf?fic sign recognition [J]. Neural Network,2012,32(2):323?332.
[4] 中国计算机学会.深度学习:推进人工智能梦想[EB/OL].[2013?06?10].http://ccg.org.cn.
[5] 郑胤,陈权崎,章毓晋.深度学习及其在目标和行为识别中的新进展[J].中国图象图形学报,2014,19(2):175?184.
[6] FUKUSHIMA K. Neocognition:a self ? organizing neural net?work model for a mechanism of pattern recognition unaffectedby shift in position [J]. Biological Cybernetics,1980,36(4):193?202.
[7] LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient ? basedlearning applied to document recognition [J]. IEEE Journal andMagazines,1989,86(11):2278?2324.
[8] LECUN Y,BOTTOU L,BENGIO Y,et al. Backpropagationapplied to handwritten zip code recognition [J]. Neural Compu?tation,1989,1(4):541?551.
[9] CIRESAN D,MEIER U,MAsci J,et al. Multi?column deepneural network for traffic sign classification [J]. Neural Net?works,2012,32(2):333?338.
[10] NAGI J,DUCATELLE F,CARO D,et al. Max?pooling con?volution neural network for vision?based hand gesture recogni?tion [C]// 2011 IEEE International Conference on Signal andImage Processing Application. Kuala Lumpur:IEEE,2011,342?347.
[11] 杨斐,王坤明,马欣,等.应用BP神经网络分类器识别交通标志[J].计算机工程,2003,29(10):120?121.
[12] BUVRIE J. Notes on convolutional neural networks [EB/OL].[2006?11?12]. http://cogprints.org/5869/.
[13] 周开利,康耀红.神经网络模型及其Matlab 仿真设计[M].北京:清华大学出版社,2005.
[14] 孙志军,薛磊,许阳明,等.深度学习研究综述[J].计算机应用研究,2012,29(8):2806?2810.
[15] 刘建伟,刘媛,罗雄麟.深度学习研究进展[J].计算机应用研究,2014(7):1921?1930.
摘要:
针对带钢表面缺陷检测系统的速度滞后,精度偏低等问题,在分析成像理论和图像检测理论的基础上,设计并实现了一种带钢表面缺陷高速高精度在线检测系统.该系统首先采用大功率半导体均匀发光激光器技术、高速线扫描成像技术和基于图形处理器的Gabor纹理滤波技术实现了高速高分辨率的图像采集和处理,然后采用基于嵌套循环的K-折交叉验证、信息增益率和BP神经网络方法构建了高准确率的分类器,以达到对带钢表面缺陷高速高精度在线检测.实验结果表明,该系统满足了现有带钢生产速度的要求,具有较高的精度和准确率.
关键词:
图像采集和处理;图像检测;Gabor纹理滤波;神经网络
0引言
钢铁企业为了提高竞争力,对带钢的生产提出了新的要求,也对带钢表面检测系统提出了更高的要求,既要有更高的检测速度还要有更加准确的检测精度[1].而与此同时,跟随机器视觉技术的发展,带钢表面检测系统也得到了广泛的研究与应用[2].主要研究包括:①光源技术.由于带钢检测对光源要求频度高、体积小,这限制了传统光源在其应用[3],激光具有方向性好、亮度高、体积小等优点,被广泛应用于带钢检测应用中,国内的徐科等[4]提出热轧钢检测中用绿光作为激光光源,但激光照明需解决均匀性问题.②扫描技术.由于电荷耦合元件能够实现实时检测,成为目前研究和应用的主流技术[5].但是,CCD电荷耦合器需在同步时钟的控制下,以行为单位一位一位地输出信息,速度较慢,而互补金属氧化物半导体光电传感器采集光信号的同时就可以取出电信号,还能同时处理各单元的图像信息,速度比CCD电荷耦合器快很多[6].③图像处理算法.受限于带钢加工过程的特性,带钢表面呈现出随机纹理的特点,对于随机纹理图像的处理分析,目前常用的方法有共生矩阵法、频域滤波法、分形法等.作为频域滤波法的代表,二维Gabor滤波器有着与生物视觉系统相近的特点[7],广泛应用于纹理图像的处理分析.但是,CPU很难满足现在的带钢检测的实时要求[8].④分类算法.特征选择的主流算法是主成分分析和信息增益.主成分分析存在特征向量方向不一致的问题,而且如何确定主成分存在主观性[9].信息增益可以衡量特征的优劣,利用它可对特征进行排序,方便后面的特征选择,但信息增益适用于离散特征,信息增益率既适用于离散特征也适用于连续特征[10],被广泛应用于特征选择的过程中.图像分类算法主流算法包括支持向量机和BP神经网络.支持向量机不适用于大样本的分类问题[11].BP神经网络方法具有能够解决非线性分类问题,对噪声不敏感等优点,被广泛应用于带钢检测中,如王成明等[12]提出的基于BP神经网络的带钢表面质量检测方法等,但是BP神经网络的超参的设定往往具有随机性,这严重影响了分类效果[13].本文首先介绍了带钢表面缺陷高速高分辨率成像系统的设计,针对光源的不均匀性、图像处理速度慢等问题,提出改进方法,然后介绍了分类器的构建,针对样本划分的随机性、特征选择的随机性以及BP神经网络超参设定的随机性问题,做出改进,最后介绍试验结果.
1带钢表面缺陷高速高分辨率的成像系统的设计
1)大功率半导体均匀发光激光器技术.激光能够保证带钢表面缺陷的检出率[14],本系统选用808nm半导体激光器作为照明源,出光功率可达30W,亮度可达1500流明.激光照明需解决均匀性的问题,本文采用了基于鲍威尔棱镜的激光线发生办法,解决了激光照明的均匀性问题,其光路如图1所示.该方法首先在激光聚焦位置放置圆形球面透镜,负责将发散的激光束汇聚成准平行光,同时控制光柱的粗细,然后,利用鲍威尔棱镜的扩散效果对圆柱的一个方向进行扩束,最终形成激光线.为保证亮度及宽度的适应性,激光器出光口距离圆透镜、鲍威尔棱镜的距离可以精密调整.为了降低反射亮度损失,在透镜表面镀上808±5nm的T≥99%的增透膜.
2)基于GPU的Gabor纹理滤波技术.二维Ga-bor滤波器具有易于调谐方向、径向频率带宽及中心频率等特征,本文采用该方法来进行图像处理,二维Gabor函数为guv(x,y)=k2σ2exp-N2(x2+y2)2σ[]2×expi(k•()xy[])-exp-σ2{()}2(1)其中:k=kxk()y=kvcosψμkvsinψ()μ;kv=2-v+22π;ψμ=μπN;v的取值决定了Gabor滤波的波长;μ的取值表示Gabor核函数的方向;N为总的方向数.设f(x,y)为图像函数,guv(x,y)为卷积函数,则卷积输出N(u,v)可表示为N(u,v)=f(x,y)*guv(x,y)(2)二维Gabor滤波算法计算量较大,为了保证了带钢表面缺陷检测的实时性,采用基于GPU的并行处理架构,其计算流程如图2所示.GPU的算法分为两个流程:训练过程主要针对无缺陷图像进行,通过训练完成纹理图像的背景建模,一方面消除背景变化带来的干扰,另一方面形成有效的Gabor卷积参数,以便在检测过程中得到最优的检出效果.检测过程对实际拍摄的缺陷图像进行分析,首先按照GPU的核心数和缓存大小对图像进行分解,本文所有GPU的核心数为1024,显存2G,因此将原始图像分解为1000块,分别加载到1000个核心中,同时并发运行卷积运算.最后将各个窗口的卷积结果合并到一起,得到完成的滤波结果,最后借助于背景模式,将背景的干扰消除,得到干净的缺陷区域.
3)成像系统.根据缺陷检测的精度要求(1800m/min的检测速度,0.25mm的精度),带钢的规格要求(1900mm规格),对带钢进行成像系统设计.基于互补金属氧化物半导体(CMOS)的成像芯片具有速度快,用电低等优势.选用两个4K线扫描CMOS相机作为成像核心器件,选用CameraLinkFull接口作为数据输出.两个4K扫描中间重叠100mm作为图像拼接区.两组线激光光源与线扫描组成系统的主要成像模块.成像系统结构如图3所示.
2构建分类器
检测缺陷类别及其特征描述如表1所示.
1)训练集和样本集划分.主要缺陷类别有5个,每个类别收集样本7000,共计35000个样本.为了避免训练集和样本集划分的盲目性,采用10-折交叉验证的方式划分训练集和测试集,即将样本集分成10份,从中选1份为测试集,剩下的为训练集,如图4所示,究竟选择哪一份作为测试集,需在后面的嵌套循环中实现.
2)特征选择.缺陷区域的长度、宽度、面积、区域对比度等共计138个特征形成初始特征集合,利用信息增益率来对各个特征排序.设样本集T的某个特征子集S中,相异值构成集合A,集合A把特征子集S划分为多个子集{S1,S2,Sv,…},|Sv|、|S|为集和大小,信息增益率的公式为Gainration(S,A)=Gain(S,A)Intrinsiclnfo(S,A)(3)式中Gain(S,A)为信息增益,是分裂前的信息减去分裂后的信息,公式为Gain(S,A)=InfoBefore(S)-InfoAfter(S)=Entropy(S)-∑v∈Values(A)|Sv||S|Entropy(Sv)(4)式中Entropy(S)为集合S的熵,公式为Entropy(S)=Entropy(p1,p2,…,pm)=-∑mi=1pilogpi(5)式中pi为第i个类别的概率.式(3)中,Intrinsiclnfo(S,A)为内在信息,公式为Intrinsiclnfo(S,A)=∑v∈Values(A)|Sv||S|log(|Sv||S|)(6)利用信息增益率对特征进行排序,再利用循环(从1到138循环)实现最优的特征个数的确定.
3)BP神经网络隐含层节点数的确定.BP神经网络应用到带钢表面质量检测上具有很多优势,但也存在一些问题,主要体现在隐含层节点数选取的盲目性和初始权值选取的随机性.对于隐含层节点数确定问题,利用隐含层节点数常用计算公式[15](2(m+n)+1,n+槡m+a,log2n,n为输入层节点数,m为输出层节点数,a为的[1,10]常数)求得节点数的可能取值集合n1,求得该集合最大值n1-max和最小值n1-min,从n1-min开始到n1-max,利用循环,节点数逐个增加,确定最优的隐含层节点数[16];
4)BP神经网络初始权值的选取.当隐含层节点数确定后,需要确定输入层和隐含层之间、隐含层和输出层之间的初始权值.首先生成10组随机数数组,利用循环确定最优的随机数数组.
5)判别标准和嵌套循环.上述各循环中,分类效果好与坏的判别标准是分类的总体精度,公式为OA=∑niin(7)式中:nii为样本被预测为类别i,n为样本个数.上述各循环组合在一起就是一个嵌套循环,其N-S盒图如图5所示,最外层是测试集和训练集的10折交叉验证,第1层是确定最优的特征数,第3层是确定最优的隐含层节点数,第4、5层是确定最优的输入层和隐含层、隐含层和输出层的初始权值[17-20].经以上循环,确定D3作为测试集,最优特征数为23个,最优的隐含层节点数是46个,同时也确定了最优的初始权值,对应的3层BP神经网络的网络模型如图6所示.
3实验结果
1)鲍威尔棱镜与柱透镜进行对比在实际工作距离1.5m处,采用0.1m为间隔使用光功率计测试光源功率,如图7所示,横轴为测试点,纵轴为测试点的光功率.实验表明,鲍威尔棱镜均匀性优于柱透镜.
2)Gabor滤波方法与其他方法比较将动态阈值法+Blob分析法(方法A)和灰度共生矩阵纹理背景消除法(方法B)两种方法与Gabor滤波方法进行比较,如图8所示.由于缺陷与背景灰度相近(图(a)),致使方法A缺陷丢失(图(b)),由于缺陷与背景纹理相近(图(d)),致使方法B产生噪声(图(e)),Gabor方法取得了不错的效果(图(e)、(图(f))).
3)GPU与CPU比较以4096×4096的图像为例,选10幅有代表性图像,利用CPU(最新的inteli7-2600处理器,4核8线程,2.6GHz,内存8G)和GPU(nVidiaGTX970,4G缓存显卡)进行Ga-bor运算,计算时间如表2所示,GPU计算效率明显优于CPU,其中CPU的平均耗时为290.4ms,而GPU的平均耗时为31.7ms.
4)检测效果在产线速度为1775m/min,最小检测缺陷的尺寸为0.25mm的检测系统中,对带钢的主要4种类型缺陷进行检测统计,检测结果如表3所示.可计算出整体检出率99.9%,检测准确率99.4%.
4结论
本文提出将基于鲍威尔棱镜的大功率激光器应用到光源的设计中,保证光源光照的均匀性;提出了新的带钢表面缺陷检测系统的成像系统结构设计,保证了快速、高精度的生成图像;提出了基于GPU的二维Gabor滤波图像处理的算法,满足了实时处理的要求;提出了基于嵌套循环的分类器择优算法,避免了样本集选择、特征选择和BP神经网络参数设定的盲目性.借助上述技术,系统实现了较好的效果,满足当前带钢生产的检测需求.
参考文献:
[1]张长富.中国钢铁工业运行情况和发展展望[J].中国钢铁业,2013(4):5-8.
[2]刘彩章.基于机器视觉的带钢表面缺陷成像系统理论与实验研究[D].武汉:武汉科技大学,2012:2-4.
[3]高瑀含,安志勇,李娜娜等.高斯光束整形系统的光学设计[J].光学精密工程,2011,19(7):1464-1471.
[4]徐科,杨朝霖,周鹏.热轧带钢表面缺陷在线检测的方法与工业应用[J].机械工程学报,2009,45(4):111-114.
[5]李霞.基于CCD的钢板测宽仪系统设计[D].秦皇岛:燕山大学,2014:5-10.
[6]石东新,傅新宇,张远.CMOS与CCD性能及高清应用比较[J].通讯技术,2010,43(12):174-179.
[7]高梓瑞.Gabor滤波器在纹理分析中的应用研究[D].武汉:武汉理工大学,2012:6-10.
[8]王成顺.表面缺陷检测GPU并行图像处理技术[D].合肥:合肥工业大学,2012:3-6.
[9]徐永智,华慧川.对主成分分析三点不足的改进[J].科技管理研究,2009(6):128-130.
[10]李佳龙,阎威武,白晓慧,等.基于数据驱动与信息增益率多指标决策模型的生活饮用水水质评估[J].大连理工大学学报,2016,56(1):92-96.
[11]张晓雷.支持向量机若干问题的研究[D].北京:清华大学,2012:1-20.
[12]王成明,颜云辉,李骏,等.基于BP神经网络的冷轧带钢表面质量检测研究[J].机械设计与制造,2007(6):106-108.
[13]高正中,张晓燕,龚群英.基于BP神经网络的超声波流量计的设计[J].现代电子技术,2016,39(16):6-9.
[14]周洋,何平安,蒋千年等.激光束整形光学系统的设计与研究[J].光学与光电技术,2006,4(2):26-28.
[15]飞思科技产品研发中心.神经网络理论与Matlab7实现[M].北京:电子工业出版社,2005.
[16]沈花玉,王兆霞,高成耀等.BP神经网络隐含层单元数的确定[J].天津理工大学学报,2008,24(5):13-15.
[17]文冬林.BP神经网络中一种逃离局部极小点的方法研究[D].贵阳:贵州大学,2008.
[18]甘胜丰.带钢表面缺陷图像检测与分类方法研究[D].北京:中国地质大学,2013:3-20.
[19]吴彬彬.机器视觉方法在带钢表面缺陷检测中的应用研究[D].武汉:武汉科技大学,2015:4-50.
基于图像理解的汽车牌照自动识别系统是智能交通系统一个重要分支,有着非常广泛的应用前景,而把汽车牌照从复杂的汽车图像中分割出来是汽车牌照自动识别系统必须解决的关键问题。在过去的十几年中,各国的科研人员提出了不少提取汽车牌照的方法。Choi和Kim提出利用Hough变换寻找垂直边缘提取汽车牌照的方法,此方法由于许多汽车前部散热器产生的垂直边缘和某些牌照边框的扭曲或某些汽车牌照没有边框而鲁棒性较差。S.K.Kim和H.J.Kim提出的基于遗传算法分割提取汽车牌照的方法,最大缺点是耗时长,难以进行实时处理。S.H.Park提出的一种基于神经网络提取汽车牌照的方法,使用二个时延神经网络在水平和垂直方向对输入图像进行滤波,得到牌照的候选区域,然后利用牌照的长宽比、面积、面积与周长比来区分真正的牌照区域与类牌照区域。此方法要求图像中的牌照尺寸基本不变,一旦图像中的牌照尺寸发生了较大的变化,必须对神经网络重新进行训练。T.R.Crimmins提出了一种数字形态学方法,此方法用不同尺寸的每个可能字符作为结构元素,采用击中击不中方法先提取输入图像中的字符,再根据牌照字符的语法得到汽车牌照,这种方法计算量非常大且易受噪声影响。C.H.Poon提出了一种灰值形态学方法,它通过检测字符中的直线段和字符间的空间来提取牌照,这种方法耗时较多,且没有利用版照的尺寸信息。C.M.Hwang提出了空间频率方法,它利用牌照区域内空间频率变化大的特性,对图像进行一阶差分。差分图在牌照区域内形成多个峰,然后利用峰的幅度、宽度和密度区分真正的牌照区域与类牌照区域。这种方法具耗时少、抗噪能力强的优点。本文提出的灰值形态学方法仅利用了牌照区域内空间频率变化大的特性而且利用了牌照区域字符笔划具有高曲的特性,因而比单纯的空间频率方法更加有效。通过建立牌照与卷积算子形态学结构元素尺寸的相互关系。本文提出的方法对不同尺寸牌照具有很好的鲁棒性。
1 数字形态学
数字形态学是一种重要的数字图像处理方法和理论。在数字形态学中,两种最基本的变换或运算是腐蚀和膨胀,其它形态学变换都可通过它们来定义。下面列出了一些灰值形态学变换的定义。
图像f(x,y)平移(a,b)定义为:
f(a,b)(x,y)=f(x-a,y-b)
图像f(x,y)相对于原点的反射为:
f^(x,y)=f(-x,-y)
二幅图像f(x,y)和g(x,y)的最小记为(f∧g)(x,y)。
当(x,y)位于图像f的定义域D(f)和图像g的定义域D(g)的交集D(f)∩D(g)内时:
(f∧g)(x,y)=min{f(x,y),g(x,y)}
否则:
(f∧g)(x,y)=0
二幅图像f(x,y)和g(x,y)的最大记为(f∨g)(x,y)。
当(x,y)位于图像f的定义域D(f)和图像g的定义域D(g)的交集D(f)∩D(g)内时:
(f∨g)(x,y)=max{f(x,y),g(x,y)}
当(x,y)∈D(f)且(x,y)∈D(g)时
(f∨g)(x,y)=f(x,y)
当(x,y)∈D(g)且(x,y)∈D(f)时
(f∨g)(x,y)=g(x,y)
f(x,y)被g(x,y)膨胀定义为:
(fg)(x,y)=max{f(x-a,y-b)+g(a,b)}
(a,b)∈D(g)
f(x,y)被g(x,y)腐蚀定义为:
(fg)(x,y)=max{f(x-a,y-b)-g(a,b)}
(a,b)∈D(g)
开运算定义:
fog=(fg)g
闭运算定义:
f·g=(fg)g
Top-Hat变换定义:
Hat(f,g)=f-fog
与Top-Hat变换相对的是波谷检测器(Valley变换),其定义为:
Valley(f,g)=(f·g)-f
形态学梯度有下面三种形式:
Grad(f)=f-(fg)
Grad(f)=(fg)-f
Grad(f)={[(fg)-(fg)]}/2
2 牌照提取算法
在牌照提取算法中,需要用到卷积、模板卷积和卷积投影等概念。下面对它们进行定义。
对于图像[aij]m×n,i=0...m-1,j=0...n-1,模板[aij]p×q。p<m,q<n,其卷积、模板卷积和卷积投影都是一维数组。
水平模板卷积
垂直模板卷积投影vmp:
水平模板卷积投影hmp:
图1中牌照区域的长为173象素、高为36象素。从左到右、从上到下的8条曲线依次为牌照区域灰度图第10~17条水平方向的灰度值。通过观察发现,在牌照区域的水平方向不令空间频率变化大,而且具有许多陡峭的峰(欲)和高曲率点。而灰值形态学的梯度变换可以对图像进行高通滤波,灰值形态学的Top-Hat变换和Valley变换可以撮高曲率点、波峰和波谷。
进行形态学变换,需要考虑二个因素:结构元素和变换类型。变换类型准备采用灰值形态学的梯度变换、Top-Hat变换和Valley变换。结果元素采用n×1的维水平结构,以提取水平方向上的高频分量、波峰和波谷。结构元素的大小n对Top-Hat变换和Valley变换的结果结构元素的大小n对Top-Hat变换和Valley变换的结果有着很大的影响,因此问题的关键是怎样确定n。
分析图1中水平方向的灰度曲线,发现在穿过字符的水平线上,灰度曲线波峰的宽度与字符垂直笔划的宽度存在着某种线性关系。根据中国汽车牌照的一般规范,牌照上字符的垂直笔划宽度与牌照的宽度也存在着某种线性关系。结构元素的尺寸n与灰度曲线波峰的宽度又可建立一种线性关系。因此可建立n与牌照宽度w的一种近似线性的关系:
n=Integer{(w/k)+b}
式中的Integer()表示对括号内的值取整。w、b都为整数。根据经验令w、b分别为25和0,则:
n=Integer(w/25)
由上式可知,当牌照的宽度w变化25个象素时,结构元素的大小n才变化1个单位,也就是说n对w不是很敏感。
牌照区域提取算法包括以下几步:
(1)缩小图像:对输入的灰值汽车图像进行隔行隔列抽样,得到一幅大小为四分之一原因的新图像。接下列抽样,得到一幅大小为四分之一原图的新图像。接下来的处理均在新图像上进行,这样可以大大减少处理时间,提高算法的效率。根据形态学的尺度变换兼容性原理,对图像缩小(放大)后再进行形态学变换,只要对结构元素做相应的变换,结果不变。
(2)水平分割:对汽车图像进行水平分割,得到几个可能含牌照的水平区域。
(3)垂直分割:对第(2)步所得到的每一个水平区域进行垂直分割,得到一些牌照的候选区域。
(4)牌照区域甄别:分析各个候选区域得出真正的牌照区域。
2.1 水平分割
分别对汽车图像进行灰值形态学的梯度变换、Top-Hat变换和Valley变换,如图2。一般来说,在大多数汽车车牌照自动识别系统应用中,CCD摄取的汽车图像中牌照的大致宽度和高度是已知的。如果牌照的宽度为w∈(a,b),则取水平模板m×1,其中m=(a+b)/2。用模板分别对图像的梯度图、Top-Hat变换图和Valley变换图进行水平模板卷积。对每帧变换图取每一行模板水平卷积的最大值,得到1个一维数组,3幅变换图共得到3个一维数组g1,ti和vi,其中i大于等于1,而小于等于图像的高度,其曲线如图2的b、c、d。观察图2可以发现,由于受车体上其它字符和车前灯等因素的影响,仅仅依靠梯度图较难对牌照进行水平定位,而结合Top-Hat变换图和Valley变换图,能更好地对牌照进行水平定位。据此,构成了1个一维数组pi。
pi=gi×ti×vi
其曲线如图3。取图3中最高峰的位置作为牌照的水平中线,为了确保不会出错,把次高峰也作为牌照的另一备选位置。了高峰和次高峰的位置,分割出2个宽为汽车图像宽度,高为牌照的最大可能高度b的区域,如图4中的a和b。
2.2 垂直分割
对图4中的a和b二个区域分别进行灰值形态学的梯度变换、Top-Hat变换和Valley变换,并在垂直方向对变换图进行卷积得到3个一维数组gi、ti和vi,其中i大于等于1,而小于等于图像的宽度w,其曲线如图5和图6。qi=gi×ti×vi
的曲线如图7。利用下面的公式分别对图4中的a和b进行垂直分割。
{(m,n)|qi>kT,i=m...n,n-m+1∈(a,b)}
其中:T=Max(qi),k为一经验值,(a,b)为牌照的宽度范围。
i=l...w
分割结果如图8所示。
2.3 牌照区域甄别
AI从诞生到现在已经有60年的时间,期间经历两轮起落,呈阶梯式进化,走到今天进入第三个黄金期。如果按照其智能科技水平划分,今天的人工智能尚处在狭义智能向广义智能进阶的阶段,还是一名不折不扣的“少年”,未来拥有无限的可能和巨大的上升空间。
AI是一门交叉的学科:人工智能由不同的技术领域组成,如机器学习、语言识别、图像识别、自然语言处理等。而同时,它也是一门交叉学科,属于自然科学和社会科学的交叉,涉及到哲学和认知科学、数学、神经生理学、心理学、计算机科学、信息论、控制论、不定性论等学科。人工智能领域的技术壁垒是比较高的,并且会涉及到多学科协作的问题,对任何公司来说,想做好人工智能将是一门大工程。未来不大可能出现一个公司能包揽整个人工智能产业每一个部分的工作,更可能的模式将是一个公司专注于一个相对细分的领域,通过模块化协作的形式实现人工智能领域的不同应用。
进化史呈阶梯状,以阶段突破式为成长模式:人工智能的发展经历了两次黄金和低谷期,
现在正经历着第三个黄金期。1956年,麦卡赛、明斯基、罗切斯特和申农等年轻科学家在达特茅斯一起聚会,并首次提出了“人工智能”这一术语,标志着人工智能的诞生。第二年,由 Rosenblatt 提出 Perceptron 感知机,标志着第一款神经网络诞生。1970年,因为计算能力没能突破完成大规模数据训练,人工智能的第一个黄金期到此结束。
后直到1982年德普霍尔德神经网络的提出,人工智能进入第二个黄金期,之后BP算法的出现使大规模神经网络训练成为可能,人工智能的发展又一次进入。1990年,因为人工智能计算机和DARPA没能实现,政府撤资,人工智能又一次进入低估。2006年,随着“深度学习”神经网络取得突破性进展,人工智能又一次进入黄金时期。
AI将由狭义智能向广义智能进化,虽然人工智能的诞生已经有60年的时间但如果把它比喻成一个人的话,当前的他应该还未成年。按照人工智能的“智能”程度,可以将其分成狭义智能、广义智能、超级智能三个大的发展阶段,现阶段的图像与语音识别水平标志着人类已经基本实现狭义智能,正在向广义智能的阶段迈进。
狭义智能:即当前的技术已经实现的智能水平,包括计算智能与感知智能两个子阶段,计算智能指的机器开始具备计算与传递信息的功能,感知智能指机器开始具备“眼睛”和“耳朵”,即具备图像识别与语音识别的能力,并能以此为判断采取一些行动。
广义智能:指的是机器开始具备认知能力,能像人类一样获取信息后主动思考并主动采取行动。在这个阶段,机器可以全面辅助或代替人类工作。
超级智能:这个阶段的机器几乎在所有领域都比人类聪明,包括科学创新、通识和社交技能等。这个阶段目前离我们还比较遥远,到时候人类的文明进步和跨越或许将有赖于机器,而机器人意识的伦理问题也许将在这个阶段成为主要问题。
推荐引擎及协同过滤可以分析更多的数据
智能助手并不只局限于Siri等手机语音助手。微软率先在win10 系统中加入个人智能助理Cortana,标志着个人PC端智能助理的出现;图灵机器人以云服务的方式进入海尔智能家居、博世mySPIN车载系统,预示着多场景人工智能解决方案的潮流。初步实现人机交互的智能助手系统,已经被应用于智能客服、聊天机器人、家用机器人、微信管理平台、车载系统、智能家居系统、智能手机助理等多个软硬件领域。
垂直类网站及社交平台可以借助智能助手系统打造高专业度的“在线专家”以提升平台价值;企业可以借助以“语义识别”为基础的智能助手系统,打造智能客服,效率远高于传统的以“关键词对应”为技术支持的客服系统。
推荐引擎,是主动发现用户当前或潜在需求,并主动推送信息给用户的信息网络。挖掘用户的喜好和需求,主动向用户推荐其感兴趣或者需要的对象。传统推荐引擎通常利用用户在平台上的历史记录进行推荐,效率低、匹配度不高。目前随着大数据和深度学习技术的推进,推荐引擎及协同过滤可以分析更多的数据,乃至全网数据,并模拟用户的需求,真正达到按需推荐。全球最大的正版流媒体音乐服务平台Spotify也利用卷积神经网络参与建设其音乐推荐引擎;谷歌也提出利用深度学习方法来学习标签进行推荐建设。出品纸牌屋的全球最大在线影片租赁公司Netflix 也利用深度学习网络分析客户消费的大数据,还计划构建一个在AWS云上的以GPU为基础的神经网络。
“餐厅推荐引擎”Nara,便是一个利用AI技术的推荐引擎。在上线之初,Nara 就取得了400万美元的投资。Nara 的数据库中有超过100000家餐厅的信息,并利用特有的“Nara神经网络”,学习使用者的偏好,最终达到“电脑帮你点餐”的目的。
而今年3月22日,国内AI领军企业阿里巴巴旗下的阿里云数加启动“个性化推荐”引擎对外公测,该引擎用于帮助创业者可以快速获得媲美淘宝天猫的个性化服务能力。阿里云数加上的推荐引擎能够以更低的成本完成开发,节省程序量达到90%,推荐引擎的搭建时间将由几个月缩短到几天。
对于不了解算法的人,只能实现标签规则类的推荐,但如果要做成机械化、类似协同过滤的算法,创业公司需要配置大量的算法工程师,人力成本很高。现在用了数加的推荐引擎,商家只需要做数据的ETL加工,推荐的结果集、训练集都不用处理,只需要调整参加即可得到推荐结果。
AI带给人们新的视觉???
医疗:为健康诊断和药品研发插上高飞的翅膀
健康诊断有望迎来新纪元,海量的病历数据和医学界的新研究成果,单靠人工很难及时筛选并利用,而引入人工智能技术将充分发挥这些信息的价值。例如著名的个人健康管理产品公司Welltok将 IBM的Watson功能融入旗下产品 CafeWell Concierge APP中,借助 Watson 的认知计算能力理解人类语言,实现与用户沟通的能力,从大量数据中进行分析并为用户提供健康管理相关的答案和建议,实现健康管理、慢病恢复训练、健康食谱等功能,这一领域的良好前景使 Wellltok公司近年的融资额连创新高。另外,2015年IBM斥资10亿美元收购医疗影像与临床系统提供商Merge,将研究如何实现 Watson的“辨读”医学影像功能。此外,AI 还可以从医疗中心获得的健康数据,通过大数据分析,实现根据分析患者行为来制定个性化治疗方案的功能。
智能家居:天花板尚远,AI有望成为核心
行业天花板尚远,增速有望保持在 50%左右, 《钢铁侠》中的“Jarvis”作为智能管家,除了起到钢铁侠的小秘书的作用,还帮主人打理着日常生活,向我们展示了一个理想中的智能家居系统。虽然我们目前可能离那个无所不能的智能管家还很遥远,但智能家居对我们生活的变革确实已经开始了。根据《2012-2020 年中国智能家居市场发展趋势及投资机会分析报告》的预测,我国智能家居市场在 2016年将达到605.7亿的规模,同比增长50.15%,到2020年市场规模将达到3294亿,年均增速将保持在50%左右,具备充足的向上延伸空间。而智能家居想达到“Jarvis”般的终极效果,必然需要引入AI技术,实现家居的感应式控制甚至自我学习能力。
AI有望成为智能家居的核心,实现家居自我学习与控制。按照智能家居的发展进度,大致可以分为四个阶段:手机控制、多控制结合、感应式控制、系统自我学习。当前的发展水平还处在手机控制向多控制结合的过度阶段。而从多控制结合向感应式控制甚至自我学习阶段进化时,AI将发挥主要功能。到今天为止,家居的实体功能已经较为全面,未来的发展重点可能在于如何使之升级改造,实现家居的自我行为及协作,因此未来AI在智能家居领域的应用有望成为其核心价值。AI对智能家居的重构可以深入到方方面面,包括:控制主机、照明系统、影音系统、环境监控、防盗监控、门窗控制、能源管理、空调系统、花草浇灌、宠物看管等等。
无人驾驶:政策渐萌芽,AI决定可靠性
优点多、动机足、政策渐萌芽。据麦肯锡的调查显示,如果能解放驾驶员的双手,一辆无人驾驶汽车内的乘客通过移动互联网使用数字媒体服务的时间多一分钟,每年全球数字媒体业务产生的利润将增加 50亿欧元。此外,由于自动泊车无须为乘客下车预留开门空间,使得停车位空间可缩减至少15%。
如果无人驾驶汽车以及ADAS系统能够将事故发生率降低90%,即可挽回全美每年的损失约1千900亿美金。可以说诸多的优点使得无人驾驶技术的研发动机还是相当充分的,因此未来无人驾驶推行的力度应该还会保持在一个比较高的水平。美国勒克斯研究公司曾预计无人驾驶汽车的市场规模在2030年将达到870亿美元。
到目前为止,各国政府对于无人驾驶技术在政策上的支持正逐步放开,美国政府在年初刚刚宣布了40亿美元的资助计划;英国目前已经不需要获得额外批准和履约保证即可进行实际道路的无人驾驶汽车测试;而德国也在去年宣布将计划设立无人驾驶汽车测试路段,供安装有驾驶辅助系统或全自动驾驶系统车辆行驶;欧盟总部正在就如何修改现行有关驾驶的法律法规从而支持自动驾驶的发展展开讨论和研究工作;日本也提出要在2020年之前实现自动驾驶汽车方面的立法,并将自动驾驶作为 2016年9月七国集团交通部长会议的议题。
“无人汽车大脑”AI的智能程度决定了无人驾驶的可靠性。由于无人驾驶完全交由汽车的内置程序负责,因此AI就是无人汽车的大脑,而测距仪、雷达、传感器、GPS等。设备都是AI的“眼睛”。AI的智能程度直接决定了无人驾驶汽车在不同的路况、不同的天气、甚至一些探测设备出现故障的突况下能否及时做出正确的判断并灵活调整行驶策略,最终决定了无人驾驶汽车当前最亟待突破的可靠性。
NVIDIA 在2016年的 CES大会上了“Drive PX 2”车载计算机,以及一套与之搭配的具有学习功能的自动驾驶系统。该系统的亮点在于“自我学习”,通过让车辆自行分析路面状况,而不是在数据库中寻找预先储存的策略实现自动驾驶,系统背后连接着名为NVIDIA DIGITS的深度学习训练平台,最终连接到NVIDIA DRIVENET神经网络,为车辆的自我学习和完善提供支持。并且由于它是通过判断物体的行进轨迹而不是物体本身去计算路径,因此在驾驶时受天气影响较小。
AI 成必争之地
目前全球AI主战场依旧在欧美。Venture Scanner的统计显示,根据从事 AI相关业务的公司数量来看,目前全球 AI的主战场还是集中在北美和西欧地区。美国数量最多,达到450家左右的水平。而中国从事相关业务的公司数量还比较少,和俄罗斯、澳洲、部分欧洲国家及非洲南部国家水平接近,相比起欧美国家的AI公司数量,还有很大的提高空间。
Google:投资未来的人工智能帝国
建立Alphabet帝国,具备品牌背书效应。2015年,谷歌成立母公司 Alphabet, 搜索、广告、地图、App、Youtube、安卓以及与之相关的技术基础部门”仍属于谷歌,而Calico、Nest、Google Fiber、Google Venture、Google Capital 及 Google X 都将独立出来,成为 Alphabet 旗下的独立公司。通过建立 Alphabet集团,谷歌将不同业务的研发独立出来,以子公司的形式进行业务开展,保留在Google这个品牌下的基本都是原有的传统强势业务。
而其它公司负责在各自的领域“打头阵”,一旦业务研发成功,母公司连带着google这个品牌都可以受益,而如果研发失败,也不会公司的品牌造成多大的不良影响,建立了良好的品牌背书效应。将机器学习技术应用到所有产品之中,我们不难发现,谷歌近年几乎将人工智能渗透到了旗下的各类产品中,可谓是全线铺开。正应了谷歌 CEO的那句话:“我们将小心谨慎地将机器学习技术应用到我们所有的产品之中。”根据当前Alphabet 的集团架构,我们将涉及到AI应用的子公司情况以及相应的业务开展情况罗列如下:
Nest:从事智能家居生态系统建设。2014 年谷歌以32亿美元收购 Nest。Nest 生产智能恒温器,它能够学习用户的行为习惯,并且根据他们的喜好去调节温度。同时,Nest 也提供火警探测器和家庭安全摄像头等智能家居。
Google X:谷歌各类创新技术的“孵化池”。Google X开展的与AI有关的项目有:无人驾驶汽车、Project Wing 无人机送货项目、对抗帕金森氏症的 Liftware“反抖”汤匙、用于疾病预警和健康监控的可穿戴设备、Project Titan 太阳能无人机项目、以及 Replicant 团队负责的机器人项目等。
Verily:从事生命科学业务,即原来的 Google Life Science。代表产品有可以收集佩戴者体温和血液酒精含量等生物数据的智能隐形眼镜,以及监控血液中纳米粒子的智能腕表。
DeepMind:深度学习算法公司。2014年谷歌以4亿美元收购了DeepMind。
DeepMind的算法源于两种机器学习方法的结合:第一种是深度学习,是受人脑启发的一种结构。深度学习系统能够从大量的非结构数据中获取复杂信息。第二种是增强学习,灵感源自动物大脑中的神经递质多巴胺奖励系统,算法不断通过试错来进行学习。目前,DeepMind在深度学习上面的研究成果已经开始用在谷歌的机器人项目中。
关键词:谐波电流;电力系统;检测
一、引言
近年来,随着电力电子技术的迅速发展,各种新型电力电子器件相继进入市场,随之而来的谐波污染日益严重,由电网谐波引起的电能质量问题也日益受到重视,采用有源电力滤波器已成为谐波补偿的一种重要趋势。其基本原理是从补偿对象中检测出谐波电流,由补偿装置产生一个与该谐波电流大小相等,极性相反的补偿电流与其相抵消,其中,谐波电流的正确检测是决定补偿效果的重要环节。下面就分别论述一下目前这几种谐波电流检测方法。
二、谐波电流的检测方法
(一)模拟滤波器
模拟滤波器的实现方法是:当信号不含低于基频的次谐波时采用低通滤波器,当信号含有次谐波时采用带通滤波器来获得基波分量,用减法从信号中减去基波分量就得到分量。该方法具有简单快速的优点,但是这种检测方式有很多缺陷:对环境的依赖较高,当,电网频率波动或滤波器的元件参数变化时效果变差:无法分离出基波中的有功与无功分量;当谐波频率与基波接近时,滤波器的归一化截止频率很小,波动特性很差;特别是当基波频率不固定而在较大范围波动时,滤波器设计非常困难。
(二)Fryze有功电流检测
其原理是将负载电流分解为与电压波形一致的分量,将其余分量为广义无功电流(包括谐波电流)。它的缺点是:因为Fryze的功率定义是建立在平均功率基础上的,需要一个周期的积分,有至少一个周期的延时,不适于负载变化频繁的场合。而且只能同时检测出谐波及无功电流,不能只检测谐波电流或只检测无功电流,有很大的局限性。
(三)基于FFT的谐波电流检测
离散傅立叶变换DFT(DiscreteFourierTransform)在实际中非常重要,利用它可以计算信号的频谱、功率谱和线性卷积等。但是当N很大时,DFT的计算量太大,这样使DFT的应用受到限制。1965年J.W.Colley和J.W.Tukey提出快速傅立叶变换,大大减少了计算量。FFT并不是DFT的另一种变换,而是为了减少DFT计算次数的一种有效的快速算法。基于FFTDE 的谐波电流检测,是一种建立在傅立叶分析基础上的数字化分析方法。其工作原理如图1—2所示。其中i1表示负载电流,ic表示检测所的谐波电流。
图1的工作原理是:在同步脉冲作用下将模拟信号进行离散化处理,通过模拟转换器变为数字量,再用数字分析的方法,快速傅立叶变换(FFT)进行处理,最后得到各次谐波幅值和相位系数,经过低通滤波器(LPF)检测出所需要的信号,对于检测出的信号作FFT反变换即得补偿电流信号。如果需要得到其模拟量,需要用到
数摸转换器再把数字量转化为模拟量。采用这种方法需要有高精度的数摸转换器,同时要求输入信号有较高的信噪比。基于傅立叶的数学化分析方法,要求被补偿的波形是周期变化,否则会带来较大的误差。这种方法的优点是可以选择拟消除的谐波次数,缺点是具有较长的时间延迟,实时性差,存在栅栏效应和泄漏现象,使得算出的信号参数:频率、幅值和相位不准,尤其是相位误差很大,无法满足准确的谐波测量要求。
(四)同步检测法
对于同步检测法用于不平衡三相系统中无功和谐波电流的补偿,其基本思想是分别考虑各相情况,并把补偿分量分配到三相中,统一确定各相补偿电流。但是由于该检测法实现根据总平均功率确定补偿后电流,再计算出补偿指令电流,而在计算补偿后电流时,不仅需要知道三相电路的平均功率,还需要知道每个相电压的幅值,因此检测过程中的延迟较大,也仅适用于三相电压均为正弦波的情况,若电压波形存在畸变,必将影响检测精度。
(五)基于瞬时无功补偿理论的检测方法
(1)瞬时无功功率的基础理论。三相电路瞬时无功功率理论首次于1983年由赤木泰文提出,以后该理论经过不断研究逐渐完善。赤木泰文最初提出的理论亦称pq理论,是以瞬时实功率p和瞬时虚功率q的定义为基础,其主要一点不足是未对有关的电流量进行定义。下面介绍以瞬时电流ip和iq为基础的理论体系。设三相电路各相电压和电流的瞬时值分别为 va、vb、vc和ia、ib、ic。分别为分析问题方便,把它们变换到α-β两相正交的坐标系上研究。由下面的变换可以得到α、β两相瞬时电压vα、vβ和α、β两相瞬时电流iα、iβ。严格地讲,基于瞬时无功功率理论的谐波电流检测法仅适用于三相三线制、电源电压为三相对称无畸变、三相负荷平衡的负载谐波电流的检测。所以,在有源电力谐波滤波器设计中必须针对具体电网和负载的特点采取相应措施来消除或减小各种不利因数的影响:①变流器尽可能采用三相三线制接法的桥式电路,从而避免零序电流的存在。②如果只需要谐波电流的检测,则只要一组与电源同频率的三相对称正弦电压,此电压不必是负荷的实际供电电源电压。因此,为了避免变流器网侧电源电压波形畸变严重,可采取下列措施之一:A、三相电源电压经过低通滤波器滤除高次谐波后再参与谐波电流的检测运算,此时要求三相所用的低通滤波器特性一致;B、运用锁相技术产生三相正弦电压,再参与瞬时谐波电流的检测运算。
二、结语
本文从理论上对有源电力滤波器的实现技术和控制策略进行研究,提出了以上几种有源电力滤波器谐波电流的检测方法。由于这几种检测方法在应用中都有其局限性,因此,针对有源电力滤波器的检测技术和控制策略还需要做进一步的探索。随着计算机运算速度的提高和高速微处理器(DSP)的出现,为控制系统的数字化奠定了基础。有源电力滤波器要求其控制电路必须能完成实时检测、计算并做出决策,这就为计算机开辟了崭新的应用领域,必将为有源电力滤波器的实用化发挥越来越重要的作用。
参考文献:
[1] 吴竞昌.供电系统谐波.北京: 中国电力出版社,1998
[2] IEC1000-3-2, Electromagnetic Compatibility-Part 3: Linits-section 2:Limits for harmonic crrentemissions (equipmentinputcurrent <16A per phase)[s].March,1995
[3] 中国国家标准GB/T14549-93. 电能质量公用电网谐波 . 中国标准出版社 ,1994
[4] 肖国春等. 电能质量控制技术的发展. 江苏机械制造与自动化,2001年第1期
可以看出,krisch算子的运算量比较大。其次在边缘检测中边缘定位能力和噪声抑制能力方面,有的算子边缘定位能力强,有的抗噪声能力比较好:roberts算子利用局部差分算子寻找边缘,边缘定位精度较高,但容易丢失一部分边缘,同时由于没经过图像平滑计算,不能抑制噪声。该算子对具有陡峭的低噪声图像响应最好;sobel算子和prewitt算子都是对图像进行差分和滤波运算,差别只是平滑部分的权值有些差异,对噪声具有一定的抑制能力,不能完全排除检测结果中出现伪边缘。这两个算子的边缘定位比较准确和完整,但容易出现边缘多像素宽。对灰度渐变和具有噪声的图像处理的较好;krisch算子对8个方向边缘信息进行检测,因此有较好的边缘定位能力,并且对噪声有一定的抑制作用,该算子的边缘定位能力和抗噪声能力比较理想;laplacian算子是二阶微分算子,对图像中的阶跃型边缘点定位准确且具有旋转不变性即无方向性。但该算子容易丢失一部分边缘的方向信息,造成不连续的检测边缘,同时抗噪声能力比较差,比较适用于屋脊型边缘检测(将在第3节中讨论)。 2.2 最优算子 最优算子又可以分为马尔算子(log滤波算子)、坎尼(canny)边缘检测、曲面拟合法。 torre和poggio[5]提出高斯函数是接近最优的平滑函数,marr和hildreth应用gaussian函数先对图像进行平滑,然后采用拉氏算子根据二阶导数过零点来检测图像边缘,称为log算子。对于log算子数学上已经证明[6],它是按照零交叉检测阶跃边缘的最佳算子。但在实际图像当中,高斯滤波的零交叉点不一定全部是边缘点,还需要进一步确定真伪[7];坎尼把边缘检测问题转换为检测单位函数极大值问题,根据边缘检测的有效性和定位的可靠性,研究了最优边缘检测器所需的特性,推导出最优边缘检测器的数学表达式。与坎尼密切相关的还有deriche算子和沈俊算子,它们在广泛的意义下是统一的;曲面拟合的基本思想是用一个平滑的曲面与待测点周围某邻域内像素的灰度值进行拟合,然后计算此曲面的一阶或二阶导数。该方法依赖于基函数的选择,实际应用中往往采用低阶多项式。 2.3 多尺度方法 早期边缘检测的主要目的是为了处理好尺度上的检测和定位之间的矛盾,忽略了在实际图像中存在的多种干扰边缘,往往影响到边缘的正确检测和定位。 rosenfeld等[8]首先提出要把多个尺寸的算子检测到的边缘加以组合;marr倡导同时使用多个尺度不同的算子,并提出了一些启发性的组合规则。这一思想后来经witkin等发展成了尺度空间滤波理论,说明了不同尺度上的零交叉的因果性;lu jain对二维信号进行了类似的研究;yuille和poggio证明了对于任意维信号,当用高斯函数滤波时,尺度图中包含了数目最小的零交叉,并且可以由粗到细地跟踪这些零交叉。 多尺度信号处理不仅可以辨识出信号中的重要特征,而且能以不同细节程度来构造信号的描述,在高层视觉处理中有重要的作用。 其中小波变换是近年得到广泛应用的数学工具。与傅立叶变换和窗口傅立叶变换相比,小波变换是时间和频率的局域变换,因而能有效地从信号中提取信息,它通过伸缩和平移等运算功能对函数或信号进行多尺度细化分析,解决了傅立叶变换不能解决的很多困难问题,因而被誉为“数学显微镜”。信号突变点检测及由边缘点重建原始信号或图像是小波变换应用的一个很重要的方面。 从边缘检测的角度看,小波变换有以下几个优点: (1)小波分解提供了一个数学上完备的描述; (2)小波变换通过选取合适的滤波器,可以极大地减小或去除所提取的不同特征之间的相关性; (3)具有“变焦”特性:在低频段可用高频分辨率和低时间分辨率;在高频段可用低频分辨率和高时间分辨率; (4)小波变换可通过快速算法来实现。 文献[9]提出了一种基于层间相关性的小波边缘检测算法,依据的是信号主要分布在低频部分或低尺度部分,而噪声分布于高频部分或高尺度部分的特点。另外小波变换具有较强的去相关性,变换后的小波系数之间仍然存在大量的相关性质,即小波系数在不同分辨率下的对应系数之间具有较强的相关性或称层间的相关性。通过对比该方法能够较好多的防止噪声干扰,又能有效地保留图像边缘。 2.4 自适应平滑滤波方法 该方法是边缘检测的一个重要方法[10],无论是对于灰度图象处理还是距离图像和平面曲线处理都是非常有效的。它的优点是: (1)平滑滤波的迭代运算使信号的边缘得到锐化,此时再进行边缘检测,可以得到很高的边缘定位精度; (2)通过自适应迭代平滑,实现了将高斯平滑之后的阶跃边缘、屋顶状边缘和斜坡边缘都转化为理想的阶跃边缘,提高了图像的信噪比; (3)经过多次迭代运算,图像按边缘分块实现自适应平滑,但不会使边缘模糊; (4)应用自适应平滑滤波得到一种新的图像尺度空间描述。 2.5 其他方法 近年来随着模糊数学、神经网络的发展,人们不断探索将其应用于图像的边缘检测中。文献[11]和[12]依据模糊理论讨论了边缘检测算法的抗噪性和检测速度问题,并证明了模糊集合理论能较好地描述人类视觉中的模糊性和随机性;应用人工神经网络提取图像边缘成为新的研究分支,目前已提出了很多算法,具有计算简单功能强的特点,但是速度慢,稳定性差。但是神经网络边缘检测可以避免自适应确定阈值的问题,具有较好的容错性和联想功能。 2.6 边缘检测的步骤 边缘检测分为彩色图像边缘检测和灰度图像边缘检测两种,由于彩色图像有八种彩色基,在边缘检测时选用不同的彩色基将直接影响实时性、兼容性和检测效果,因此本文只限于灰度图像的边缘检测研究,其步骤如图2.1所示。
其中边缘定位是对边缘图像进行处理,以得到单像素宽的二值边缘图像,通常使用的技术是阈值法和零交叉法。边缘定位后往往存在一些小的边缘片断,通常是由于噪声等因素引起的,为了形成有意义的边缘需要对定位后的边缘进行链接。通常有两种算法:局部边缘链接和全局边缘链接。 3 边缘模型的分类及性能分析 本小节从边缘检测“两难”问题出发,总结了实际图像中可能出现的七种边缘类型,并分别给出了数学模型描述,最后分析比较了不同边缘类型表现出的特性及不同类型的边缘定位与平滑尺度的关系。 3.1 边缘检测的“两难”问题 首先来了解一下边缘检测的常用定义[13]:边缘检测是根据引起图像灰度变化的物理过程来描述图像中灰度变化的过程。引起图像灰度不连续性的物理过程可能是几何方面的(深度的不连续性、表面取向、颜色和纹理的不同),也可能是光学方面的(表面反射、非目标物体产生的阴影及内部倒影等)。这些景物特征混在一起会使随后的解释变得非常困难,且实际场合中图像数据往往被噪声污染。信号的数值微分的病态问题:输入信号的一个很小的变化就会引起输出信号大的变化。令 f(x)为输入信号,假设由于噪声的影响,使 f(x)发生了一个很小的变动: 式(3.1) 其中 ε<<1。对式(3.1)两边求导数则: 式(3.2) 由式(3.2)可以看到,若w足够大,即噪声为高频噪声时,会严重影响信号 f(x)的微分输出,进而影响边缘检测的结果。为了使微分正则化,则需要先对图像进行平滑。然而图像平滑会引起信息丢失,并且会使图像平面的主要结构发生移位。另外若使用的微分算子不同,则同一幅图像会产生不同的边缘,因此噪声消除与边缘定位是两个相互矛盾的部分,这就是边缘检测中的“两难”[14,15]。 3.2 边缘分类及性能分析 图像中的边缘通常分为:阶跃边缘、斜坡边缘、三角型屋脊边缘、方波型屋脊边缘、楼梯边缘、双阶跃边缘和双屋脊边缘[1]。 (1)阶跃边缘 模型为: f(x)=cl(x) ,其中 c>0为边缘幅度, 为阶跃函数。若存在噪声,可以选用大尺度的模板平滑图像,不会影响边缘的定位。 (2)斜坡边缘 理想的斜坡边缘模型为:,其中s为边缘幅度,d为边缘宽度。斜坡边缘的检测不仅跟尺度有关,还与边缘本身的宽度有关,若边缘宽度比较小,则在小的平滑尺度下也能检测到边缘;无论是检测极值点还是过零点,边缘的定位都没有随着尺度的变化而变化。因此,对于斜坡边缘若存在噪声,可以选用大尺度的模板平滑图像。而不会影响到边缘定位。 (3)三角型屋脊边缘 模型为:,其中s为边缘幅度,d为边缘宽度。对于三角型屋脊边缘若存在噪声可以选用大尺度的平滑模板,而不会影响边缘的定位。 (4)方波型屋脊边缘 方波型屋脊边缘的模型为:,其中s为边缘幅度,d为边缘宽度。对于方波型屋脊边缘检测,不仅与平滑尺度有关,还与边缘宽度有关,若存在噪声,可以选用大尺度的平滑模板,而不会影响边缘的定位。 (5)楼梯边缘 楼梯边缘模型为:,其中c1、c2、l均为常数。这种检测的特点是平滑后的楼梯边缘不能准确定位,必须对检测到的边缘位置进行移位校正。 (6)双阶跃边缘 双阶跃边缘与方波型屋脊边缘相同,不同之处为:双阶跃边缘的边缘点为x=-d/2与 x=d/2,而方波型屋脊边缘的边缘点为 x=0。双阶跃边缘的两个边缘点通过检测一阶导数的两个极值点和二阶导数的两个过零点获得。因此对于双阶跃边缘大尺度下不能准确定位,必须对检测到的边缘位置进行移位校正。 (7)双屋脊边缘 模型为:, 其中:
论文摘要: 当点扩展函数未知或不确知的情况下, 从观察到的退化图像中恢复原始图像的过程称为图像盲复原。近年来, 图像盲复原算法得到了广泛的研究。本文在介绍了盲图像恢复算法的现状的基础上进一步研究其的发展方向。
一、引言
图像恢复是图像处理中的一大领域,有着广泛的应用,正成为当前研究的热点。图像恢复的主要目的是使退化图像经过一定的加工处理,去掉退化因素,以最大的保真度恢复成原来的图像。传统的图像恢复假设图像的降质模型是己知的。而许多情况下,图像的降质模型未知或具有较少的先验知识,必须进行所谓的盲恢复。其重要性和艰巨性而成为一个研究热点。目前所能获取的观测图像是真实图像经过观测系统成像的结果。由于观测系统本身物理特性的限制,同时受观测环境的影响,观测图像和真实图像之间不可避免地存在着偏差和失真,称观测系统对真实图像产生了降质。图像恢复的目的就是根据降质的观测图像分析和计算得出真实图像。
二、图像盲恢复算法的现状
总体来说, 图像盲复原方法主要分为以下两类: 一是首先利用真实图像的特别特征估计PSF,然后借助估计得到的PSF,采用经典的图像复原方法进行图像的复原。这类方法将PSF的估计与图像的复原过程分为2个不同的过程,因而具有较少计算量的特点;二是PSF辨识和真实图像估计相结合,同时辨识PSF和真实图像。这类算法较为复杂,计算量较大。另外,对于点扩展函数也考虑了空间变化的复杂情况。针对目前的盲复原算法的现状,根据退化模型的特点, 重新将算法分为空间不变的单通道盲复原算法、空间不变多通道盲复原算法和空间变化图像盲复原算法3类。
(一)单通道空间不变图像盲复原算法
在这类算法中, 最为常用的是参数法和迭代法。
1)参数法。所谓参数法, 即模型参数法, 就是将PSF和真实图像用某一类模型加以描述, 但模型的参数需要进行辨识。在参数法中, 典型的有先验模糊辨识法和ARMA 参数估计法, 前者先辨识PSF的模型参数,后辨识真实图像, 属于第1 种类型的图像盲复原算法, 因而计算量较小;后者同时辨识PSF和真实图像模型参数, 属于第2种类型图像盲复原算法。
2)迭代法。所谓的迭代法, 不是通过建立模型而是通过算法的迭代过程, 加上有关真实图像和PSF的约束来同时辨识PSF和真实图像的方法。迭代法是单通道
图像盲复原算法中应用最广泛的一类算法, 它不需建立模型, 也不要求PSF 为最小相位系统, 因而跟实际更为接近。在这类算法中, 迭代盲复原算法(IBD), 基于非负性和决策域的递归逆滤波器算法(NAR2R IF) ,基于高阶统计特性的最小
熵算法等最为典型。
(二)多通道二维图像盲复原
多通道二维图像盲复原, 这类方法将数字通讯领域应用的一维多通道盲原分离算法扩展到二维情况并用于图像的盲恢复。这类算法中有两种代数方法, 一种是先辨识模糊函数, 再采用常规的恢复算法进行复原;另一种是直接对逆滤波器进行估计。此类算法的优点在于不需对初始图像进行估计, 也不存在稳定性和收敛性问题,对图像以及模糊函数的约束是松弛的,算法具有一般性。但是第1种算法要求采用复原算法具有收敛性;第2种算法对噪声敏感。
(三)空间改变的图像盲复原方法
在许多实际的应用中, 模糊往往是空间变化的,但由于处理工作的难度, 目前的研究较少,基本有相关转换恢复和直接法两类。
相关转换恢复的基本思想是区域分割, 即将整幅图像分为若干局部区域, 然后假设在各个局部区域模糊是空间不变的, 利用空间不变的图像复原有关算法进行复原。这类方法都是基于窗口的模糊辨识技术, 图像的估计取决于窗口的大小, 由于模糊参数是连续变化的, 在范围较大时空间不变的假设是不成立的, 因而模糊的估计精度较差, 而且这种方法只能针对部分空间变化的模糊进行处理, 缺乏通用性; 其次在区域的边上存在振铃现象。
直接法的基本思想是直接对图像进行处理。如采用简化的二维递推卡尔曼滤波器进行图像模型和模糊模型的直接转换方法, 其缺点是只能针对有限的模型, 而且模型数增加, 计算量会显著增大;采用共轭梯度迭代算法, 但只见到一个31×31 的文本图像处理的结果报道,对于大图像处理效果尚需进一步的研究;将空间变化图像系统建立成马尔苛夫随机模型,对复原过程,采用模拟退火算法进行最大后验估计的方法,这种方法避免了图像的窗口化, 并能克服模糊参数不连续性造成的影响,但这种方法只能局限于将模糊过程建立成单参数的马尔苛夫随机模型的情况,而且计算量也较大。
三、图像盲恢复的应用前景
(1)现有算法的改进以及新的算法研究。现有各种算法还存在许多不足,有必要对算法进一步改进。如IBD算法中, 如何选择初始条件才能保证算法的收敛;如何选择算法终止条件才能保证恢复的质量; 如何选择滤波器中的噪声参数才能减少噪声的影响。又如NAR2R IF算法中, 如何进一步解决噪声敏感问题,支持域的确定以及如何将算法扩展到非均匀背景的情况等。提出新的算法更好地解决图像盲复原问题, 也是今后研究的热点。
(2)基于非线性退化模型的图像盲复原算法。在实际应用中,严格来讲,所有的退化模型都是非线性的。对模型采用线性化的方法进行近似处理,虽然算法简单,但对非线性严重的情况处理效果并不理想。基于多项式以及神经网络两种参数模型处理非线性信号盲分离算法,算法扩展到二维图像情况需要进一步研究。研究基于非线性退化模型的图像盲复原算法也是下一步研究方向之一。
(3)去噪处理算法研究。加性噪声的存在,使图像的复原问题变成了一个病态问题,而且由于一般假设只知道噪声的统计特性,因此要从退化图像中完全去除噪声是不可能的。另外,由于噪声的存在,恢复的效果并不理想,结合降噪的图像盲恢复的算法研究有很现实的意义,这方面也进行了部分工作。为克服噪声的影响,一般采用先进行降噪,后进行复原;二是将降噪和复原同时进行这两类方法。目前,大多数算法中将噪声描述成高斯噪声进行研究, 在实际应用时有较大局限性。对于非高斯情况的研究采用基于噪声的高阶统计特性的去噪算法研究也是很重要的研究方向,也可采用其他类型的方法进行降噪,利用自组织映射的非线性独立组件分析方法进行图像降噪处理算法。
(4)实时处理算法。算法的的复杂性是制约算法应用的一个重要方面。可采用正则化的离散周期Radon变换的方法将二维的卷积转化为一维进行处理,以提高算法的速度;也可采用神经网络的实时处理算法。算法的实时性是算法实际应用的先决条件。
(5)应用研究。算法的应用是推动算法研究的动力。虽然图像盲复原算法在天文学、医学、遥感等方面获得了较大的应用, 但将算法应用到一般的工业图像实时检测、机器视觉、网络环境下的图像传输恢复、刑事侦破等方面还有大量的工作要做。
参考文献:
[1] 薛梅,杨绿溪.用于含噪二值图像的改进NAS-RIF图像盲复原算[J].数据处理.2006.17.(2).
关键词:红枣(Ziziphus zizyphus);边缘检测;分级
中图分类号:S665.1;TP751.1文献标识码:A文章编号:0439-8114(2014)10-2427-04
Grading Red Dates Based on the Size from Image Edge Detection
YAO Na,WU Gang,CHEN Jie
(College of Information Engineering,Tarim University,Alar843300,Xinjiang,China)
Abstract:Starting from the application area of research in computer vision, a method of using image edge detection to calculate the size of red dates and to classify red dates in the case of absenting decayed red dates was developed. Simulation of edge detection demonstrated the validity and superiority of the wavelet method and the simulation of grading detection proved that the new method was effective and rapid,providing the basis for the key design of red dates classifier.
Key words:red dates(Ziziphus zizyphus); edge detection; grading
基金项目:新疆生产建设兵团青年科技创新资金专项(2013CB020)
新疆地区红枣品种较多,有的品种含糖量高达34%,其营养丰富,受到人们的喜爱。目前,红枣品种越来越多,其产量及销售量也越来越高,红枣采集后对其进行分类是加工过程中很重要的工作环节,最初的分拣都是由人工完成,一方面需要大量的人力资源;另一方面不能保证产品的安全。随着科学技术的发展,农业机械化的应用越来越广泛,研究者将重点关注红枣自动分级,可以节省人力而实现农业自动化。李湘萍[1]介绍了红枣分级机的工作原理;张保生等[2]将红枣的形状特征、颜色特征和纹理特征通过BP网络算法进行自动分级;赵文杰等[3]提出了以颜色作为特征利用支持向量机的方法进行红枣的缺陷识别,识别率可达96.2%;肖爱玲[4]对几种典型的红枣分级机的结构进行了介绍;肖爱玲等[5]对2011年前红枣的分级技术及研究现状进行了总结;沈从举等[6]对红枣分级机的研究状态和应用方法进行了归纳。
目前,基于计算机视觉的方法具有智能化、精度高、损伤小等优点,该方法的核心部分在于选取什么特征以及利用何种算法对红枣进行判断。研究者提出的方法具有一个共同特点是特征选取较多,比如同时提取颜色特征、形状特征和纹理特征,因此计算量较大,分级机的设计组成对信息处理的硬件部分有较高的要求,在红枣分级机的设计中存在两方面的问题:一方面成本较高;另一方面硬件达不到设计的要求。小波变换对噪声不敏感,边缘检测清晰,所以有不少研究者将不同的小波变换方法[7-10]应用在图像边缘检测中,经仿真试验证明也适合应用在红枣的边缘检测中。因此,本研究提出一种简单的分级方法来对红枣进行分级,即以提取红枣的边缘特征,只有形状特征,应用小波变换的算法,减少了计算量。
1材料与方法
1.1材料
红枣品种为新疆阿拉尔地区种植的骏枣,已经过人为的挑拣,测试结果得分为优等级的个数较多。
1.2检测方法
在无腐烂的情况下,个体较大、饱满的红枣可分到较高的级别中,可用边缘检测方法对红枣的边缘进行检测,然后根据检测出的边缘再计算红枣的面积,面积大于某一设定阈值的红枣为优等级,其余为低级。
1.3小波边缘检测
小波变换可以解决时域和频域的矛盾,可以将信号进行更精确地分析。图像中的边缘点为灰度变化较大的像素点,即一阶微分极大值点或者二阶微分过零点。图像边缘检测可以通过小波的奇异性来检测。设θ(x,y)为一个平滑的二维函数,在考虑尺度参数的情况下,θa(x,y)=■■,■,那么二维小波的定义[11]为:
ψx(x,y)=■
ψy(x,y)=■
用矢量形式表示二维小波变换:
a■+■
=af■(x,y)■+f■(x,y)■
=af(x,y)[ψx(x,y)■+ψy(x,y)■]
=a[(fψx)(x,y)■+(fψy)(x,y)■]
=Wxa f(x,y)■+Wya f(x,y)■
=aΔ(fθa)(x,y)
fθa(x,y)表示图像f(x,y)与平滑函数θa(x,y)卷积后的平滑图像。梯度矢量的模值为:
■ (3)
梯度矢量与水平方向的夹角为:
α=Arg[Wa(x,y)]
=arctan■(4)
确定梯度矢量的模值极值后,再经过阈值的处理,可以得到图像的边缘,不同的a可以实现多个不同尺度的检测。图像中目标的方向性是重要的特征之一,作为小波的改进方向,小波的应用成为了一个研究热点,它能有较好的方向性分析,体现了图像的方向性。任意方向小波变换[12]的定义为:(假设γ=0,θ∈[0,π)]
Wθa f(x,y)=f(x,y)*g(x,y,θ,γ)
=Wθa f(x,y)cosθ+Wθa f(x,y)sinθ
=||Wa f(x,y)||■・
cosθ+■sinθ (5)
=||Wa f(x,y)||(cos(Arg[Wa f(x,y)]))・
cosθ+sin(Arg[Wa f(x,y)])sinθ
=||Wa f(x,y)||(cosαcosθ+sinαsinθ)
=||Wa f(x,y)||cos(α-θ)
运用小波方法对红枣进行边缘检测,为红枣分级检测解决基础性的第一步难题,同时也用经典的Prewitt算子、Roberts算子、Sobel算子、Log算子、Canny算子对红枣进行边缘检测以便比较分析各自的特点。
1.4分级检测的过程
检测红枣边缘后需要对红枣的面积进行计算,通过对边缘点的长度进行计算可以得出边缘的长度,将红枣的形状假设为圆形,可以用圆周长将圆面积求出,即可以求出红枣的面积。假设计算检测出边缘点的长度,红枣的面积近似为:
s=■ (6)
因为整个过程属于比较过程,所以进行近似计算不影响相对的比较。
整个分级检测的仿真试验步骤为:
1)读入红枣图像,将彩色RGB图像转为灰度图像;
2)对红枣灰度图像求出小波变换的模值和梯度矢量与水平方向的夹角;
3)在水平方向、垂直方向、-45°方向和+45°方向4个方向上进行搜索判断模值和梯度方向的条件得到边缘值,将得到的边缘值进行归一化,设定阈值为0.18来判断红枣图像的边缘;
4)计算红枣的边缘长度,确定红枣边缘长度的阈值;
5)根据公式(6)计算红枣的面积;大于边缘长度阈值的对应面积阈值的红枣判定为优良等级的红枣,否则为较差等级的红枣。
针对不同的分级机的机械设计,红枣面积的阈值的确定可以根据两种方式:一种方式是针对分级机单个读取红枣图像并直接进行分级挑拣的情况,阈值根据经验值来确定,比如某种品种的红枣大小是在固定范围内波动,预先设定固定的阈值来进行分级挑拣;另一种方式是针对分级机进行大量红枣图像同时进行读取时,遍历全部红枣图像,找到最大面积的红枣,然后阈值设定为最大值的80%,大于该阈值的红枣判定为优等级,否则判定为较差等级。
2结果与分析
仿真试验中分别对单个红枣和两个红枣为例进行小波的边缘检测,并且将小波检测结果与Prewitt算子、Roberts算子、Sobel算子、Log算子、Canny算子检测结果进行分析对比。
2.1 单个红枣检测结果
图1为理想的情况,即一个红枣全部被读入没有遮盖的情况,也是正常情况下的边缘检测。由图1可以看出,小波方法检测出的曲线较少,轮廓清晰,轮廓线的连续性好,一方面有利于边缘长度的计算;另一方面减少了曲线个数的计算,减少了整个方法的计算量。Sobel算子检测出的红枣图像与小波的方法相比较,噪点较多,定位精度不够高,边缘比较模糊;Canny算子检测到的边缘虽然比较连续,但是出现了由噪声产生的伪边缘,这样在计算红枣大小时会增加计算量,并且容易出错;Prewitt算子和Roberts算子的检测结果类似于Sobel算子的检测结果,并且Roberts算子的检测结果中边缘断点较多,给计算红枣的长度带来困难;Log算子的检测结果边缘较为连续,有少量断点,与小波方法相比较红枣内部的噪点较多,复杂度仅次于Canny算子的方法检测出的结果。根据边缘检测的效果和计算复杂度以及后期需要的算法的复杂度来比较这几种方法的优劣顺序为小波、Prewitt算子、Roberts算子、Sobel算子、Log算子、Canny算子。
2.2两个有遮盖的红枣检测结果
图2为遮盖的情况,因此单个红枣的边缘不能完全检测出,但是根据周长阈值的比较结果,同样可以算出单个红枣的面积。由图2可以看出,小波方法对于有遮盖的红枣检测仍是轮廓清晰且连续性好,内部曲线较少。Sobel算子检测出的红枣图像与小波的方法相比较,噪点较多,边缘断点较多,边缘比较模糊;Canny算子检测到的边缘过于模糊且断点较多,还出现了由噪声产生的伪边缘,这样在计算红枣大小时对后期的算法要求较高,且容易出现错误结果;Prewitt算子和Roberts算子的检测结果类似于Sobel算子的检测结果,Roberts算子的检测结果中边缘较为清楚;Log算子的检测结果边缘断点较多,与小波方法相比较红枣内部的噪点较多,复杂度仅次于Canny算子的方法检测出的结果。根据边缘检测的结果和计算复杂度以及后期算法的复杂度来比较这几种方法的优劣顺序为小波、Roberts算子、Prewitt算子、Sobel算子、Log算子、Canny算子。对于单个和两个红枣进行检测的仿真结果都说明:较于其他5种算子,小波方法均是最优的。
研究中采集的红枣图像大小为442×398像素,阈值采用经验值,实际的周长阈值映射到图像中的周长为1 084像素,仿真试验结果判定为准确可行,试验结果见表1。
3小结与讨论
随着自动化技术在农业产品中应用越来越广泛,其理论研究的方法也越来越多,从计算机视觉领域结合农业自动化技术提出了对红枣加工有促进作用的红枣自动分级的核心方法,对于红枣生产的地区有重要意义。研究提出了利用方向小波方法对红枣图像进行边缘检测进而计算红枣大小来对红枣分级的方法,经仿真试验证明小波变换方法的优越性及整个方法的有效性和快速性。此研究是在假设红枣无腐烂的情况下进行分级的,所以有一定的局限性,但在下一步研究中可以弥补此点的不足,设置多个阈值可以将红枣进行多个等级的分拣。
参考文献:
[1] 李湘萍.6ZF-0.5型红枣分级机的试验研究[J].山西农机,2000(14):3-5.
[2] 张保生,姚瑞央.基于BP神经网络算法的红枣分级技术应用[J].广东农业科学,2010(11):282-283.
[3] 赵杰文,刘少鹏,邹小波.基于机器视觉和支持向量机的缺陷枣的识别研究[J].农业机械学报,2008,39(3):113-115.
[4] 肖爱玲.几种典型的红枣分级机[J].新疆农机化,2010(4):10-11.
[5] 肖爱玲,李伟.我国红枣分级技术及红枣分级机研究现状[J].农机化研究,2011(11):241-244.
[6] 沈从举,贾首星,郑炫,等.红枣分级机械的现状与发展[J].中国农机化学报,2013,34(1):26-30.
[7] 宋文龙,闵昆龙,邢奕,等.基于小波变换的自适应阈值植物根系图像边缘检测[J].北京科技大学学报,2012,34(8):966-970.
[8] 王敬东,徐亦斌,.图像小波边缘检测中边界处理的研究[J].计算机工程,2007,33(5):161-163.
[9] 鲍雄伟.小波变换在图像边缘检测中的应用[J].电子设计工程,2012,20(14):160-162.
[10] 薄胜坤,张丽英.一种基于小波变换和Canny算子相结合的边缘检测方法[J].长春大学学报,2012,22(10):1177-1180.