前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的卷积神经网络的特性主题范文,仅供参考,欢迎阅读并收藏。
关键词:卷积神经网络;自动编码器;非监督训练;多尺度分块;目标识别
中图分类号:TP391.41文献标志码:A英文标题
0引言
对图像中目标的精确和鲁棒识别是模式识别及人工智能领域的核心内容,在道路监控、战场侦察、精确打击等领域中有着重要的作用和广泛的前景。近年来,随着深度神经网络成为机器学习新的热点,基于卷积神经网络(Convolutional Neural Network,CNN)的图像识别算法因其较强的鲁棒性和突出的识别率被学术界和工业界所重视。
Alex等[1]提出基于大型深层CNN的自然图像识别算法,在ImageNet数据集上取得了很高的识别率;Dan等[2]提出了基于多核的CNN,并采用GPU并行运算的方法在三维NORB数据集上取得了很好的识别效果。以上算法虽然都取得了较高的目标识别率,但是由于算法采用有监督的训练方式,需要大量标签数据对网络权重进行调整,当数据量较小时会导致模型前几层网络无法得到充分训练,故只能针对含标签数据较多的大型数据集。针对此问题,目前主流的解决方法是采用特征提取算法对CNN的滤波器集进行非监督的预训练。文献[3]采用稀疏编码提取训练图像的基函数作为CNN的初始滤波器;文献[4]将独立成分分析(Independent Component Analysis,ICA)应用于CNN的预训练阶段,利用ICA训练滤波器集合,使识别率得到了一定提高。然而无论是稀疏编码还是ICA,其特征提取的效果都比较一般,应用于预训练阶段对算法识别率的提升也比较有限。所以如何更好地选择滤波器的预训练算法仍是十分困难的问题。
除了预训练外,影响CNN识别率和鲁棒性的关键参数还有滤波器的尺寸和下采样层的采样间隔。滤波器尺寸反映了CNN对输入图像局部特征的提取情况,文献[5]证明滤波器尺寸对最终识别结果有很大影响,并给出了单层条件下相对最优的滤波器尺寸。下采样层主要负责对特征进行模糊,从而获得平移、尺度等不变性。采样间隔反映了模糊的程度,间隔越大模糊越严重,模糊后的特征保持的全局空间信息就越少。文献[6]证明当采样间隔较小时,即使经过2次卷积和2次最大下采样(maxpooling),网络输出的激活值仍能重构出与原始输入看似相同的图案。然而下采样间隔过小会导致不变性丧失,过大则会损失大量细节信息,两者均会导致识别率的下降。
针对以上问题,本文提出基于多尺度分块卷积神经网络(MultiScale Convolutional Neural Network, MSCNN)的图像目标识别算法。首先利用稀疏自动编码器(Sparse AutoEncoder,SAE)对卷积神经网络的滤波器进行非监督预训练,通过最小化重构误差获得待识别图像的隐层表示,进而学习得到含有训练数据统计特性的滤波器集合,预训练效果相比ICA更好。其次提出多尺度分块的方法构建卷积神经网络,为了增加鲁棒性并减小下采样对特征表示的影响,对输入图像进行多尺度分块形成多个通路,并设计相应尺寸的滤波器进行卷积运算,将不同通路下采样后的输出进行融合从而形成新的特征,输入softmax分类器完成图像目标的识别。最后通过大量实验对比MSCNN算法与经典算法在通用图像识别任务中的识别率和鲁棒性差异,从而验证算法的有效性。
4仿真实验及分析
本文使用STL10公开数据集以及从全色波段的QuiekBird遥感卫星和GoogleEarth软件中截取的遥感飞机图像数据集进行测试实验,将所有图片变为64×64像素的RGB图。选择STL10数据集的原因是因为其含有不包含标签的训练集,可用于本文的非监督预训练算法,且图像中包含更多类内变化。STL10共10类目标,本文选用其中的4类目标进行实验。选择遥感飞机图像数据则是为了验证本文算法在遥感图像解译方面的可用性。该数据集包含5类遥感飞机,共400幅。实验时随机选取遥感飞机图像库中50%的图像作为训练样本,其余作为测试样本。本文的实验环境为CPU2.8GHz、内存3GB的计算机,实现算法的软件为Matlab(2011a)。
4.1算法识别率对比测试
MSCNN的各通路尺寸参数设置如图4所示,每个通道使用300个滤波器,滤波器初始值按照不同通道感受野大小利用稀疏自动编码器预训练得到。编码器设定为3层,稀疏参数ρ设定为0.05,训练周期为400。卷积神经网络的下采样方式采用最大下采样(max pooling)。
按照上述参数设置,通路1输出特征维度为2700,通路2输出特征维度为4800,通路3输出特征维度为4800,MSCNN输出特征维度总共为12300。所有算法的训练周期均为50。传统CNN参数设定与通路1参数设定相同,同样使用300个滤波器,滤波器初始值通过随机初始化得到。输出特征维度为2700。实验结果如表1所示。
从表1可看出,加入LCN的CNN较未加入的CNN对两种数据集的识别率有一定的提高,说明了加入LCN对目标识别率是有一定的贡献的;在两种数据集上MSCNN相比原始CNN都拥有更高的识别率。MSCNN通路1虽然参数设置与CNN相同,但在相同训练周期下识别率较加入LCN的CNN又有一定提高,说明了非监督预训练对识别率提高的有效性。对于STL10数据集,可看出通路2的识别率在3个通路中最高,通路3则最低,这是因为通路3输入的图像尺寸最小,而STL10类内变化很大且目标不全在图像中心,故识别率有所下降。通路之间进行两两累加后识别率都有所提高,在3个通路共同作用时识别率最高,达到83.5%。对于遥感飞机图像集而言,可看出3个通路中通路2的识别率最高,这是因为遥感飞机图像集均为飞机图像,不同类别之间的全局特征差异并不明显,而局部特征更能表示不同的飞机类别。通路3由于输入尺寸较小,识别率稍有下降。同样的,不同通路之间的叠加都让识别率有所提升,最终MSCNN三通路特征融合后的识别率达到了96.5%,完全满足对于可见光遥感图像目标识别的需求。
从表1还可看出,本文算法在3个通路CNN的情况下的识别率较1个通路或2个通路的CNN的识别率高,由此可以推断3个通路CNN所提取的特征具有较强的泛化能力和鲁棒性。此外3个通道能够兼顾不同的尺度,使模型能提取到尺度不同的特征。
4.2算法鲁棒性实验
为验证MSCNN的鲁棒性,在数据集中选取不同类别的图像对其进行平移、尺度、旋转变换,然后计算MSCNN输出的第一层全连接特征与图像变换后输出特征之间的欧氏距离,根据距离的大小可以衡量输出特征对于目标变化的鲁棒性,欧氏距离越小就说明特征对于目标变化越不敏感,鲁棒性就越好。对于STL10选取四类目标进行实验,对比算法为CNN;对于遥感飞机图像集随机选取10幅进行实验,并取距离的平均值,对比算法为ICA和CNN。测试结果如图6~7所示。
图6中虚线表示传统CNN算法得到的结果,实线则表示MSCNN得到的结果,从图6可看出:无论是面对平移、尺度还是旋转变换,MSCNN算法最终输出的特征向量变化率均小于CNN算法,证明其鲁棒性要好于CNN。
从图7也可看出:本文算法对于遥感飞机图像集的平移、尺度、旋转均表现出良好的鲁棒性,相比而言ICA提取的特征鲁棒性较差,目标图像微小的变化就导致了特征较大的改变。本文算法鲁棒性较好首先是因为MSCNN采用非监督的预训练方式,训练得到的滤波器含有更多图像不变性特征;其次是因为MSCNN采用多尺度输入,小块图像输入在一定程度上相当于另一种局部特征,这些特征相比全尺寸输入拥有更好的不变性;最后是MSCNN采用了局部对比度标准化,对于亮度变化较大和存在噪声的目标图像鲁棒性明显增强。
另外,本文算法采用了多通路多尺度分块的方法,必然会使网络参数增加,从而会使训练时间比较耗时;但在测试阶段,输入样本的计算仅包含一些简单的卷积和下采样,算法复杂度并没有因为通道的增加而增加,因此在测试阶段的实时性较传统的CNN并没有太大变化。
5结语
本文提出了MSCNN算法在卷积神经网络的基础上通过非监督预训练滤波器的方法解决传统卷积神经网络前几层无法得到有效训练的问题。针对传统神经网络对于复杂背景图像识别率不高的问题,利用多尺度输入图像增加局部不变信息,利用不同尺寸滤波器卷积搭配不同下采样间隔的方法在获得特征不变性的同时不至于丧失目标的细节信息,有效提升了识别率和鲁棒性。与经典算法的对比实验结果表明:该方法能够有效识别可见光自然图像和遥感图像,并对平移、尺度和旋转变换具有较强的鲁棒性。
参考文献:
[1]
ALEX K, ILYA S, HINTON G E. ImageNet classification with deep convolutional neural networks[EB/OL]. [20150210]. http://papers.nips.cc/paper/4824imagenetclassificationwithdeepconvolutionalneuralnetworks.pdf.
[2]
DAN C, UELI M, JURGEN S. Multicolumn deep neural networks for image classification[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 3642-3649.
[3]
KAVUKCUOGLU K, SERMANET P, BOUREAU Y, et al. Learning convolutional feature hierarchies for visual recognition[EB/OL]. [20150210]. http://cs.nyu.edu/~ylan/files/publi/koraynips10.pdf.
[4]
KAVUKCUOGLU K, RABZATO M, FERGUS R, et al. Learning invariant features through topographic filter maps[C]// IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 1605-1612.
[5]
COATES A, LEE H, NG A Y. An analysis of singlelayer networks in unsupervised feature learning[C]// Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Piscataway, NJ: IEEE, 2011: 215-223.
[6]
ZEILER M D, FERGUS, R. Visualizing and understanding convolutional neural networks [C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Berlin: Springer, 2014: 818-833.
[7]
BALDI P, LU ZHIQIN. Complexvalued autoencoders [J]. Neural Networks, 2012, 33:136-147.
[8]
HAYKIN S.神经网络与机器学习[M].3版.申富饶, 徐烨, 郑俊, 译. 北京: 机械工业出版社, 2011:81-89.(HAYKIN S. Neural Networks and Learning Machines[M]. 3rd ed. SHEN F R, XU Y, ZHENG J, translated. Beijing: China Machine Press, 2011:81-89.
[10]
LECUN Y, BOTTOU L, BENGIO Y. Gradientbased learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[11]
DERMANET P, LECUN Y. Traffic sign recognition with multiscale convolutional networks [C]// Proceedings of the 2011 International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2011: 2809-2813.
[12]
GONG Y C, WANG L W, GUO R Q, et al. Multiscale orderless pooling of deep convolutional activation features[C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Piscataway, NJ: IEEE, 2014: 392-407.
[13]
JARRETT K, KAVUKCUOGLU K, RANZATO M, et al. What is the best multistage for object architecture?[C]// Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Piscataway, NJ: IEEE, 2009: 2146-2153.
[14]
BOUVRIE J. Notes on convolutional neural networks [EB/OL]. [20150210]. http://math.duke.edu/~jvb/papers/cnn_tutorial.pdf.
Background
This work is partially supported by the National Natural Science Foundation of China (61372167, 61379104).
ZHANG Wenda, born in 1991, M. S. candidate. His research interests include pattern recognition and artificial intelligence.
关键词:BP神经网络;Morlet小波;决策理论;Hilbert变换
中图分类号:TP18文献标识码:A文章编号:1009-3044(2009)32-9050-02
Wireless Signal Simulation Algorithm for Automatic Identification
ZHANG Meng
(Purchasing, China Railway Communication Co., Ltd., Beijing 100140, China)
Abstract: We have firstly discussed the modulation distinguishing method based on rational budgeting theory through the method of comparing Tine-Frequency analysis of the analysis signals formed by Hibert Transform . And on the basic of analyzing the fault of this method ,we put forward the distinguishing method based on NN. When NN is distinguishing signals, it mainly depends on the different positions of peak. Wavelet Transform here equals a mathematic microscope .it reflects the inexorable links between the signal categories and the positions of peak. Taking advantage Wavelet Transform and the simple three-layer BP NN, the more accurate Time-Frequency characteristics of signals to be distinguishing can be drawn.
Keywords: BP ANN; Morlet Wavelet; BudgetingTheory; Hibert Transform
在军事电子对抗等多方面的重要应用,通信信号调制的自动识别分类问题也相继发展起来。无线电信号调制实识别就是要判断截获信号的调制种类。为此,需要事先对其特征进行选定,并确定它们与相应调制种类相联系的取值范围,然后再对信号进行特征测量,并根据测量结果对信号的调制进行分类判决。
如果把无线电信号的调制识别与分类视为一种模式识别问题,那末,从模式识别理论来看,模式分类是模式识别的一个子系统。因此,在模式识别理论框架下,无线电信号的调制识别是一个总体概念。而调制分类则只是调制识别的一个分支[1]。
1 基于决策理论的模拟调制方式识别方法
此算法主要实现区分AM、FM、DSB、LSB、USB、VSB、AM-FM等七种调制样式,所分析的对象序列s(n)是由接收机中频输出并经过采样得到的,这样s(n)的采样频率和载频都已知,分别记做Fs和Fc。算法分两个步骤:
第一步,根据信号的包络特征将AM、USB、LSB与FM区分开,因为前三种信号的包络不为恒定值,而FM的包络理论上是恒定值(实际中接近恒定)。因而可以从中提取一个特征参数R。参数R反映了零中心归一化包络的功率谱特征,FM的零中心归一化包络接近零,因其参数R应远远小于前三种信号。实际中若R
第二步,根据信号频谱的对称性,将AM与USB与LSB区分开,因为AM的单边频谱关于载频是近似对称的,USB和LSB的单边频谱对于载频来说分别只有上边频和下边频。因而可以从中提取另一个特征参数 。理论上,由于AM的上下边频对称,所以AM的P接近零,而LSB和USB的P分别接近1和-1。实际中若|P|< 0.5,判为AM信号,若P>0.5,判为LSB,P
第三步,零中心非弱信号段瞬时相位非线性分量绝对值的标准偏差:σap 。
σap由下式定义:
(1)
式中,at是判断弱信号段的一个幅度判决门限电平,c是在全部取样数据Ns中属于非弱信号值的个数,?准NL(i)是经零中心化处理后瞬时相位的非线性分量,在载波完全同步时,有:?准NL(i)= φ(i)-φ0
式中:,φ(i)为瞬时相位。用σap来区分是DSB信号还是AM-FM信号。
第四步,零中心非弱信号段瞬时相位非线性分量的标准偏差:σdp。
σdp由下式定义:
(2)
σdp主要用来区别不含直接相位信息的AM、VSB信号类和含直接相位信息的DSB、LSB、USB、AM-FM信号类,其判决门限设为t(σdp) 。
2 决策论方法的改进
前面介绍的基于决策理论的模拟调制方式识别方法存在缺陷针对上述问题,人们又提出了基于神经网络(NN)的识别方法。
2.1 BP网络作为分类器的模拟调制方式识别方法
该算法用基于有监督训练的神经网络模型BP网络作为分类器,用BP模型多层感知网络与反向传播学习算法相结合,通过不断比较网络的实际输出与指定期望输出间的差异来不断的调整权值,直到全局(或局部)输出差异极小值,不难想象该神经网络对模型细节中的诸多问题均有良好效果。
基于NN的模拟信号调制识别框图[2]如图1所示,该NN采用三层结构即,1个输入层,1个输出层,1个中间层。中间层可采用多层。但由于受到计算复杂性的限制,目前采用单层或双层中间层的NN比较多见。本图中间层采用单层25个节点,输入层和输出层的节点数取决于信号特征参数的个数和信号的分类数,因而分别为4和7。
神经网络具有信息分布式存储、大规模自适应并行处理和高度容错特性,适用于模式识别的基础。其学习能力和容错特性对不确定性模式识别具有独到之处[3]。通信信号在传播过程中受到信道噪声的污染,接受到的信号是时变的、非稳定的,而小波变换特别适用于非稳定信号的分析,其作为一种信息提取的工具已得到较广泛的应用。小波变换具有时频局部性和变焦特性,而神经网络具有自学习、自适应、鲁棒性、容错性和推广能力,两者优势的结合可以得到良好的信号模式自动识别特性,从而形成各种处理方法。
2.2 基于小波的特征提取和识别方法
小波特别适用于非稳定信号的分析,作为一种特征提取的工具已得到较为广泛的应用。小波的重要特点是它能够提供一个信号局部化的频域信息。小波变换能够将各种交织在一起的不同频率组成的混合信号分解成不同频率的块信号,它对不同的时间和频率有不同的解释,因此,对调制信号进行小波分解,得到不同水平下的细节信息,这些信息对于不同类别的调制信号来说是有差别的[4]。
在实际应用中,小波变换常用的定义有下列两种:
(3)
(4)
式中,星号*表示共轭。式(3)表示小波变换是输入信号想x(t)和小波函数φα, τ(t)的相关积分;式(4)用卷积代替了相关积分。两种定义在本质上是一致的。本为采用后者。
将式(4)中的τ和t离散化,即令τ=kTs,及t=iTs,得连续小波变换公式(4)的离散形式,又称小波系数:
(5)
Morlet小波是一种单频复正弦调制高斯波,也是最常用的复值小波。其实、频两域都具有很好的局部性,它的时域形式如下:
(6)
虽然信号特征有很多种,神经网络在进行信号识别时,主要是依据谱峰位置的不同,因此提取信号特征主要任务就是寻找信号类别与谱峰位置间的必然联系。而小波变换在这里则相当于一个数学显微镜,通过它,可以详细了解各类信号在不同低频段上的频谱构成。
整个系统在PC机上进行仿真,采用Windows2000操作系统和Matlab6.1和Cool Edit2.0进行声音录制。
在仿真中,采用44K的采样率,录制了一段歌声和一段笑声,用Matlab生成22K的正弦载波,并根据第二章的各调制样式的定义,生成了各个仿真的调制波形。并转化成.wav文件录在电脑中。
3 结束语
本文仅限于理论理论研究,用MatLab仿真实现,没有用DSP芯片等物理电路实现,仅为实际实现提供理论指导。
参考文献:
[1] 罗利春.无线电侦察信号分析与处理[M].北京:国防工业出版社,2003.
[2] 杨小牛,楼才义,徐建良.软件无线电原理与应用[M].北京:电子工业出版社,2001.
P键词关键词:视网膜;PCNN;血管分割;MATLAB;GUIDE
DOIDOI:10.11907/rjdk.161883
中图分类号:TP319
文献标识码:A 文章编号:1672-7800(2016)008-0068-03
0 引言
眼睛是人体接受外界信息最主要的器官,约75%左右的信息来源于视觉信息。因此,眼睛健康与否对人的学习、生活和工作的影响非常大。而眼底则是这个器官的重要组成部分,主要包括视网膜、脉络膜、黄斑和视盘等。眼底视网膜中的血管是人体内唯一可以非创伤的方式直接观察到的较深层微血管,其颜色、亮度、位置分布、形状以及曲率等变化可以直接反映出疾病对血管网络形态结构的影响,是心脑血管疾病对血管微循环检查的重要部位。因此,视网膜图像中血管网络的检测与分割对心脑血管疾病的诊断及治疗具有重要意义[1]。
由于该方法计算公式复杂,涉及参数较多,且目前主要使用编写脚本程序的方式进行视网膜眼底图像中的血管分割,各个参数的调整都要在脚本程序中进行,非常复杂,不便于可视化地观察实验结果变化。因此,设计开发一款界面友好、操作简单的视网膜血管分割系统是非常必要的。
MATLAB是一款由Mathworks公司推出的数学软件,它在数值分析、矩阵运算、数值拟合以及图形绘制等方面均有极其强大的功能,已被广泛应用于数字图像处理、信号处理和系统仿真等各个领域。同时,MATLAB 软件具有界面友好、操作简单的图形可视化界面设计工具,其集成图形用户界面GUIDE(Graphical User Interface Development Environment)包含了窗口菜单、对话框、按钮和文本等各种控件[2]。用户通过对控件进行布局,编写控件的回调函数即可实现GUI 与用户之间的交互,操作十分方便。
本系统在对视网膜眼底图像中的血管进行预处理并运用脉冲耦合神经网络(Pulse Coupled Neural Network,PCNN)迭代原理分割的基础上,利用MATLAB 的图形用户界面开发环境(GUIDE)实现了视网膜血管分割系统。该系统为医学图像研究提供了一种有效的视网膜血管分割方法,也为医学图像处理提供了一个操作方便的实验平台。
1 研究方法
首先是对视网膜眼底图像中的血管进行预处理,然后利用PCNN方法对视网膜图像中的血管进行分割。
1.1 视网膜血管图像预处理
所处理的视网膜图像为眼底视网膜RGB彩色图像,通过将RGB 彩色图像分解成红、绿、蓝三通道单色图像可以发现,绿色通道的视网膜图像中血管和背景对比度最高, 而红、蓝色通道的单色图像中噪声较多、对比度较低, 因此采用绿色通道的视网膜图像进行处理。
由于视网膜眼底图像是由专门的医学设备采集的,血管周围区域难免会对后续处理产生干扰,因此需要对视网膜图像进行有效区域的选取。将RGB图像进行二值化处理,使其归一化到[0,1]之间,再依次应用形态学中的开运算、闭运算和腐蚀操作,生成二值掩膜图像。
由于血管直径大小不一、背景干扰以及成像时光照不均等因素影响,使得血管与背景的对比度较低。为获得理想的分割效果,要对眼底图像进行预处理,以增强血管和背景的对比度。本系统主要采用对比度受限制的自适应直方图均衡化(CLAHE)[3]与二维高斯匹配滤波[4]方法对视网膜血管进行对比度的增强。
直方图均衡化(HE)的基本思想是通过图像的灰度分布直方图确定一条映射曲线,用来对图像进行灰度变换,以达到提高图像对比度的目的。然而HE是对图像全局进行调整的方法,不能有效提高局部对比度。为了提高图像的局部对比度,有研究者提出自适应直方图均衡化(AHE)方法,将图像分成若干子块,对子块进行HE处理。但是AHE 对局部对比度提高过大,将导致图像失真。为了解决这个问题,必须对局部对比度进行限制,这便是CLAHE方法。CLAHE处理后的图像既能体现不同位置灰度分布之间的差异,又能使全局灰度较为协调。
二维高斯匹配滤波的原理主要是根据血管曲率较小且宽度渐进改变这一特点,将血管近似分段为等宽度的线段,然后用高斯曲线模拟其横截面的灰度轮廓。由于血管方向具有任意性,因此需要旋转高斯曲线来匹配不同方向的血管。每30°旋转一次,得到从0°~180°的6个匹配滤波器,再分别与经过CLAHE处理后的图像进行卷积,选择其中最大的卷积值作为增强图像的像素值。
最后,将经过CLAHE处理之后的图像减去经过CLAHE、二维高斯匹配滤波后的图像,即可得到最终的预处理结果。
1.2 基于PCNN的视网膜血管分割
脉冲耦合神经网络 (PCNN ,Pulse Coupled Neutral Network)[5]是20世纪90年代形成和发展的与传统人工神经网络有着根本不同的新型神经网络,其模型直接来源于高级哺乳动物的视觉神经系统,具有现实的生物学依据,在图像处理与分析及计算机视觉领域中有着广泛应用。它不仅能够克服微小变化造成的影响,而且能够较完整地保留图像的区域信息。因此,使用PCNN进行视网膜血管图像分割具有一定优势。
本系统采用PCNN简化模型对视网膜图像血管自动分割,该模型不仅保持了原始模型的重要特性,而且减少了部分参数。用迭代公式可以描述为:
式中,Sij是外部刺激,即点(i,j)对应像素的灰度值,Fij是神经元的输入项,Lij、Uij、Yij、Eij分别是神经元的耦合连接输入、内部活动项、脉冲输出和动态阈值。VL为连接输入域的放大系数,β为神经元之间的连接强度系数,VE和αE分别为动态阈值的放大系数和衰减常数因子,W为连接加权系数矩阵。PCNN应用于眼底图像处理时,其神经元数目与图像像素数目一致,各神元与像素一一对应,像素的灰度值作为对应神经元的输入Sij。当连接加权系数矩阵W所在邻域内有相似灰度值像素时,若其中某个神经元点火产生脉冲输出,会引起邻域内相近灰度值像素对应的神经元点火,产生脉冲序列输出,这些输出脉冲序列构成的二值图像Y即为输出的分割图像。
2 系统设计思路及方法
根据上述分割过程,将系统设计成两大模块,分别对应于两个界面,主界面为视网膜图像预处理模块,子界面为视网膜血管分割模块。通过使用MATLAB GUIDE中的控件进行布局和编写相应的回调函数来实现各模块功能。
利用MATLAB GUI实现视网膜血管分割系统的过程可以分为GUI 图形界面布局和GUI 程序实现两部分[6]。对于界面布局,首先要考虑窗口大小、控件位置以及界面所要实现的功能及各控件需要完成的任务。完成控件的布局之后,接着应对控件属性进行设置,通过在相应的控件上双击鼠标左键,打开属性查看器,设置该控件属性。最后需要对各个控件进行回调函数的编写,这是界面设计的关键一步,直接影响界面各个功能的实现。
3 系统功能实现
3.1 视网膜图像预处理模块
视网膜图像预处理模块包括选择图片、选择RGB通道、CLAHE增强处理、二维高斯匹配滤波处理以及最终预处理结果5个子模块,如图1所示。
具体操作如下:界面初始化后自动加载一幅默认图片,也可以由用户选择其它图片;单击“选择图片”按钮,之后会弹出一个对话框,选择要载入的图片,可以看到图片显示在界面的左上角,文件名显示在图片正下方;然后选择彩色通道,默认为绿色通道,选择的通道图像显示在右边区域左上角。如果勾选 “生成掩膜”选项,则后面的运行结果均会显示出单击“生成掩膜”之后的图像,默认状态为未勾选;接下来需要进行CLAHE处理,以增强图像对比度。在这里,主要是对adapthisteq函数中的参数进行设置;最后单击“运行”按钮,结果显示在右边区域的右上角。在进行CLAHE处理之后,需要进行二维高斯匹配滤波处理,主要是对滤波核个数、血管半径及血管段长度进行设置,以进一步增强血管与背景的对比度;然后单击“运行”按钮,结果显示在右边区域的左下角;单击“最终预处理结果”按钮,结果显示在右边区域的右下角。
3.2 视网膜血管分割模块
视网膜血管图像分割模块主要是根据PCNN算法迭代原理,调节PCNN各个参数,对视网膜血管图像进行分割,如图2所示。
具体操作如下:单击主界面中的“PCNN分割”按钮,即可进入视网膜血管分割模块的界面;接着选择所需PCNN模型和核,并设置核的半径大小。若选择“原始模型”,则需要设置PCNN的6个参数,若选择“改进模型”,则只需设置PCNN的4个参数;之后设置迭代次数和beta的值,单击“运行”按钮,在弹出的对话框中,选择一幅迭代图片,将自动生成分割结果;对于分割后的结果,单击“保存”按钮,可以保存图片;最后单击“返回”按钮,可以返回主界面。
4 结语
基于MATLAB 软件在图形绘制、数值运算及可视化界面开发等方面的优势,在对视网膜眼底图像中的血管预处理并运用PCNN算法迭代原理进行分割的基础上,通过MATLAB GUI 设计完成了视网膜血管分割系统,可以实现视网膜血管图像的增强处理,进而利用脉冲耦合神经网络方法对视网膜血管图像进行分割。本系统提供了一种有效的视网膜血管分割方法,在医学图像研究方面具有一定参考价值。同时,系统具有界面友好、操作简单等特点,为医学图像处理提供了一个操作方便的实验平台。
参考文献:
[1] 姚畅,陈后金,李居朋. 基于过渡区提取的视网膜血管分割方法[J].电子学报,2008,36(5):974-978.
[2] 姚秀芳,崔松菲. 基于MATLAB GUIDE的程序设计[J]. 电脑知识与技术,2009,27(5):7767-7768.
[3] 陈萌梦,熊兴良,张琰,等. 1种视网膜眼底图像增强的新方法[J]. 重庆医科大学学报,2014,39(8):1087-1090.
[4] 姚畅,陈后金. 一种新的视网膜血管网络自动分割方法[J].光电子・激光,2009,20(2):274-278.
前 言
虽然目前公众媒体将无线通信炒的很热,但这个领域从1897年马可尼成功演示无线电波开始,已经有超过一百年的历史。到1901年就实现了跨大西洋的无线接收,表明无线通信技术曾经有过一段快速发展时期。在之后的几十年中,众多的无线通信系统生生灭灭。
20世纪80年代以来,全球范围内移动无线通信得到了前所未有的发展,与第三代移动通信系统(3g)相比,未来移动通信系统的目标是,能在任何时间、任何地点、向任何人提供快速可靠的通信服务。因此,未来无线移动通信系统应具有高的数据传输速度、高的频谱利用率、低功耗、灵活的业务支撑能力等。但无线通信是基于电磁波在自由空间的传播来实现信息传输的。信号在无线信道中传输时,无线频率资源受限、传输衰减、多径传播引起的频域选择性衰落、多普勒频移引起的时间选择性衰落以及角度扩展引起的空间选择性衰落等都使得无线链路的传输性能差。和有线通信相比,无线通信主要由两个新的问题。一是通信行道经常是随时间变化的,二是多个用户之间常常存在干扰。无线通信技术还需要克服时变性和干扰本文由收集由于这个原因,无线通信中的信道建模以及调制编码方式都有所不同。
1.无线数字通信中盲源分离技术分析
盲源分离(bss:blind source separation),是信号处理中一个传统而又极具挑战性的问题,bss指仅从若干观测到的混合信号中恢复出无法直接观测的各个原始信号的过程,这里的“盲”,指源信号不可测,混合系统特性事先未知这两个方面。在科学研究和工程应用中,很多观测信号都可以看成是多个源信号的混合,所谓“鸡尾酒会”问题就是个典型的例子。其中独立分量分析ica(independent component analysis)是一种盲源信号分离方法,它已成为阵列信号处理和数据分析的有力工具,而bss比ica适用范围更宽。目前国内对盲信号分离问题的研究,在理论和应用方面取得了很大的进步,但是还有很多的问题有待进一步研究和解决。盲源分离是指在信号的理论模型和源信号无法精确获知的情况下,如何从混迭信号(观测信号)中分离出各源信号的过程。盲源分离和盲辨识是盲信号处理的两大类型。盲源分离的目的是求得源信号的最佳估计,盲辨识的目的是求得传输通道混合矩阵。盲源信号分离是一种功能强大的信号处理方法,在生物医学信号处理,阵列信号处理,语音信号识别,图像处理及移动通信等领域得到了广泛的应用。
根据源信号在传输信道中的混合方式不同,盲源分离算法分为以下三种模型:线性瞬时混合模型、线性卷积混合模型以及非线性混合模型。
1.1 线性瞬时混合盲源分离
线性瞬时混合盲源分离技术是一项产生、研究最早,最为简单,理论较为完善,算法种类多的一种盲源分离技术,该技术的分离效果、分离性能会受到信噪比的影响。盲源分离理论是由鸡尾酒会效应而被人们提出的,鸡尾酒会效应指的是鸡尾酒会上,有音乐声、谈话声、脚步 声、酒杯餐具的碰撞声等,当某人的注意集中于欣赏音乐或别人的谈话,对周围的嘈杂声音充耳不闻时,若在另一处有人提到他的名字,他会立即有所反应,或者朝 说话人望去,或者注意说话人下面说的话等。该效应实际上是听觉系统的一种适应能力。当盲源分离理论提出后很快就形成了线性瞬时混合模型。线性瞬时混合盲源分离技术是对线性无记忆系统的反应,它是将n个源信号在线性瞬时取值混合后,由多个传感器进行接收的分离模型。
20世纪八、九十年代是盲源技术迅猛发展的时期,在1986年由法国和美国学者共同完了将两个相互独立的源信号进行混合后实现盲源分离的工作,这一工作的成功开启了盲源分离技术的发展和完善。在随后的数十年里对盲源技术的研究和创新不断加深,在基础理论的下不断有新的算法被提出和运用,但先前的算法不能够完成对两个以上源信号的分离;之后在1991年,法国学者首次将神经网络技术应用到盲源分离问题当中,为盲源分离提出了一个比较完整的数学框架。到了1995年在神经网络技术基础上盲源分离技术有了突破性的进展,一种最大化的随机梯度学习算法可以做到同时分辨出10人的语音,大大推动了盲源分离技术的发展进程。
1.2 线性卷积混合盲源分离
相比瞬时混合盲源分离模型来说,卷积混合盲源分离模型更加复杂。在线性瞬时混合盲源分离技术不断发展应用的同时,应用中也有无法准确估计源信号的问题出现。常见的是在通信系统中的问题,通信系统中由于移动客户在使用过程中具有移动性,移动用户周围散射体会发生相对运动,或是交通工具发生的运动都会使得源信号在通信环境中出现时间延迟的现象,同时还造成信号叠加,产生多径传输。正是因为这样问题的出现,使得观测信号成为源信号与系统冲激响应的卷积,所以研究学者将信道环境抽象成为线性卷积混合盲源分离模型。线性卷积混合盲源分离模型按照其信号处理空间域的不同可分为时域、频域和子空间方法。
1.3 非线性混合盲源分离
非线性混合盲源分离技术是盲源分离技术中发展、研究最晚的一项,许多理论和算法都还不算成熟和完善。在卫星移动通信系统中或是麦克风录音时,都会由于乘性噪声、放大器饱和等因素的影响造成非线性失真。为此,就要考虑非线性混合盲源分离模型。非线性混合模型按照混合形式的不同可分为交叉非线性混合、卷积后非线性混合和线性后非线性混合模型三种类型。在最近几年里非线性混合盲源分离技术受到社会各界的广泛关注,特别是后非线性混合模型。目前后非线性混合盲源分离算法中主要有参数化方法、非参数化方法、高斯化方法来抵消和补偿非线性特征。
2.无线通信技术中的盲源分离技术
在无线通信系统中通信信号的信号特性参数复杂多变,实现盲源分离算法主要要依据高阶累积量和峭度两类参数。如图一所示,这是几个常见的通信信号高阶累积量。
在所有的通信系统中,接收设备处总是会出现白色或是有色的高斯噪声,以高阶累积量为准则的盲源分离技术在处理这一问题时稳定性较强,更重要的是对不可忽略的加性高斯白噪声分离算法同时适用。因此,由高阶累积量为准则的盲源分离算法在通信系统中优势明显。
分离的另一个判据就是峭度,它是反映某个信号概率密度函数分布情况与高斯分布的偏离程度的函数。峭度是由信号的高阶累积量定义而来的,是度量信号概率密度分布非高斯性大小的量值。
关键词:人工智能 心血管 超声
大数据是现代医学模式的重要特征。在这种医疗模式下,要求医疗人员在确保患者安全和健康的同时追求效率的最大化[1]。对于高分辨率的医学影像成像,集中体现在医务人员快速、准确、有效地解释影像数据(包括肉眼可见和不可见),挖掘利于诊断和治疗的有用信息。在此背景下,人工智能(artificial intelligence,AI)应运而生,它为促进图像采集、测量、报告和随后的临床路径以及影像和临床数据的整合提供了有效手段[2]。心血管影像的精确性成为AI临床应用中的主要领域之一,本文对此作一综述。
1 人工智能及其在医学上的应用
AI是一个广义的术语,指的是机器或计算程序执行具有人类智能特征的任务的能力,如模式识别和解决问题的能力等。AI可以通过弥补人类智能,使现有医疗诊断和预后价值最大化,同时使医师负担最小化,从而显着改善健康诊疗过程和结果。AI在临床实践中的应用预示着医学领域一个更为剧烈变化时代的到来,在影像学方面尤其如此。一项通过分析科学网数据库的研究[3]发现,目前AI在医学的研究领域主要集中在大数据分析、脑卒中康复、心脏手术和医疗诊断和预后预测等方面。其中,用于医学诊断、预后预测和分类的神经网络和支持向量机是主要热点,占所有文献的26%;而未来最引人关注的研究主题是基于AI的微创手术。然而,关于AI数据管理、模型可靠性、模型临床效用验证等问题尚未进行广泛研究。
2 人工智能的机器学习法
大数据是一个经常用来描述大量收集数据的术语,如来自大型生物信息库的基因组数据、电子健康记录档案和大型研究队列数据以及影像学扫描数据等。AI系统通过识别和提取一组观测数据(数据集)的模式来自主获取知识的过程称为机器学习(machine learning,ML)。ML是人工智能的一个组成部分,描述为计算机从经验中学习的过程,并在没有事先知识的情况下执行预定的任务[4]。机器学习可以进一步分为监督学习、半监督学习和无监督学习,这取决于用于学习的样本是否完全标记、部分标记或未标记。ML的典型例子是人工神经网络,后者基于人类大脑的神经元及其连接,神经元之间的相互依赖关系反映出不同的权重,每个神经元接受多个输入,所有的输入一起决定了神经元的激活。通过样本训练找到这些合适权重的过程就是学习。学习过程的复杂性和所需的样本量随着神经元数量的增加而增加。由于计算能力和样本大小的限制,机器学习应用程序的成功依赖于从原始样本中手工提取特征来减少神经元的数量。为了解决这一问题,人们提出了深度学习的方法,即自动学习代表性的样本。深度学习是指一种特别强大的ML方法,它利用卷积神经网络模拟人类的认知,常用于影像模式识别和分类。
模型训练是所有ML类型的共同过程,它是利用模型分析所提供的数据中的各种特性来学习如何生成输出标签的过程[5]。如在超声心动图中,一个模型可以分析各种特征,如左心室壁厚度和左心室射血分数,以确定患者是否具有特定的条件。然而,在分析中包含不相关的特征可能会导致模型过度拟合,从而在呈现新数据集时降低其准确性。这强调了拥有一个能够代表总体的训练数据集的重要性。数据集的质量对于最终ML模型的质量至关重要。尽管ML算法可以使用小数据集或大数据集进行训练,但大数据集可以最大限度地提高训练算法的内部和外部有效性,降低过度拟合的风险。正确模型的选择通常取决于操作员的专业知识、数据集的性质和最终人工智能系统的目的。
3 人工智能在心血管超声的应用
心血管成像领域,包括超声心动图、心脏计算机断层扫描、心脏磁共振成像和核成像,具有复杂的成像技术和高容量的成像数据,处于精准心脏病学革命的前沿。然而,在基于AI的临床转化方法中,心血管成像一直落后于肿瘤学等其他领域。人工智能在超声心动图中的应用包括自动心室定量和射血分数计算、应变测量和瓣膜形态及功能评估以及ML在心脏疾病自动诊断中的应用。
3.1 心室定量和EF自动化。
自动心室量化和EF计算的算法旨在提供准确、快速和可重复的心尖视图分类、解剖标志检测、心室壁分割和心内膜跟踪。有研究[6]比较了AI软件自动测量(AutoEF)和手工追踪双平面Simpson法测量左室EF的准确性,并与心脏MRI进行了比较。结果表明AutoEF与手动双平面Simpson法测得的EF相关性较好,且与MRI相关性良好,但AutoEF低估了左室舒张末期容积(EDV)和收缩期末期容积(ESV)。此外,在不同切面,测量的准确性存在差异,以胸骨旁长轴切面的准确性最高,达96%,而在心尖切面时整体精度降低(84%)。腔室定量和左室EF测量的中位数绝对偏差在15%~17%,其中ESV的绝对偏差最小;左房容积和左室EDV被高估。
3.2 心肌运动和应变测量。
Kusunose等[7]研究发现与传统二维超声心动图相比,利用深度卷积神经网络可更好的检测区域壁运动异常并区分冠状动脉梗死区域。Cikes等[8]利用复杂超声心动图数据(整个心动周期的左室容积和变形数据,而不是单个数据点)和临床参数的ML算法识别心衰并对心脏再同步化治疗的反应进行评估,证实通过整合临床参数和全心周期成像数据,无监督的ML可以为表型异质性心力衰竭队列提供一个有临床意义的分类,并可能有助于优化特定治疗的反应率。另有研究证实[9-10],ML算法有助于区分缩窄性心包炎、限制性心肌病以及肥厚性心肌的重塑。Zhang等[11]采用AI软件和手工勾画对左室心肌的纵向应变进行了比较研究。发现AI自动测量的心肌全局纵向应变与手动应变变化最小(绝对值为1.4%~1.6%)。
3.3 心脏瓣膜评估。
有学者[12]采用AI软件对二尖瓣几何形状进行测量,测量参数包括二尖瓣环面积、瓣环高度和宽度、瓣叶连合间距、前后叶长度等。发现相对于常规超声心动图,所有评估的成像参数均获得了更好的观察者间一致性,而且所花费的时间明显较少。Prihadi等[13]研究证实,经食管超声心动图AI软件能够精确地对主动脉瓣结构以及冠状动脉开口进行测量和定位,且与多层螺旋CT的测量结果具有良好的相关性。
4 展望
在海量医学信息和影像数字化日益积累的现代医学时代,AI和ML为疾病诊断和风险预测等问题提供了新的解决方案。通过AI对超声心动图数据进行预测、建模和精确分析,可以帮助超声医师快速、准确地处理大量心脏超声影像学数据,既有利于应对当前医疗信息数量的急剧增长,又有利于提高处理数据信息的能力。未来,针对AI的研究应关注超声图像数据特征定义及其提取方法的标准化,以确保可推广性和可再现性,促进AI向更加个性化的医疗模式转变。此外,AI系统与远程医疗等软件的集成,将使智能心脏超声诊断系统渗透到资源消耗负担最繁重的地区,提高经济效益。
参考文献
[1]Oikonomou EK,Siddique M,Antoniades C.Artificial intelligence in medical imaging:A radiomic guide to precision phenotyping of cardiovascular disease[J].Cardiovasc Res,2020,Feb 24;cvaa021.
[2]Dey D,Slomka PJ,Leeson P,et al.Artificial Intelligence in Cardiovascular Imaging:JACC State-of-the-Art Review[J].J Am Coll Cardiol,2019,73(11):1317-1335.
[3]Tran BX,Latkin CA,Vu GT,et al.The Current Research Landscape of the Application of Artificial Intelligence in Managing Cerebrovascular and Heart Diseases:A Bibliometric and Content Analysis[J].Int J Environ Res Public Health,2019,16(15):2699.
[4]Gandhi S,Mosleh W,Shen J,et al.Automation,machine learning,and artificial intelligence in echocardiography:A brave new world[J].Echocardiography,2018,35(9):1402-1418.
[5]Alsharqi M,Woodward WJ,Mumith JA,et al.Artificial intelligence and echocardiography[J].Echo Res Pract,2018,5(4):R115-R125.
[6]Xu B,KocyigitD,Grimm R,et al.Applications of artificial intelligence in multimodality cardiovascular imaging:A state-of-theart review[J].Prog Cardiovasc Dis,2020,19;S0033-0620(20)30060-8.
[7]Kusunose K,Abe T,Haga A,et al.A Deep Learning Approach for Assessment of Regional Wall Motion Abnormality From Echocardiographic Images[J].JACC Cardiovasc Imaging,2020,13(2 Pt 1):374-381.
[8]Cikes M,Sanchez-Martinez S,Claggett B,et al.Machine learningbased phenogrouping in heart failure to identify responders to cardiac resynchronization therapy[J].Eur J Heart Fail,2019,21(1):74-85.
[9]Narula S,Shameer K,Salem Omar AM,et al.Machine-Learning Algorithms to Automate Morphological and Functional Assessments in 2D Echocardiography[J].J Am Coll Cardiol,2016,68(21):2287-2295.
[10]Sengupta PP,Huang YM,Bansal M,et al.Cognitive machine-learning algorithm for cardiac imaging:a pilot study for differentiating constrictive pericarditis from restrictive cardiomyopathy[J].Circ Cardiovasc Imaging 2016,9(6):e004330.
[11]Zhang J,Gajjala S,Agrawal P,et al.Fully automated echocardiogram interpretation in clinical practice[J].Circulation,2018,138(16):1623-1635.
关键词:信息融合;多传感器;移动机器人;定位
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2017)04-0171-02
The Study of Multi-sensor Information Fusion bested on Localization of Mobile Robot
FAN Chun-mei
(Shaoguan University, Shaoguan 512026, China)
Abstract:Robot localization is one of the most important issues to tackle in navigation. In order to meet the requirement of accurate localization,a localization method based on multi-sensor information fusion is proposed.The advantage and the method of theory of multi-sensor information fusion technology in detail is described in text, especially it gives an in-depth discussion to comparition of technologies. At last, future development trends of this technology are also presented.
Key words: mobile robot; multiCsensor; information fusion; location
1 引言
智能移踊器人是能够通过传感器控制行为与执行命令,感知环境,感知自身状态等的机器人系统。它的定位技术研究的是创建地图、同步定位、路径规划等。
移动机器人定位技术除了可以利用传感器确定机器人的位置信息,周围环境信息,还可以采用信息融合算法通过对信息整合后确定目的地,根据所建立的模型找出合适的路径。
由于移动机器人技术在多个领域占据举足轻重的地位,如:遥感,工业,医疗系统,金融系统,外星探测等。本文指出定位技术的优越性,对定位技术的常用方法进行详细对比,并进一步地探讨其发展趋势。
2 信息融合基本概念及优越性
信息融合可定义为:利用计算机技术对多个和/或多类传感器信息按一定准则加以协调管理、自动分析、优化综合以完成目标检测识别、态势描述、威胁评估、判断决策等任务而进行的信息处理以及传感器与数据库的管理过程。
信息融合技术从理论结合实际出发,在多个领域的应用中体现了它无可厚非的优越性:增加系统的生存能力,改善系统的可靠性,扩展时间、空间覆盖范围,信息处理速度快,提升系统对抗性能,信息获取成本低等。
3 基于多传感器的信息融合技术的理论方法
3.1 多传感器信息融合技术的常用方法
3.2 信息融合技术的比较
3.2.1 加权平均法
优点:实现简单,运算量小。
缺点:在不同的传感器能够独立进行定位时才有效,应用受限制。
3.2.2 Bayes推理方法
优点:Bayes网络推断有许多精确方法和近似方法,参数自适应和结构自适应方法。
缺点:所有要求的数据都必须是独立的,会给系统造成比较大的困难;在系统中增减一个规则时,需要重新计算所有的概率,才能保证系统的相关性和一致性。
3.2.3 Kalman滤波
优点: 可以估计平稳的一维随机过程和非平稳的多维随机过程,适合于实时处理并可减少实时在线计算量。它被广泛应用于制导系统、定位系统、通遥感、金融等。
缺点:只适用于线性系统,并且要求观测方程也必须是线性的。
3.2.4 扩展Kalman 滤波
优点:1)计算速度快,存储量低,在工程应用方面有明显的优势;2)在高斯白噪声且非线性强度低的环境中,算法稳定、收敛速度较快、估计精度较高;
缺点:1)需要计算雅可比矩阵,而且在非线性强度大的环境中,线性化容易增大,估计精度会明显下降,甚至发散;2)当初始状态相对误差较大时,扩展Kalman滤波很不稳定、收敛速度慢、估计精度较高;3)在复杂的非高斯环境中,扩展Kalman滤波算法也不适用。
3.2.5 Unscented 滤波
优点:1)对于非线性系统,与扩展Kalman滤波比较起来,Unscented 滤波不需要计算矩阵的雅可比式,计算简单且更容易实现;2)对高斯型密度函数可以精确估计到三阶,对非高斯型密度函数可以精确估计到二阶,因此其估计精度比一阶扩展 Kalman滤波更高,和二阶扩展 Kalman滤波相同。
缺点:滤波稳定性有待提高。
3.2.6 Dempster-Shafer证据推理
优点:可以不需要先验概率和条件概率密度,对于不确定性问题能够很好地表示及处理。
缺点:组合爆炸问题;有限辨识框架及证据体独立性问题;高冲突证据组合问题[1]。
3.2.7 模糊逻辑
优点: 不需要建立精确的数学模型;具有较强的鲁棒性;控制器成本低且容易操作。
缺点: 获取和建立模糊规则,模糊建模不容易得到有效解决;对于模糊控制器的参数和结构,也不容易依据系统综合指标来设计。
3.2.8 产生式规则
优点:自然性,模块性,有效性与清晰性。
缺点:规则之间的相互限制有可能使效率降低;结构性知识不能表达出来;不提供实际解释。
3.2.9 小波变换
优点:1)满足能量守恒方程的线形运算,2)小波变换相当于一个具有放大、缩小和平移等功能的数学显微镜,通过检查不同放大倍数下信号的变化来研究其动态特性;3)小波变换是稳定的,是一个信号的冗余表示。具有统一性和相似性,其正反变换具有完美的对称性。小波变换具有基于卷积和QMF的塔形快速算法。
缺点:在不同尺度上得到的逼近信号特征之间存在差异,小波变换时采用以个基函数导出的小波函数难以在不同尺度上准确地逼近局部信号特征,因此降噪预处理时的重构信号会丢失原有的时域特征[2]。
3.2.10 人工神经网络方法
优点:泛化能力强,稳定性高,容错性好,快速有效[1]。
4 信息融合技术的研究结果
加权平均法在单传感器系统中应用更具有优越性;Kalman滤波,Unscented滤波能够有效解决图像融合以及图像与非图像信息融合等技术研究上的热点;小波变换对于提高融合精度具有可实现性;模糊逻辑,人工神经网络可以很好地提高Kalman滤波算法的鲁棒性; Dempster- Shafer有效解决 Bayes方法的多种弊端,可以看成是 Bayes方法的改进与延伸,多种方法的分工合作与相互补充能很好的提高机器人系统的性能,因此,实现多种方法间优势的结合能让机器人定位技术取得理想的效果。
5 信息融合研究的难点问题
信息可否融合的准则及降低二义性的方法有待于解决;因主动辐射增多,系统总体易暴露; 获取基本概率赋值和系统的建立与管理是信息融合系统的设计难点;等等。
6 发展趋势
由于并行体结构是传感器结构的发展方向,因此,多传感器信息融合技术的发展趋势之一是并行计算能力的软、硬件的开发及应用。 由于多传感器信息融合算法大多集中于平稳随机过程,而且是线性分布的,因此,提高系统性能,研究并改进算法,以便于实现非平稳、非线性分布的信息融合算法。目前,基于多传感器信息融合的移动机器人主要实现了室内环境的定位与导航。关于传感器的布置,系统的建立与管理,行驶路线的规划以及机器人的自定位等方面仍需要更进一步的研究,尤其是移动机器人在非室内环境中的定位技术更是今后的研究方向。
参考文献:
关键词:图像识别;OCR;题库采集;移动终端;特征建模
中图分类号:G434 文献标识码:A 论文编号:1674-2117(2016)12-0075-04
采集题库的现状
随着经济和社会的发展、“互联网+”的广泛应用及教育观念的更新,我们迫切需要科学、方便、完善的网络型题库管理系统。试题库建设是教育现代化的需要,是考教分离、最大限度提高办学效益的需要,因此,进行区域网络试题库系统的建设和研究具有十分重要的意义。
受限于教材版本和区域应用层面的需求,采购商业化的题库并不能完全满足教育教学的实际要求。手握大量纸质试卷的老师们,迫切需要一个录入神器,方便快捷地将其录入到题库系统里。
利用基于移动终端的图像文字识别技术将文字和图片迅速录入题库是我们在移动端系统开发的应用亮点。它能够大幅提高对质量不高图像的识别率,其关键算法对图像的噪声、亮度明暗不一致和规格凌乱的问题进行了很好的处理。它能够将图像上传到服务器进行在线识别,在识别过程中先对图像进行消噪,然后对亮度进行均衡处理及对图像阈值分割,提高了图像识别的成功率。
题库采集系统工作流程
题库采集主要分为图像采集、图像识别和标注三个过程。整体的工作流程包括:①系统启动,进入主界面,可选择开始拍摄阅卷或读取设备中已有的图像,如选择拍摄题目,进入图像采集模块,调用移动设备的摄像头进行拍摄,拍摄成功后,跳转至识别界面,如选择读取相册已有图像也跳转至识别界面。②在识别界面上显示出拍摄或者读取的相册图像,首先调用图像预处理模块对图像进行预处理,输出预处理后的图像,然后调用图像校正模块对预处理图像进行校正,输出校正图像,最后调用图像识别模块对校正图像进行识别,输出识别结果。③调用标注模块对识别结果进行分类管理,为题目添加系统属性,如学科、章节、知识点类目、题型、难度系数等标签。图1为题库采集系统工作流程示意图。
OCR智能模型设计思路
在人工智能领域,模拟人类图像识别活动的计算机程序,人们提出了不同的图像识别模型――模板匹配模型。这种模型认为,识别某个图像,必须在过去的经验中有这个图像的记忆模式,又叫特征模型。当前的刺激如果能与大脑中的模型相匹配,这个图像也就被识别了。例如,有一个字母A,如果在脑中有个A模板,字母A的大小、方位、形状都与这个A模板完全一致,字母A就被识别了。图像识别中的模型识别(Pattern Recognition)利用计算机和数学推理的方法对形状、模式、曲线、数字、字符格式和图形自动完成识别、评价的过程。
那么如何通过模型的学习提高OCR的智能判断水平呢?我们主要从以下三个方面做了实践研究。
1.采集识别优化
(1)二值化处理
二值图像在数字图像处理中占重要地位,其在处理实际图像过程中地位更加突出。要应用二值图像,扫描文档之后的第一步就是对灰度图像根据所选阈值进行二值化处理。二值图像是像素值为0或255的像素点集合,如此一来,图像的数据量大大减少,但图像的基本轮廓信息得以保留。此项的关键是所选取的阈值是否得当,不当则会减弱二值图像的处理效果。常用的阈值选取方法有固定阈值法、平均阈值法、直方图法、Means法四种。
谷歌公司在HP公司Tesseract光学字符识别引擎的基础上做了深度加工,其中对阈值的自适应分类器和两步矫正法的应用大大提高了文本的识别效率。近几年来,百度针对商业运用开发了自然场景OCR API服务,依托百度的OCR算法,提供了整图文字检测、识别、整图文字识别、整图文字行定位和单字图像识别等功能。目前火热的作业帮APP就是基于百度识别API做的延伸产品(如图2)。
(2)图像去噪与矫正
任何一幅原始图像,在其获取和传输的过程中,都会受到各种噪声的干扰,使图像质量下降,淹没其特征,对图像分析非常不利。为抑制噪声、改善图像质量所进行的处理被称为图像平滑或去噪。
图像平滑是用于突出图像的宽大区域和主干部分(低频部分)或抑制图像噪声和干扰(高频部分),使图像平缓渐变,减小突变梯度,改善图像质量的图像处理方法。它属于图像增强的一部分,主要的图像平滑方法有均值滤波、中值滤波、灰度形态学滤波、小波滤波、高斯低通滤波以及统计方法滤波。
已获得的文本图像有些不可避免地会发生倾斜,这样会给后面文字的行切分和列切分以及文字的识别带来困难,所以需要对获取的图像进行倾斜校正。图像的倾斜校正最关键的是倾斜角的检测,我们主要采用平行四边形法进行文本图像的校正(如图3)。根据拍摄者给出的一系列文件位置点,用位置点的坐标结合模型拟合出文本线,根据文本线与水平线之间的差距进行精确恢复,以得到水平分布的文本行。
2.特征提取与建模
特征提取是图像识别的重要步骤,为了保证后续处理的质量,生成的特征要具备描述物体的典型特性,如独特性、完整性、几何变换下的不变性、灵敏性以及抽象性。我们设计的系统的特征模型包括文字特征、图片特征、公式特征等。
提取图像特征关系可以有两种方法:一是对图像进行合理地分割,划分出图像中所包含的对象或区域,然后根据这些区域提取图像特征,并建立索引;二是简单地将图像均匀地划分为若干规则子块,然后对每个图像子块提取特征,并建立索引。
图像特征建模的基本原则是根据图像的视觉内容和可获得的指导信息来确定对应的文本语义描述。在图像标注任务中会涉及两种不同的媒体:一是图像,二是文本。这两种媒体具有良好的互补性,可以协作传递信息,正所谓“图文并茂”。由这两种媒体可以产生4种关系,即图像间关系(IIR)、词间关系(WWR)、由图像到词的关系(IWR)和由词到图像的关系(IR)。
3.基于标注模型的学习与训练
我们通常采用两两图像之间的视觉相似性(pairwise similarity)来建立以图像为节点的相似图,但这种方式由于没有考虑到数据集或某个数据子集内的结构分布信息,效果不能令人满意。因此我们引入了第二个以词为节点的图学习过程,用来实现对图像标注的改善。
最常见的是属性相关性,如“李白”是“古诗文”的关系。除此之外,词汇之间还存在多种相关性,如“凸透镜”与“光”之间有着很强的联系,这种相关性不依赖于特定数据集,它是人们在生活中大量知识的积累和反映。当一幅图像已被标为“凸透镜”“光”等词汇后,初中物理作为该图像标注词汇的概率就会相应提升。为了获取这种相关信息,一种方法是从训练数据集中利用已标注词汇间的共生概率来计算词汇间的关系。该方法基于已标注信息,相对准确,但它不能反映更广义的人的知识。于是,我们可以采用另一种方法,利用具有大量词汇的、包含了人的知识的结构化电子词典来计算词汇间的关系。与统计方法相比,词典包括了更加完整的大数据关联信息。由此我们设计了基于标注的模型学习体系(如下页图4),通过提取题目图像的特征点绑定其隐形属性,再与拍摄者提供的显性属性做比对,进行数据建模,并引导系统修正其三大特征库(文字、图片、公式),实现自我学习。
需要注意的是,基于标注信息描述由图到标签的关系,更适合按照多标记分类(multilabel classification)问题来解决。具体而言,假设标注词汇服从多项式分布,由此将图像标注归为多类别分类问题,而题库的分类方式恰恰符合这样的多标记模型(相对固定是显性标签:学科、学段、知识点、章节、难度等)。
注意事项
1.基于API方式的接入能使产品得到快速开发
例如,当前百度通过专业服务分发平台APIStore开放百度文字识别技术,让开发者可以零成本使用基于移动应用的OCR技术,为开发者创新应用提供了更多的选择。
2.题库特征建模要考虑学科特征
实践证明,文科和理科的题目有着截然不同的特征属性,如语文更注重词汇与语法方面的训练,而数学包含了大量的公式和二维化的图像。往往数学在小学和中学阶段的题目也会表现出不同的特征属性,在建模的同时要注意抽取。
3.未来的方向是要构建基于题库图像模型的题库推送规则
当题库的建构达到一定数量之后,我们要将图像和翻译成的题目都保存下来,再根据拍摄者的需求做相关的推送,根据其使用的情况(如点击率、评价等)再对模型进行修正。
从目前的技术发展角度看,突破性来自于机器语言翻译方面的研究成果:通过一种递归神经网络(RNN)将一种语言的语句转换成向量表达,并采用第二个RNN将向量表达转换成目标语言的语句。而谷歌将以上过程中的第一种RNN用深度卷积神经网络CNN取代,这种网络可以用来识别图像中的物体。此种方法可以实现将图像中的对象转换成语句,对图像场景进行描述。概念虽然简单,但实现起来十分复杂,科学家表示,目前实验产生的语句合理性不错,但还远谈不上“完美”,这项研究目前还处于起步阶段。相信在不久的将来此项发明将应用于教学领域,那么基于云模式下的图像识别系统将得到一个质的飞跃,它也将使图像识别与深度学习更加紧密地联系在一起,最终实现系统对互联网上教育资源摘取和自学习的强大功能。
参考文献:
[1]黄明明.图像局部特征提取及应用研究[D].北京:北京科技大学,2016.
[2]刘淼,杨镇豪,谢韵玲,谢冬青,唐春明.Android图文同步识别系统的设计和实现[J].计算机工程与设计,2014(06).
[3]李龙卓.基于形状特征的图像检索技术研究[D].青岛:青岛科技大学,2015.
[4]付芦静,钱军浩,钟云飞.基于汉字连通分量的印刷图像版面分割方法[J].计算机工程与应用,2015(05).
关键词:麦克风阵列,阵列信号处理,语音增强
(一)引言
在日常生活和工作中,语音通信是人与人之间互相传递信息沟通不可缺少的方式。近年来,虽然数据通信得到了迅速发展,但是语音通信仍然是现阶段的主流,并且在通信行业中占主导地位。在语音通信中,语音信号不可避免地会受到来自周围环境和传输媒介的外部噪声、通信设备的内部噪声及其他讲话者的干扰。这些干扰共同作用,最终使听者获得的语音不是纯净的原始语音,而是被噪声污染过的带噪声语音,严重影响了双方之间的交流。
应用了阵列信号处理技术的麦克风阵列能够充分利用语音信号的空时信息,具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点,逐渐成为强噪声环境中语音增强的研究热点。美国、德国、法国、意大利、日本、香港等国家和地区许多科学家都在开展这方面的研究工作,并且已经应用到一些实际的麦克风阵列系统中,这些应用包括视频会议、语音识别、车载声控系统、大型场所的记录会议和助听装置等。
本文将介绍各种麦克风阵列语音增强算法的基本原理,并总结各个算法的特点及存在的局限性。
(二)常见麦克风阵列语音增强方法
1.基于固定波束形成的麦克风阵列语音增强
固定波束形成技术是最简单最成熟的一种波束形成技术。论文大全,阵列信号处理。论文大全,阵列信号处理。1985年美国学者Flanagan提出采用延时-相加(Delay-and-Sum)波束形成方法进行麦克风阵列语音增强,该方法通过对各路麦克风接收到的信号添加合适的延时补偿,使得各路输出信号在某一方向上保持同步,使在该方向的入射信号获得最大增益[1]。此方法易于实现,但要想获取较高的噪声抑制能力需要增加麦克风数目,并且对非相干噪声没有抑制能力,环境适应性差,因此,实际中很少单独使用。后来出现的微分麦克风阵列(DifferentialMicrophone Arrays),超方向麦克风阵列(Superairective MicrophoneArrays)和固定频率波束形成(Frequency-InvariantBeamformers)技术也属于固定波束形成。
2.基于自适应波束形成器的麦克风阵列语音增强
自适应波束形成是现在广泛使用的一类麦克风阵列语音增强方法。最早出现的自适应波束形成算法是1972年由Frost提出的线性约束最小方差(LinearlyConstrained Minimum Variance, LCMV)自适应波束形成器[2]。其基本思想是在某方向有用信号的增益一定的前提下,使阵列输出信号的功率最小。在线性约束最小方差自适应波束形成器的基础上,1982年Griffiths和Jim提出了广义旁瓣消除器(GeneralizedSidelobe Canceller, GSC)[3],成为了许多算法的基本框架(图1)。
图1 广义旁瓣消除器的基本结构
广义旁瓣消除器是麦克风阵列语音增强应用最广泛的技术,带噪声的语音信号同时通过自适应通道和非自适应通道,自适应通道中的阻塞矩阵将有用信号滤除后产生仅包含多通道噪声参考信号,自适应滤波器根据这个参考信号得到噪声估计,最后由这个被估计的噪声抵消非自适应通道中的噪声分量,从而得到有用的纯净语音信号。
如果噪声源的数目比麦克风数目少,自适应波束法能得到很好的性能。但是随着干扰数目的增加和混响的增强,自适应滤波器的降噪性能会逐渐降低。
3.基于后置滤波的麦克风阵列语音增强
1988年Zelinski将维纳滤波器应用在了麦克风阵列延时—相加波束形成的输出端,进一步提高了语音信号的降噪效果,提出了基于后置滤波的麦克风阵列语音增强方法[4](图2)。基于后置滤波的方法在对非相干噪声抑制方面,具有良好的效果,还能够在一定程度上适应时变的声学环境。它的基本原理是:假设各麦克风接收到的目标信号相同,接收到的噪声信号独立同分布,信号和噪声不相关,根据噪声特性,依据某一准则实时更新滤波器权系数,对所接收到数据进行滤波,从而达到语音增强的目的。
图2 结合后置滤波的固定波束形成器
后置滤波方法存在以下不足:首先,算法的性能受到时延误差的影响,使增强后的语音信号有一定失真。其次,该方法对方向性的强干扰抑制效果不佳。后置滤波方法极少单独使用,常与其他方法联合使用。文献[5]研究了后置滤波和通用旁瓣对消器结合使用的问题。论文大全,阵列信号处理。
4.基于近场波束形成的麦克风阵列语音增强
当声源位于麦克风阵列近场(即阵列的入射波是球面波)情况下,声波的波前弯曲率不能被忽略,如果仍然把入射声波作为平面波考虑,采用常规的波束形成方法来拾取语音信号,那么麦克风阵列系统输出效果会很不理想。解决这个问题,最直接的方法就是根据声源位置和近场声学的特性,对入射声波进行近场补偿[6],但是这种方法需要已知声源位置,这在实际应用中难以是满足。由于近场声学的复杂性,目前有关近场波束形成麦克风阵列语音增强方法的研究相对较少。
5.基于子空间的麦克风阵列语音增强
子空间方法的基本思想是计算出信号的自相关矩阵或协方差矩阵,然后对其进行奇异值分解,将带噪声语音信号划分为有用信号子空间和噪声子空间,利用有用信号子空间对信号进行重构,从而得到增强后的信号。由Asano等提出的基于相干子空间的麦克风阵列语音增强方法是一种典型的子空间方法[7]。该方法首先将语音信号划分到不同频带,然后在每个频带再利用空间信息,进行子空间处理。
基于子空间的麦克风阵列语音增强方法虽然降噪性受噪声场是否相关影响较小,在相干和非相干噪声场中均有一定的消噪效果,但是由于计算量较大,实现实时处理具有一定困难。
6.基于盲源分离的麦克风阵列语音增强
在很多实际应用中,信号源情况和信道的传递参数都很难获取,盲源分离技术(BlindSource Separation, BSS)就是在这种需求下提出的。盲源分离是根据输入源信号和干扰的统计特性,从传感器阵列接收到的混合信号中提取出各个独立分量的过程。法国学者Herault.J和Jutten.C在信源与信道先验条件未知的情况下,利用人工神经网络分离出了有用信号,开创了盲源分离的先河[8]。目前为止,已有许多学者将盲源分离技术应用于麦克风阵列语音增强。论文大全,阵列信号处理。
经过二十多年来国内外学者的不断深入研究,盲源分离技术已经取得了巨大的进步和发展,对盲信号分离问题的研究己经从瞬时混迭模型扩展成为线性卷积模型和非线性瞬时混迭模型,但是由于盲源分离仍属一个新兴的研究方向,理论上还不成熟,这类方法一般运算量大,全局收敛性和渐进稳定性有待加强,距离实际应用有一段距离。
7.其他方法
90年代以来,一些学者将各种信号处理算法与麦克风阵列技术相融合,各种语音增强算法不断涌现,诸如倒谱分析、小波变换、神经网络、语音模型等方法已经在语音信号处理领域得到应用。虽然这些方法从不同角度对语音增强系统的性能进行了不同程度的改善,但大多计算量庞大,不适合时变性较强的声学环境,而且在需要实时处理的场合,对硬件的要求也将大大提高。论文大全,阵列信号处理。
近些年国内一些高校,如清华大学,大连理工大学,电子科技大学,西安电子科技大学等也做了一些关于麦克风阵列技术的研究工作,取得了一定的研究成果。张丽艳等提出一种改进的麦克风阵列倒谱域语音去混响方法,改善混响环境下的语音质量[9]。崔玮玮等提出一种基于一阶差分麦克风阵列的实时噪声谱估计和抵消方法,提高输出信噪比的同时降低了计算量[10]。曾庆宁等将阵列交叉串扰信号的自适应噪声抵消方法应用于麦克风阵列语音增强,适用于在多种噪声环境中实时实现[11]。
(三)结论
语音信号增强是诸如智能控制、办公自动化、多媒体消费品等领域的关键技术之一,将麦克风阵列技术应用于语音增强,能够取得传统单麦克风难以达到的增强效果。论文大全,阵列信号处理。语音信号作为一种宽带的非平稳信号,在传输过程中不可避免地会受到各种噪声的干扰,所以采用麦克风阵列系统时需满足在一个比较宽的声域范围抑制各种噪声干扰,减少语音的失真,同时也要降低系统成本和计算时间,以达到较好的实时性和实用性。在实际应用中应根据具体的使用环境的噪声特性,设计合适的麦克风阵列结构,选择最佳的算法及其具体的实现形式。
【参考文献】
[1]Flanagan J L, JohnstonD J, Zahn R, et al. Computer-steered microphone arrays for sound transductionin large rooms[J]. Journal of Acoustical Society of American. 1985, 78(5).
[2]O. L. Frost. Analgorithm for linearly-constrained adaptive array processing[J]. Proc. IEEE.1972, 60(8).
[3]L. J. Griffiths, C. W.Jim. An alternative approach to linearly constrained adaptive beamforming[J].IEEE Trans. On Antennas and Propagation. 1982, 30(1).
[4]Zelinski R. A microphone array with adaptive post-filtering for noise reductionin reverberant rooms[A]. IEEE International Conference on Acoustics, Speech andSignal Processing, USA: 1988.
[5]S. Cannot and I. Cohen. Speech enhancement based on the general transfer function GSC andpostfiltering[J]. IEEE Trans. Speech and Audio Processing, 2004, 12(6).
[6]Khalil F, Jullien J P, Crilloire A. Microphone array for sound pickup inteleconference systems[J]. Audio Engineering Society, 1994, 42( 9).
[7]Asano F, Hayamizu S. Speech enhancement using css-based array processing[A].IEEE International Conference on Acoustics, Speech and Signal Processing. Germany: 1997.
[8]Jutten C and Herault J. Blind separation of sources, part I: an adaptivealgorithm based on neuromimetic architecture[J]. Signal Processing, 1991,24(l).
[9]张丽艳等.一种适用于混响环境的麦克风阵列语音增强方法[J].信号处理.2009,25(5).
[10]崔玮玮等.基于FDM阵列技术的双通道语音增强方法[J].清华大学学报(自然科学版).2008,48(7).
[11]曾庆宁等.基于阵列抗串扰自适应噪声抵消的语音增强[J].电子学报.2005,33(2).
【关键词】清晰度评价函数;一体化摄像机;高斯噪声
The research of focusing evaluation function based on the room camera
HAN Seng-jie
(Civil Aviation University of China,College of Electronics and Information engineering,Tianjin,300300,China)
Abstract:Focusing evaluation function is important as to the room camera to achieve the focus of image and get high-quality image.We have a comprehensive performance comparison of several commonly used focusing evaluation functions,quantitative analysis of the efficiency of different algorithms including no bias,single peak and sensitivity according to the simplicity and real-time.The results showed that:Brenner functions and Laplace function is suitable for small-scale precision focusing for its relatively narrow peak width,high sensitivity.Tenengrad function,Robert function and squared gradient function is suitable for mid-range auto-focus, because they have relatively high sensitivity,and also they have a certain focus range.It’s instructive to the room camera to achieve automatic focusing.
Key words:focusing evaluation function;room camera;Gauss noise
1.引言
一般来说,一体化摄像机是指可以自动聚焦、镜头内建的小型摄像机。外观上,具有美观、小巧。应用上,其电源、视频、控制信号均有直接插口,安装方便。功能上可自动聚焦,近些年,一体化摄像机在视频会议、安防监控、高速公路监控等场合的应用越来越广泛。
自动聚焦技术的发展对一体化摄像机的广泛应用也起着非常重要的作用。传统的聚焦方法基本属于测距法,利用超声波或者红外线测量目标与摄像机之间的距离从而调整焦距以实现自动聚焦。由于要有发射和接收装置,提高了成本,并且会使得摄像机显得笨重。
随着数字图像处理理论的不断成熟,越来越多的自动聚焦算法是基于图像处理理论的。数字图像处理理论认为,信号或图像的大部分能量集中在幅度谱的低频段和中频段,但是图像细节的丰富度和轮廓的锐度取决于图像的高频成分。因此,各种检验图像边缘信息或计算图像高频分量的自动聚焦算法应运而生。一帧图像中的高频成分值被称为清晰度评价函数,自动聚焦的过程就是求取清晰度评价函数最大值的过程。当图像清晰时,图像细节丰富,在空域表现为相邻像素的特征值,如灰度、颜色等变化较大,在频域表现为频谱的高频分量多。可以评判图像中高频分量的大小,并判断对焦正确与否。
确定合适的清晰度评价函数是自动调焦的核心问题。理想的自动调焦评价函数必须具备以下几个特征[1]:
a.无偏性。计算出来的曲线要和图像的清晰度变化事实相吻合;
b.单峰性。在成像系统的正焦位置取得单一的极值,不能出现其他局部极值;
c.灵敏度。是指对不同程度的离焦图片,清晰度评价值要求有一定的差别;
d.具有足够的信噪比。在一定的噪声干扰条件下,保证系统正确地检测到离焦信号,完成自动调焦;
e.高效性。计算能够满足实时性要求,保证迅速完成自动调焦过程。
图1是图像高频成分含量与聚焦镜头位置之间的关系。
2.常用清晰度评价函数的研究
图像清晰度评价函数在基于图像处理的自动调焦技术中起着关键的作用。图像清晰度识别技术近年来已引起国内外学者的重视,其中最流行的是时域对比度评价函数,常用的有Brenner函数、Tenengrad函数、Robert函数、Laplace函数、方差函数和平方梯度等[2][3][4];还有频域的频谱评价函数[5];小波变换评价函数[6];基于DCT变换的评价函数[7];神经网络评价函数[8]。其中频域类、统计学类等调焦函数由于在调焦过程中对环境的稳定性要求较高,并且其调焦曲线非常不理想,大多数都不能正确的表达焦点的位置,同时考虑到聚焦速度和准确性的要求,因此没有列入,我们选择常用的时域对比度评价函数进行分析。
Brenner函数,是最简单的与梯度有关的评价函数[9][10][11],它只是计算相差两个单位的两个像素的灰度差,该函数的优点是具有较高的灵敏度且计算量较小,其表达式为:
式中,I(x,y)表示图像中第x行第y列像素的灰度值。当调焦评价函数F(I)数值最大时,图像最清晰。
Robert梯度评价函数,是在灰度差分绝对值之和算法基础上考虑I(x,y)和I(x+1,y+1),灰度差的像元位置关系后,采用的一种评价函数,其表达式如下:
式中I(x,y)表示图像中第x行第y列像素的灰度值。
方差函数,清晰聚焦的图像应有比模糊的图像具有更大的灰度级差异,所以方差函数也可以作为一个对焦清晰的评价标准[9][12]。方差函数定义为:
式中μ为平均灰度级,
即
I(x,y)表示图像中第x行第y列像素的灰度值。
平方梯度函数,它用相邻点的差分计算一个点的梯度值[12],其算法如下:
其中I(x,y)为一幅图像在点(x,y)的灰度值。
Tenengrad函数,它使用Sobel算子来算图像在水平方向和垂直方向的梯度,为了使图像边缘的梯度最大,对梯度进行平方运算,其表达式如下所示:
其中,S(x,y)>T(T为灰度阈值)
为梯度幅度Gx(x,y),Gy(x,y)的计算模版为
在此模版下,
Laplace函数,使用Laplace算子和图像进行卷积得到图像的二阶微分,其微分平方和作为最后评价结果,其表达式如下:
3.清晰度评价函数的性能分析
为了便于比较这六种算法的性能和特点,按照清晰度评价函数应具备的特性,我们从三个角度对这六种清晰度评价函数的性能进行分析。本文采用小龙电器公司自主研制生产的一体化摄像机SMC-480,其光学系统参数表如表1所示。
3.1 清晰度评价函数的曲线特性对比
本文为研究清晰度评价函数,其数据源都是针对同一组图像进行处理,同时该组图像是对同一平面目标,通过控制一体化摄像机调焦镜头的前后纵向位置来实现图像的调焦,前后纵向移动的步进间隔距离为0.004mm。在聚焦点位置前后分别采集24个欠焦和24个过焦图像。加上聚焦良好图像,共得到50幅图像。采集的图像大小为640 pixel×480 pixel。本文的数据分析是以采集到的图像数据为依据,并将图像序号按由最远的欠焦状态经过聚焦状态后,再到过焦状态编排,共采集了50张图片,如图2给出了其中的12幅示意图。
为了便于比较各种算法的性能和特点,本文将上述六种算法的仿真结果描绘出来,如图3所示。它的纵坐标表示各种算法的归一化图像清晰度评价值,横坐标表示不同程度的离焦图片的序号,共50张。图4是对图3函数极值的局部放大。
从图3和图4中可以得出如下结论:1)对图像的单峰性来说,Brenner函数、Tenengrad函数、Robert函数、Laplace函数和平方梯度等能得到比较一致的结果,并且只有一个极值点,具有单峰性,符合要求,而方差函数的极值点不够突出,容易产生误调焦,因此不能使用。2)从图像的无偏性来说,Brenner函数、Tenengrad函数、Robert函数、Laplace函数和平方梯度等的清晰度评价值都随着图像的离焦或者变焦程度变化而变化,都在第25幅图像位置取得最大值,这和肉眼看到的事实是相符合的。3)从图像的灵敏度角度来看,Laplace函数和Brenner函数的峰顶宽度相对较窄,相对而言,Laplace函数更为尖锐,灵敏度高,因此适合于小范围精确调焦。也就是说,对微小焦距的改变更为敏感,性能上更加优良。Tenengrad函数、Robert函数和平方梯度的灵敏度居中,在焦点附近具有比较高的灵敏度,同时也有一定的调焦范围,适于中等范围的自动调焦。
3.2 图像加噪声后清晰度评价函数的曲线特性
我们对标准图像加入噪声,根据模糊成像原理,可以用高斯函数对标准图像进行处理。高斯模糊的基本思路是根据二维正态分布公式生成一个高斯矩阵,求新图像中的每一点时,将高斯矩阵的中心对准旧图像的这一点,并将所有点根据高斯矩阵上对应的点加权平均。二维正态分布公式如下:
u,v分别为水平、竖直距离。高斯模糊的标准差σ,表示模糊的延伸距离,它的缺省值一般设为1。当时,高斯矩阵上对应的权值已经小得可以忽略,因此可以只计算一个大小为的矩阵。通过设置不同的模糊半径(radius)参数即需要移位的像素数,达到不同程度的高斯模糊效果。图像数据源仍是图二所示中采集到的图像,现在我们对标准图像分别进行1×1-6×6半径的高斯模糊,同时添加方差为20的高斯噪声,得到6幅图像,图5给出了其中一幅聚焦清晰和一幅清晰图像的加噪图像。
实验结果如图6所示,纵坐标是每个清晰度评价函数的归一化值,横坐标是受不同噪声影响的6幅不同图像,从图中可以看出,Laplace函数和Brenner函数在峰值附近变化明显,在一定的噪声干扰条件下,能识别出噪声影响的程度,该函数性能灵敏度高,具有足够的信噪比,其聚焦分辨力和抗噪性能明显优于其他方法。而Tenengrad函数、Robert函数和平方梯度的信噪比居中,方差函数的抗干扰性能则最差。
3.3 清晰度评价函数实验验证
上述中本文对清晰度评价函数的性能和特点进行了分析,不过为了进一步验证Laplace函数、Brenner函数、Tenengrad函数、Robert函数和平方梯度函数的性能,本文采集了另外图像进行验证。通过控制一体化摄像机调焦镜头的前后纵向位置来实现图像的调焦,前后纵向移动的步进间隔距离为0.008mm。在聚焦点位置前后分别采集14个欠焦和14个过焦图像。加上聚焦良好图像,即第15幅,共得到29幅图像。采集的图像大小为630 pixel×490 pixel。
通过matlab仿真,本文得到如下结论,如图8所示。
在图7中,Laplace函数、Bren-
ner函数、Tenengrad函数、Robert函数和平方梯度函数的归一化清晰度评价函数值的最大值都在图像序号为15的位置,也刚好是最佳聚焦图像。这和实际图像采集中是相对应的。同时,就Laplace函数和Brenner函数相比较而言,他们都满足单峰性,不过Laplace函数更为尖锐,灵敏度高。Tenengrad函数、Robert函数和平方梯度和图3及图4的结论相一致。
4.结论
清晰度评价函数是数字图象处理的一个重要内容之一,对于实现一体化摄像机自动对焦具有重要的意义。本文在小龙电器公司生产的一体化摄像机SMC-480研究的基础上,针对目前常用的清晰度评价函数的实用性能加以评价,对比实验证明,Laplace函数和Brenner函数的峰顶宽度相对较窄,灵敏度高,因此适合于小范围精确调焦。Tenengrad函数、Robert函数和平方梯度的灵敏度居中,在焦点附近具有比较高的灵敏度,同时也有一定的调焦范围,适于中等范围的自动调焦。
参考文献
[1]屈玉福.视觉瞄准测头的研究[D].哈尔滨:哈尔滨工业大学,2001:20-24.
[2]沈庭芳,方子文.数字图像处理及模式识别[M].北京:北京理工大学出版社,1998.
[3]夏德深,傅德盛.现代图像处理技术与应用[M].南京:东南大学出版社,1997.
[4]Castleman K R.数字图像处理[M].北京:电子工业出版社,1998.
[5]李奇,冯华君,徐之海,等.数字图像清晰度评价函数研究[J].光子学报,2002,31(6):
736-738.
[6]谢攀,张利,康宗明,等.一种基于尺度变化的DCT自动聚焦算法[J].清华大学学报,2003,43(1):55-58.
[7]陈国金,朱妙芬,施浒立等.基于最小各向同性小波滤波的图像清晰度识别[J].光子学报,2008,37(2):395-399.
[8]陈国金,朱妙芬,施浒立.小波变换与神经网络复合的图象清晰度识别研究[J].红外技术,2007,29(11):670-674.
[9]TTE Yeo,S H Ong,Jayasooriah and R Sinniah.Autofocusing for Tissue Microscope.Image and Vision Computing.1993,11(10):629-639.
[10]Lawrence Firestone,Kitty Cook,Kevin Culp,Neil Talsania,and Kendall,Preston,parison of Autofocus Methods for Automated Microscopy.1991(12):195-206.
[11]Brenner,J F,Dew,B S,Horton,J B,King,T,
Neirath,P W and Sellers,W D.An Automated Microscope for Cytologic Research.1971(24):
100-110.