公务员期刊网 精选范文 卷积神经网络的改进范文

卷积神经网络的改进精选(九篇)

前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的卷积神经网络的改进主题范文,仅供参考,欢迎阅读并收藏。

卷积神经网络的改进

第1篇:卷积神经网络的改进范文

关键词:卷积神经网络;图像分类;空间变换;可变形卷积

DOIDOI:10.11907/rjdk.171863

中图分类号:TP317.4

文献标识码:A 文章编号:1672-7800(2017)006-0198-04

0 引言

图像分类一直是计算机视觉领域的一个基础而重要的核心问题,具有大量的实际应用场景和案例。很多典型的计算机视觉问题(如物体检测、图像分割)都可以演化为图像分类问题。图像分类问题有很多难点需要解决,观测角度、光照条件的变化、物体自身形变、部分遮挡、背景杂波影响、类内差异等问题都会导致被观测物体的计算机表示(二维或三维数值数组)发生剧烈变化。一个良好的图像分类模型应当对上述情况(以及不同情况的组合)不敏感。使用深度学习尤其是深度卷积神经网络,用大量图像数据进行训练后可以处理十分复杂的分类问题。

卷积神经网络是为识别二维形状而专门设计的一个多层感知器,这种网络结构对平移、缩放、倾斜等扰动具有高度不变性,并且具有强大的特征学习与抽象表达能力,可以通过网络训练获得图像特征,避免了复杂的特征提取与数据重建过程。通过网络层的堆叠,集成了低、中、高层特征表示。AlexNet等网络模型的出F,也推动了卷积网络在海量图像分类领域的蓬勃发展。

1 卷积神经网络

卷积神经网络是人工神经网络的一种,其“局部感知”“权值共享”[1]等特性使之更类似于生物神经网络,网络模型复杂度大大降低,网络训练更容易,多层的网络结构有更好的抽象表达能力,可以直接将图像作为网络输入,通过网络训练自动学习图像特征,从而避免了复杂的特征提取过程。

Yann LeCun等[2]设计的LeNet-5是当前广泛使用的卷积网络结构原型,它包含了卷积层、下采样层(池化层)、全连接层以及输出层,构成了现代卷积神经网络的基本组件,后续复杂的模型都离不开这些基本组件。LeNet-5对手写数字识别率较高,但在大数据量、复杂的物体图片分类方面不足,过拟合也导致其泛化能力较弱。网络训练开销大且受制于计算机性能。

2012年,在ILSVRC竞赛中AlexNet模型[3]赢得冠军,将错误率降低了10个百分点。拥有5层卷积结构的AlexNet模型证明了卷积神经网络在复杂模型下的有效性,并将GPU训练引入研究领域,使得大数据训练时间缩短,具有里程碑意义。AlexNet还有如下创新点:①采用局部响应归一化算法(Local Response Normalization,LRN),增强了模型的泛化能力,有效降低了分类错误率;②使用Dropout技术,降低了神经元复杂的互适应关系,有效避免了过拟合;③为了获得更快的收敛速度,AlexNet使用非线性激活函数ReLU(Rectified Linear Units)来代替传统的Sigmoid激活函数。

Karen等[4]在AlexNet的基础上使用更小尺寸的卷积核级联替代大卷积核,提出了VGG网络。虽然VGG网络层数和参数都比AlexNet多,但得益于更深的网络和较小的卷积核尺寸,使之具有隐式规则作用,只需很少的迭代次数就能达到收敛目的。

复杂的网络结构能表达更高维的抽象特征。然而,随着网络层数增加,参数量也急剧增加,导致过拟合及计算量大增,解决这两个缺陷的根本办法是将全连接甚至一般的卷积转化为稀疏连接。为此,Google团队提出了Inception结构[5],以将稀疏矩阵聚类为较为密集的子矩阵来提高计算性能。以Inception结构构造的22层网络GoogLeNet,用均值池化代替后端的全连接层,使得参数量只有7M,极大增强了泛化能力,并增加了两个辅助的Softmax用于向前传导梯度,避免梯度消失。GoogLeNet在2014年的ILSVRC竞赛中以Top-5错误率仅6.66%的成绩摘得桂冠。

网络层数的增加并非永无止境。随着网络层数的增加,将导致训练误差增大等所谓退化问题。为此,微软提出了一种深度残差学习框架[6],利用多层网络拟合一个残差映射,成功构造出152层的ResNet-152,并在2015年的ILSVRC分类问题竞赛中取得Top-5错误率仅5.71%的成绩。随后,对现有的瓶颈式残差结构进行改进,提出了一种直通结构[7],并基于此搭建出惊人的1001层网络,在CIFAR-10分类错误率仅4.92%。至此,卷积神经网络在越来越“深”的道路上一往直前。

2 可变形的卷积神经网络

2.1 空间变换网络

空间变换网络(Spatial Transformer Network,STN)[8]主要由定位网络(Localisation net)、网格生成器(Grid generator)和可微图像采样(Differentiable Image Sampling)3部分构成,如图1所示。

定位网络将输入的特征图U放入一个子网络(由卷积、全连接等构成的若干层子网络),生成空间变换参数θ。θ的形式可以多样,如需要实现2D仿射变换,那么θ就是一个2×3的向量。

2.3 本文模型

本文以自建的3层卷积网络C3K5(如图6所示)和VGG-16作为基准网络,分别引入空间变换网络、可变形卷积和可变形池化,构造出8个卷积神经网络,用以验证可变形模块对浅层网络和深层网络的影响,如表1所示。

图6中C3K5网络模型包含3个带有ReLU层、LRN层和池化层的卷积模块,卷积层采用步长为1的5×5卷积核,输出保持原大小,池化层采用步长为2核为2×2的最大值池化,即每经过一个卷积模块,特征图缩小为原来的一半。

3 实验与分析

3.1 实验设置

本文实验环境:CPU为Intel i5-7400,8G内存,显卡为GTX1060,采用Cuda8+CuDNN6.0加速。

实验数据集包括公共图像数据集mnist、cifar-10、cifar-100和自建图像数据集pen-7。公共数据集分别有50 000张训练样本图像和10 000张测试样本图像。自建数据集pen-7为京东商城的七类笔图像库,每类有600张图片,图像分辨率为200×200,总计训练样本数3 360,测试样本数840, 图7为其中的14个样本。

3.2 结果与分析

分别将表1中的10个卷积网络应用到mnist、cifar-10、cifar-100和pen-7四个数据集进行训练,batch-size设置100,即每次传入100张图片进行训练,每训练100次测试一次(记为一次迭代),总共迭代100次,取最后10次迭代的准确率计算平均值,得各网络应用在不同数据集的分类结果,如表2所示。

实验结果表明,在卷积网络中引入空间变换网络、用可变形的卷积层和可变形的池化层替换传统的卷积层和池化层,不管是在浅层网络还是在深层网络,都能获得更高的分类准确率,这验证了空间变换网络和可变形卷积(池化)结构,丰富了卷积神经网络的空间特征表达能力,提升了卷积网络对样本的空间多样性变化的鲁棒性。包含3种模块的网络获得了最高的分类精度,使空间变换网络、可变形卷积层和可变形池化层在更多应用场景中并驾齐驱成为可能。

4 结语

通过在现有卷积神经网络中引入空间变换网络、可变形的卷积层和可变形的池化层,使得卷积网络在mnist、cifar-10、cifar-100及自建的pen-7数据集中获得了更高的分类精度,包含3种模块的网络获得了最高分类精度,证明了空间变换网络、可变形的卷积层和可变形池化层都能丰富网络的空间特征表达能力,协同应用于图像分类工作,这为后续研究打下了坚实的基础。

参考文献:

[1]BOUVRIE J. Notes on convolutional neural networks[J].Neural Nets,2006(1):159-164.

[2]Y LECUN,L BOTTOU,Y BENGIO,et al.Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[3]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems. Curran Associates Inc,2012:1097-1105.

[4]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014(6):1211-1220.

[5]SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[J]. CVPR, 2015(3):1-9.

[6]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]. Computer Vision and Pattern Recognition. IEEE, 2015:770-778.

[7]HE K, ZHANG X, REN S, et al. Identity mappings in deep residual networks[J]. arXiv,2016(1603):5-27.

[8]JADERBERG M, SIMONYAN K, ZISSERMAN A, et al. Spatial transformer networks[J].Computer Science, 2015(5):1041-1050.

[9]DAI J, QI H, XIONG Y, et al. Deformable convolutional networks[J]. arXiv: 2017(1703):62-111.

第2篇:卷积神经网络的改进范文

关键词:无人机;STM32;道路检测;神经网络;模型训练

传统的道路巡检和保养主要由人工来完成,需要投入大量的人力物力来保证道路的相对安全,这种方式存在着低效率、高成本且难以保证道路的决定安全[1]。固定式交通检测设备大量设置在道路的主干路上,也存在着一些缺陷:(1)监控摄像头不能做到全覆盖且具有一定的探测盲区。(2)监控系统采用多屏幕方式,工作人员进行道路故障判断时受限。(3)不能灵活的通知有关部门对事故的快速应急处理。为了克服上述的缺点,本文设计了一种基于卷积神经网络的无人机道路巡检系统,对发生故障和需要保养的道路能快速响应,及时的通知有关部门,避免事故的发生。

1系统的总体设计

在无人机道路巡检系统中,我们主要考虑了以下几个要求[3]:(1)无人机系统能满足正常的工作;(2)无人机系统能适应各种天气和气候变化等;(3)无人机系统应充分考虑控制的安全性;(4)视频流的传输应避免较长的延时。无人机道路巡检系统主要由无人机系统设计、远程控制系统、PC端系统三大部分组成,系统的总体结构框图如图1所示。系统的具体工作原理为:无人机将道路环境检测的结果,将处理后的视频流通过远程传输的方式,发送到PC端进行实时监控道路状况。远程控制系统以STM32作为主控芯片,主要包括在无人机端和遥控端两个部分,遥控端将控制指令通过2.4G通信发送到无人机端,此时无人机的做出相应的位姿变化,完成遥控端对无人机位姿的控制。无人机系统的图像采集模块芯片为树莓派,完成图像的采集并采用TCP通信实现远程视频的传输,将获取的视频流传输到PC端。PC端上使用OpenCV对图像进行处理[4],利用深度学习模块对设计的神经网络进行数据训练,从而得到检测模型,最后在PC上接收处理过的数据并实时监测道路状况。上述工作原理可实现无人机道路巡检系统,下文将对其包括的三大模块进行说明介绍。

2无人机系统设计

本次使用的是RaspberryPi3(modelB+)作为无人机的主控制板[7],无人机的飞行控制算法和图像采集模块集成在树莓派中。远程控制系统通过2.4G无线通信模块连接,通过控制器实现对无人机飞行和图像采集的控制。无人机系统总体结构如图2所示。

3PC端系统设计

在PC端系统设计主要分为图像预处理、模型训练和视频监控三大部分,通过TCP通信协议进行通信,TCP通信是一种面向连接的通信,可完成客户端(树莓派)和服务端(PC)的信息传递[9]。下面主要对前两部分详细介绍。

3.1图像预处理

本系统对地面裂缝检测的图像预处理流程如图3所示具体工作原理为:(1)采用加权平均灰度化对获取的无人机影像进行灰度化处理;(2)对灰度化处理后的影像进行直方图均衡化,使得影像具有高对比度和多元的灰度色调变化,为后续的滤波降噪奠定基础;(3)对处理后的影像进行滤波降噪,消除孤立的噪声点,采用方法的是中值滤波降噪;(4)使用迭代二值化处理将影像的灰度值设置合适的阈值,使得图像更简单,目标更突出,然后对图像进行分割,计算迭代的阈值,判断迭代的阈值是否收敛到某一值或者达到限定的迭代次数,如果是的话,将完成二值化处理和滤波,否则将初始二值化阈值;(5)最终完成道路故障的识别与标记。

3.2模型检测

3.2.1卷积神经网络原理使用卷积神经网络进行模型训练,首先使用卷积层实现特征的提取,原理如图4所示。如图5所示,卷积操作是模仿神经元的机制。不同的输入在权重的影响下会有不同的输出,根据损失函数的计算来不断的更新权重,直到获得合理的权重参数。初始传递的信号为x,中间通过权重w,再经过偏置b后连接在末端,最后输出信号变成wx+b。fun(•)表示激活函数,最终f(z为输出的结果,如式(1)所示。3.2.2卷积神经网络训练流程通过相机采集到的缺陷和问题图像作为训练样本,这部分是检测道路安全的关键一步,(1)训练标记数据:首先使用图像预处理中标记好的道路故障提取出来,通过卷积神经网络对标记框内的目标数据进行训练;(2)提取特征数据:将道路故障的类型统计并归纳;(3)误差反馈学习:对测试样本进行误差反馈学习,并进行测试;(4)优化训练数据:根据实际应用场景增加图像的种类和数量,不断训练模型。3.2.3故障的基本分类道路故障主要路面缺陷(例如裂缝、残缺等)和路面增加(例如长时间静止的车辆和路人),各自训练集数量为1000张。如表1所示。3.2.4实验测试为实现故障的检测,测试数据集为100张,不同类型故障数据50张,均采集自新道路且与训练样本一致,实验结果如表2所示。由表2可知,检测路面增加(例如长时间静止的车辆和路人)的准确率高达96%,但是地面缺陷的准确率相比较而言略低,可能造成的原因是:①硬件原因导致采集的图像清晰度比较低;②地面缺陷太小,无人机难以识别;③训练的数据集较少,特征学习误差大;但是满足了设计需求,还需进一步改进。

4总结与展望

第3篇:卷积神经网络的改进范文

关键词:图像复原;盲复原;逆滤波;神经网络复原

1 图像退化及复原模型

1.1 图像降质的数学模型

图像复原处理的关键问题在于如何建立退化模型。假定输入图像f(x,y)经过某个退化系统后输出的是一幅退化的图像。为了方便讨论, 把噪声引起的退化(即噪声)对图像的影响一般作为加性噪声考虑,这也与许多实际应用情况一致,如图像数字化时的量化噪声、随机噪声等就可以作为加性噪声,即使不是加性噪声而是乘性噪声,也可以用对数方式将其转化为相加形式。原始图像f(x,y) 经过一个退化算子或系统H(x,y) 的作用,然后和噪声n(x,y)进行叠加,形成退化后的图像g(x,y)。图像退化的过程可以用数学表达式写成如下的形式:

g(x,y)=H[f(x,y)]+n(x,y)

n(x,y)是一种统计性质的信息下图表示退化过程的输入和输出的关系,其中H(x,y)包含了退化系统的物理过程,即所要寻找的退化数学模型。

1.2 图像的退化恢复模型

数字图像的图像恢复问题可以看作是:根据退化图像g(x ,y)和退化算子H(x ,y)的形式,沿着逆向过程去求解原始图像f(x ,y), 或者说逆向地寻找原始图像的最佳近似估计。

2 研究背景与意义

图像复原是数字图像处理技术的一个重要研究方向,在现实生活中,有着非常广阔的应用前景和市场。数字图像处理研究很大部分是服务于数字图像复原的,而运动模糊图像的复原又是图像复原中的重要课题之一,从六十年代起就有人研究它。初期研究的主要原因是对卫星所拍摄的图像进行复原,因为卫星相对地球是运动的,所拍出的图像是模糊的(当然卫星所拍摄图像的模糊原因不仅仅是相对运动而造成的,还有其他原因如大气湍流所造的模糊等等)。美国的喷气推进实验室(JPL)对徘徊者飞行器发回的月球照片进行了图像恢复处理。传统的图像恢复方法可以很好地恢复出来原始图像,但是需要事先知道系统的先验知识(例如系统的点扩散函数)。在先验知识不足的情况下,如何恢复出来原始图像?这就需要模糊图像盲恢复技术。根据不同的应用背景和先验知识,大致可以两种方法恢复两种类型的模糊图像,以满足不同的应用要求。

第一种方法:如何快速恢复模糊图像,进行适时性图像处理?这个技术在实际生活中有着广泛应用。

第二种方法:如何在事先不能确定模糊系统点扩散函数的情况下,恢复模糊图像,改善图像的质量,这就是图像盲恢复的问题。

3 国际国内研究发展和现状

从历史上来看,数字图像处理研究有很大部分是在图像恢复方面进行的,包括对算法的研究和针对特定问题的图像处理程序的编写。数字图像处理中很多值得注意的成就就是在这两方面取得的。

在六十年代中期,去卷积(逆滤波)开始被广泛地应用于数字图像恢复。这一阶段对模糊图像的研究主要是把因相对运动而拍摄的模糊图像复原过来,从而增强人们的判读能力。早期做图像复原研究,主要强调尽可能使模糊图像复原到原貌,增加它的判读性,在此发展了很多的复原方法,诸如:差分复原、维纳滤波等.这些方法各有特点,较好的解决了运动模糊图像的判读问题,但是在应用上均有一定的限制。

虽然经典的图象复原方法不少,但归纳起来大致可分为逆滤波法,或称相关变换法( inv ersefiltering or t ransfo rm related techniques) 和代数方法( alg ebraic techniques) 两种。

3.1 传统复原法

3.1.1 逆滤波方法

逆滤波法大致有经典逆滤波法、维纳滤波法、卡尔曼滤波法等. 其中,在傅立叶变换域,经典逆滤波的变换函数是引起图象失真的变换函数的逆变换,其虽在没有噪声的情况下,可产生精确的复原图象,但在有噪声时,将对复原图象产生严重的影响,虽然滤波函数经过修改,有噪声的图象也能复原,但它仅适用于极高信噪比条件下的图象复原问题; 维纳滤波法是通过选择变换函数,同时使用图象和噪声的统计信息来极小化均方复原误差,这虽然在一定程度上克服了逆滤波法的缺点,但是维纳滤波法需要较多有关图象的先验知识,如需要对退化图象进行满足广义平稳过程的假设,还需要知道非退化图象的相关函数或功率谱特性等等,而在实际应用中,要获得这些先验知识有较大的困难,为此,Ozkan 等人在研究图象序列的复原问题时,提出了一种解决空间和时间相关性的多帧维纳滤波法,是近年来维纳滤波法的新发展; 卡尔曼滤波是一种递归滤波方法,其虽可用于非平稳图象的复原,但是因计算量过大,而限制了其实际应用的效果。 Wu 和Kundu 又对卡尔曼滤波方法进行了改进,不仅提高了速度,并考虑了应用于非高斯噪声的情况; Cit rin 和Azimi-Sadjadi 也对卡尔曼滤波方法进行了改进,提出了块卡尔曼滤波方法; Koch 等提出了扩展卡尔曼滤波( extended Kalmam filter) 复原方法,该方法可以较好地复原模糊类型不相似的退化图象.除了上述的逆滤波方法外,还有参数估计滤波法,它实质上是维纳滤波法的变种. 20 世纪90 年代初,又提出了基于递归图象滤波的自适应图象复原方法及合成滤波方法,它代表了滤波方法新的发展方向. 1998 年Kundur 等人首先明确提出了递归逆滤波( recursiv e inv er se filter ing ) 算法 ,2000 年Chow 等人又进行了改进,即在代价函数中增加了空间自适应正则化项,从而很好地抑制了噪声,并减少了振铃现象,较好实现了在低SNR 条件下的盲图象复原. 2001 年,Eng 等人结合模糊集的概念,提出了自适应的软开关中值滤波方法,它能在有效地去掉脉冲噪声的同时,很好地保存图象的细节,是一种值得重视的新的图象复原方法。

3.1 2 代数方法

Andrews 和Hunt 提出了一种基于线性代数的图象复原方法。这种方法可能比较适合那些相对于积分运算,则更喜欢矩阵代数,而相对于分析连续函数,又更喜欢离散数学的人的口味。它为复原滤波器的数字计算提供了一个统一的设计思路。代数方法可分为伪逆法、奇异值分解伪逆法、维纳估计法和约束图象复原方法等。 其中,伪逆法,实质上是根据图象退化的向量空间模型来找到引起图象退化的模糊矩阵,但由于模糊矩阵总是很大的,因此在计算上往往不可行; 而奇异值分解伪逆法则是利用矩阵可分解成特征矩阵系列的思想,将模糊矩阵进行分解,由于简化了计算,从而有利于模糊矩阵的估计计算,但在有噪声存在时,经常会出现不稳定的现象; 维纳估计法虽然考虑了噪声的情况,但它仅适合噪声是二维随机过程,且已知其期望和协方差的情况。前面的方法仅把图象看成是数字的阵列,然而一个好的复原图象应该在空间上是平滑的,其在幅度值上是正的,而约束图象复原方法就是将这些因素作为约束条件,如基于维纳估计法和回归技术而提出的图象复原方法就是一种约束图象复原方法,而且通过选取不同的约束参数和回归方法可以得到不同的图象复原算法。传统的图象复原算法或面临着高维方程的计算问题,或要求恢复过程满足广义平稳过程的假设,这就是,使得具有广泛应用价值的图象复原问题没有得到圆满的解决的根本原因。

3.2 神经网络图象复原的方法

神经网络图象复原方法的发展方向自从神经网络图象复原首次提出十多年来,其研究在不断地深入和发展,描述它的现状已属不易,展望它的未来更是困难,况且科学研究具有不确定性. 据笔者判断,如下诸方面是亟待解决的问题,或研究活动已有向这些方面集中的趋势。

3. 2.1小波神经网络用于图象复原将是研究的重点

自1992 年Zhang 提出小波神经网络以来,如今已提出了各种类型的小波网络,且小波与神经网络的结合成了一个十分活跃的研究领域。通过学者们的理论分析和模拟实验表明: 由于小波神经网络具有逼近能力强、可显著降低神经元的数目、网络学习收敛的速度快、参数( 隐层结点数和权重) 的选取有理论指导、能有效避免局部最小值问题等优点,因此将其用于图象复原是一个值得研究的方向。将小波的时频域局部性、多分辨性等性质,与神经网络的大规模并行性、自学习特性等优点结合起来,不仅将使用于图象复原的小波神经网络具有自适应分辨性,也将使正则化参数的选取更具有自适应能力. 最终使复原图象既能保持图象的细节,又能很好地抑制图象中的各种噪声。

3.2.2细胞神经网络、BP 网络、自组神经网络

值得进一步研究细胞神经网络( CNN ) 由于其具有易于硬件实现的特点,因而具有很强的商业价值,但由于其自身还有很不成熟的地方,因此值得深入地研究. 其研究方向有: 细胞神经网络理论基础的进一步完善及在此基础上建立细胞神经网络中邻域系统的概念; 与图象数据局部相关性等概念结合起来研究,以建立新的图象复原理论,形成新的图象复原技术。BP 网络对受污染或带噪声的训练样本,不仅能进行正确的映射,且与其纯样本仍相似。 正是BP 网络的泛化能力强,使它在解决图象复原问题时,可能比其他神经网络具有更好的潜在性能。 将BP 网络用于图象复原是很值得进一步研究的.大家知道,人脑的学习方式是“自主的”,即有自组织和自适应的能力的,即人脑能在复杂、非平稳和有“干扰”的环境及其变化的情况下,来调整自己的思维和观念,还能根据对外界事物的观察和学习,找到其内在的规律和本质属性,并能在一定的环境下,估计到可能出现的情况以及预期会遇到和感觉到的各种内容及情况。 自组织神经网络(SONN) 正是基于人脑的这些功能而生成的,由于它具有能从输入的数据中,揭示出它们之间内在关系的能力,因此将其用于“盲图象”的复原将是非常有利的。

3.2.3 需要提出更适合图象复原的新神经网络模型

小波神经网络是为逼近任意非线性函数而提出来的,但为了图象复原的需要,可考虑针对图象复原的特殊情况,提出新的神经网络模型。 如,因为大多数图象是由平滑区域和轮廓细节组成的,其图象数据在平滑区域虽具有较强的相关性,但与轮廓细节相邻的数据应极不相关,所以,提出一种专用于图象复原的“相关性神经网络模型”是必然的期待; 再有,因为多项式具有较广的拟合性和较好的收敛性,所以应提出的“多项式神经网络”,将它们用于图象复原也是值得研究的。

3.2.4 神经网络与其他理论的结合

研究是寻求新模型、新方法的重要途径目前神经网络的研究正由单纯的神经计算转向计算智能,并结合脑科学的研究向生物智能方向发展。 为此,神经网络图象复原的研究也应考虑吸收模糊、分形、混沌、进化计算、信息融合等交叉学科的研究成果。 与模糊系统的结合将是一个重要的研究方向,因为,神经网络与模糊系统有如下很多的相同之处: ( 1) 它们在处理和解决问题时,无需建立对象的精确数学模型,而只需要根据输入的采样数据去估计其要求的决策; ( 2) 在对信息的加工处理过程中,均表现出了很强的容错能力; ( 3) 它们都可以用硬件来实现. 由此可见,将神经网络与模糊系统结合,用于图象复原将是有意义的研究工作。

4 未来展望

图像恢复发展到现在,已经有了许多成熟的算法,但是还是存在许多问题,等待着我们去解决。目前图像恢复的最新发展有:

1. 非稳图像复原,即空间可变图像复原。

2. 退化视频信号的复原问题,以及摄像机拍照图像复原,这是一个需要进一步研究的领域。

3. 运动补偿时空复原滤波,同时将时间相关应用到运动补偿中。

4. “Telemedicine“的出现,远程诊断极大的依赖于远程接受的图像质量,图像恢复在医学领域中有相当重要的作用。

5. 模糊 PSF 的 Identification 仍然是一个困难的问题,尤其在空间可变的 PSF 的估计中。

6. 空间可变恢复方法,可以利用 Wavelets 和 Markov 随机场等方法进行复图像恢复,这是一个具有发展潜力的研究方向。

参考文献

1 冯久超,黄海东. 基于神经网络的盲图象恢复[ J ] . 计算机科学,2000,27( 1) : 67~68.

2 Er ler K,Jernigan E. Adaptive image restorat ion using recursive image f ilters [ J ] . IEE E Trans actions on Signal Process ing,1994,42( 7) : 1877~1881.

第4篇:卷积神经网络的改进范文

关键词: 积分投影; 循环神经网络; 长短时记忆网络; 防止过拟合技术; 精度; 留一法

中图分类号:TP391.4 文献标志码:A 文章编号:1006-8228(2017)04-13-04

Abstract: The existing research on micro expression recognition is mainly based on the improved LBP (local binary patterns) algorithm and SVM (support vector machine). Recently, integral projection has been applied in the field of face recognition. The long and short memory network (LSTM), as a kind of recurrent neural network, can be used to process time series data. So LSTM-IP model, which combines integral projection with LSTM, is proposed, and experimented on the latest micro-expression database CASME II. The horizontal and vertical projection vectors obtained by integral projection are used as the input of LSTM and classified, and the over-fitting preventing method is used. The experimental results show that LSTM-IP algorithm gets better results than the previous method.

Key words: integral projection; recurrent neural network; long and short memory network; prevent over-fitting; accuracy; leave-one-subject-out cross validation

0 引言

人们表情的短时间变化,也叫微表情,心理学在这方面的研究很早就开始了。近年来,有关利用机器学习的方法来对微表情进行研究的学者越来越多,其成为当前一个热门研究方向。微表情的研究成果可用于测谎[2-4]、临床诊断等方面,因橐话闳思幢闶切睦硪缴也很难注意到1/25~1/5秒人表情的变化[1],而这时,机器可以很好的对微表情进行自动的识别。

最近,基于积分投影和纹理描述符的方法被用在人脸识别[5],然而,很少有研究将积分投影用于包含人脸的时间序列中进行识别。微表情与人脸识别有很大不同,特征很难单从每帧图片中提取,这时就需要考虑时间轴。LSTM可以对时序数据进行分类,以前基本用在语音识别和自然语言处理的任务中,很少用于图像识别,可能是因为LSTM处理的是一维的数据,而图像是二维的数据。将图像的二维信息积分投影到一维(水平方向和垂直方向),并以此作为LSTM的输入并分类,这样就能将二者很好的结合起来。

本文构造了基于积分投影和LSTM的深度学习的模型来对微表情进行识别。得到的结果不仅比以前的基于局部二值模式(LBP)的方法好,而且也略微的优于最近基于积分投影的论文中的方法。

1 CASME II微表情数据集介绍

2014年,中科院心理研究所建立了更进一步改进的自然诱发的微表情数据库CASMEII[8]。CASMEII有26个平均年龄为22岁左右的亚洲人,9类表情(happiness, surprise, disgust, fear, sadness, anger, repression, tense, negative)组成。用来录制的高速相机为200 fps。高速相机可以捕捉更细节的微表情。CASMEII是据我们所知目前最好的自然诱发的微表情数据库。

2 基于差分图像的积分投影

Mateos等人的开拓性工作[6-7]表明积分投影可以提取同一人脸图像的共同基本特征。积分投影将人脸的特征水平和垂直投影,可以用公式⑴和⑵表示:

其中It(x,y)表示时间为t时,图像位于(x,y)时的像素值,Ht(y)和Vt(x)表示水平和垂直积分投影。直接将积分投影应用到CASME II微表情数据集上效果如图1所示。

然而,由于微表情的变化是十分微小的,若直接采用上面的积分投影会有很多噪声,从图1(c)可以看出区分不是很明显。因此,我们采用改进的积分投影方法。可以用公式⑶和⑷表示:

我们将每个视频下的2到N帧微表情的图像减去第1帧,将得到的差分图像做积分投影,效果如图2所示。

从图2的(c)可以看出,采用基于差分图像的水平积分投影效果更好,去掉了不必要的噪声。

3 长短时记忆网络

循环神经网络(RNN)可以用来处理时序数据,但它有一个明显的缺陷,就是不能记忆发生在较久以前的信息。长短时记忆网络(LSTM)[9]是一种特殊的RNN,比RNN多了一些特殊的门和细胞,可以学习长期依赖信息。LSTM结构如图3所示。

最上面横着带箭头的线包含细胞单元,作用是记忆之前LSTM单元的信息。x和+表示点分的乘法与加法,表示Sigmoid激活函数(如公式⑸),tanh表示双曲正切激活函数(如公式⑹)。

最下面圆圈中的X和最上面圆圈中的h分别表示时序输入和输出。

通用的LSTM结构可以参考图4,图4中,底层节点为输入,顶层节点为输出,中间层为隐藏层节点或记忆块。(a)描述的是传统的 感知机(MLP)网络,即不考虑数据的时序性,认为数据是独立的;(b)将输入序列映射为一个定长向量(分类标签),可用于文本、视频分类;(c)输入为单个数据点,输出为序列数据,典型的代表为图像标注;(d)这是一种结构序列到序列的任务,常被用于机器翻译,两个序列长度不一定相等;(e)这种结构会得到一个文本的生成模型,每词都会预测下一时刻的字符。

4 LSTM-IP模型

因为CASME II数据集每个视频下微表情图像帧数是不一样的,为了方便我们统一LSTM的输入,所以我们提取了最能代表这个视频微表情的10帧,同时,本文将整个数据集图像的尺寸统一到200×200像素,将原来彩色图像转化为灰度图像。通过基于差分图像的积分投影,得到一个视频下差分图像每帧图像的水平和垂直投影,一个图像可以得到一个200维的水平向量和一个200维的垂直向量,因为差分图像是后面9张减去了第一张图像,所以一个视频下共有9个水平向量和9个垂直向量,初始化两个9×200大小的一维向量分别保存水平向量和垂直向量。

本文采用图4(b)和图4(e)结合的LSTM结构,如图5所示。

顶层的X_IP表示将一个视频下9个差分图像的水平投影组成的9×200的一维特征向量作为输入,经过第一层LSTM得到9×128的一维特征向量,接着经过第二层LSTM得到9×128的一维特征向量,最后经过一层LSTM得到一个128的特征向量,Y_IP也是同样的处理过程。最后将这两部分的128的特征向量连接起来作为一个256的特征向量输入softmax分类器,结果输出属于五类微表情的哪一类。在图5的每两层之间加入一层Dropout层,Dropout的比率设为0.5。LSTM内部参数初始化采用了glorot_normal,相比较于其他初始化方法,glorot_normal效果最好。

Softmax和Dropout在深度学习中都是常用的技术。Softmax是逻辑斯特回归应用于多分类的推广。Dropout[10]这种技术的作用是减少过拟合,是一种正则化技术,通过防止由完全连接的层引起神经元的参数过多,有助于减少神经网络的过度拟合问题。给定 dropout率p,其在我们的LSTM中被设置为0.5,50%单位将被保留,而另外50%将被放弃。简单地说,“Dropout”只是随机忽略一些神经元。然而在测试阶段,每个神经元的输出将通过因子1-p(保持率)加权以保持与训练阶段中产生相同的效果。如图6所示。

我们的实验采用基于Theano的keras框架,keras借b了Torch的搭建深度学习网络的方式,而且使用笔者比较熟悉的Python语言(Torch使用Lua语言),keras的底层可以是Theano或者Tensorflow,可能是因为keras最先在Theano开发的,经过实验比较单个GPU下,Theano的速度要比Tensorflow快,所以我们的底层采用Theano。

5 实验结果与分析

现在微表情识别的算法主要是基于LBP改进的算法,例如LBP-TOP[11](Local Binary Pattern-Three Orthogonal Planes)、LBP-SIP[12](LBP-Six Intersection Points)和LOCP-TOP[13](Local ordinal contrast pattern-

TOP)等。我们将LSTM-IP算法与以前的方法做了比较,如表1所示。

实验是在CASME II上做的,因为CASME II微表情数据集是最新最好的微表情数据集。STLBP-IP也是基于积分投影的,结合了1DLBP来提取特征。通过表1的比较我们发现,基于积分投影的算法效果好于原来基于LBP的算法,可以得出,采用提取积分投影特征的方法在微表情数据集CASME II上效果比较好。可以看出,STLBP-IP的性能优于文献[27]的重新实现,STLBP-IP的精度提高了20.64%。从表1中可知,时间插值法(TIM)可以提高LBP-TOP的性能,其中LBP-TOP增加到39.68%。然而,与STLBP-IP相比,LBP-TOP在微表情识别上的效果上有很大的差距(19.43%)。比较两种基于积分投影的方法,本文提出的方法略微好于STLBP-IP,但通过阅读STLBP-IP的论文笔者发现,这种方法存在繁琐的调参过程,比如图像如何分块,SVM核参数的选择,而本文提出的LSTM-IP算法可以自动从差分图像的积分投影中学习,调参的内容比较少,而且速度也很快。这些结果表明,LSTM-IP实现了令人满意的效果,而不是LOCP-TOP和LBP-SIP。 这部分地解释了LSTM-IP通过使用积分投影来保持形状和辨识的能力。

实验采用了留一法交叉验证,CASME II有26个subjects,通过把每个subject作为测试,其余作为训练,循环26次,最后把每次测试得到的正确视频个数相加除以总的视频数,得到识别精度,这种方法现在是微表情识别主流的验证方法。

6 Y束语

基于差分图像的积分投影方法,保存了我们微表情形状的特征,然后增强微表情的辨别力。深度学习在图像识别领域已经取得了很不错的成绩,而现在深度学习的技术还没有应用于微表情识别。本文将差分图像的积分投影与LSTM结合,从实验结果上看,结果要好于以前的方法。我们认为深度学习的探索不会停止,会有越来越多新的网络模型产生,也会有越来越多的深度学习的技术应用于微表情识别。

我们将继续探索基于深度学习的微表情识别的方法及技术手段。卷积神经网络在图像识别上取得了很好的成绩,但笔者也将卷积神经网络应用于微表情上,效果并不好,可能是因为微表情在图像上变化比较细微,卷积神经网络不容易捕捉到特征,但如果考虑了一个视频时间序列的特性,也许会有比较好的结果,对此还有待进一步研究。随着技术的进步,相信微表情识别效果会越来越好,并最终能够应用于我们的生活中。

参考文献(References):

[1] Ekman P. Micro Expressions Training Tool[M]. Emotion-

srevealed. com,2003.

[2] Ekman P. Darwin, deception, and facial expression[J].

Annals of the New York Academy of Sciences,2003.1000(1):205-221

[3] Ekman P. Lie catching and microexpressions[J]. The

philosophy of deception,2009:118-133

[4] Ekman P, O'Sullivan M. From flawed self-assessment to

blatant whoppers: the utility of voluntary and involuntary behavior in detecting deception[J]. Behavioral sciences & the law,2006.24(5):673-686

[5] Benzaoui A, Boukrouche A. Face recognition using 1dlbp

texture analysis[J]. Proc. FCTA,2013: 14-19

[6] Mateos G G. Refining face tracking with integral projections

[C]//International Conference on Audio-and Video-Based Biometric Person Authentication. Springer Berlin Heidelberg,2003: 360-368

[7] García-Mateos G, Ruiz-Garcia A, López-de-Teruel P

E. Human face processing with 1.5 D models[C]//International Workshop on Analysis and Modeling of Faces and Gestures. Springer Berlin Heidelberg,2007:220-234

[8] Yan W J, Li X, Wang S J, et al. CASME II: An improved

spontaneous micro-expression database and the baseline evaluation[J]. PloS one, 2014.9(1):e86041

[9] Hochreiter S, Schmidhuber J. Long short-term memory[J].

Neural computation,1997.9(8):1735-1780

[10] Hinton G E, Srivastava N, Krizhevsky A, et al. Improving

neural networks by preventing co-adaptation of feature detectors[J]. Computer Science,2012.3(4):212-223

[11] Zhao G, Pietikainen M. Dynamic texture recognition

using local binary patterns with an application to facial expressions[J]. IEEE transactions on pattern analysis and machine intelligence,2007.29(6).

[12] Wang Y, See J, Phan R C W, et al. Lbp with six

intersection points: Reducing redundant information in lbp-top for micro-expression recognition[C]//Asian Conference on Computer Vision. Springer International Publishing,2014:525-537

[13] Chan C H, Goswami B, Kittler J, et al. Local ordinal

contrast pattern histograms for spatiotemporal, lip-based speaker authentication[J]. IEEE Transactions on Information Forensics and Security,2012.7(2):602-612

第5篇:卷积神经网络的改进范文

P键词关键词:视网膜;PCNN;血管分割;MATLAB;GUIDE

DOIDOI:10.11907/rjdk.161883

中图分类号:TP319

文献标识码:A 文章编号:1672-7800(2016)008-0068-03

0 引言

眼睛是人体接受外界信息最主要的器官,约75%左右的信息来源于视觉信息。因此,眼睛健康与否对人的学习、生活和工作的影响非常大。而眼底则是这个器官的重要组成部分,主要包括视网膜、脉络膜、黄斑和视盘等。眼底视网膜中的血管是人体内唯一可以非创伤的方式直接观察到的较深层微血管,其颜色、亮度、位置分布、形状以及曲率等变化可以直接反映出疾病对血管网络形态结构的影响,是心脑血管疾病对血管微循环检查的重要部位。因此,视网膜图像中血管网络的检测与分割对心脑血管疾病的诊断及治疗具有重要意义[1]。

由于该方法计算公式复杂,涉及参数较多,且目前主要使用编写脚本程序的方式进行视网膜眼底图像中的血管分割,各个参数的调整都要在脚本程序中进行,非常复杂,不便于可视化地观察实验结果变化。因此,设计开发一款界面友好、操作简单的视网膜血管分割系统是非常必要的。

MATLAB是一款由Mathworks公司推出的数学软件,它在数值分析、矩阵运算、数值拟合以及图形绘制等方面均有极其强大的功能,已被广泛应用于数字图像处理、信号处理和系统仿真等各个领域。同时,MATLAB 软件具有界面友好、操作简单的图形可视化界面设计工具,其集成图形用户界面GUIDE(Graphical User Interface Development Environment)包含了窗口菜单、对话框、按钮和文本等各种控件[2]。用户通过对控件进行布局,编写控件的回调函数即可实现GUI 与用户之间的交互,操作十分方便。

本系统在对视网膜眼底图像中的血管进行预处理并运用脉冲耦合神经网络(Pulse Coupled Neural Network,PCNN)迭代原理分割的基础上,利用MATLAB 的图形用户界面开发环境(GUIDE)实现了视网膜血管分割系统。该系统为医学图像研究提供了一种有效的视网膜血管分割方法,也为医学图像处理提供了一个操作方便的实验平台。

1 研究方法

首先是对视网膜眼底图像中的血管进行预处理,然后利用PCNN方法对视网膜图像中的血管进行分割。

1.1 视网膜血管图像预处理

所处理的视网膜图像为眼底视网膜RGB彩色图像,通过将RGB 彩色图像分解成红、绿、蓝三通道单色图像可以发现,绿色通道的视网膜图像中血管和背景对比度最高, 而红、蓝色通道的单色图像中噪声较多、对比度较低, 因此采用绿色通道的视网膜图像进行处理。

由于视网膜眼底图像是由专门的医学设备采集的,血管周围区域难免会对后续处理产生干扰,因此需要对视网膜图像进行有效区域的选取。将RGB图像进行二值化处理,使其归一化到[0,1]之间,再依次应用形态学中的开运算、闭运算和腐蚀操作,生成二值掩膜图像。

由于血管直径大小不一、背景干扰以及成像时光照不均等因素影响,使得血管与背景的对比度较低。为获得理想的分割效果,要对眼底图像进行预处理,以增强血管和背景的对比度。本系统主要采用对比度受限制的自适应直方图均衡化(CLAHE)[3]与二维高斯匹配滤波[4]方法对视网膜血管进行对比度的增强。

直方图均衡化(HE)的基本思想是通过图像的灰度分布直方图确定一条映射曲线,用来对图像进行灰度变换,以达到提高图像对比度的目的。然而HE是对图像全局进行调整的方法,不能有效提高局部对比度。为了提高图像的局部对比度,有研究者提出自适应直方图均衡化(AHE)方法,将图像分成若干子块,对子块进行HE处理。但是AHE 对局部对比度提高过大,将导致图像失真。为了解决这个问题,必须对局部对比度进行限制,这便是CLAHE方法。CLAHE处理后的图像既能体现不同位置灰度分布之间的差异,又能使全局灰度较为协调。

二维高斯匹配滤波的原理主要是根据血管曲率较小且宽度渐进改变这一特点,将血管近似分段为等宽度的线段,然后用高斯曲线模拟其横截面的灰度轮廓。由于血管方向具有任意性,因此需要旋转高斯曲线来匹配不同方向的血管。每30°旋转一次,得到从0°~180°的6个匹配滤波器,再分别与经过CLAHE处理后的图像进行卷积,选择其中最大的卷积值作为增强图像的像素值。

最后,将经过CLAHE处理之后的图像减去经过CLAHE、二维高斯匹配滤波后的图像,即可得到最终的预处理结果。

1.2 基于PCNN的视网膜血管分割

脉冲耦合神经网络 (PCNN ,Pulse Coupled Neutral Network)[5]是20世纪90年代形成和发展的与传统人工神经网络有着根本不同的新型神经网络,其模型直接来源于高级哺乳动物的视觉神经系统,具有现实的生物学依据,在图像处理与分析及计算机视觉领域中有着广泛应用。它不仅能够克服微小变化造成的影响,而且能够较完整地保留图像的区域信息。因此,使用PCNN进行视网膜血管图像分割具有一定优势。

本系统采用PCNN简化模型对视网膜图像血管自动分割,该模型不仅保持了原始模型的重要特性,而且减少了部分参数。用迭代公式可以描述为:

式中,Sij是外部刺激,即点(i,j)对应像素的灰度值,Fij是神经元的输入项,Lij、Uij、Yij、Eij分别是神经元的耦合连接输入、内部活动项、脉冲输出和动态阈值。VL为连接输入域的放大系数,β为神经元之间的连接强度系数,VE和αE分别为动态阈值的放大系数和衰减常数因子,W为连接加权系数矩阵。PCNN应用于眼底图像处理时,其神经元数目与图像像素数目一致,各神元与像素一一对应,像素的灰度值作为对应神经元的输入Sij。当连接加权系数矩阵W所在邻域内有相似灰度值像素时,若其中某个神经元点火产生脉冲输出,会引起邻域内相近灰度值像素对应的神经元点火,产生脉冲序列输出,这些输出脉冲序列构成的二值图像Y即为输出的分割图像。

2 系统设计思路及方法

根据上述分割过程,将系统设计成两大模块,分别对应于两个界面,主界面为视网膜图像预处理模块,子界面为视网膜血管分割模块。通过使用MATLAB GUIDE中的控件进行布局和编写相应的回调函数来实现各模块功能。

利用MATLAB GUI实现视网膜血管分割系统的过程可以分为GUI 图形界面布局和GUI 程序实现两部分[6]。对于界面布局,首先要考虑窗口大小、控件位置以及界面所要实现的功能及各控件需要完成的任务。完成控件的布局之后,接着应对控件属性进行设置,通过在相应的控件上双击鼠标左键,打开属性查看器,设置该控件属性。最后需要对各个控件进行回调函数的编写,这是界面设计的关键一步,直接影响界面各个功能的实现。

3 系统功能实现

3.1 视网膜图像预处理模块

视网膜图像预处理模块包括选择图片、选择RGB通道、CLAHE增强处理、二维高斯匹配滤波处理以及最终预处理结果5个子模块,如图1所示。

具体操作如下:界面初始化后自动加载一幅默认图片,也可以由用户选择其它图片;单击“选择图片”按钮,之后会弹出一个对话框,选择要载入的图片,可以看到图片显示在界面的左上角,文件名显示在图片正下方;然后选择彩色通道,默认为绿色通道,选择的通道图像显示在右边区域左上角。如果勾选 “生成掩膜”选项,则后面的运行结果均会显示出单击“生成掩膜”之后的图像,默认状态为未勾选;接下来需要进行CLAHE处理,以增强图像对比度。在这里,主要是对adapthisteq函数中的参数进行设置;最后单击“运行”按钮,结果显示在右边区域的右上角。在进行CLAHE处理之后,需要进行二维高斯匹配滤波处理,主要是对滤波核个数、血管半径及血管段长度进行设置,以进一步增强血管与背景的对比度;然后单击“运行”按钮,结果显示在右边区域的左下角;单击“最终预处理结果”按钮,结果显示在右边区域的右下角。

3.2 视网膜血管分割模块

视网膜血管图像分割模块主要是根据PCNN算法迭代原理,调节PCNN各个参数,对视网膜血管图像进行分割,如图2所示。

具体操作如下:单击主界面中的“PCNN分割”按钮,即可进入视网膜血管分割模块的界面;接着选择所需PCNN模型和核,并设置核的半径大小。若选择“原始模型”,则需要设置PCNN的6个参数,若选择“改进模型”,则只需设置PCNN的4个参数;之后设置迭代次数和beta的值,单击“运行”按钮,在弹出的对话框中,选择一幅迭代图片,将自动生成分割结果;对于分割后的结果,单击“保存”按钮,可以保存图片;最后单击“返回”按钮,可以返回主界面。

4 结语

基于MATLAB 软件在图形绘制、数值运算及可视化界面开发等方面的优势,在对视网膜眼底图像中的血管预处理并运用PCNN算法迭代原理进行分割的基础上,通过MATLAB GUI 设计完成了视网膜血管分割系统,可以实现视网膜血管图像的增强处理,进而利用脉冲耦合神经网络方法对视网膜血管图像进行分割。本系统提供了一种有效的视网膜血管分割方法,在医学图像研究方面具有一定参考价值。同时,系统具有界面友好、操作简单等特点,为医学图像处理提供了一个操作方便的实验平台。

参考文献:

[1] 姚畅,陈后金,李居朋. 基于过渡区提取的视网膜血管分割方法[J].电子学报,2008,36(5):974-978.

[2] 姚秀芳,崔松菲. 基于MATLAB GUIDE的程序设计[J]. 电脑知识与技术,2009,27(5):7767-7768.

[3] 陈萌梦,熊兴良,张琰,等. 1种视网膜眼底图像增强的新方法[J]. 重庆医科大学学报,2014,39(8):1087-1090.

[4] 姚畅,陈后金. 一种新的视网膜血管网络自动分割方法[J].光电子・激光,2009,20(2):274-278.

第6篇:卷积神经网络的改进范文

本文作者:工作单位:安徽埃夫特智能装备有限公司

从控制系统设计角度来说,可以采用辩证法内外因基本原理来分析影响重载机器人控制品质的因素,首先,如果系统存在动力学耦合、柔性等非线性因素,仅仅采用传统的线性控制很难获得良好的控制品质,底层伺服回路的控制缺陷是影响机器人控制品质的内因。第二,如果运动规划环节处理不当,传输给底层运动控制回路的运动指令不合理,即存在位置不连续,速度不连续,加速度跃变等情况,对系统会产生严重的冲击,即便底层伺服控制设计再优秀,同样也会严重影响系统控制品质,这就是所谓的外因。下面就从内外因角度对目前在机器人运动规划和底层伺服控制方面的相关进展进行综述。机器人运动规划方法运动规划与轨迹规划是指根据一定规则和边界条件产生一些离散的运动指令作为机器人伺服回路的输入指令。运动规划的输入是工作空间中若干预设点或其他运动学和动力学的约束条件;运动规划的输出为一组离散的位置、速度和加速度序列。运动规划算法设计过程中主要需要考虑以下三个问题:(1)规划空间的选取:通常情况下,机器人轨迹规划是在全局操作空间内进行的,因为在全局操作空间内,对运动过程的轨迹规划、避障及几何约束描述更为直观。然而在一些情况下,通过运动学逆解,运动规划会转换到关节空间内完成。在关节空间内进行运动规划优点如下:a.关节空间内规划可以避免机构运动奇异点及自由度冗余所带来种种问题[1-4];b.机器人系统控制量是各轴电机驱动力矩,用于调节各轴驱动力矩的轴伺服算法设计通常情况也是在关节空间内的,因此更容易将两者结合起来进行统一考虑[5,6];c.关节空间运动规划可以避免全局操作空间运动规划带来的每一个指令更新周期内进行运动规划和运动学正逆计算带来的计算量,因为如果指令更新周期较短,将会对CPU产生较大的计算负荷。(2)基础函数光滑性保证:至少需要位置指令C2和速度指令C1连续,从而保证加速度信号连续。不充分光滑的运动指令会由于机械系统柔性激起谐振,这点对高速重载工业机器人更为明显。在产生谐振的同时,轨迹跟踪误差会大幅度增加,谐振和冲击也会加速机器人驱动部件的磨损甚至损坏[7]。针对这一问题,相关学者引入高次多项式或以高次多项式为基础的样条函数进行轨迹规划,其中Boryga利用多项式多根的特性,分别采用5次、7次和9次多项式对加速度进行规划,表达式中仅含有一个独立参数,通过运动约束条件,最终确定参数值,并比较了各自性能[8]。Gasparetto采用五次B样条作为规划基础函数,并将整个运动过程中加速度平方的积分作为目标函数进行优化,以确保运动指令足够光滑[9]。刘松国基于B样条曲线,在关节空间内提出了一种考虑运动约束的运动规划算法,将运动学约束转化为样条曲线控制顶点约束,可保证角度、角速度和角加速度连续,起始点和终止点角速度和角加速度可以任意配置[10]。陈伟华则在Cartesian空间内分别采用三次均匀B样条,三次非均匀B样条,三次非均匀有理B样条进行运动规划[11]。(3)运动规划中最优化问题:目前常用的目标函数主要为运行时间、运行能耗和加速度。其中关于运行时间最优的问题,较为经典是Kang和Mckay提出的考虑系统动力学模型以及电机驱动力矩上限的时间最优运动规划算法,然而该算法加速度不连续,因此对于机器人来说力矩指令也是不连续的,即加速度为无穷大,对于真实的电驱伺服系统来说,这是无法实现的,会对系统产生较大冲击,大幅度降低系统的跟踪精度,对机械本体使用寿命也会产生影响[12]。针对上述问题Constantinescu提出了解决方法,在考虑动力学特性的基础上,增加对力矩和加速度的约束,并采用可变容差法对优化问题进行求解[13]。除了以时间为优化目标外,其他指标同样被引入最优运动规划模型中。Martin采用B函数,以能耗最少为优化目标,并将该问题转化为离散参数的优化问题,针对数值病态问题,提出了具有递推格式的计算表达式[14]。Saramago则在考虑能耗最优的同时,将执行时间作为优化目标之一,构成多目标优化函数,最终的优化结果取决于两个目标的权重系数,且优化结果对于权重系数选择较为敏感[15]。Korayem则在考虑机器人负载能力,关节驱动力矩上限和弹性变形基础上,同时以在整个运行过程中的位置波动,速度波动和能耗为目标,给出了一种最优运动规划方法[6],然而该方法在求解时,收敛域较小,收敛性较差,计算量较大。

考虑部件柔性的机器人控制算法机器人系统刚度是影响动态性能指标重要因素。一般情况下,电气部分的系统刚度要远远大于机械部分。虽然重载工业机器人相对于轻型臂来说,其部件刚度已显著增大,但对整体质量的要求不会像轻型臂那么高,而柔性环节仍然不可忽略,原因有以下两点:(1)在重载情况下,如果要确保机器人具有足够的刚度,必然会增加机器人部件质量。同时要达到高速高加速度要求,对驱动元件功率就会有很高的要求,实际中往往是不可实现(受电机的功率和成本限制)。(2)即使驱动元件功率能够达到要求,机械本体质量加大会导致等效负载与电机惯量比很大,这样就对关节刚度有较高的要求,而机器人关节刚度是有上限的(主要由减速器刚度决定)。因此这种情况下不管是开链串联机构还是闭链机构都会体现出明显的关节柔性[16,17],在重载搬运机器人中十分明显。针对柔性部件带来的系统控制复杂性问题,传统的线性控制将难以满足控制要求[17-19],目前主要采用非线性控制方法,可以分成以下几大类:(1)基于奇异摄动理论的模型降阶与复合控制首先针对于柔性关节控制问题,美国伊利诺伊大学香槟分校著名控制论学者MarkW.Spong教授于1987年正式提出和建立柔性关节的模型和奇异摄动降阶方法。对于柔性关节的控制策略绝大多数都是在Spong模型基础上发展起来的。由于模型的阶数高,无法直接用于控制系统设计,针对这个问题,相关学者对系统模型进行了降阶。Spong首先将奇异摄动理论引入了柔性关节控制,将系统分成了慢速系统和边界层系统[20],该方法为后续的研究奠定了基础。Wilson等人对柔性关节降阶后所得的慢速系统采用了PD控制律,将快速边界层系统近似为二阶系统,对其阻尼进行控制,使其快速稳定[21]。针对慢速系统中的未建模非线性误差,Amjadi采用模糊控制完成了对非线性环节的学习[22]。彭济华在对边界层系统提供足够阻尼的同时,将神经网络引入慢速系统控制,有效的克服了参数未知和不确定性问题。连杆柔性会导致系统动力学方程阶数较高,Siciliano和Book将奇异摄动方法引入柔性连杆动力学方程的降阶,其基本思想与将奇异摄动引入柔性关节系统动力学方程一致,都将柔性变形产生的振动视为暂态的快速系统,将名义刚体运动视为准静态的慢速系统,然后分别对两个系统进行复合控制,并应用于单柔性连杆的控制中[23]。英国Sheffield大学A.S.Morris教授领导的课题组在柔性关节奇异摄动和复合控制方面开展了持续的研究。在2002年利用Lagrange方程和假设模态以及Spong关节模型建立柔性关节和柔性连杆的耦合模型,并对奇异摄动理论降阶后的慢速和快速子系统分别采用计算力矩控制和二次型最优控制[24]。2003年在解决柔性关节机器人轨迹跟踪控制时,针对慢速系统参数不确定问题引入RBF神经网络代替原有的计算力矩控制[25].随后2006年在文献[24]所得算法和子系统模型的基础上,针对整个系统稳定性和鲁棒性要求,在边界层采用Hinf控制,在慢速系统采用神经网络算法,并给出了系统的稳定性分析[26]。随着相关研究的开展,有些学者开始在奇异摄动理论与复合控制的基础上作出相应改进。由于奇异摄动的数学复杂性和计算量问题,Spong和Ghorbel提出用积分流形代替奇异摄动[27]。针对奇异摄动模型需要关节高刚度假设,在关节柔度较大的情况下,刘业超等人提出一种刚度补偿算法,拓展了奇异摄动理论的适用范围[28]。(2)状态反馈和自适应控制在采用奇异摄动理论进行分析时,常常要同时引入自适应控制律来完成对未知或不精确参数的处理,而采用积分流形的方式最大的缺点也在于参数的不确定性,同样需要结合自适应控制律[29,30]。因此在考虑柔性环节的机器人高动态性能控制要求下,自适应控制律的引入具有一定的必要性。目前对于柔性关节机器人自适应控制主要思路如下:首先根据Spong模型,机器人系统阶数为4,然后通过相应的降阶方法获得一个二阶的刚体模型子系统,而目前的大多数柔性关节自适应控制律主要针对的便是二阶的刚体子系统中参数不确定性。Spong等人提出了将自适应控制律引入柔性关节控制,其基于柔性关节动力学奇异摄动方程,对降阶刚体模型采用了自适应控制律,主要采用的是经典的Slotine-Li自适应控制律[31],并通过与Cambridge大学Daniel之间互相纠正和修改,确立一套较为完善的基于奇异摄动模型的柔性关节自适应控制方法[32-34]。(3)输入整形控制输入整形最原始的思想来自于利用PosicastControl提出的时滞滤波器,其基本思想可以概括为在原有控制系统中引入一个前馈单元,包含一系列不同幅值和时滞的脉冲序列。将期望的系统输入和脉冲序列进行卷积,产生一个整形的输入来驱动系统。最原始的输入整形方法要求系统是线性的,并且方法鲁棒性较差,因此其使用受到限制。直到二十世纪九十年初由MIT的Signer博士大幅度提高该方法鲁棒性,并正式将该方法命名为输入整形法后[35],才逐渐为人们重视,并在柔性机器人和柔性结构控制方面取得了一系列不错的控制效果[36-39]。输入整形技术在处理柔性机器人控制时,可以统一考虑关节柔性和连杆柔性。对于柔性机器人的点对点控制问题,要求快速消除残余振荡,使机器人快速精确定位。

这类问题对于输入整形控制来说是较容易实现的,但由于机器人柔性环节较多,呈现出多个系统模态,因此必须解决多模态输入整形问题。相关学者对多模态系统的输入整形进行了深入研究。多模态系统的输入整形设计方法一般有:a)级联法:为每个模态设计相应的滤波器,然后将所有模态的时滞滤波器进行级联,组合成一个完整的滤波器,以抑制所有模态的振荡;b)联立方程法:直接根据系统的灵敏度曲线建立一系列的约束方程,通过求解方程组来得到滤波器。这两种方法对系统的两种模态误差均有很好的鲁棒性。级联法设计简单,且对高模态的不敏感性比联立方程法要好;联立方程法比较直接,滤波器包含的脉冲个数少,减少了运行时间。对于多模态输入整形控制Singer博士提出了一种高效的输入整形方法,其基本思想为:首先在灵敏度曲线上选择一些满足残留振荡最大幅值的频段,在这些特定的频带中分别选择一些采样频率,计算其残留振荡;然后将各频率段的残留振荡与期望振荡值的差平方后累加求和,构成目标函数,求取保证目标函数最小的输入整形序列。将频率选择转化为优化问题,对于多模态系统,则在每个模态处分别选择频率采样点和不同的阻尼系数,再按上述方法求解[40]。SungsooRhim和WayneBook在2004年针对多模态振动问题提出了一种新的时延整形滤波器,并以控制对象柔性模态为变量的函数形式给出了要消除残余振动所需最基本条件。同时指出当滤波器项数满足基本条件时,滤波器的时延可以任意设定,消除任何给定范围内的任意多个柔性振动模态产生的残余振动,为输入整形控制器实现自适应提供了理论基础[41],同时针对原有输入整形所通常处理的点对点控制问题进行了有益补充,M.C.Reynolds和P.H.Meckl等人将输入整形应用于关节空间的轨迹控制,提出了一种时间和输入能量最优的轨迹控制方法[42]。(4)不基于模型的软计算智能控制针对含有柔性关节机器人动力学系统的复杂性和无法精确建模,神经网络等智能计算方法更多地被引入用于对机器人动力学模型进行近似。Ge等人利用高斯径向函数神经网络完成柔性关节机器人系统的反馈线性化,仿真结果表明相比于传统的基于模型的反馈线性化控制,采用该方法系统动态跟踪性能较好,对于参数不确定性和动力学模型的变化鲁棒性较强,但是整个算法所用的神经网络由于所需节点较多,计算量较大,并且需要全状态反馈,状态反馈量获取存在一定困难[43]。孙富春等人对于只具有关节传感器的机器人系统在输出反馈控制的基础上引入神经网络,用于逼近机器人模型,克服无法精确建模的非线性环节带来的影响,从而提高机器人系统的动态跟踪性能[44]。A.S.Morris针对整个柔性机器人动力学模型提出了相应的模糊控制器,并用GA算法对控制器参数进行了优化,之后在模糊控制器的基础上,综合了神经网络的逼近功能对刚柔耦合运动进行了补偿[45]。除采用神经网络外,模糊控制也在柔性机器人控制中得以应用。具有代表性的研究成果有V.G.Moudgal设计了一种具有参数自学习能力的柔性连杆模糊控制器,对系统进行了稳定性分析,并与常规的模糊控制策略进行了实验比较[46]。Lin和F.L.Lewis等人在利用奇异摄动方法基础上引入模糊控制器,对所得的快速子系统和慢速子系统分别进行模糊控制[4748]。快速子系统的模糊控制器采用最优控制方法使柔性系统的振动快速消退,慢速子系统的模糊控制器完成名义轨迹的追踪,并对单柔性梁进行了实验研究。Trabia和Shi提出将关节转角和末端振动变形分别设计模糊控制器进行控制,由于对每个子系统只有一个控制目标,所以模糊规则相对简单,最后将两个控制器的输出进行合成,完成复合控制,其思想与奇异摄动方法下进行复合控制类似[49]。随后又对该算法进行改进,同样采用分布式结构,通过对输出变量重要性进行评估,得出关节和末端点的速度量要比位置量更为重要,因此将模糊控制器分成两部分,分别对速度和位置进行控制,并利用NelderandMeadSimplex搜索方法对隶属度函数进行更新[50]。采用基于软计算的智能控制方法相对于基于模型的控制方法具有很多优势,特别是可以与传统控制方法相结合,完成对传统方法无法精确建模的非线性环节进行逼近,但是目前这些方法的研究绝大部分还处于仿真阶段,或在较简单的机器人(如单自由度或两自由度机器人)进行相关实验研究。其应用和工程实现受限的主要原因在于计算量大,但随着处理器计算能力的提高,这些方法还有广泛的应用前景。

第7篇:卷积神经网络的改进范文

关键词:交通标志检测;ITS;TSR;颜色检测;形状检测

中图分类号:TB

文献标识码:A

doi:10.19311/ki.16723198.2017.12.089

1引言

随着经济的发展,汽车出行在为人们带来便利的同时也增加了安全事故的发生。智能交通系统ITS(Intelligent Transportation System)作为一种全新的汽车识别模式,能够缓解交通事故的发生。具体表现在,汽车在行驶过程中,利用车载系统对交通标志进行识别,再反馈给驾驶员,为驾驶提供路况信息,使驾驶员能够对路况做出准确的判断,减少交通意外的发生。另一方面,对于无人驾驶和交通标志的识别,也l挥着重要的维护作用。

近几十年来,交通标志检测与识别受到了诸多学者的关注与研究,ITS在减少安全事故和缓解道路压力方面发挥着重要作用,交通标志识别系统TSR(Traffic Sign Recognition)也应运而生。交通标志识别系统包括很多方面,交通标志检测是其一个子方面,但其重视程度不言而喻,它的应用范围很广,如无人驾驶车辆和驾驶员辅助系统等,在行车过程中,为驾驶员提供实时路况检测。虽然目前在交通标志检测方面取得了一些突破性的进展和一些阶段性的成果,但随着道路环境的多样化和不确定因素,使得检测仍存在诸多困难。总的来说,交通标志检测实用性强,关注度高,在任何时候热度都不会消减,会引发更多的人去深入研究。

2交通标志检测系统组成

交通标志检测包括五部分:图像采集,预处理,颜色分割,形状检测,精准定位。图形的采集尤为重要,对于采集到倾斜的图像,我们需要对其进行矫正处理。对于正常图像,大多数情况我们需要对其做预处理,以消除光照等的影响,然后可以通过交通标志特有的颜色和形状信息对其进行分割处理,以得到待选区域。再根据一些特定的算法对干扰区域进行剔除,从而得到目标区域。对于目前交通标志检测的研究现状,虽然取得了突破性的进展,但各种算法亦有优缺点,面对复杂多变的交通环境很难做出很好的检测,所以有必要对交通标志的检测进行更进一步的讨论和研究。

3国内外研究现状

3.1国外研究现状

早在1987年日本就进行了交通标志的检测与识别,采用了模板匹配的经典算法,其平均识别时间为0.5秒。发到国家也不甘落后,1993年美国针对“停车”的标志研究开发了ADIS系统,采用了颜色聚类的方法对目标进行检测,然而AIDS存在一个明显的缺陷,就是时间不稳定。为了满通标志时间识别的精确性,1994年,戴姆勒-奔驰汽车公司与大学合作开发,最终,一个全新的系统诞生了,其速度之快令人叹服,达到3.2s/幅,交通标志数据库中,有40000多幅图像,其识别准确率为98%。交通标志检测与识别研究进入新千年。越来越多的科研工作者和科研机构加入到交通标志检测与识别中去,使得检测技术有了很大的进步。在2001年Winconsin大学的Liu和Ran基于HIS空间的颜色阈值分割法,结合神经网络进行识别,经过实验显示该系统的准确率为95%。2005年Carethloy实验室和Nick Barnes自动化研究所利用交通标志在图形上的对称性来确定交通标志的质心位置,其建立的交通标志识别系统的准确率为95%。在2009年Muhammad等人运用多个方法进行识别实验得到最好的识别准确率为97%。2011年德国以德国交通标志数据库(GTSRB)为基础举办了交通标志识别大赛(IJCNN2011)。标志着交通标志检测与识别受到了全世界的高度关注,这也促进了交通标志检测与识别的研究进展。Ciresan等人在IJCNN2011大赛上采用深度卷积神经网络(Deep Convolution Neural Network)识别算法得到了比人类识别平均率高的结果。2013年,对于交通标志检测系统,Kim J.B将视觉显著性模型运用到其中,使交通识别的准确性更高。

3.2国内研究现状

与国外相比,在时间上,对于交通检测系统,我国运用的稍微落后。在交通标志检测研究方面,将颜色和形状结合的相关检测方法较为广泛,在识别算法方面,国内一些学者也取得了显著性的成果。在2000年郁梅提出了一种基于颜色的快速检测方法。2004年,根据不变矩特征和BP神经网络,王坤明等人对交通识别系统做了进一步的阐述。2008年,交通识别系统有了进一步的发展,以BP神经网络为基础,宁波大学朱双东教授等人将交通标志的颜色区分成了五种最基本的颜色。2012年朱淑鑫在RGB和HIS空间上进行多阈值分割。2013年,“红色位图”方法被提出,其主要利用在边缘信息的形状检测上,王刚毅希望通过这一方法来提高红色圆形标志区域的检测率。

4交通标志检测算法现状

我国的交通标志主要分为警告、禁止、指示三大类,交通标志颜色主要有红色、蓝色、黑色、黄色和白色五种基本颜色,交通标志的形状有四大类,即三角形、矩阵、八边形和圆形。目前针对道路交通标志检测的算法主要是基于颜色的检测、形状的检测以及颜色和形状相结合的检测,下面我们对常见的检测方法进行简单的概述。

4.1基于色的检测方法

由于交通标志具有很明显的颜色特征,所以很多文献都对这一方法做了讨论和研究。常见的颜色空间有RGB、HSI、Lab、Ycgcr、Ycbcr等。De La Escalear A等人运用RGB阈值的方法将颜色分类。但此方法受光照影响因素较大,为了减少光照等环境因素的影响,Ruta等人提出了RGB空间颜色增强的方法,这种方法可以快速将标志区域检测出来。由于RGB空间亮度和色度的混合在一起的,后来研究者们运用了更符合人类对颜色的视觉理解的HIS、HSV空间。为了使交通标志的检测精度更高,在HIS空间中设定阈值这个方法被提出了,事实上,一个交通标志可以由几种颜色构成,因此,S.LafuenteCArroyo等人希望通过这种方法对于不同颜色的交通标志都能检测出来。但HIS颜色空间聚类效果不好,因此,为了更好的对交通标志的颜色进行区分,选择聚类效果好的颜色空间至关重要,在此基础上,Jitendra N.Chourasia等人主张使用Ycbcr颜色区间。

4.2基于形状的检测方法

除了利用颜色对交通标志进行检测之外,还可以利用交通标志的形状,这也是其另一个重要的特点。最常用的检测圆形和直线是Hough变换,事实证明,Kuo W J等人通过Hough变换,对交通标志进行检测,效果显著,但由于其计算量大的原因不适用于实时性监测。另一种形状检测法是基于拐角提取算法,Escalera等人提出拐角检测算法,简单来说,就是根据形状的变化所产生的像素点判断能否为拐点,来进行检测,但是,其唯一的缺点是误检率也比较高。Rangarajan等人提出了一种最优拐角检测方法,通过设计好的掩膜与图像做卷积运算后将拐角检测出来,鲁棒性好。

4.3基于颜色和形状的检测方法

既然基于颜色和基于形状的方法都不能得到很好的交通标志检测,于是很多学者将这两种方法结合起来,产生了综合颜色和形状的检测方法。并也取得了一些显著性的成果。M.Zadeh等人利用图像处理的相关知识,先把图像进行颜色分割,再运用形态学的相关方法提取区域边缘,最后对待定区域进行跟踪和几何分析,从而提取得到目标检测区域。但该方法对噪声特别敏感。所以当图像的噪声很强时这种检测方法的效果并不理想。

5交通标志检测与识别难点

尽管近几十年提出了很多新的检测方法,但目前的研究成果还不能够胜任复杂多变的现实场景。交通标志识别系统TSR设计到多个研究领域,包括图像处理、人工智能、模式识别和机器学习等相关领域,因此,关于交通标志识别系统的研究任重而道远,在未来,不管是自然场景下,还是复杂场景下,对于交通识别系统研究,都应重点关注。现阶段交通标志检测与识别主要面临的困难和挑战如下:

(1)环境对交通标志的影响。这主要表现在四季中风雨对交通标志的损坏,这在一定程度上会降低图像的清晰度。交通标志长年暴露在外面,难免会出现变形、污损、褪色等情况,这对检测也造成了困难。

(2)拍摄角度的影响。不同的拍摄角度对检测具有比较大的影响,对倾斜的图像我们需要对其做一个矫正处理。

(3)现场场景环境中有很多干扰物体,使得在分割的时候会把不是标志的物体也分割出来,对我们检测带来了一定程度上的干扰。

(4)交通标志类型复杂,种类多,目前所了解的就有130多种,包括警告标志、指示标志、禁令标志、指路标志等等,给检测大大增加了难度。

(5)实时性改进的问题,由于汽车移动速度快,而且在移动过程中往往在一定程度上有抖动和变速等动作,捕捉到的图像会产生变形模糊,处理时间过长会导致司机反应时间缩短。

(6)准确率有待进一步提升。准确率太低的话不但达不到驾驶辅助作用,反而会引起交通事故发生。

(7)没有公用样本数据。国内目前统一的评判标准和数据库尚未建立起来。

(8)智能交通识别系统服务于大众,因此需要考虑经济成本问题。

综合以上可知,由于在现实场景中以上问题的存在,所以在设计道路交通标志检测与识别算法的时候必须有针对性的解决上诉问题。

6总结

总的来说,交通标志检测与识别系统(TSR)的发展前景非常好,被广泛运用于辅助驾驶系统、无人汽车驾驶和各种道路检测标志的检测修复等领域。本文主要对国内外的研究现状做了一个回顾和分析,许多研究学者也做出了一些阶段性的成果和进展,但由于自然环境下一些复杂多变的因素对检测造成了困难和挑战,因此TSR系统的研究还面临许多难题有待解决。随着人工智能和机器学习等算法的提升,我们坚信未来的道路交通标志检测与识别会迈上一个新的台阶。

参考文献

[1]徐华青,陈瑞南,林锦川等.道路交通标志检测方法研究[J].福州大学学报,2010,(3):387392.

[2]常发亮,黄翠,刘成云等.基于高斯颜色模型和SVM的交通标志检测[J].仪器仪表学报,2014,35(1):4349.

[3]Salichs M A.TRAFFIC SIGN DETECTION FOR DRIVER SUPPORT SYSTEMS[C].2001.

[4]Kehtarnavaz N,Griswold N C,Kang D S.Stop-sign recognition based on color/shape processing[J].Machine Vision and Applications,1993,6(4):206208.

[5]Priese L,Lakmann R,Rehrmann V.Ideogram identification in a realtime traffic sign recognition system[C].Intelligent Vehicles 95 Symposium. Proceedings of the.IEEE,1995:310314.

[6]Liu H,Ran B.Vision-Based Stop Sign Detection and Recognition System for Intelligent Vehicles[J].Transportation Research Record Journal of the Transportation Research Board,2001,1748(1):161166.

[7]Barnes N,Loy G,Shaw D,et al.Regular polygon detection[C].Tenth IEEE International Conference on Computer Vision.IEEE,2014:778785.

[8]Muhammad A S,Lavesson N,Davidsson P,et al.Analysis of Speed Sign Classification Algorithms Using Shape Based Segmentation of Binary Images[J].Lecture Notes in Computer Science,2009,5702:12201227.

[9]Kim J B.Detection of traffic signs based on eigen-color model and saliency model in driver assistance systems[J].International Journal of Automotive Technology,2013,14(3):429439.

[10]郁梅,郁伯康.基于彩色D像的指示标志检测[J].计算机工程与应用,2000,36(4):169172.

[11]王坤明,许忠仁.基于不变矩和神经网络的交通标志识别方法研究[J].计算机应用研究,2004,21(3):254255.

[12]朱双东,蒋甜甜,刘兰兰.基于颜色规格化的交通标志识别[J].计算机应用与软件,2008,25(1):220222.

[13]朱淑鑫.基于颜色特征的交通标志图像分割研究[J].考试周刊,2012,(81):111112.

[14]Wang G,Ren G,Jiang L,et al.Hole-based traffic sign detection method for traffic signs with red rim[J].The Visual Computer,2014,30(5):539551.

[15]De l E A,Moreno L E,Salichs M A,et al.Road traffic sign detection and classification[J].IEEE Transactions on Industrial Electronics,1997,44(6):848859.

[16]Ruta A,Li Y,Liu X.Real-time traffic sign recognition from video by class-specific discriminative features[J].Pattern Recognition,2010,43(1):416430.

[17]Lafuente-Arroyo S,Salcedo-Sanz S,Maldonado-Basc,et al.A decision support system for the automatic management of keep-clear signs based on support vector machines and geographic information systems[J].2010,37(1):767773.

[18]Chourasia J N,Bajaj P.Centroid Based Detection Algorithm for Hybrid Traffic Sign Recognition System[C].International Conference on Emerging Trends in Engineering and Technology.IEEE,2010:96100.

[19]Kuo W J,Lin C C.Two-Stage Road Sign Detection and Recognition[C].IEEE International Conference on Multimedia and Expo.IEEE Xplore,2007:14271430.

[20]De l E A,Moreno L E,Salichs M A,et al.Road traffic sign detection and classification[J].IEEE Transactions on Industrial Electronics,1997,44(6):848859.

第8篇:卷积神经网络的改进范文

关键词:载荷反求;正则化;虚拟减缩;迭代方法

中图分类号:TP391.9 文献标志码:A

Load Identification of Virtual Iteration Based

on Tikhonov Regularization and Model Reduction

ZHANG Bangji,ZHOU Shouyu, XIE Qingxi,ZHANG Nong

(State Key Laboratory of Advanced Design and Manufacturing for Vehicle Body,Hunan University, Changsha 410082, China)

Abstract: The model reduction technique was applied to solve the dynamic response. In order to make the system show the actual responses of the expected signals, the iteration procedure was then used to modify the load signals based on Tikhonov regularization load identification. Furthermore, the accuracy of the load signals was identified. The comparison of the proposed method with the traditional Tikhonov method shows that the proposed method can retain a good anti-noise characteristic, and improve the precision of load identification. The accuracy of the load identification by the proposed method is much higher than that of the traditional method.

Key words:load identification; regularization; virtual reduction; iterative methods

工程振动问题备受关注,结构动态载荷的精确获取可为工程结构的振动分析、疲劳分析等提供基础,然而因经济性或技术条件的限制,许多情况下载荷难以通过直接测量的方式获取,如汽车车身所受的激振力、轮船行驶时受到的波浪式冲击载荷等.因此利用载荷反求方法间接获取激振载荷具有重要意义.

载荷反求是通过系统响应和振动特性来反求结构所受载荷,是动力学第二类反问题[1].国内外学者针对动态载荷反求的理论和技术研究做了很多工作[2-4].传统的反求方法有时域法与频域法两大类[5],随着计算机技术的发展,遗传算法[6]、神经网络[7]等新方法被应用于载荷反求领域.Kim等人[8]利用结构动力学关系构建载荷反求动力学方程,通过频响函数求逆法进行载荷反求,用奇异值分解法(SVD)改善频响函数求逆过程中的矩阵病态问题;Choi等人[9-10]运用最小二乘的Tikhonov正则化方法解决矩阵的病态问题,在提高载荷反求结果稳定性与抗干扰性方面效果良好,并对比分析了不同正则化参数选择方法对载荷反求精度的影响.国内在正则化反求法方面做了很多研究[11-13],其中应用较广的是Tikhonov正则化反求法.郭荣等[14]综合运用Tikhonov正则化与奇异值分解的反求方法,有效提高了结构载荷反求精度.

然而Tikhonov等正则化反求法存在其自身的缺陷,由于该方法对反求载荷有平滑的作用,导致在响应测试噪声水平较高,或者系统线性程度不高的情况下,在反求信号的峰值处将很难得到较好结果[12].对此,结合文献[15]中室内试验台架驱动文件生成方法,提出新的载荷反求方法.其基本流程是,将Tikhonov正则化所反求的载荷重新激励系统,将获得的响应与真实期望响应对比,通过误差反馈补偿来逐步修正Tikhonov正则化反求法所得到的载荷信号,以提高在载荷峰值处的反求精度.考虑到在实际工程中,所研究的对象往往是复杂结构仿真模型,迭代中l繁的正向求解过程相当耗时,甚至导致反求过程难以实现.对此,本文结合模型减缩技术,对大型有限元结构进行降阶处理,得到规模较小的等价模型,在保证响应计算精度的同时,极大缩短正问题的求解时间,提高计算效率.

1 虚拟迭代载荷反求原理

1.1 Tikhonov正则化理论

对于线性系统,在待反求载荷f(t)的作用下,系统的响应可以由单位脉冲响应函数与动态载荷的卷积分形式表示为:

y(x,t)=∫t0G(x,t-t)f(t)dt(1)

式中:y(x,t)为结构测点x处的响应,可以是位移、速度、加速度等;f(t)为载荷的时间历程;G(x,t)是相应的载荷作用点到响应点的Green函数,即单位脉冲响应.

考虑零初始条件系统,可将式(1)中的卷积分在时域内进行n个等间隔时间点离散,可化为一组线性方程组:

1.2 迭代反求算法

线性时不变系统响应噪声水平不高时,采用最优正则化参数的Tikhonov方法可较精确地反求激励载荷,但是当系统响应噪声水平较高时,即使是最优的正则化参数,也难以平衡解的逼近性与稳定性这对矛盾;且在工程实际中,系统的各个环节,如汽车的衬垫等连接部件,在一定程度上都存在非线性因素,导致反求难度增大.对此,采用迭代的方法,根据响应误差反馈补偿,逐步修正所求载荷信号,使其达到要求[16].

首先,对一个已知系统,其响应信号Yδ,由上述Tikhonov正则化方法反求,计算出初始载荷信号为:

1.3 减缩技术

载荷的迭代反求过程,需要反复计算仿真系统的动响应,仿真系统通常用有限元的方式表达.但对于有限元模型,通常网格越密仿真精度越高,但密集的网格会导致响应求解时间增长,尤其在反复迭代计算过程中,正问题的求解时间过长是影响迭代的重要因素.对此,采用模型减缩技术,对原始有限元模型进行降阶等效,再对降阶模型进行迭代响应计算,从而解决计算精度与计算效率之间的矛盾.本文采用的减缩方法是IRS[19]方法.

IRS 减缩方法是一种基于 Guyan静力减缩法并考虑惯性力影响的改进方法.系统的运动方程可以表示为:

1.4 迭代收敛条件

上述Tikhonov迭代正则化算法可用流程框图表示,如图1所示.

2 数值算例

为了验证上述迭代法对Tikhonov正则化反求结果的优化作用,以及模型减缩技术对迭代效率改善的正确性与有效性,下面给出几种不同载荷形式的算例进行仿真对比分析.选用一块带约束的平板,在ABAQUS中建立如图2所示的有限元模型,平板一边两端用螺栓夹紧固定,模型中平板的弹性模量为210 GPa,密度为7.85 g/cm3,厚度为4 mm,边长为500 mm.

2.1 模型减缩应用及结果分析

为提高响应计算速度以及迭代效率,对该模型进行减缩降阶,在确保模型精度不受影响的情况下,用近似的低阶模型代替原来复杂的高阶系统模型来进行迭代反求.对该有限元模型,质量矩阵和刚度矩阵通过ABAQUS被直接导出,在模型上选取包括激振点与拾振点在内共 176个节点,用IRS减缩法在 MATLAB 中对平板模型进行模型减缩,并用模态置信度(MAC值)分析减缩前后模型模态振型吻合程度,验证该减缩模型的精度[20].

2.1.1 减缩前后振型对比

2.1.2 动响应计算效率分析

在载荷反求过程中往往需要反复多次求取系统响应,因此动响应计算效率是衡量反求实际效果的重要标准.分别对算例原模型、IRS减缩模型求动态响应,比较相同时间历程的动态响应所消耗实际CPU时间,结果如图4所示.

由此可见,相比于原模型,IRS减缩模型大大减少了动响应计算时间,因此,模型减缩很大程度上提高了计算效率,所需计算响应时间历程越长,效果越明显.在本文数十次迭代计算动态响应过程中,IRS模型减缩技术的应用将极大地提高迭代计算响应效率.

2.2 载荷反求对比分析

在板面节点308#施加垂直于板面的单位载荷,选取响应节点62#垂直板面方向速度作为响应(如图2所示).首先计算载荷点到响应节点对应的Green函数;再以不同形式载荷下的响应,进行载荷反求;最后对仿真得到的响应数据加入一定水平的随机噪声来模拟测试误差.此时带噪声的速度响应可用下式来表示:

式中:Y(t)为仿真得到的速度响应;std(Y(t))为速度响应Y(t)的标准差;lnoise为噪声水平的百分数;rand(-1,1)是区间-1,1的随机数[12].

在速度响应中加入15%的模拟噪声,首先用传统的Tikhonov正则化方法进行载荷反求,以L曲线法确定最优正则化参数,得到待求载荷,计算反求精度;再以此反求载荷,作为初始激励载荷,用上述虚拟迭代方法修正载荷信号,进行反求优化,以达到精度要求;最后对比优化前后载荷反求精度.

选用不同频率、不同幅值周期正弦、正弦扫频(10~100 Hz)、三角波以及随机激励等形式的激振力激振进行载荷反求,反求结果如图5-图9所示.

由图5-图9可以看出,对不同形式的激励,在一定噪声水平情况下,传统的L曲线法确定最优参数的Tikhonov正则化方法能够很好地抑制噪声对反求结果的干扰,具有很强的稳健性.但在载荷峰值处,反求误差较大,反求整体精度受影响,这主要是由于正则化方法对反求载荷有平滑的作用,使得该方法在载荷峰值难以得到准确的反求结果.Tikhonov正则化方法对这几种载荷反求的加权误差为8.0%左右.而本文提出的迭代Tikhonov正则化方法不仅能够继承传统正则化方法反求结果稳健性的优点,同时还可以改善其在载荷峰值处反求结果,提高反求精度,反求结果加权误差最低可降至2.0%.迭代Tikhonov正则化方法无论对确定信号还是随机载荷激励都有很好的反求精度,且对如图9所示中的高频载荷段迭代反求也有很高的精度.

3 结 论

本文在传统Tikhonov正则化反求方法的基础上,提出了一种新的迭代改进方案.结合有限元算例和模型减缩技术,分别采用传统Tikhonov方法和本文迭代方法对三角、正弦以及随机载荷等激励进行载荷反求.结果表明:

1)本文提出的基于Tikhonov正则化迭代反求方法不仅能够继承传统Tikhonov正则化反求法有效抑制噪声的特点,同时还可以提高其在峰值载荷处的反求精度,整体反求精度高;

2)应用模型减缩技术可以提高动响应求解效率,有助于载荷反求迭代过程的开展,最终又快又好的求得激励载荷.

参考文献

[1] MARCHUK G I. Methods of numerical mathematics[M]. Berlin: Springer-Verlag, 1975: 16-18.

[2] O兴盛,刘杰,丁飞,等.基于矩阵摄动的随机结构动态载荷识别技术[J].机械工程学报,2014, 50(13):148-156.

SUN Xingcheng, LIU Jie, DING Fei, et al. Identification method of dynamic loads for stochastic structures based on matrix perturbation theory[J]. Journal of Mechanical Engineering, 2014, 50(13): 148-156.(In Chinese)

[3] 彭凡,马庆镇,肖健,等.整体平动自由结构载荷时域识别技术研究[J].振动与冲击,2016, 35(6):91-95.

PENG Fan, MA Qingzhen, XIAO Jian, et al. Load identification technique in time domain for free structures with overall translation[J]. Journal of Vibration and Shock, 2016, 35(6): 91-95.(In Chinese)

[4] SANCHEZ J, BENAROYA H. Review of force reconstruction techniques[J]. Journal of Sound and Vibration, 2014, 333(14): 2999-3018.

[5] 胡寅寅,率志君,李玩幽,等.设备载荷识别与激励源特性的研究现状[J].噪声与振动控制,2011(4):1-5.

HU Yinyin, LV Zhijun, LI Wanyou, et al. Status QUO of study on machine,s load identification technique[J]. Noise and Vibration Control, 2011(4): 1-5.(In Chinese)

[6] 刘杰,许灿,李凡,等.基于λ-PDF 和一次二阶矩的不确定性反求方法[J].机械工程学报,2015, 51(20):135-143.

LIU Jie, XU Can, LI Fan, et al. Uncertain inverse method based on λ-PDF and first order second moment[J]. Journal of Mechanical Engineering, 2015, 51(20): 135-143.(In Chinese)

[7] 莫旭辉,韩旭,钟志华.基于渐近神经网络的汽车前轮定位参数反求[J].湖南大学学报:自然科学版,2008, 35(6):18-22.

MO Xuhui, HAN Xu, ZHONG Zhihua. Identification of front wheel alignment based on the progressive neutral NETW ORK method[J]. Journal of Hunan University:Natural Sciences, 2008, 35(6): 18-22.(In Chinese)

[8] KIM Y C, NELSON P A. Optimal regularisation for acoustic source reconstruction by inverse methods[J]. Journal of Sound and Vibration, 2004, 275(3): 463-487.

[9] CHOI H G, THITE A N, THOMPSON D J. Comparison of methods for parameter selection in Tikhonov regularization with application to inverse force determination[J]. Journal of Sound and Vibration, 2007, 304(3/5): 894-917.

[10]CHOI H G, THITE A N, THOMPSON D J. A threshold for the use of Tikhonov regularization in inverse force determination[J]. Applied Acoustics, 2006, 67(7): 700-719.

[11]张磊,曹越云.总体最小二乘正则化算法的载荷识别[J].振动与冲击,2014, 33(9):159-164.

ZHANG Lei, CAO Yueyun. Load identification using CG-TLS regulariztion algorithm[J]. Journal of Vibration and Shock, 2014, 33(9): 159-164.(In Chinese)

[12]韩旭,刘杰.时域内多源动态载荷的一种计算反求技术[J].力学学报,2009, 41(4):595-602.

HAN Xu, LIU Jie. A computational reverse technique for multi source dynamic loads in time domain[J]. ACTA Mechanica, 2009, 41(4): 595-602.(In Chinese)

[13]常晓通,阎云聚.基于Green函数和正则化的动态载荷识别方法[J].振动、测试与诊断,2014, 34(1):124-129.

CHANG Xiaotong, YAN Yunju. Dynamic load identification method based on Green function and regularization[J]. Journal of Vibration,Measurement & Diagnosis, 2014, 34(1): 124-129.(In Chinese)

[14]郭s,房怀庆.基于Tikhonov正则化及奇异值分解的载荷识别方法[J].振动与冲击,2014, 33(6):53-58.

GUO Rong, FANG Huaiqing. Novel load identification method based on the combination of Tikhonov regularization and singular value decomposition[J]. Journal of Vibration and Shock, 2014, 33(6): 53-58.(In Chinese)

[15]HAY N C, ROBERTS D E. Road simulators: the iterative algorithm for drive file creation[C]//2006 SAE World Congress.Detroit, Michigan, 2006: 2006-2011.

[16]陈栋华,靳晓雄,周f.汽车室内道路模拟试验系统控制算法的研究[J].噪声与振动控制,2006(1):31-35.

CHEN Donghua, JIN Xiaoxiong, ZHOU Hong. Study on contorl algoirthm for vehicle road simulation test system[J]. Noise and Vibration Control, 2006(1): 31-35.(In Chinese)

[17]杜永昌.车辆道路模拟试验迭代算法研究[J].农业机械学报,2002, 33(2):5-7.

DU Yongchang. Research on iteration algorithm used for vehicle road simulation[J]. Transactions of the Chinese Society of Agricultural Machinery, 2002, 33(2): 5-7.(In Chinese)

[18]汪斌,过学迅,李孟良.基于迭代学习控制的道路模拟算法[J].汽车工程,2010, 32(8):686-689.

WANG Bin, GUO Xuexun, LI Mengliang. Road simulation algorithn based on iterative leaming control[J]. Automotive Engineering, 2010, 32(8): 686-689.(In Chinese)

[19]O'CALLAHAN J C. A procedure for an improved reduced system (IRS) model[C]//Proceedings of the 7th International Modal Analysis.Las Vegas: Union College Press, 1989: 17-21.

第9篇:卷积神经网络的改进范文

独立分量分析(ICA)是统计信号处理近年来的一项发展。顾名思义,这是一种分解技术,其特点是把信号分解成若干相互独立的成分。主分量分析(PCA)和奇异值分解(SVD)是人们较熟悉的分解信号的线性代数方法,ICA与它们的主要不同之处表现在:

(1)后者只要求分解出来的各分量互相正交(不相关),但并不要求它们互相独立。用统计信号处理的语言来表达,即:后者只考虑二阶统计特性,而前者则要更全面考虑其概率密度函数的统计独立性。

(2)后者按能量大小排序来考虑被分解分量的重要性。这样的分解虽然在数据压缩和去除弱噪声方面有其优点,但分解结果往往缺乏明确的生理意义。前者虽然分解出的分量其能量大小存在不确定性,但当测量值确实是由若干独立信源混合而成时,分解结果往往具有更好的生理解释。由于测得的生理信号往往是若干独立成分的加权迭加(例如,诱发脑电总是被自发脑电所淹没,而且常伴随有心电、眼动、头皮肌电等干扰),此ICA是一项值得注意的分解方法。

此外,神经生理研究认为,人类对认知、感知信息的前期处理有“去冗余”的特点。ICA在这方面也表现出类似特性,因为互相独立的分量之间互信息是最少的。ICA是伴随着盲信号处理,特别是盲信源分离发展起来。其研究热潮方兴未艾,也正在引起生物医学工程界的注意,IEEETransBME正在组织出版以它为重点的专辑。就国际范围看,以下几个研究单位目前工作比较领先:(1)美国加州大学生物系计算神经生物学实验室,(2)日本Riken脑科学研究所脑信息研究室,(3)芬兰赫尔辛基工业大学计算机及信息科学实验室,目前发表有关文献较多的刊物有IEEETrans的SP和NN以及NeuralComputation等。本文目的是对ICA的原理、算法及应用作一简述,以引起国内同行对它的关注。将侧重于概念说明,而不追求数学上的严谨性。

2原理

2.1问题的提法,s-(n)是一组互相独立的信源,A是混合矩阵,x-(n)是观察记录,即x-(n)=As-(n)。问题的任务是:在A阵未知且对s-(n)除独立性外无其它先验知识的情况下,求解混矩阵B,使得处理结果y-(n)=Bx-(n)中各分量尽可能互相独立,且逼近s(n)。容易理解,解答不是唯一的,它至少受以下条件的限制:(1)比例不定性:s-(n)中某一分量大K倍时,只要使相应的A阵系数减小K倍,x-(n)便保持不变。

因此,求解时往往把s-(n)假设成具有单位协方差阵,即s-中各分量均值为零,方差为1,且互相独立。(2)排序不定性:y-与s-中各分量排序可以不同。因为只要对调B阵中任意两行,y-中相应元素的位置也便对调。(3)s-(n)中至多只能有一个高斯型信源:这是因为高斯信源的线性组合仍是高斯型的,因此混合后便无法再区别。(4)信源数目N只能小于或等于观测通道数M。N>M情况目前尚未解决。以下讨论设M=N。因此,y-(n)只是在上述条件下对s-(n)的逼近。换名话说,任务的实质是优化问题,它包括两个主要方面:优化判据(目标函数)和寻优算法。

2.2目标函数

这一领域的研究者已经从不同角度提出了多种判据。其中以互信息极小判据(MinimizationofMutualInformation,简记MMI)和信息或熵极大判据(Informax或MaximizationofEntropy,简记ME)应用最广。由于最基本的独立性判据应由概率密度函数(probabilitydensityfunction,简记pdf)引出,而工作时pdf一般是未知的,估计它又比较困难,因此通常采用一些途径绕过这一困难。

常用的方法有两类:①把pdf作级数展开,从而把对pdf的估计转化为对高阶统计量的估计;②在图1的输出端引入非线性环节来建立优化判据。后一作法实际上隐含地引入了高阶统计量。(1)互信息极小判据:统计独立性的最基本判据如下:令p(y-)是y-的联合概率密度函数,pi(yi)是y-中各分量的边际概率密度函数。当且仅当y-中各分量独立时有:p(y-)=∏Ni=1pi(yi)因此用p(y-)与∏i=1pi(yi)间的Kullback-Leibler散度作为独立程度的定量度量:I(y-)=KL[p(y-),∏Ni=1pi(yi)]=∫p(y-)log[p(y-)∏Ni=1pi(yi)]dy-(1)显然,I(y-)0,当且仅当各分量独立时I(y-)=0。因此,互信息极小判据的直接形式是:在y-=Bx-条件下寻找B,使(1)式的I(y-)极小为了使判据实际可用,需要把I(y-)中有关的pdf展成级数。

由于在协方差相等的概率分布中高斯分布的熵值最大,因此展开时常用同协方差的高斯分布作为参考标准。例如,采用Gram-Charlier展开时有:P(yi)PG(yi)=1+13!k2yih3(y-i)+14!k4yih4(yi)+…式中PG(yi)是与P(yi)具有同样方差(σ2=1)和均值(μ=0)的高斯分布。k3yi、k4yi是yi的三、四阶累计量(cumulant),hn(yi)是n阶Hermit多项式。此外还有许多其他展开办法,如Edgeworth展开,利用负熵(Negentropy)等。不论采用何种展开方式,经推导后总可把式(1)近似改成k3、k4的函数:I(y)=F(k3y-,k4y-,B)(1)’F(·)的具体形式多种多样,视推导时的假设而异。

这样就得到互信息判据的实用近似形式:在y-=Bx-条件下寻找B,使式(1)的I(y-)极小(2)Infomax判据:这一判据的特点是在输出端逐分量地引入一个合适的非线性环节把yi转成ri(如图2)。可以证明,如果gi(·)取为对应信源的累积分布函数cdf(它也就是概率密度函数的积分),则使r-=(r1…rN)T的熵极大等效于使I(y-)极小,因此也可达使y-中各分量独立的要求。从而得到Infomax判据:在选定适当gi(·)后,寻找B使熵H(r-)极大需要指出的是,虽然理论上gi(·)应取为各信源的cdf,但实践证明此要求并不很严格,有些取值在0~1之间的单调升函数也可以被采用,如sigmoid函数、tanh(·)等。估计H(r-)固然也涉及pdf,但由于其作用已通过gi(·)引入,所以可以不必再作级数展开而直接用自适应选代寻优步骤求解。文献中还提出了一些其他判据,如极大似然、非线性PCA等,但它们本质上都可统一在信息论的框架下,所以不再一一列举[1]。

3处理算法优化算法

可大致分为两类,即批处理与自适应处理。

3.1批处理批处理比较成熟的方法有两类。较早提出的是成对旋转法[2],其特点是把优化过程分解成两步。先把x-(n)经W阵加以“球化”得z-(n),使z-(n)T=IN,即:各分量不相关且方差为1,然后再寻找合适的正交归一阵U达到使y-各分量独立的目的。前一步类似于PCA,后一步则可利用Givens旋转,根据目标函数,将z-中各分量两两成对反复旋转直到收敛。这种方法计算量较大。1999年,Gadoso提出几种方法对它作了进一步改进[3],其中包括:Maxkurt法、JADE法、SHIBBS法等,限于篇幅,本文不再叙述。近年来,提出的另一类方法是所谓“固定点”法(FixedPointMethod)[4,5],其思路虽来源于自适应处理,但最终算法属于批处理。

简单地说,通过随机梯度法调节B阵来达到优化目标时,有:B(k+1)=B(k)+ΔB(k)ΔB(k)=-μεkB(k)式中k是选代序号,εk是瞬时目标函数。当到达稳态时必有[E是总集均值算子]:E[ΔB(k)]=0(2)如果ΔB(k)与B(k)有关,就可由(2)式解出B的稳态值。不过由于(2)式总是非线性方程,因此求解时仍需要采用数值方法(如牛顿法、共轭梯度法等)迭代求解。实践证明,不论是收敛速度还是计算量,此法均优于前一种方法,而且它还可以根据需要逐次提取最关心的yi,因此是一类值得注意的方法。

3.2结合神经网络的自适应处理结合神经网络的自适应处理算法的框图。1994年Cichocki提出的调节算法是:B(k+1)=B(k)+ΔB(k)ΔB(k)=μk[I-Ψ(y-k)ΦT(y-k)]B(k)式中Ψ、Φ都是N维矢量,其各元素都是单调升的非线性函数:Ψ(yk)=sgnyk·y2k,ΦTy-k=3tanh(10yk)所得结果虽令人鼓舞,但是方法是经验性的。其后学者们从理论上沿着这一方向作了更深入的讨论,并发展出多种算法。概括地说,主要发展有以下几点:

(1)引入自然梯度(或相对梯度)。按照最陡下降的随机梯度法推导出的系数调节公式往往具有如下一般形式:ΔB(k)=μk[B-T(k)-Ψ(y-k)x-Tk]式中的Ψ(y-k)视具体算法而异。Infomax法中Ψ(·)由所选用的g(·)决定;MMI法中则与yk的三、四阶矩有关。B-T(k)是矩阵求逆再转置,它的计算量很大。Amari[7]在1998年提出将最陡下降梯度改为“自然梯度”,两者间关系是:[自然梯度]=[最陡下降梯度]·BT(k)B(k)于是有:ΔB(k)=μk[B-T(k)-Ψ(y-k)x-Tk]BT(k)B(k)=μk[I-Ψ(y-k)y-Tk]B(k)由于此式避免了矩阵求逆,因此计算量明显降低且收敛加快。目前,这一作法已被普遍接受。

(2)引入自然梯度后,采用不同的优化判据得出的调节公式虽各有千秋,但大致都可表示为如下的“串行更新”形式:B(k+1)=B(k)+ΔB(k)=[I+H(y-k)]B(k)只是H(y-k)的具体形式各不相同。串行矩阵更新的算法还具有一些理论上值得注意的性质,如均匀特性(uniformproperty)和等变性(equivariant)等[8,9]。

(3)四阶累计量k4>0的超高斯信号和k4<0的欠高斯信号,其处理过程应当予以区别。采用同一算法效果往往不好。目前的办法多是在调节公式中引入一个开关。根据估计得k4的符号来切换不同算法,如扩展的Infomax法就是一例[10]。此法的系数调节公式是:ΔB(k)=μk[I-Ktanh(y-k)·y-Tk-y-ky-Tk]B(k)其中K是对角阵,其对角元素之值为+1或-1,视该信号分量k4>0或<0而定。为了实时应用,估计K4也可采用递归算法。总之,自适应算法是目前采用较广的方法。

4应用举例

4.1仿真计算为检验经ICA算法分解信源的能力,左图是一组源信号,它们对系统来说是未知的。这一组信号经混合后的观察信号作为(中图所示)ICA算法的输入,分解后的结果如右图所示。可以看到,除了波形的次序、极性和波幅发生变化之外,源信号的波形被很好地分解出来。一般情况下,临床脑电信号中既有超高斯成分(如诱发电位),也有亚高斯成分(如肌电和工频干扰)。为了检验扩展Infomax算法处理这类情况的能力,我们又用此法进行了如图6所示仿真实验。左图第一行是一段自发脑电信号,第二行是仿真的视觉诱发电位,第三行是肌电干扰。混合后的信号(图中第二列所示)经ICA分解得到如右图所示的结果。这一结果表明扩展ICA算法在同时存在超高斯和亚高斯信号的情况下,仍然能够很好地实现盲分解。但应指出:这一仿真结果并不说明通过ICA分解就能直接得到视觉诱发电位,因为还没有涉及头皮上的多导数据。

4.2实验VEP分析(1)多导脑电观察中VEP的增强:需要强调,把多导脑电作ICA分解后直接取出其中与VEP有关的成分,得到的并不是头皮电极处的VEP分量,因为它们只是分解出来的信源,而这些信源的位置并不在头皮上,为了得到电极处测量值中的VEP成分,需按下述步骤处理:用训练得的W阵直接对头皮上取得的多导脑电数据进行ICA分解,得到各独立分量组成的矩耻y=Bx(见图7a);再根据各分量的波形特征及产生时段,选择与VEP有关的一部分分量(例如在前300ms中具有较大幅度的分量),并将其余分量置0,得到新的独立分量矩阵y’;再反变换回头皮各电极处得x’=B-1-y’。这样才能得到去除噪声和干扰后各电极处的VEP。

采用这样的方法可显著地减少提取VEP所需要的累加次数。左图是经3次累加所得VEP,中图是经50次累加所得结果,右图则是用左图经图7中ICA处理后提取的VEP。比较中、右两图,两者波形趋势基本相同,但后者比前者其主要峰、谷显然更清楚,而累加次数由50减到3。(2)ICA分量的空间模式:把某一个ICA分量的瞬时值经B-1逆推回头皮各电极处得x-’后,就可以按断层图的插补方法得到该时该分量在头皮上的空间分布模式。这个空间分布模式也可以用更简单办法得到:只要把逆矩阵B-1中相应于某ICA分量的列中各元素的值赋与头皮各电极处,再作断层图插值,就可以表现该ICA分量在任意时刻的空间分布模式。也就是:x’i(t)=b’ijy’j(t),i=1~N式中b’ij是B-1的第i行第j列元素。

可见ICA分量y’j(t)在头皮各电极处的对应值等于用逆阵B-1第j列各元素来对y’j(t)加权。因此,列矢量b’j=[b’1,…,b’Nj]可以用来统一地表现任意时刻y’j的空间模式。

5总结与展望

本文粗略介绍了ICA的原理、算法和应用,可以看到ICA确是一个值得注意的研究方向,但其理论体系尚未完整,实际采用的处理方法多少还带有经验性。例如为什么对非线性特性gi的要求不甚严格就没有明确解释;又如算法的稳定性、收敛性在实践中是经常遇到的问题。从应用方面看也还有许多待开发的领域,例如如何应用于生理信号的模式识别与系统建模等。从生物医学信号分析的角度看,还有一些亟待深入的问题。例如:

(1)在以上分析中混合阵A被假设为恒定。这对静态的图像分析或固定信源是合理的;但在生理实际中,等效信源一般在空间并不固定,因而混合阵A应视为时变的,而且传导过程中还会引入容积导体的卷积及迟作用。这可能是实际生理信号分解结果不够理想的原因之一。

(2)一般公认,生理信号的非平稳性较强,而以上分析并没有考虑信号的非平稳性。