公务员期刊网 精选范文 卷积神经网络的优化范文

卷积神经网络的优化精选(九篇)

前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的卷积神经网络的优化主题范文,仅供参考,欢迎阅读并收藏。

卷积神经网络的优化

第1篇:卷积神经网络的优化范文

关键词:模式识别卷积神经网络 google earth 应用

中图分类号:TP39 文献标识码:A 文章编号:1007—3973(2012)009—087—02

随着科技的进步,许多发明、电子产品使人们的生活更加方便。生活经常见到的有:笔记本电脑的指纹锁、数码相机的人像识别功能、电脑手写板、语音录入设备、门禁中的虹膜识别技术等等,这些设备与技术中都包含了模式识别技术。这些看似抽象的技术与算法正与其他技术一起悄然的改变人们的生活。

1 什么是模式识别

人们的许多感官功能看似简单,但用人工的办法实现却比较困难。人与人见面相互打招呼。在看见对方的面部后,人能够很快的认定这张脸是个人脸,而且我认识他,应该和他打招呼。这个看似简单的过程其实并不简单,我们不仅仅要识别五官,还要扫描轮廓,而且还要判断是否认识等等。可见,很多看似简单的认知过程,如果试图用某一方法描述确实不宜。对人脸进行模式识别就可以解决这个看似简单的问题。

模式识别(Pattern Recognition)是指通过用计算机对事物或现象的各种形式的(光信息,声信息,生物信息)信息进行处理和和判读,以对事物或现象进行描述、辨认、分类和解释的过程,是人工智能的和信息捕获的重要组成部分。现在被广泛应用于计算机视觉,自然语言处理,生物特征识别,互联网搜索等领域。

2 模式识别与google earth卫星照片

在卫星图片中识别特定的目标,如道路,湖泊,森林等等,往往要运用模式识别技术,现在较为主流的是神经网络识别。上一代的技术室根据RGB提取的,在提取森林或湖泊的时候,有很多干扰颜色,对卫星照片精度有很高要求。根据RGB提取效果不是十分理想,而且计算量大,对硬件有一定要求。

随着神经网络识别技术的发展,现在计算机可自动识别目标。不必使用特殊的卫星波段影像,小型机计算,只要从GOOGLE EARTH获取的普通卫星影像就可以自动识别了。

Google Earth是Google公司开发推出的一款虚拟地球仪软件,它把卫星照片、航空照相布置在一个地球的三维模型上,是一款全球地图集成软件。Google Earth与模式识别技术的综合运用,使其卫星图片在道路规划,通信线路管理,土地勘察,遥感探测等等行业有着很大的运用。

在实际情况下对卫星图片进行模式识别,实现起来有许多困难,光线条件、大地背景、大气云层情况影响以及由于拍摄角度或空气密度等原因导致照片的被照物体的几何变形等都会对识别效果有直接影响。这些都对识别算法要求很高。本文选用的神经网络识别方法,具有识别率高、对不规则物体识别效果好等优点,被广泛运用在许多领域。本文使用改进的卷积神经网络对google earth 卫星图片进行处理,几乎不用对照片进行预处理。这大大节省了运算时间,而且避免了二次处理后对原始文件的污染,大量原始信号被最大程度地保留。

3 模式识别与卷积神经网络

卷积神经网络CNN(Convolutional Neural Networks)是近年发展起来并引起广泛重视的一种高效识别方法。神经网络是受动物神经系统启发,利用大量简单处理单元互联而构成的复杂系统,以解决复杂模式识别与行为控制问题。目前,CNN已经成为国内外科学家研究的重点方向,特别是在模式识别领域。它的优点是不需要对图像进行复杂的预处理,成为大家广为使用的方法。CNN的基本结构一般包括两层:(1)特征提取层。每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,与其他特征间的位置关系也随之确定下来。(2)特征映射层。网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。

4 卷积神经网络在卫星图片识别中的应用

为提高google earth卫星照片中目标的识别率,创造性使用卷积神经网络进行模式识别,其主要部分基本设计结构如图1所示。

图1中,整个结构模仿动物的神经结构,大量的单一识别单元被关联成一个网路。 C层则是由复杂(complex)神经元组成的神经层,它的输入连接是固定的,不可修改,显示接收信心被激励位置的近似变化。网络中C层的最后一层为识别层,显示模式识别的结果。S层为简单(simple)神经元组成的神经层,完成主要信息提取,其输入连接是不是固定的,可在训练的过程中不断修改。这个系统进过不断的训练,输入照片的格式和大小会自动地被识别,大大节省了前期的工作时间,提高了识别速度。

在训练集中同时需要常规积极样本和消极样本,样本包括卫星图片中房屋和道路的1000个图像目标积极训练集。大多数基于学习方法的目标物体识别使用一个大约为10?0的最小输入窗口,好处是可以做到不遗漏任何重要信息。为了达到稳定的效果,对所有原有的训练样进行色彩转换和对比还原转换,得到的积极样本训练集有2400个目标样本。

5 实验结果

分两个步骤进行试验,第一步对卫星图片进行定位和裁剪等预处理,第二步选取合格卫星图片200个样本图片训练卷积神经网络,训练后得到各层3个主要数据:阈值、权值及神经元细胞平面数,然后使用优化后的神经网络识别机对200个测试样本进行检查,其正确的识别率达到97%。实验要注意训练的时间,系统过度训练后,识别率会不断提高,但训练时间的不断增加,测试失败率到最小值后出现及其微细震荡,造成识别率的小幅波动。(见图2)

实验表明,卷积神经网络应用于卫星图片目标识别是完全可行的,训练样本越丰富则则识别率越高。与传统模式识别方法相比有更高的识别率和抗干扰性。本文采用一种改进的基于卷积神经网络的识别机制对卫星照片中的目标物体进行识别。该识别方法通过对目标物体图片的学习,优化了系统中的关键参数的权值。大大提高了目标物体的识别率。

参考文献:

[1] 高隽.智能信息处理方法导论[M].北京:机械工业出版社,2004.

[2] 高隽.人工神经网络原理及仿真实例[M].北京:机械工业出版社,2003.

[3] 边肇祺.模式识别[M].北京:清华大学出版社,1987.

第2篇:卷积神经网络的优化范文

关键词: 列车车号; 车号识别; 卷积神经网络; LeNet?5

中图分类号: TN911.73?34; TP391 文献标识码: A 文章编号: 1004?373X(2016)13?0063?04

Abstract: For the character recognition of freight train license, the improved recognition method based on convolutional neural network LeNet?5 is proposed. Considering the structural features of the hierarchical convolutional neural network and local field, the parameters of quantity and size of each layer feature pattern in the network were improved correspondingly to form the new network model suitable for the freight train license recognition. The experimental results show that the proposed method has strong robustness to solve the license breakage and stain, and high recognition rate, which provides a guarantee for the accuracy of the entire license recognition system.

Keywords: train license; license recognition; convolutional neural network; LeNet?5

0 引 言

目前货运列车车号识别系统[1?2]主要是基于RFID技术实现的,但是,由于该系统的准确性依赖于列车底部安装的RFID标签,而RFID标签容易损坏、丢失,因此,此类系统无法保证车号识别的准确性。为此,研究者开发了基于图像的货运列车车号识别系统,系统根据视频采集到的图像,利用模糊集合论[1?2]、人工神经网络[3]、支持向量机[4]以及隐马尔可夫模型[4]等技术进行车号字符的识别。但是,由于货运列车车号存在因喷涂方式而导致的单个字符断裂,或者列车长期的野外运行导致的车厢污损,车号字符的残缺等现象,这使得目前的基于图像的货运列车车号识别系统的鲁棒性与识别率还有待进一步提高。

LeNet?5[5?7]是由YannLecun等人提出的一种专门用于二维图像识别的卷积神经网络,该网络避免了人工提取特征依赖于主观意识的缺点,只需要将归一化大小的原始图像输入网络,该网络就可以直接从图像中识别视觉模式。LeNet?5把特征提取和识别结合起来,通过综合评价和学习,并在不断的反向传播过程中选择和优化这些特征,将特征提取变为一个自学习的过程,通过这种方法找到分类性能最优的特征。LeNet?5已经成功应用于银行对支票手写数字的识别中。

为此,本文将卷积神经网络LeNet?5应用于列车车号字符的识别中,为了使之适用于列车车号字符的识别需求,去除掉了LeNet?5中的一些针对手写字符识别而特别设计的连接方式及参数,并在此基础上,改变网络中各层特征图的数量以形成新的网络模型。

1 LeNet?5的改进

卷积神经网络可以从很多方面着手改进。诸如多层前馈网络,可以考虑在误差函数中增加惩罚项使得训练后得到趋向于稀疏化的权值,或者增加一些竞争机制使得在某个特定时刻网络中只有部分节点处在激活状态等。本文主要从卷积神经网络的层次化以及局部邻域等结构上的特点入手,考虑卷积神经网络中各层特征图数量及大小对网络训练过程及识别结果的影响。

以LeNet?5结构为基础,去除掉LeNet?5中的一些针对手写字符识别而特别设计的连接方式及参数,得到改进后的神经网络。在此基础上,改变网络中各层特征图的数量以形成新的网络模型。定义一种新的网络模型,将其命名为LeNet?5.1,该网络结构与LeNet?5基本相同,主要做出以下改变:

(1) 将原先LeNet?5所采用的激活函数由双曲正切函数修改为Sigmoid函数,此时,网络中所有层的输出值均在[0,1]区间内,输出层的最终结果也将保持在[0,1]区间内。

(2) 省略掉F6层,将输出层与C5层直接相连,连接方式为全连接,而不是原LeNet?5中所采用的径向基函数(RBF)网络结构。

(3) 简化原LeNet?5中的学习速率。原LeNet?5网络中采用的学习速率为一个特殊的序列,而在本网络中将学习速率固定为0.002。

(4) 输入数据原始尺寸为28×28,采取边框扩充背景像素的方法将图像扩充至32×32。

之所以做以上相关改动,是因为原始的LeNet?5就是专门为手写字符识别任务而特殊设计的,这就造成了LeNet?5网络中相关的预处理及参数的选择过程或多或少均带有一些针对特定问题的先验知识。例如激活函数中参数的选择,学习速率定的速率序列以及数据预处理殊的填充方式等,这些特定的设计使得LeNet?5在其他任务的识别过程中并不一定适用,或者需要进行长期的观察实验以选得一组针对特定任务的较好的值,造成了LeNet?5不能快速的应用于除手写字符外其他的识别任务中。

2 改进后的网络对列车车号字符的识别

车号经过分割之后为一个个的单字符图像,采用边框扩充背景像素的方法将其归一化为32×32,如图1所示。

由图1中可以看出,待识别的字符图像质量不高,有的数字字符出现残缺、断裂或者严重变形。这都给识别任务提出了一定的挑战。

本文采集到的车号图像来自于不同型号的货运列车。从中选取400幅图像作为训练集,另外选取400幅图像作为测试集。用上一节提出的LeNet?5.1网络进行训练,误分类率曲线如图2所示。可以看出,在LeNet?5.1训练过程中,训练MCR(Misclassification Rate)和测试MCR的变化过程相对稳定,验证了改进后网络结构的合理性。在经过16次的迭代之后,测试MCR降至最低(5.75%),之后基本保持稳定,即16次迭代之后,网络达到了当前的最佳训练效果,达到了收敛状态。这时,训练MCR为0.5%,测试MCR是5.75%。

训练过程中的误分类率曲线

而针对相同的数据,采用原始的LeNet?5进行训练和测试后,误分类率如图3所示。从图3中可以看出,LeNet?5经过了18次的迭代后,测试MCR才达到相对稳定的状态,降至6%,最终的训练MCR为1%。相比之下,经过简化和改进的LeNet?5.1,由于改进了原始的LeNet?5中专门为手写字符识别任务而特殊设计的一些预处理及函数选择等固定模式,并且精简了网络结构,使得LeNet?5.1在列车车号的识别方面具有了更快的训练速度和收敛速度,另外,最终达到的准确度也有所提升。

在证明了改进后的LeNet?5.1网络的合理性之后,增加训练图像的规模,采用10 000幅车号数字字符图像用来训练,5 000幅用来测试。为了与其他方法进行比较,采用相同的训练数据对车号识别中常用的三层BP网络进行训练和测试,这里采用的BP网络隐含层节点数量为450,学习速率采用0.01。实验结果比较如表1所示。从表1可以看出,改进后的LeNet?5.1网络的识别率比BP网络的识别率高出4.62个百分点,在识别速度方面,LeNet?5.1也明显优于传统的BP神经网络。

3 针对车型号字母识别而改进的神经网络及其结果

货运列车车号的组成是由车型号与车号共同组成的,因此还需要对车型号进行识别,车型号中除了有阿拉伯数字字符之外,还有很多表示车种及车厢材质等属性的英文字母,这些英文字母同样采用卷积神经网络来识别。由于车型号很多,初期针对若干常用型号的列车进行识别,以测试网络的性能,后期对全车型进行识别。

3.1 常用列车车型的识别

在试运行阶段主要识别的车型局限于7种主要的车型:C64K,C64H,C70A,C70E,C80,C62AK和C62BK。由于车种都为敞篷车(第一个大写字母C),主要对后面代表该车型载重量的两位数字以及最后代表车厢材质等属性的字母进行识别。考虑到车型号字符串的固定模式,如图4所示,可以分别建立两个不同的卷积神经网络分别用来识别数字和字母,由于之前已经解决了数字的识别问题,接下来主要进行字母的识别。要识别的代表车厢材质的字母共有6个:K,H,A,E,A和B,为了尽可能的避免因字母分割问题而导致的识别错误,把AK和BK分别作为一个整体来识别,那么需要识别的字符组合变为:K,H,A,E,AK和BK。由于识别种类的减少,可以对网络模型LeNet?5.1进行相应的简化,命名该模型为LeNet?5.2。

LeNet?5.2是在LeNet?5.1的基础上进行改动而得到的:

(1) 卷积层C1的特征图由6个减少为4个,相应地,S2层的特征图也由6个减少为4个。

(2) 卷积层C3的特征图由16个减少为11个,相应地,S4层的特征图也由16个减少为11个。

(3) 卷积层C5的特征图个数由120个减少为80个。

(4) 输出分类的数目由10个减少为6个。

另外,卷积层C3层与次抽样层S2层的连接情况如表2所示。

表2的连接方式采用与表1相同的思想,每一列都说明了C3层中的一个特征图是由S2中的那几个特征图结合而成。卷积层C3中第0个至第5个特征图分别与次抽样层S2中的两个特征图相连接,一共6种组合。C3中的这6个特征图负责抽取上一层中某两个特征图所潜在的特征。C3层中第6个至第9个特征图中每个特征图分别对应上一层中的3个特征图的组合,而C3层中最后一个特征图则与上一层中所有的特征图相连接。这样卷积层C3中的特征图就包含了次抽样层S2中多个特征图的所有组合,这样使得卷积层C3抽取到的特征比S2层更抽象、更高级,同时,相对于输入数据,C3层相比S2层具有更好的对位移、扭曲等特征的不变性。

相比LeNet?5.1,LeNet?5.2将网络层中的特征图数量做了相应的削减,减少了网络中可训练参数的数量。

实验数据来自以上提到的7类常用车型。经过前面过程的定位和分割之后,将分割之后代表车厢材质等属性的字母图像收集起来。本实验中,共收集到6种代表不同车厢材质属性的字母共800幅,其中400幅用作训练数据,另外400幅用作测试数据。

图5为LeNet?5.2使用以上数据训练过程中得到的MCR曲线图。由图5中可以看出,在经过13次迭代之后,测试MCR达到最低的3.25%,并且在随后的迭代过程中基本保持稳定,而对应的训练MCR为0.75%。

3.2 全车型识别

经过对铁道行业标准《铁路货车车种车型车号编码》(TB2435?93)里面包含的所有车型号进行统计,除了10个阿拉伯数字外,包括了除O,R,V,Z四个字母外所有的大写英文字母,总共有32类字符。

训练过程中的误分类率曲线

针对车型号的识别需求,本文在LeNet?5.1的基础上提出了一种新的网络模型,称之为LeNet?5.3。与LeNet?5.2相反,LeNet?5.3是在LeNet?5.1的基础上对网络中各层的特征图数量进行扩充:

(1) 卷积层C1的特征图由6个增加至8个,相应地,S2层的特征图也由6个增加至8个。

(2) 卷积层C3的特征图由16个增加至24个,相应地,S4层的特征图也由16个增加至24个。

(3) 卷积层C5的特征图个数由120个增加至240个。

(4) 输出层神经元的个数由10个增加至32个。

其中卷积层C3层与次抽样层S2层的连接情况参考LeNet?5.2所采用的原则,使卷积层C3中的特征图包含次抽样层S2中多个特征图的主要组合。

与LeNet?5.1相比,LeNet?5.3需要有更多的输出类别,各层的特征图数量也做了相应的增加,以增加整个网络的识别性能。为了验证改进后的LeNet?5.3的性能,收集了大量真实列车车厢图片,经过车号定位和分割之后,将单个的数字字符或者大写字母字符图像尺寸依次归一化为32×32,分别建立训练图像库和测试图像库。

由于LeNet?5.1各层的特征图数量多,因此该网络涉及到的可训练参数也大大增加,这也意味着需要更多的数据样本用于网络训练。若训练集和测试集规模依然采用跟前面实验中一样的各400幅,训练过程中的误分类率曲线如图6所示,图6中的曲线变化非常不稳定,波动较大。测试MCR达到最低点后又突然升高,不能获得稳定的分类结果,训练过程无法收敛。

网络训练过程中无法收敛的主要原因在于相比网络中过多的需要训练确定的权值,数据集规模过小,已然不能满足学习的要求。从特征图角度来看,网络无法通过不充足的训练样本学习到稳定而有效的特征图组合,从而导致了网络不收敛。要解决这个问题需要加大测试样本的数量。

为了训练和测试LeNet?5.3,对数据集进行了扩充:训练图像库包含字符图像4 000幅,测试图像库包含字符图像2 000幅。训练过程中的误分类率曲线如图7所示。从图7中可以看出,经过32次迭代之后网络趋于收敛,并且达到了较好的识别率。

4 结 语

本文针对货运列车车号识别的难题,提出了基于卷积神经网络LeNet?5改进后的识别方法,主要对卷积神经网络中各层特征图数量及大小进行了改进。且与传统的BP网络进行了比较,从实验结果可以看出,改进后的卷积神经网络无论在鲁棒性还是识别率以及识别速度上都优于BP网络,可以很好地胜任列车车号识别任务。

参考文献

[1] 宋敏.铁路车辆车号自动识别系统的研究和开发[D].天津:河北工业大学,2011:1?5.

[2] LU S, CHEN B M, KO C C. Perspective rectification of document images using fuzzy set and morphological operations [J]. Image and vision computing, 2005, 23(5): 541?553.

[3] SHAH P, KARAMCHANDANI S, NADKAR T, et al. OCR?based chassis?number recognition using artificial neural networks [C]// Proceedings of 2009 IEEE International Conference on Vehicular Electronics and Safety (ICVES). [S.l.]: IEEE, 2009: 31?34.

[4] CHEN D, BOURLARD H, THIRAN J P. Text identification in complex background using SVM [C]// Proceedings of 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2001: 621?626.

[5] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278?2324.

[6] LECUN Y A, BOTTOU L, ORR G B, et al. Efficient backprop [M]// Anon. Neural networks: tricks of the trade. Berlin: Springer Berlin Heidelberg, 1998: 9?50.

第3篇:卷积神经网络的优化范文

>> 用于脑运作分析的前向网络样本重组树生成算法研究 基于三角构成规则的加权有向网络拓扑生成算法 适用于网络渐进传输的多分辨率曲线生成算法 全排列生成算法比较分析 KenKen问题的生成算法研究 曲线生成算法的文献综述 基于列生成算法的集装箱班轮运输网络优化 基于全卷积神经网络的图像缩略图生成算法 传感器网络中一种基于编码的MAC生成算法 数据库关键词检索中候选元组集连接树生成算法的研究 基于分类随机算法的试卷生成算法研究 分析基于列生成算法的动车组检修计划优化 AOS自相似业务流等时帧生成算法的Matlab仿真分析 关于传统空间缓冲区生成算法的分析 基于Bresenham的直线快速生成算法 题库系统中试卷生成算法的改进 一种可用于脑神经网络分析的有向网络分解算法 形式概念演化生成算法 MPI通信代码自动生成算法 一种启发式双代号网络图自动生成算法 常见问题解答 当前所在位置:l.(Xie Qin. Framework of Brain Information Processing[Z].[2013-10-21]. .)

[30]谢勤.WAP算法连续化及其应用[C].毕业论文,2004.

[31]谢勤.一种可用于脑神经网络分析的有向网络分解算法[J].数字化用户,2014,3:113-116.(Xie Qin. An Arithmetic For Neural Network Analysis: From Directed Graph To FFN Trees [J].Digitization user,2014, 3:113-116.)

[32]谢勤.一种可用于脑神经网络分析的有向网络分解算法[C].第八届海内外华人神经科学家研讨会论文集.北京:科学出版社,2014.(Xie Qin. An Arithmetic For Neural Network Analysis: From Directed Graph To FFN Trees [C]. Proceedings of Symposium for Chinese Neuroscientists Worldwide 2014. Beijing: Science Press. 2014.)

[33]谢勤.用于脑运作分析的前向网络样本重组树生成算法研究[C].电子技术与软件工程,2016,4:258-264.(Xie Qin. FeedForward Network Sample Recombination Tree Generating Arithmetic(DG-FFN SR Trees Arithmetic) And Generation Of Sample Recombination Graph [J]. Electronic Technology & Software Engineering, 2016,4:258-264.)

(通讯作者:谢勤)

作者简介

谢勤(1982-),男,A南理工大学硕士,中国神经科学学会会员,工程师,近年在亚组委信息技术部完成核心信息系统――计时记分和成绩处理系统项目实施管理方面的工作,其中计时记分系统投资一亿。主要研究方向为计算机科学与工程、人工智能、神经生物学。

作者单位

1.广州市科技和信息化局 广东省广州市 510000

2.第16届亚运会组委会信息技术部 广东省广州市 510000

3.广州生产力促进中心 广东省广州市 510000

4.广州市科学技术信息研究所 广东省广州市 510000

5.广州市科技创新委员会 广东省广州市 510000

第4篇:卷积神经网络的优化范文

关键词:深度学习;器材管理;深度信念网络;效率;损耗

1.引言

深度学习是机器学习的延伸和进一步发展,它基于机器学习,从广义上讲是机器学习的一种,但与机器学习有较大不同,深度学习的模型和人脑皮层结构有较大相似,从某种意义上讲,深度学习是智能学习,可对复杂数据进行有效处理[1]。深度学习模型既可以作为特征提取器,也可以用作特征分类器,并且二者可以同时应用,直接得到想要的分类结果。器材有成千上万种,每种器材的性能、数量、有效期、生产厂家这些基本要素Ю戳舜罅康氖据,而深度学习应用于大数据挖掘方面,实践中已经取得较好的效果。现在是一个“大数据+深度学习”的时代。本文研究在器材管理中如何运用深度学习,来探寻器材管理中蕴含的内在规律,通过得出的管理规则进行器材管理,来提高器材管理的信息化水平。

2.深度学习的典型模型

深度学习基础是受限玻尔兹曼机(RBM),玻尔兹曼机( BM)可以认为是一种能量模型。即参数空间中每一种情况均有一个标量形式的能量与之对应。对全连通玻尔兹曼机进行简化,其限制条件是在给定可见层或者隐层中的其中一层后,另一层的单元彼此独立,即为受限玻尔兹曼机。深度学习的典型模型主要有:自动编码器(AE),卷积神经网络(CNN),深度信念网络(DBN)三种[2]。

(1)自动编码器

自编码器的基本原理:将输入的原始信号进行编码,使用编码得到的新信号重建原始信号,求得重建的元信号与原始信号相比重建误差最小。它的优点是可以有效的提取信号中的主要特征,减少信息冗余,提高信息处理效率。模式分类中经常用到的以下方法:K均值聚类、稀疏编码、主成分分析等均可理解为是一个自动编码器。

(2)卷积神经网络

卷积神经网络(CNN)善于提取数据局部特征,模型复杂度较低,权值的数量较少,它组合局部感受野(滑动窗口)、权重共享(减少自由参数数量)、和空间或时间上的子采样这3 种结构去确保平移和变形上的不变性。

(3)深度信念网络

深度信念网络(DBN)主要采用贪婪逐层训练方法。简言之通过预先训练与反向调节来训练整个DBN网络:在预先训练阶段,先逐个训练每一个受限玻尔兹曼机RBM,逐层叠加,并将下一层的RBM 的输出作为上一层RBM 的输入; 在反向调节阶段可以采用BP训练,通过误差函数进行反向调节.

3.基于深度信念网络(DBN)的器材管理方法

器材管理的目的是在最大器材利用率下所用资金最少,耗费管理人员精力最少。从模型分析上来说,这是一个求最优化模型的问题。深度信念网络在求取最优化方面具有一定的优越性。深度信念网络(DBN)的优点:(1)采用并行结构,可同时处理多组数据,计算效率得到较大提升,对处理大数据有优势;(2)可以用较小的模型参数波动得到较高的分类结果,模型稳定性较好[3]。

对器材管理者来说如何制定性价比最高的器材采购方案,最优的器材下发方案,最优的器材存储方案是急需解决的三个问题。

器材采购方案:其制定主要基于器材的价格,储存年限,采购批次,采购量,售后服务等因素,针对每种器材的上述指标进行量化打分,再根据每种器材的侧重点分配量化系数,整合成10种数据输入。将这些数据输入到训练好的深度信念网络(DBN)中得出每种器材的采购点数,根据点数决定采购的器材数量、品种、规格和型号。

器材的下发方案:器材的下发要考虑不同单位的需求,现有库存情况,近期器材补充情况,近期大项工作需求情况,根据不同情况对不同单位,不同器材,具体工作设定不同颜色的标签,通过标签整合,将这些数据输入到训练好的深度信念网络(DBN)中得到具体的下拨方案。

器材储存方案:储存主要包括使用单位库存情况,仓库库存情况,供货单位协议代储情况,运用深度信念网络(DBN)对器材消耗情况进行分析,进而得出,单位库存的数质量,使用单位库存的数质量,供货单位协议代储数质量,使三者处于一个最优化状态,既不影响使用,又可降低库存空间的需求,减少资金占用。

4. 实验结果

本文采用深度信念网络(DBN)对1000种器材采购、运输、库存、消耗使用以及不同品牌的通用器材采购成本进行了实验分析,通过深度信念网络(DBN)的优化,采购效率提高10%,运输时间缩短20%,库存量降低15%,使用消耗准确度提高5%,采购成本降低18%。

5. 未来发展与展望

深度学习方法在器材管理中的应用还处于初步探索之中,但是初步运用表明,其在“大数据+云计算”时代,对提高器材管理的信息化水平具有较大的实用价值和经济价值,用于器材管理的深度学习模型,还较为简单,还有进一步发展的空间,实践应用中对器材数据特征的提取还有待加强,只有深刻的理解器材管理的特征及需求,才能有针对性的建立模型,提高模型的可靠性和有效性。使器材管理水平更上一层楼,使器材管理跟上信息化发展的步伐。

参考文献:

[1] 孙志军,薛磊,许阳明.基于深度学习的边际Fisher分析特征提取算法[J].电子与信息学报,2013,35(4):805-811.

[2] 孙志军,薛磊,许阳明,等.深度学习研究综述[J].计算机应用研究, 2012, 29( 8) : 2806 - 2810.

[3] 胡晓林,朱军.深度学习―――机器学习领域的新热点[J].中国计算机学会通讯, 2013,9( 7) : 64 - 69.

作者简介:

康克成(1981.04-)河北昌黎人,研究生,硕士,工程师,中国人民92819部队,研究方向:信息与通信工程;

王强(1981.02-)山东胶州人,本科,助理工程师,中国人民92819部队,研究方向:装备管理;

第5篇:卷积神经网络的优化范文

关键词:计算机工程;视觉领域;深度学习技术

引言

计算机视觉简言之即是依靠电子设备成像来代替生物视觉系统,随后依靠提前写好的程序对获取的图像信息实施处理。该技术的短期应用目的在于完成相对简单的智能视觉工作,而深度学习技术在计算机视觉领域的应用,在很大程度上丰富了其功能,提高了识别效率,让其能够在更多行业发挥出自身价值。

1计算机视觉领域的深度学习技术

1.1图像分类中的深度学习技术

基于深度学习技术,卷积神经网络得到了进一步的发展,其应用范围也更为宽泛,例如说在图像分类中的运用。图像分析需要对图像实施扫描分析,随后对其具体类别予以划分,更加注重其整体语义。目前相对普遍进行图像分类的数据集为ImageNet,其中囊括了非常丰富的内容,存储了近1500万个图像的URL并将图像划分为数万余个类型。ImageNet每年组织开展的大规模视觉识别挑战赛(ILSVRC)中,图像分类算法与技术也不断创新,图像分类的准确性也持续提升。ImageNet数据集表现出规模大、类型多的突出特点,所以更加适用于迁移学习,即是把部分核心技术或结构拓展应用到各个领域,对于视觉领域的深度模型来说,能够把模型内的网络结构和参数直接共享到其他数据集,从而对数据实施微调。图像分类属于计算机视觉领域最为基础的环节,对于图像分类模型创建和数据分析处理经验也能够迁移应用到其他领域中。

1.2目标检测中的深度学习技术

目标检测相对于图像分类而言表现出更多的复杂性,主要任务是在囊括多种不同类型物体的图像内精确定位和识别某一物体,恰恰是出于这一目的,深度学习技术在目标检测中的应用更为复杂,要实现更加精准的效果也相对更难。近年来针对目标检测的算法日益更新,如优化后的R-CNN算法,是借助于卷积神经网络思想,对物体进行分类,提取物体特征。而SelectiveSearch算法的出现有了进一步的创新和突破,有效促进了检测准确性的提高,这也给通过卷积神经网络进行目标检测带来了更多可能性,随后的FastR-CNN算法极大地促进了目标检测效率的提升,该算法对提取候选区的问题予以优化,大大减少了候选区提取和目标检测过程的时间。目标检测网络以FastR-CNN算法作为支撑,于输出位置设置滑动窗同时和候选区域网络实施连接,目标检测的关键在于卷积神经网络,依靠它把各个点的特征进行提取,再借助回归算法获得对应范围出现目标的概率[1]。

1.3人脸识别中的深度学习技术

人脸识别主要是借助相应算法对人脸特征实施提取,因为其建立的人脸模型表现出一定的不稳定性,因此模型建立往往也表现出一定的难度,相对于建立刚体模型而言更为困难。人脸识别通常来说涉及人脸检测定位以及特征提取两个方面,人脸检测定位是基于背景图像中将人脸目标分割出来,实施归一化处理,而人脸特征提取算法不变。前者存在的技术难点是人脸目标具有多样性以及背景图像具有复杂性,所以对背景情境实施合理假设并予以简化是十分关键的。与此同时,高维空间人脸模型的建立较为复杂,精确度估算难度较大,人脸特征提取的技术难度是因为人脸属于弹性模型,其难度超过刚体模型。一般来说,较为常见对人脸特征实施提取与识别的方法有几何特征法、特征脸算法以及弹性模型法,CNN算法和过去的特征提取算法比起来表现出更高的稳定性和适用性,同时能够有效抵抗外部干扰,促进人脸识别技术的推广应用。

2应用实例

2.1安防领域的应用

深度学习技术在计算机视觉领域中的应用可以为安防行业提供更佳的解决方案,比如说人脸识别技术的应用,很多大型企业如Facebook、腾讯、阿里巴巴等都将非常关注和重视。作为深度学习技术在计算机视觉领域应用的重要内容,人脸识别在安检以及反恐等领域中也能够发挥出很好的效果。与此同时,对行人角度的REID技术实施研究,依托于深度学习强化目标检测,对目标特征实施提取和刻画,能够为异常行为监控和跟踪带来支持[2]。

2.2无人驾驶领域的应用

对于无人驾驶领域来说,选择激光或雷达这类传感器的成本更高,基于深度学习的计算机视觉技术也能够提供新的解决方案。依靠摄像机对视频画面进行采集,对获取到的图像实施分析,提供类似于前车碰撞预警等功能。在这一过程中,计算机视觉技术可以实现对目标的检测识别、对目标车辆的跟踪分析、对车道线是否偏离进行检测等。基于深度学习技术的检测识别表现出更加强大的优势,现阶段深度学习芯片日益增多,对于无人驾驶技术的发展也带来了更加有力的支持。

2.3智能家居领域的应用

过去的很多智能家居产品一般都是依靠智能手机蓝牙或者WiFi等途径来实现对家居产品的控制,这一方案即便能够做到家居智能化,但其水平依旧有待提高。基于深度学习技术,能够有效促进智能家居行业的更新发展,除开语言、语音识别之外,还能够利用计算机视觉技术实现人际交流与互动,比如说手势识别控制。2.4教育领域和图片搜索领域的应用基于深度学习的计算机视觉技术也能够在智慧教育中得以普及应用,如近年来很多新的拍照解题App,使用者只需要利用手机相机拍照上传即可获得相关题目的分析解答,促进学习者学习效率的提升。此时视觉技术包括了对文字的检测与识别,另外针对个人简历识别、文档识别等方面也能够进行拓展应用。同时计算机视觉技术还可以在图片搜索领域中得以应用,使用者通过拍摄上传相应的图片,即可从数据库中找出与原图相似的图片,深度学习属于一种非常高效的技术手段,能够提供更加快速高效的图像检测功能,结合图像搜索引擎,为用户带来更加便捷的服务[3-5]。

2.5医疗影像数据中的应用

医学影像直接关系到对患者疾病诊断的准确性,对于放射科的医务人员来说,依靠医学影像能够促进诊断效率的提升。现阶段国内外诸多医学专家队伍,在心血管、肿瘤、神经内科以及五官科等都建立了精准深度学习模型,极大地推动医疗水平的提升,为广大患者带来了更加便捷和高效的医疗服务。基于深度学习技术的计算机视觉在医疗影像数据中的应用主要集中在如下几个方面:(1)能够提供临床诊断辅助等医疗服务;(2)依靠数据分析技术,能够在很大程度上促进医疗机构经营管理水平的提升;(3)在医学影像中的应用,能够让医务工作者更加直观便捷地获取患者影像;(4)深度学习技术能够为医疗大数据的可视化带来便利;(5)在药企研发工作中的应用,可以处理好过去一直以来药物研发周期长和成本居高不下的问题;(6)在健康管理领域中的应用,借助于可穿戴设备来对个人健康数据实施监测,进而对疾病风险予以提前预测。

第6篇:卷积神经网络的优化范文

关键词:视觉注意;自顶向下;显著性;对象信息;卷积神经网

中图分类号:TP391.41

文献标志码:A

文章编号:1001-9081(2016)11-3217-05

0 引言

视觉注意机制的研究是探索人眼视觉感知的重要一环。在过去几十年中,如何用计算模型模拟人眼视觉注意过程一直是核心问题。尽管取得了很大的进步,但是快速准确地在自然场景中预测人眼视觉注意区域仍然具有很高的挑战性。显著性是视觉注意的一项重要研究内容,它反映了区域受关注的程度。本文的研究着眼于显著性计算模型,更多模型对比和模型分类可以参考Borji等[1]的文章。视觉注意存在两种机制:自底向上(Bottom-up)和自顶向下(Top-down)。过去的研究中,大多数的计算模型是基于自底向上的信息,即直接从图像像素获取特征。

自底向上显著性计算模型开创性工作源自于文献[2]的Itti模型,该模型是很多其他模型的基础和对照基准,它通过整合多种低层次特征,如颜色、亮度、方向等,给出一个显著度的概率分布图。Harel等[3]在Itti模型的基础上引入图算法,通过计算节点间特征值相似性和空间位置距离进行差异性度量获取显著图。近年来随着深度学习技术在目标识别领域的成功应用[4],研究者们对特征学习产生了更多的兴趣。Borji等[5]通过稀疏编码方法获取特征,使用图像块的稀疏表示结合局部和全局统计特性计算图像块的稀有性(rarity),稀有性反映了当前图像块中心位置的显著性。Vig等[6]通过训练多个神经网络获取层次特征,然后自动优化特征组合。特征提取的过程可以看作是一种隐式空间映射,在映射空间中使用简单的线性模型进行显著或非显著的分类。以上学习方法获得的特征都是一些低层次特征,对图像中的边缘和特定纹理结构敏感。此外,部分研究人员希望从数学统计和信号处理的角度来度量显著性。Bruce等[7]根据最大化信息采样的原则构建显著性模型。Li等[8]总结了多种基于频域的视觉注意研究工作,提出了一种基于超复数傅里叶变换(Hypercomplex Fourier Transform)的视觉注意模型,并展示了其他多种基于频域的模型在某种程度上都是此模型的特例。

以上模型均为数据驱动的显著性模型,模拟人眼视觉注意过程中自底向上的机制。由于人眼视觉注意过程中不可避免地受到知识、任务、经验、情感等因素的影响,因而整合自底向上和自顶向下信息的视觉注意研究受到更多的关注。现有模型整合的自顶向下信息可以分为三类:任务需求、场景上下文和对象特征。

Borji等[9]提出了一种构建任务驱动的视觉注意模型的联合贝叶斯方法。Zhang等[10]提出了一种使用贝叶斯框架整合自底向上和自顶向下显著性信息的方法。Siagian等[11]利用多种低层次特征对场景主旨进行建模,使用场景主旨引导视觉注意的转移。考虑到任务需求和场景上下文建模的复杂性,研究人员将对象特征视为一种高层次的知识表示形式引入视觉注意模型中。Judd等[12]和Zhao等[13]通过将低层次特征和对象特征整合在一个学习框架下来获得特征整合过程中每张特征图的叠加权重,但是模型使用的对象特征只有人脸、行人、车辆等有限的几种。Borji等[14]遵循了同样的方法,但是在整合过程中添加了更多特征并且结合了其他显著性模型的结果,最后用回归、支撑向量机(Support Vector Machine, SVM)、 AdaBoost等多种机器学习算法结合眼动跟踪数据进行训练。实验结果表明对象特征引入较大地提高了模型性能。Xu等[15]将特征划分为像素级、对象级和语义级三个层次,并重点探索对象信息和语义属性对视觉注意的作用;然而,模型中的对象级和语义级特征是手工标定的,因而不是一种完全意义上的计算模型。

总的来看,虽然部分模型已经使用对象特征作为自顶向下的引导信息,但是在对象特征的获取和整合上仍有很大的局限性。首先,对不包含特定对象的场景适应性较差;其次,对象特征描述困难,通常是通过特定目标检测方法获取对象特征,计算效率低下;此外,对象特征的简单整合方式不符合人眼的视觉感知机制。本文提出了一种结合深度学习获取对象特征的视觉注意计算模型,重点研究了对象级特征的获取和整合方法。算法结构如1所示,其中像素级突出图获取采用现有视觉注意模型的方法,对象级突出图获取采用本文提出的基于卷积神经网(Convolutional Neural Network, CNN)的特征学习和基于线性回归的特征整合方法。实验结果表明,对象级特征的引入可以明显提高显著性预测精度,预测结果更符合人类视觉注意效果。

1 对象信息获取

1.1 对象特征

大量实验证据表明对象特征引导视觉注意的转移。视觉注意中引入对象特征是为了获得图像中对象位置等信息,目的与计算机视觉中的目标检测类似。因而,已有的视觉注意计算模型的对象特征通常是通过特定目标检测方法获得。其中,Viola&Jones人脸检测和Felzenszwalb车辆行人检测是最常用的方法。文献[12-14]均使用此类方法引入对象特征。由于这一类特征针对特定对象样本进行设计和训练,因而推广能力不强。

li=fixations(obji)area(obji)(3)

其中: fixations()表示落入当前对象区域的正样本的数目;area()表示对象区域面积。li衡量当前对象单位面积受关注的程度,对象单位面积受关注程度越高,其在对象整合过程中的权重应越高,因而li与叠加权重成正比。

式(4)通过一个线性回归模型对已有样本数据进行训练,获得对象整合叠加权重W:

L=WF(4)

其中:F={F1,F2,…,FN}为训练样本数据集合;L={l1,l2,…,lN}为训练样本标签集合。

测试时根据式(5)~(6)获得对象级突出图:

3 显著图生成

视觉注意是自底向上和自顶向下两种机制作用的结果。完全使用自顶向下的对象特征进行显著区域预测有一定缺陷,主要表现在以下几个方面:首先,知识是对训练样本数据的抽象表示,由于神经网络的规模和训练样本中对象种类的限制,场景中部分对象对应的特征没有被抽象在网络结构中;其次,部分不具有明确语义的区域被错误地认为是对象,对视觉注意形成错误的引导;另外,人眼视觉注意转移的生理学机制并不清楚,兴趣区可能落在不具有对象特征区域中。因此,使用像素级特征给出低层次显著性信息是必要的。

视觉注意模型中常用的像素级特征有颜色、亮度、方向等[2-3,12]。本文直接使用GBVS(Graph-Based Visual Saliency)算法[4]整合多种像素级特征获取像素级突出图Spixel。式(7)给出了整合的方法:

其中:S(i, j)为最终给出的视觉注意显著图;N()为归一化操作;λ控制对象级突出图与像素级突出图的相对权重,通过实验分析可知λ=0.4时效果较好。当图像中不存在显著物体或无法获得高置信度的对象信息时,图像任意位置Sobj(i, j)=0,此时完全由像素级特征驱动的视觉注意引导。

4 实验结果及分析

本次实验是以Visual Studio 2012为实验平台,选取OSIE和MIT数据集作为实验数据。OSIE数据集包含700张含有一个或多个明显语义对象的图片以及15名受试者的眼动跟踪数据,此外该数据集还提供了语义对象统计及人工标注的精确对象区域。MIT数据集包含1003张自然场景图片以及15名受试者的眼动跟踪数据。这两个数据集是当前视觉注意研究领域中较大的数据集。为了验证本文方法的准确率,将本文算法与GBVS[4]、 Itti[2]、 Judd[3]、 AIM[10]、LG[8]等视觉注意方法进行对比。

对比实验中使用的评价指标为ROC(Receiver Operating Characteristic)曲线,实现方法与文献[12,15]相同。图6~8为实验对比结果,显著区域百分比是通过对归一化显著图作阈值处理获得,真正率(True Positive Rate)反映当前落入显著区域的样本占所有样本的比例。通过变化显著区域百分比获得ROC曲线。为了更直观比较算法效果,实验结果图中标注了每种算法的AUC(Area Under Curve)值,AUC值通过计算ROC曲线下的面积获得。AUC值越大表示该方法给出的显著性预测结果越准确。

图6为利用对象级突出图作为显著图在OSIE数据集上的实验结果。相对于RCNN算法, fasterRCNN算法使用了更深层次的网络结构和更多对象类别的训练样本,具有较高的对象位置预测准确率和对象检出率。实验分析可以看出,使用fasterRCNN算法生成对象级突出图可以更好进行显著性预测。同时,人脸特征(FACE)的引入进一步提升了预测准确性,从一个侧面说明了对象性信息对视觉注意的转移具有引导作用。

图7是多种视觉注意算法在OSIE数据集上的ROC曲线,可以看出本文方法实验效果明显好于其他算法。仅次于本文算法的是GBVS和Judd,Itti的准确率较差。图中对象级特征曲线为使用fasterRCNN结合人脸特征生成对象级突出图获得,由于该方法完全使用自顶向下的对象特征,显著性预测准确率明显弱于其他方法,因而证明了引入像素级特征必要性。图8为MIT数据集上的实验结果,本文方法和Judd算法为最好的两种方法,实验结果相差不大。AIM和LG方法效果较差。本文方法和Judd方法均使用了对象特征,可以看出整合了对象特征的方法相对于完全自底向上模型有明显优势。

图9中给出了多种算法显著图的直观对比。与其他方法强调对象边缘不同,本文结合了对象信息的方法可以有效突出图像中的完整对象区域。

5 结语

本文提出一种结合对象信息的视觉注意方法。与传统的视觉注意整合对象方法相比,该方法利用卷积神经网学到的对象特征,获取图像中对象位置等信息;然后通过一个线性回归模型将同一幅图像的多个对象加权整合,获得对象级突出图;最后,根据视觉注意的层次整合机制,将低层次特征和对象特征进行融合形成最终的显著图。本文方法在不同数据集上的准确率要高于现有模型。针对包含明显对象的图像,本文方法克服了部分现有模型由于边缘强化效果导致的显著区域预测不准的问题。本文方法仍然存在一定局限性,未来的工作将尝试非线性对象整合以及增大训练样本数量和网络规模以获取更多种对象特征。

参考文献:

第7篇:卷积神经网络的优化范文

在国内,百度DuerOS 2.0,希望成为新标杆,阿里ET大脑又开启新征程。

国外

谷歌:正式TensorFlow Lite可在移动设备上运行深度学习

今年5月,在GoogleI/O开发者大会上,Google宣布了一个专门针对移动设备优化系统的TensorFlow新版本。11月,正式了TensorFlow Lite。

据了解,这款被称为TensorFlow Lite的软件库,是可在移动设备上运行的深度学习工具,它允许开发人员在用户的移动设备上实时运行人工智能应用。此外,自TensorFlow Lite正式公布以来,已经出现了多个安装在移动设备上具有类似功能的学习软件库,包括苹果的CoreML、Clarifai人工智能云端训练服务,以及华为Mate10使用的麒麟970人工智能处理器。

亚马逊:AWS re:Invent 2017大会AWS云推出新品EKS

11月,在亚马逊举办的AWS re:Invent 2017大会上,公司了22款新品,分别涉及计算能力、数据库、机器学习、智能硬件和IOT等领域,尤其是在计算能力、数据库方面对AWS云服务进行了升级。

其中,AWS云推出了新品EKS,是AWS云上托管的Kubernete容器服务,不仅兼容多云环境,还具备高可用性、自动部署,自主升级等优势,并可与AWS上其他服务集成,两个平台可无缝集成,在ECS中的应用同样可以使用AWS其它服务。

FB:Pytorch 0.3实现多方优化增加对ONNX支持

今年初,Facebook在机器学习和科学计算工具Torch的基础上,针对Python语言了一个全新的机器学习工具包PyTorch。日前,这款工具包又迎来了它的0.3.0版本,此版本增加了多个函数功能,多方面性能均有所提升。

其中,0.3版本中删掉了Variable.reinforce()等随机函数,用torch.distributions包来代替。新功能包括构建了一个in-built Profiler,能对模型进行瓶颈分析,同时支持CPU和CUDA模型;增加Higher order gradients模块;以及优化器中增加了add_param_group函数,能在构建好的优化器中增加新的参数组。除此之外,还增加了新的张量函数和功能,在新版本中,能通过ONNX将模型迁移到其他框架上。

IBM:强化AI实力Deep Learning Impact软件工具

11月,IBM公布了一款最新软件Deep Learning Impact,其帮助用户开发的AI模型可使用流行的开源、深度学习框架,例如TensorFlow和Caffee。12月,这款工具被添加到IBM的Spectrum Conductor软件中。

除了软件,IBM还推出了为AI量身定制的基于Power9处理器的新系统。据了解,该系统可以在Power9 CPU和硬件加速器(例如GPU和FPGA)之间加速传输数据。此外,Power9将成为首个片上支持最新高速连接器(包括Nvidia下一代NVLink、OpenCAPI 3.0和PCIe 4.0)的商用平台。

国内

百度:DuerOS 2.0搭载AI硬件渡鸦raven H树立新标杆

在今年的百度世界大会上,主打下一代人机交互的DuerOS迎来一次重大升级,推出了2.0版本。据官方资料,DuerOS 2.0主要带来了两个变化:其一,是小度智能设备开放平台的升级;其二,则是小度技能开放平台的全新。至此,基于语音交互,DuerOS形成了两个开放式平台,可以对接设备开发商、生态合作伙伴、线上线下服务提供商。

此外,百度世界大会上同时了人工智能硬件产品渡鸦raven H,这款产品通过搭载DuerOS 2.0,在功能和用户体验上树立了新的标杆。

腾讯:腾讯云正式Supermind用人工智能方式实现网络规划

11月,腾讯云正式SUPERMIND智能网络产品。据介绍,相比此前网络产品,SUPERMIND智能网络将拥有高性能、全球互联、智能化等三大特点。

据了解,用人工智能方式实现网络规划、建设以及运维的全流程,是腾讯云SUPERMIND网络产品最大的亮点。腾讯云SUPERMIND智能网络能够结合几万条线路特征智能规划,通过历史用量分析、网络路径分析、用户反馈分析、节点规划建议、专线扩容建议等方面,合理规划出网络建设路线,大幅缩短规划时间,节约时间成本。

阿里巴巴:ET大脑获世界互联网领先科技成果18强

自去年8月阿里巴巴推出ET大脑,一年多来已经被用来解决和探索社会经济发展当中依靠人脑所无法解决的棘手问题。据阿里巴巴集团CEO张勇介绍:“整个ET大脑有非常多的人工智能技术,不仅仅是机器视觉、语音识别、自然语言处理等单个的AI技术,更重要的是这些技术有机整体的实现和全局的突破。”

在11月举办的第三届世界互联网大会上,15项世界互联网领先科技成果同时,其中便包括ET大脑。获奖原因包括AI、云计算、大数据能力与垂直领域知识深度结合,以及在应方面,已广泛应用于城市治理、工业制造、社会安全等数十个垂直领域。

中国移动:移动网络业界首个AI平台“九天”

12月,中国移动面向业界首个AI平台“九天”。

据了解,该平台可以拆分出三个方面:第一方面,产品的应用服务,包括运营、连接、服务三大领域,旗下分别包括智能营销、智能决策、智能网络、智能物联以及智能客服等领域;第二方面,AI核心能力层可以将其处理的数据自主分为语音语言类型、图像识别类型等;第三方面,“九天”的深度学习平台是中国移动首款基于GPU的深度学习训练平台。

中科视拓:推出深度学习服务平台SeeTaaS将深度学习开发过程简化

10月,中科视拓推出一站式企业级深度学习平台SeeTaaS,主要用于研发人脸识别、手势识别、无人机视觉、视频结构化分析等在内的企业级解决方案。据了解,该平台可以提供深度学习相关的数据、算法、算力等服务,同时将深度学习的开发过程简化为:上传数据、选择算法、自动调参、输出训练模型、模型批量测试、模型跨平台部署等。

应用方面,中科视拓已与中国平安、中国航天科技、中国电信、华为、百度、三星、高通等企业达成合作。

EasyStack:推出全球首个同时支持GPU和FPGA开源云平台

在2017中国开源产业峰会暨第21届中国国际软件博览会分论坛上,EasyStack正式推出全球首个同时支持GPU和FPGA异构计算的人工智能开源云平台ESCould AI。

第8篇:卷积神经网络的优化范文

关键词:辛烷值;快速检测方法;气相色谱法;红外光谱法;拉曼光谱法

中图分类号:TB 文献标识码:A doi:10.19311/ki.1672-3198.2016.07.092

辛烷值是表征车用汽油抗爆性的重要指标,1926年美国科学家埃得将辛烷值引入汽油性能指标。汽油在燃烧过程中,抵抗爆震的能力叫作抗爆性,辛烷值就是表示汽油抗爆性的指标。辛烷值越高,其抗爆性能越好,汽油在汽缸中燃烧越充分,燃烧效率越高,尾气排放中的一氧化碳、碳氢化合物含量越低,对环境的危害相应越小。

马达法辛烷值和研究法辛烷值是汽油的辛烷值的传统测量方法,方法用样品量大,时间长、费用高,不适于生产控制的在线测试。本文对近几年出现的几种辛烷值测量的快速分析方法进行总结和综述,介绍相关方法的应用进展。

1 拉曼光谱法

拉曼分析方法作为一种光谱检测技术,不仅样品预处理简单、分析速度快、效率高、重现性好,另外还具有受水分干扰小、样品无损、可进行微量样品探测、检测频带宽、可快速跟踪反应过程等特点;即便是非极性基团如c=c,c=c等红外吸收较弱的官能团,在拉曼光谱中也可以得到很强的吸收谱带。因此,特别适合用于对含碳、氢基团较高的汽油样品的辛烷值检测。

康健爽等2010年提出了一种使用拉曼分析测定汽油辛烷值的方法,并设计了辛烷值拉曼光谱在线检测系统。这种辛烷值在线监控系统能够实时监控乙醇汽油中的组分变化,并给出对应的拉曼分析曲线;根据光栅型和傅立叶变换型光谱仪各自特点,选用光栅型拉曼光谱仪应用于辛烷值在线检测。以Lambert-Beer定律为基础,采用化学计量学方法,将检测数据和采用标准方法测得的属性数据之间关联,建立分析模型,在具体算法实现过程中,分别采用PCA和PLS两种方法建立关联分析模型,并用于乙醇汽油辛烷值的快速预测,指导实际调和过程。实践证明,相对传统的检测手段,该系统具有测试速度快、分析时间短、检测费用低、经济效益高等特点。

2 气相色谱法

李长秀等2003年建立了一种新方法,该方法将气相色谱结果关联建模用以计算汽油样品的辛烷值。对汽油的组成采用高分辨毛细管柱进行测定,根据汽油单体烃组分的含量和纯组分辛烷值乘积的大小,将单体烃组分分为两组,每一组为一个变量,建立实测辛烷值与两个变量间的回归模型。实际分析时,根据样品的类型带入相应的模型进行关联计算即可得到样品的辛烷值。该方法与采用标准方法测定催化裂化汽油辛烷值的结果相比,测定结果的偏差约0.5个单位。该方法因为操作相对简单,样品量耗费少,且建模过程快速、简便,适于稳定工艺过程中的汽油辛烷值的在线监测。

于爱东等采用毛细管气相色谱法对汽油单体烃类进行分离,用PONA汽油组成软件对汽油单体烃进行定性、定量、Pona组成计算.将汽油单体烃分为37组,建立实测辛烷值与37个变量之间的回归模型,计算汽油辛烷值。该模型计算辛烷值与实测辛烷值的极差为0.26个单位,适用辛烷值在88~92之间的油品。辛烷值的计算公式能够较好地反映汽油单体烃与辛烷值之间的关系。方法操作简单,样品用量少,结果准确,适合于炼厂蒸馏、催化过程中汽油辛烷值的实时监测。

3 近红外光谱法

近红外光谱分析方法是一种间接分析方法,它先利用一组汽油标准样品,在汽油的近红外光谱数据间和汽油辛烷值建立数据关联分析模型,再用该模型预测未知汽油样品的辛烷值。测量精度除受仪器精度影响外,还受所建分析模型精度影响。

韩言正等介绍了一种自主开发研制的汽油辛烷值近红外光谱在线分析仪。该分析仪包括近红外光谱在线测量、光谱预处理和实时建模等部分。对于原始的近红外光谱数据,采用多项式卷积算法进行光谱平滑、基线校正和标准归一化;通过模式分类与偏最小二乘进行实时建模。该分析仪已成功应用于某炼油厂生产过程的辛烷值在线监测。

汽油辛烷值预测体系具有非线性的特点,史月华等据此提出主成分回归残差神经网络校正算法(PCRRANN)用于近红外测定汽油辛烷值的预测模型校正。该方法结合了主成分回归算法(PC),与PLS(PartialLeastSquare),PCR,PLS(NPLS,Non lin-earPLS)等经典校正算法相比,预测能力有明显的提高。

第9篇:卷积神经网络的优化范文

独立分量分析(ICA)是统计信号处理近年来的一项发展。顾名思义,这是一种分解技术,其特点是把信号分解成若干相互独立的成分。主分量分析(PCA)和奇异值分解(SVD)是人们较熟悉的分解信号的线性代数方法,ICA与它们的主要不同之处表现在:

(1)后者只要求分解出来的各分量互相正交(不相关),但并不要求它们互相独立。用统计信号处理的语言来表达,即:后者只考虑二阶统计特性,而前者则要更全面考虑其概率密度函数的统计独立性。

(2)后者按能量大小排序来考虑被分解分量的重要性。这样的分解虽然在数据压缩和去除弱噪声方面有其优点,但分解结果往往缺乏明确的生理意义。前者虽然分解出的分量其能量大小存在不确定性,但当测量值确实是由若干独立信源混合而成时,分解结果往往具有更好的生理解释。由于测得的生理信号往往是若干独立成分的加权迭加(例如,诱发脑电总是被自发脑电所淹没,而且常伴随有心电、眼动、头皮肌电等干扰),此ICA是一项值得注意的分解方法。

此外,神经生理研究认为,人类对认知、感知信息的前期处理有“去冗余”的特点。ICA在这方面也表现出类似特性,因为互相独立的分量之间互信息是最少的。ICA是伴随着盲信号处理,特别是盲信源分离发展起来。其研究热潮方兴未艾,也正在引起生物医学工程界的注意,IEEETransBME正在组织出版以它为重点的专辑。就国际范围看,以下几个研究单位目前工作比较领先:(1)美国加州大学生物系计算神经生物学实验室,(2)日本Riken脑科学研究所脑信息研究室,(3)芬兰赫尔辛基工业大学计算机及信息科学实验室,目前发表有关文献较多的刊物有IEEETrans的SP和NN以及NeuralComputation等。本文目的是对ICA的原理、算法及应用作一简述,以引起国内同行对它的关注。将侧重于概念说明,而不追求数学上的严谨性。

2原理

2.1问题的提法,s-(n)是一组互相独立的信源,A是混合矩阵,x-(n)是观察记录,即x-(n)=As-(n)。问题的任务是:在A阵未知且对s-(n)除独立性外无其它先验知识的情况下,求解混矩阵B,使得处理结果y-(n)=Bx-(n)中各分量尽可能互相独立,且逼近s(n)。容易理解,解答不是唯一的,它至少受以下条件的限制:(1)比例不定性:s-(n)中某一分量大K倍时,只要使相应的A阵系数减小K倍,x-(n)便保持不变。

因此,求解时往往把s-(n)假设成具有单位协方差阵,即s-中各分量均值为零,方差为1,且互相独立。(2)排序不定性:y-与s-中各分量排序可以不同。因为只要对调B阵中任意两行,y-中相应元素的位置也便对调。(3)s-(n)中至多只能有一个高斯型信源:这是因为高斯信源的线性组合仍是高斯型的,因此混合后便无法再区别。(4)信源数目N只能小于或等于观测通道数M。N>M情况目前尚未解决。以下讨论设M=N。因此,y-(n)只是在上述条件下对s-(n)的逼近。换名话说,任务的实质是优化问题,它包括两个主要方面:优化判据(目标函数)和寻优算法。

2.2目标函数

这一领域的研究者已经从不同角度提出了多种判据。其中以互信息极小判据(MinimizationofMutualInformation,简记MMI)和信息或熵极大判据(Informax或MaximizationofEntropy,简记ME)应用最广。由于最基本的独立性判据应由概率密度函数(probabilitydensityfunction,简记pdf)引出,而工作时pdf一般是未知的,估计它又比较困难,因此通常采用一些途径绕过这一困难。

常用的方法有两类:①把pdf作级数展开,从而把对pdf的估计转化为对高阶统计量的估计;②在图1的输出端引入非线性环节来建立优化判据。后一作法实际上隐含地引入了高阶统计量。(1)互信息极小判据:统计独立性的最基本判据如下:令p(y-)是y-的联合概率密度函数,pi(yi)是y-中各分量的边际概率密度函数。当且仅当y-中各分量独立时有:p(y-)=∏Ni=1pi(yi)因此用p(y-)与∏i=1pi(yi)间的Kullback-Leibler散度作为独立程度的定量度量:I(y-)=KL[p(y-),∏Ni=1pi(yi)]=∫p(y-)log[p(y-)∏Ni=1pi(yi)]dy-(1)显然,I(y-)0,当且仅当各分量独立时I(y-)=0。因此,互信息极小判据的直接形式是:在y-=Bx-条(文秘站:)件下寻找B,使(1)式的I(y-)极小为了使判据实际可用,需要把I(y-)中有关的pdf展成级数。

由于在协方差相等的概率分布中高斯分布的熵值最大,因此展开时常用同协方差的高斯分布作为参考标准。例如,采用Gram-Charlier展开时有:P(yi)PG(yi)=1+13!k2yih3(y-i)+14!k4yih4(yi)+…式中PG(yi)是与P(yi)具有同样方差(σ2=1)和均值(μ=0)的高斯分布。k3yi、k4yi是yi的三、四阶累计量(cumulant),hn(yi)是n阶Hermit多项式。此外还有许多其他展开办法,如Edgeworth展开,利用负熵(Negentropy)等。不论采用何种展开方式,经推导后总可把式(1)近似改成k3、k4的函数:I(y)=F(k3y-,k4y-,B)(1)’F(·)的具体形式多种多样,视推导时的假设而异。

这样就得到互信息判据的实用近似形式:在y-=Bx-条件下寻找B,使式(1)的I(y-)极小(2)Infomax判据:这一判据的特点是在输出端逐分量地引入一个合适的非线性环节把yi转成ri(如图2)。可以证明,如果gi(·)取为对应信源的累积分布函数cdf(它也就是概率密度函数的积分),则使r-=(r1…rN)T的熵极大等效于使I(y-)极小,因此也可达使y-中各分量独立的要求。从而得到Infomax判据:在选定适当gi(·)后,寻找B使熵H(r-)极大需要指出的是,虽然理论上gi(·)应取为各信源的cdf,但实践证明此要求并不很严格,有些取值在0~1之间的单调升函数也可以被采用,如sigmoid函数、tanh(·)等。估计H(r-)固然也涉及pdf,但由于其作用已通过gi(·)引入,所以可以不必再作级数展开而直接用自适应选代寻优步骤求解。文献中还提出了一些其他判据,如极大似然、非线性PCA等,但它们本质上都可统一在信息论的框架下,所以不再一一列举[1]。

3处理算法优化算法

可大致分为两类,即批处理与自适应处理。

3.1批处理批处理比较成熟的方法有两类。较早提出的是成对旋转法[2],其特点是把优化过程分解成两步。先把x-(n)经W阵加以“球化”得z-(n),使z-(n)T=IN,即:各分量不相关且方差为1,然后再寻找合适的正交归一阵U达到使y-各分量独立的目的。前一步类似于PCA,后一步则可利用Givens旋转,根据目标函数,将z-中各分量两两成对反复旋转直到收敛。这种方法计算量较大。1999年,Gadoso提出几种方法对它作了进一步改进[3],其中包括:Maxkurt法、JADE法、SHIBBS法等,限于篇幅,本文不再叙述。近年来,提出的另一类方法是所谓“固定点”法(FixedPointMethod)[4,5

],其思路虽来源于自适应处理,但最终算法属于批处理。

简单地说,通过随机梯度法调节B阵来达到优化目标时,有:B(k+1)=B(k)+ΔB(k)ΔB(k)=-μεkB(k)式中k是选代序号,εk是瞬时目标函数。当到达稳态时必有[E是总集均值算子]:E[ΔB(k)]=0(2)如果ΔB(k)与B(k)有关,就可由(2)式解出B的稳态值。不过由于(2)式总是非线性方程,因此求解时仍需要采用数值方法(如牛顿法、共轭梯度法等)迭代求解。实践证明,不论是收敛速度还是计算量,此法均优于前一种方法,而且它还可以根据需要逐次提取最关心的yi,因此是一类值得注意的方法。

3.2结合神经网络的自适应处理结合神经网络的自适应处理算法的框图。1994年Cichocki提出的调节算法是:B(k+1)=B(k)+ΔB(k)ΔB(k)=μk[I-Ψ(y-k)ΦT(y-k)]B(k)式中Ψ、Φ都是N维矢量,其各元素都是单调升的非线性函数:Ψ(yk)=sgnyk·y2k,ΦTy-k=3tanh(10yk)所得结果虽令人鼓舞,但是方法是经验性的。其后学者们从理论上沿着这一方向作了更深入的讨论,并发展出多种算法。概括地说,主要发展有以下几点:

(1)引入自然梯度(或相对梯度)。按照最陡下降的随机梯度法推导出的系数调节公式往往具有如下一般形式:ΔB(k)=μk[B-T(k)-Ψ(y-k)x-Tk]式中的Ψ(y-k)视具体算法而异。Infomax法中Ψ(·)由所选用的g(·)决定;MMI法中则与yk的三、四阶矩有关。B-T(k)是矩阵求逆再转置,它的计算量很大。Amari[7]在1998年提出将最陡下降梯度改为“自然梯度”,两者间关系是:[自然梯度]=[最陡下降梯度]·BT(k)B(k)于是有:ΔB(k)=μk[B-T(k)-Ψ(y-k)x-Tk]BT(k)B(k)=μk[I-Ψ(y-k)y-Tk]B(k)由于此式避免了矩阵求逆,因此计算量明显降低且收敛加快。目前,这一作法已被普遍接受。

(2)引入自然梯度后,采用不同的优化判据得出的调节公式虽各有千秋,但大致都可表示为如下的“串行更新”形式:B(k+1)=B(k)+ΔB(k)=[I+H(y-k)]B(k)只是H(y-k)的具体形式各不相同。串行矩阵更新的算法还具有一些理论上值得注意的性质,如均匀特性(uniformproperty)和等变性(equivariant)等[8,9]。

(3)四阶累计量k4>0的超高斯信号和k4<0的欠高斯信号,其处理过程应当予以区别。采用同一算法效果往往不好。目前的办法多是在调节公式中引入一个开关。根据估计得k4的符号来切换不同算法,如扩展的Infomax法就是一例[10]。此法的系数调节公式是:ΔB(k)=μk[I-Ktanh(y-k)·y-Tk-y-ky-Tk]B(k)其中K是对角阵,其对角元素之值为+1或-1,视该信号分量k4>0或<0而定。为了实时应用,估计K4也可采用递归算法。总之,自适应算法是目前采用较广的方法。

4应用举例

4.1仿真计算为检验经ICA算法分解信源的能力,左图是一组源信号,它们对系统来说是未知的。这一组信号经混合后的观察信号作为(中图所示)ICA算法的输入,分解后的结果如右图所示。可以看到,除了波形的次序、极性和波幅发生变化之外,源信号的波形被很好地分解出来。一般情况下,临床脑电信号中既有超高斯成分(如诱发电位),也有亚高斯成分(如肌电和工频干扰)。为了检验扩展Infomax算法处理这类情况的能力,我们又用此法进行了如图6所示仿真实验。左图第一行是一段自发脑电信号,第二行是仿真的视觉诱发电位,第三行是肌电干扰。混合后的信号(图中第二列所示)经ICA分解得到如右图所示的结果。这一结果表明扩展ICA算法在同时存在超高斯和亚高斯信号的情况下,仍然能够很好地实现盲分解。但应指出:这一仿真结果并不说明通过ICA分解就能直接得到视觉诱发电位,因为还没有涉及头皮上的多导数据。

4.2实验VEP分析(1)多导脑电观察中VEP的增强:需要强调,把多导脑电作ICA分解后直接取出其中与VEP有关的成分,得到的并不是头皮电极处的VEP分量,因为它们只是分解出来的信源,而这些信源的位置并不在头皮上,为了得到电极处测量值中的VEP成分,需按下述步骤处理:用训练得的W阵直接对头皮上取得的多导脑电数据进行ICA分解,得到各独立分量组成的矩耻y=Bx(见图7a);再根据各分量的波形特征及产生时段,选择与VEP有关的一部分分量(例如在前300ms中具有较大幅度的分量),并将其余分量置0,得到新的独立分量矩阵y’;再反变换回头皮各电极处得x’=B-1-y’。这样才能得到去除噪声和干扰后各电极处的VEP。

采用这样的方法可显着地减少提取VEP所需要的累加次数。左图是经3次累加所得VEP,中图是经50次累加所得结果,右图则是用左图经图7中ICA处理后提取的VEP。比较中、右两图,两者波形趋势基本相同,但后者比前者其主要峰、谷显然更清楚,而累加次数由50减到3。(2)ICA分量的空间模式:把某一个ICA分量的瞬时值经B-1逆推回头皮各电极处得x-’后,就可以按断层图的插补方法得到该时该分量在头皮上的空间分布模式。这个空间分布模式也可以用更简单办法得到:只要把逆矩阵B-1中相应于某ICA分量的列中各元素的值赋与头皮各电极处,再作断层图插值,就可以表现该ICA分量在任意时刻的空间分布模式。也就是:x’i(t)=b’ijy’j(t),i=1~N式中b’ij是B-1的第i行第j列元素。

可见ICA分量y’j(t)在头皮各电极处的对应值等于用逆阵B-1第j列各元素来对y’j(t)加权。因此,列矢量b’j=[b’1,…,b’Nj]可以用来统一地表现任意时刻y’j的空间模式。

5总结与展望

本文粗略介绍了ICA的原理、算法和应用,可以看到ICA确是一个值得注意的研究方向,但其理论体系尚未完整,实际采用的处理方法多少还带有经验性。例如为什么对非线性特性gi的要求不甚严格就没有明确解释;又如算法的稳定性、收敛性在实践中是经常遇到的问题。从应用方面看也还有许多待开发的领域,例如如何应用于生理信号的模式识别与系统建模等。从生物医学信号分析的角度看,还有一些亟待深入的问题。例如:

(1)在以上分析中混合阵A被假设为恒定。这对静态的图像分析或固定信源是合理的;但在生理实际中,等效信源一般在空间并不固定,因而混合阵A应视为时变的,而且传导过程中还会引入容积导体的卷积及迟作用。这可能是实际生理信号分解结果不够理想的原因之一。

(2)一般公认,生理信号的非平稳性较强,而以上分析并没有考虑信号的非平稳性。