公务员期刊网 精选范文 卷积神经网络的步骤范文

卷积神经网络的步骤精选(九篇)

前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的卷积神经网络的步骤主题范文,仅供参考,欢迎阅读并收藏。

卷积神经网络的步骤

第1篇:卷积神经网络的步骤范文

1.神经网络的架构正变得越来越复杂。感知和翻译等大多数神经网络的架构正变得越来越复杂,远非此前简单的前馈神经网络或卷积神经网络(CNN)所能比。特别需要注意的是,神经网络正与不同的技术(如LSTMs、自定义目标函数等)相混合。

神经网络是多数深度学习项目的根基。深度学习基于人脑结构,一层层互相连接的人工模拟神经元模仿大脑的行为,处理视觉和语言等复杂问题。这些人工神经网络可以收集信息,也可以对其做出反应。它们能对事物的外形和声音做出解释,还可以自行学习与工作。

2.长短期记忆网络(LSTMs)。当你阅读本文时,你是在理解前面词语的基础上来理解每个词语的。你的思想具有连续性,你不会丢弃已知信息而从头开始思考。传统神经网络的一大缺陷便无法做到这一点,而递归神经网络能够解决这一问题。

RNN(循环神经网络)拥有循环结构,可以持续保存信息。过去几年里,RNN在语音识别和翻译等许多问题上取得了难以置信的成功,而成功的关键在于一种特殊的RNN――长短期记忆网络。

3.“注意力模型”。“注意力”是指神经网络在执行任务时知道把焦点放在何处。我们可以让神经网络在每一步都从更大的信息集中挑选信息作为输入。例如,当神经网络为一张图片生成标题时,它可以挑选图像的关键部分作为输入。

4.神经图灵机依然有趣,但还无法胜任实际工作。当你翻译一句话时,并不会逐词进行,而会从句子的整体结构出发。机器难以做到这一点,这一挑战就被称为“强耦合输出整体估计”。

神经图灵机就是研究者们在硅片中重现人类大脑短期记忆的尝试。它的背后是一种特殊类型的神经网络,它们可以适应与外部存储器共同工作,这使得神经网络可以存储记忆,还能在此后检索记忆并执行一些有逻辑性的任务。

5.深度学习让计算机视觉和自然语言处理不再是孤岛。卷积神经网络最早出现在计算机视觉中,但现在许多自然语言处理(NLP)系统也会使用。LSTMs与递归神经网络深度学习最早出现在NLP中,但现在也被纳入计算机视觉神经网络。

此外,计算机视觉与NLP的交汇仍然拥有无限前景。

6.符号微分式越来越重要。随着神经网络架构及其目标函数变得日益复杂,手动推导出“反向传播”的梯度也变得更加困难而且容易出错。谷歌的TensorFlow等最新的工具包已经可以超负荷试验符号微分式,能够自动计算出正确的微分,以确保训练时误差梯度可被反向传播。

7.神经网络模型压缩的惊人成果。多个团队以不同方法大幅压缩了训练一个良好模型所需的素材体量,这些方法包括二值化、固定浮点数、迭代修剪和精细调优步骤等。

这些技术潜在的应用前景广阔,可能将会适应在移动设备上进行复杂模型的训练。例如,不需要延迟就可以得到语音识别结果。此外,如果运算所需要的空间和时间极大降低,我们就可以极高帧率(如30 FPS)查询一个模型,这样,在移动设备上也可以运用复杂神经网络模型,近乎实时地完成计算机视觉任务。

8.深度学习和强化学习继续交汇。在“端对端”机器人等领域出现了令人激动的进展,现在机器人已经可以一起运用深度和强化学习,从而将原始感官数据直接转化为实际动作驱动。我们正在超越“分类”等简单工作,尝试将“计划”与“行动”纳入方程。

第2篇:卷积神经网络的步骤范文

【关键词】神经网络;故障测距;小波包;相对误差

0 引言

我国矿井配电网多为6kV单侧电源供电系统,采取中性点非有效接地方式,属于小电流接地系统(NUGS)。馈电回路选用多段短电缆径向延伸为各种井下高低压电机、电气设备、照明及各种通信、自动化装置和仪表、仪器提供电能。由于井下工作环境恶劣,供电电缆经常发生接地、断线、短路等故障,据电力部门统计,其中单相接地故障的发生率最高。尽管发生单相接地故障时,线电压仍然对称,暂时不影响对负荷的连续供电,但就矿井这类危险易爆场所而言,当发生单相接地故障时,应尽快跳闸断电以确保安全。为此,必须及时对故障点进行定位、排除故障、加快恢复线路供电。

NUGS馈线的故障定位问题一直以来未得到满意的解决,这与其自身的特点有关。由于电网变压器中性点不直接接地,造成单相接地电流无法形成小阻抗回路,故障电流主要由线路对地电容电流提供,其数值较小,且基波分量幅值故障前后变化不大,使得定位保护装置很难准确进行故障选线和定位。考虑到井下环境条件和负荷的特殊性,矿井配电网与传统意义上的NUGS存在一定的差异:单相接地产生的暂态分量较稳态分量大得多,暂态波形畸变严重,应研究利用暂态电气量进行故障测距的可行性;馈电线路分支少、长度短,对测距精度要求高[1]。

鉴于上述原因,本文就井下配电网故障测距问题进行研究,以期提高故障测距的精度和可靠性。

1 BP网络的结构和算法

BP网络结构上类似于多层感知器,是一种多层前馈神经网络,网络权值的训练算法为误差反向传播(BP)学习算法。如图1所示为一典型3层BP网络模型。

图1 3层BP网络模型

以图示BP网络模型为例说明网络的学习过程:

(1)初始化。为每个连接权值wij、wjt、阀值θj、θt赋予(-1,1)区间的随机值。

(2)给定输入输出目标样本。给定输入向量Xp=(x1,x2,...,xn)和期望目标向量Tp=(t1,t2,...,tm),p∈1,2,...,P。

(3)计算网络各层的输出。由输入样本、连接权值、阀值及各层神经元传递函数计算隐含层和输出层的输出。

(4)计算网络实际输出与期望输出的一般化误差。系统的目标函数为:

E=■■■(t■-y■)2=■E■(1)

网络通过调整权值和阀值使满足预先设定的一个极小值。

(5) 利用目标函数调整网络的权值和阀值。BP算法按照目标函数梯度的反方向对网络参数进行调整,使目标函数收敛,即实际输出接近目标输出。对于第p个输入样本的权值、阀值,按下式修正,式中?浊为学习速率。

?驻w=-?浊■, ?驻θ=-?浊■(2)

对应的权值、阀值按下式调整,式中为迭代步数。

w(k+1)=w(k)+?驻wθ(k+1)=θ(k)+?驻θ(3)

(6)随机选择下一组学习样本向量进行训练,直到P个样本对训练完毕。

(7)重新从P个学习样本中随机选取一组输入、目标样本对,返回步骤(3),直到目标函数E收敛于给定值,若训练次数大于设定的最大训练次数,则网络不收敛。

由于BP算法学习速率为固定值,收敛速度较慢,且可能会产生多个局部极小值,另外网络的隐含层层数和神经元数目的选择尚无理论指导,因此网络具有较大的冗余性。为了克服以上不足,提出了许多改进算法,从改进途径上分为两类:

一类为启发式学习算法,如动量BP算法、弹性算法、学习率可变的BP算法等;另一类为快速优化算法,如拟牛顿算法、LM算法等。

2 基于BP小波神经网络的故障测距

小波包具有正交特性、信号分解后的信息量是完整的,因此利用小波包算法分析信号频率的分布情况,能够有效提取信号的暂态特征。对于电缆线路而言,其暂态零序电流的自由振荡频率一般在1500~3000Hz之间[2-3]。本文利用小波包提取该频段的暂态零序电流信号模极大值作为神经网络模型的输入,以期实现高精度的故障测距。

2.1 小波基的选择

在利用小波包提取模极大值时,小波基的选择十分重要,选择不同的小波基对信号进行分解,可以突出不同特点的信号特征。Daubechies小波系是信号分析处理中常用的一类小波,具有紧支性、正交性,满足精确重构条件,但由于其不具有对称性,因而其边界效应会随尺度的增加而扩大,引起分解误差;Morlet小波常用于信号表示、图像特征的提取和识别;Mexican hat小波则用于系统辨识。

3次B样条小波是一种具有线性相位的紧支对称小波,分频能力强,频带相干小,由于具有对称性,只要采取合理的延拓方式,其边界效应引起的误差可忽略不计。

B样条基函数的递推公式如下:

N■(x)=1,x■≤x≤x■0,x?埸x■,x■N■(x)=■N■(x)+■N■(x)(4)

3次B样条基函数N■(x)在xi,xi+4上具有局部支集性,表达式如(5)所示。

(5)若取参数x■=i(i=0,1,...,n)为节点即为均匀B样条基,再对均匀B样条基作参数变换,在每个子区间内以参数代换,在每个子区间的值均为u0,1。3次B样条基函数的表达式如式6所示。

由于二进小波包变换具有平移不变性,不会引起正交小波包变换在所分析信号不连续处产生的伪吉布斯现象[4]。故本文利用3次B样条小波包对短路故障电流进行卷积型二进小波包分解,以期获得更显著的故障特征信息。

N■(x)=■,x■≤x≤x■■+■,x■≤x≤x■■+■,x■≤x≤x■■,x■≤x≤x■0,x?埸x,x■

(5)

N■(u)=■u3■(-3u3+3u2+3u+1)■(3u3-6u2+4)■(-u3+3u2-3u+1) 0≤u≤1(6)

2.2 分解尺度的选择

如何选择分解尺度对于零序电流暂态分量的模极大值提取至关重要,尺度取得越大,信号与噪声的表现差异越明显,越有利于两者的分离。但分解尺度取得越大,则对应的频带宽度越窄,采样点数过小,不利于下一步的信号分析[5-7]。

由于本文仿真的采样频率取1MHz,则Nyquist频率为5kHz,为提取暂态零序电流1500~3000Hz频率段分量,小波包分解层数为3,考虑小波包频带划分规则,取(3,3)、(3,7)频带的零序电流暂态分量即可满足要求。

2.3 BP网络结构参数的选择

欲利用BP小波神经网络计算井下配电网故障测距,必须首先确定BP网络的结构和参数,如各层的初始权值、阀值,学习速率,各层节点数、传递函数等,只有确定了网络的最佳配置,才能有效解决所提出的问题[8]。

(1)网络层数的确定。Hecht-Nielsen已经证明,在不限制隐层节点数的情况下,含有一个隐层的BP网络能够实现任意非线性映射。Cybenko指出,当隐层传递函数选用S型传递函数时,单隐层足以满足解决任意判决分类问题的需要,两个隐层则能够实现输入图形的映射。增加隐层数可以进一步提高精度,但同时会增加网络权值的训练时间。另外,增加隐层神经元个数也能降低误差,训练效果也更易观察,因此,应优先考虑增加隐含层神经元的个数。对于本文研究的故障测距问题,网络需要较快的收敛速度,因此采用单隐层网络。

(2)各层节点数目的确定。网络输入层节点数等于输入向量的维数。由于井下电网大多数实时运行参数如负荷、系统等效阻抗可由监控终端获得,其它随机性因素如发生故障线路、故障时刻可由故障后可测信息准确识别,不可知变化因素仅包括接地过渡电阻及故障点位置,并且神经网络的内插性能优于外推性能,故输入向量维数等于3,分别为(3,3)、(3,7)频带零序电流暂态分量的模极大值和故障点过渡电阻值。输出层节点数为1,表示故障点位置。隐含层节点数的选择比较复杂,需要依据经验和经过多次实验确定,选取过多将导致学习时间过长,过少将引起容错性差,对未经学习的样本识别能力低。根据Hebe准则可以确定最佳隐含层节点数的参考值。另外,也可先令隐含层节点数可变,开始时给以较小数值,学习到给定训练次数最大值,若未达到收敛精度则再增加节点数,直至达到合理数值为止。经过多次仿真训练,隐层节点数为11时,网络的训练误差最小。

(3)初始权值的选取。初始权值的选择对于网络能否收敛和训练的速度关系密切。若权值选择过大,会使加权输入处于激励函数的饱和区,导致无法进行权值的调整。威得罗等人提出一种权值初定策略,选择权值的量级为S1的r次方,其中S1为第一层神经元数目,利用此方法可以在较少的训练次数下获得满意的训练结果。本文选择的输入层及隐含层至输出层的初始权值均为0.25。

(4)训练算法的选择。给定一个具体问题,采用何种训练算法对于是否能够达到目标误差及网络收敛速度的影响很大。就中等规模的前馈神经网络而言,LM算法的训练函数trainlm可以获得比其它任何一种算法更小的均方误差,且收敛速度最快,在精度要求较高时,该算法的优点尤其突出。本文选择LM算法对BP网络进行训练。

(5)学习速率的选择。一般情况下倾向于选择较小的学习速率以保证训练过程的稳定性,但是过小的学习速率会导致训练时间过长,收敛速度很慢,无法保证网络的误差值跳出误差曲面的低谷而最终趋于最小误差,一般选择范围在0.01~0.9之间。

3 系统仿真及测距结果

深井供电系统仿真模型如图2所示。各模块参数如下:进线电缆(In line)采用YJV42,线路正序参数为:R1=0.078/km,L1=0.27mH/km,C1=0.695F/km,零序参数为:R0=0.106/km,L0=1.223mH/km,C0=0.358F/km;配电电缆(Line)采用YJV32;采区电缆(Mine line)、负荷电缆(Load line)采用UPQ,正序参数为:R1=0.024/km,L1=0.516mH/km,C1=0.308F/km,零序参数为:R0=0.196/km,L0=3.98mH/km,C0=0.203F/km;采区变压器(MineT1)型号为KBSG-200/6/0.69kV,Ud%=4%,I0%=2.5%;隔爆移动变电站(MineT2)选用KBSGZY-315/6/1.2kV,P0=1400W,Pd=2200W。负荷变压器采用SL7-100/6/0.4kV。线路长度分别为:进线电缆取1km;

配电电缆1、3、4取0.5km;配电电缆2取0.4km;采区电缆长度均取0.3km;负荷电缆取0.2km。电源线电压有效值6.3kV,X/R ratio=7。

考虑配电线路1在不同故障点位置和过渡电阻下发生单相接地故障(数据窗取故障前1ms至故障后4ms共5ms)得到的暂态零序电流经小波包分析后(3,3)、(3,7)频带的模极大值(为防止边界效应引起的信号值突变,取前2000个采样值进行模极大值分析)经归一化处理后所形成的训练和测试样本集,对BP网络进行训练,并测试网络的测距性能。

选取的训练样本集如下:

(1)过渡电阻值分别为0.01、5、50、100、150、200、250、300、350、400、450、500;

(2)在靠近线路两端发生故障时,应适当减小故障距离以提高测距精度。故障点位置分别为:0.01km、0.02km、0.025km、0.075km、0.125km、0.175km、0.225km、0.25km、0.3km、0.325km、0.375km、0.425km、0.475km、0.48km、0.49km。

组合两因素可形成12×15=180个训练样本集。

训练误差曲线如图3所示,经2794次迭代后误差收敛于0.00099829,基本达到了设定的目标误差0.001。

为检验训练后BP网络的推广能力即测距效果,采用非训练样本集进行测试,选取的测试样本集如下图3:

图3 BP网络训练误差性能曲线

(1)过渡电阻值分别为25、75、125、175、225、275、325、375、425、475;

(2)故障点位置分别为0.015km、0.05km、0.1km、0.15km、0.2km、0.275km、0.35km、0.4km、0.45km、0.485km。

组合两因素形成10×10=100个测试样本集。

对于给定的测试样本集,经BP网络前馈运算得到的实际测距结果及相对误差分别如表1、表2所示。

其中,L表示实际故障距离,l表示测量距离。

相对误差e=(实际故障距离-测量距离)线路总长×100%。

由表2可知,对于测试样本集,训练后的BP网络测距相对误差随过渡电阻值的增加有增大的趋势,最大误差达到了-16.56%,且出现在过渡电阻为475时,同时注意到在故障点接近线路两端时,由于适当增加了训练样本,测距相对误差明显减小,因此,通过增加训练样本数量有望进一步提高测距精度。

4 结论

通过研究得出以下结论:

1)采用小波包提取故障暂态零序电流的模极大值能有效表征故障时所蕴含的物理现象,为准确进行故障测距提供了有效的数据。

2)BP神经网络具有良好的分类及拟合功能,能在获得大量样本数据的基础上,训练出符合要求的前馈型网络,为煤矿井下电网故障测距提供强有力的手段。从测距相对误差结果来看,基于小波分析与BP神经网络的故障测距方法能基本满足测距要求。另外,本文下一步的工作将在样本集数量、网络结构等方面进行更为深入的研究。

【参考文献】

[1]丁恩杰,王超楠,崔连成.矿井配电网输电线路故障测距方法的研究[J].中国矿业大学学报,2006,35(3):311-316.

[2]窦新宇,李春明.小电流接地系统行波测距方法研究[J].电力科学与工程,2010,26(2):51-53.

[3]季涛.基于暂态行波的配电线路故障测距研究[D].济南:山东大学,2006.

[4]姚李孝,赵化时,柯丽芳,等.基于小波相关性的配电网单相接地故障测距[J].电力自动化设备,2010,30(1):71-74.

第3篇:卷积神经网络的步骤范文

关键词:堆叠去噪自编码器;垃圾邮件;分类;支持向量机;贝叶斯方法

中图分类号: TP393.098

文献标志码:A

0引言

电子邮件因为易于使用、速度快、沟通方便等原因,已经成为人们重要的联系方式,但与此同时,垃圾邮件的数量却急剧地增加:卡巴斯基实验室的研究发现,2014年第1季度的垃圾邮件数目占总邮件的66.34%;McAfee实验室2015年2月的威胁报告表明,2014年,垃圾邮件数量大概为31.2万亿,占该年邮件总量的69.02%。其中大部分垃圾邮件带有商业性质,但有些邮件可能会包含病毒和其他具有危害性质的内容,给用户带来精力的损耗和财力上的损失,文献[1]表明,由于垃圾邮件的原因,美国接近360万用户的损失高达32亿美元。大量的垃圾邮件同时造成带宽浪费和邮件系统超载。

垃圾邮件过滤方法用来解决上述问题。垃圾邮件过滤的目的是为了隔离垃圾邮件和合法邮件。一般的过滤方式包括:邮件客户端扩展和邮件服务终端过滤过程,简单邮件传送协议(Simple Mail Transfer Protocol,SMTP)和基于机器学习算法的方法是最常用的垃圾邮件过滤方法。一般来说,基于SMTP的过滤方法通常是指SMTP流量的检测、电子邮件交换路由验证和经过身份验证的SMTP会话。基于启发式规则的方法、黑名单/白名单的方法、协同垃圾邮件过滤也可以用来过滤垃圾邮件。机器学习方法包括邮件的分析和分类算法的部署。

文献[2]表明在诸多过滤方法中,机器学习算法获得更多的应用和更好的性能。贝叶斯过滤器因为计算效率高、过滤性能良好得到了广泛的应用,文献[3]比较了7个版本的贝叶斯过滤器,得出布尔朴素贝叶斯(Boolean Naive Bayes)、多项式布尔朴素贝叶斯(Multinomial Boolean Naive Bayes)、基本朴素贝叶斯(Basic Naive Bayes)具有较好的性能;文献[4]提出了一些方法用来改进朴素贝叶斯过滤器,提高了过滤器的准确率; 文献[5]将不同种类核函数和数据表示的支持向量机应用到垃圾邮件过滤中;文献[6]提出了混合Taguchi方法、Staelin方法来优化支持向量机参数的选择过程,并且提高了准确率。其他的诸如随机随林、人工神经网络、提升方法(boosting)和装袋(bagging)等方法也被应用到了垃圾邮件过滤。近年来随着社交网络、云计算、网格计算、语义网络等技术的发展,出现了许多基于上述技术的垃圾邮件分类器;随着垃圾邮件中图像的增加,出现了基于图像的垃圾邮件分类器,文献[7]对新技术和图像分类应用进行了介绍。文献[8]比较了不同的特征选择和降维技术对垃圾邮件过滤的影响。文献[9]研究表明:相对支持向量机(Support Vector Machine, SVM)、提升方法(boosting)、最大熵方法等“浅层学习”方法而言,深度学习所学得的模型中,非线性操作的层级数更多。 浅层学习依靠人工经验抽取样本特征,网络模型学习后获得的是没有层次结构的单层特征;而深度学习通过对原始信号进行逐层特征变换,将样本在原空间的特征表示变换到新的特征空间,自动地学习得到层次化的特征表示。

去噪自编码器(Denoising Autoencoder, DA)是深度学习中的变形结构,和受限玻尔兹曼机、自编码器[9](Autoencoder)一样作为深度学习架构中的训练模块,具有良好的学习数据集特征的能力。通过多个DA的堆叠可形成堆叠去噪自编码器(Stacked Denoising Autoencoder,SDA) [10]。SDA训练过程中的无监督学习过程和对数据的破坏过程,能进一步学习到数据集中的特征和数据结构,同时学习得到的隐含表示更适用于有监督分类。文献[11]的研究表明,在大部分情况下,SDA要优于深度置信网络[9](Deep Belief Network, DBN),并且因为SDA不需要吉布斯采样,所以训练更加容易。

本文将一个5层神经网络结构的堆叠去噪自编码器应用到垃圾邮件过滤,在6个公开数据集上进行测试,使用准确率、召回率和马修斯相关系数作为测量标准,与在垃圾邮件过滤中应用最为广泛的支持向量机算法、3种贝叶斯算法和DBN进行比较。结果表明,相对于其他几种算法:堆叠去噪自编码具有最好的平均性能和较好的预测能力。

1堆叠去噪自编码器

1.1去噪自编码器

自编码器 (Autoencoder) [9]的学习只是简单地保留原始输入数据的信息,并不能确保获得一种有用的特征表示。因为自编码器可能仅仅简单地拷贝原始输入,或者简单地选取能够稍微改变重构误差,却不包含特别有用信息的特征。为了避免上述情况,并且能够学习更好的特征表示,需要给数据表示一定的约束。去噪自编码器可以通过重构含有噪声的输入数据来解决该问题。

去噪自编码器所要实现的功能就是学习叠加噪声的原始数据,而它学习到的特征与从未叠加噪声的数据学到的特征几乎一样, 但去噪自编码器从叠加噪声的输入中学习得到的特征更具鲁棒性,并且可以避免自编码器遇到的上述问题,简单地学习相同的特征值。

去噪自编码器通过一个随机的映射变换x~qD(x′|x),对原始输入数据x进行“破坏”,从而得到一个有部分损坏的数据x′, 其中D表示数据集。

去噪自编码器由编码器(encoder)、解码器(decoder)和隐含层组成。编码器是输入x∈[0,1]d 的”破坏”版本x′到隐含表示 y∈[0,1]d′的映射,表示为:

y=fθ(x)=s(Wx′+b)(1

这个映射的参数集合是θ={W,b},s是一个非线性的函数,例如sigmoid,W是一个的d×d′权值矩阵, b是一个偏置向量。

解码器函数gθ′(y)将隐含表示映射回重构表示z∈[0,1]d,表示为:

z=gθ′(y)=s(W′y+b′)(2

这个映射的参数集合是θ′={W′,b′},逆映射的权值矩阵W′可被约束为权值矩阵W的转置:即W′=WT,被称为去噪自编码器捆绑权重。b′是一个偏置向量。

这样每个训练样例x(i)被映射成一个y(i)和一个重构表示z(i),然后通过不断地调准优化这个模型的所有参数,从而获得最小平均重构误差:

L(x,z)=x-z2(3)

使z尽可能地接近初始输入x,并且z是x′的函数。 定义联合分布函数为:

q0(X,X′,Y)=q0(X)qD(X′X)δfθ(X′)(Y)(4)

其中:X,X′,Y是随机变量,Y是X′的映射函数, q0(X,X′,Y)以θ为参数。这时就可以通过梯度下降算法最小化目标函数:

arg minθ,θ′ Eq0(X,X′)[L(X,gθ′(fθ(X′)))](5

去噪自编码器的结构图如图1所示。

图片

图1去噪自编码器结构

1.2堆叠去噪自编码器

深度神经网络可以分为3类:1)生成性深度结构,描述数据和相应类别的联合概率分布,如DBN; 2)区分性深度结构,提供对模式分类的区分性能力,通常描述数据的后验分布,如卷积网络和堆叠去噪自编码器; 3)混合型结构,目标是区分性的,但通常利用生成型结构的输出会更易优化。

通常情况下,由于网络权值的随机初始化,基于梯度的优化容易陷入局部最小值。文献[12]提出了一种新的贪婪逐层非监督算法来初始化深度学习网络,文献[10]使用此算法来初始化基于降噪自编码器的堆叠去噪自编码器。训练整个网络的参数后,在使用基于梯度的算法如梯度下降法来微调网络参数。SDA初始化方法的有效性[13]在多个数据集中得到验证。正如受限玻尔兹曼机的堆叠形成深度置信网络,去噪自编码器的堆叠可形成堆叠去噪自编码器。用叠加噪声输入训练每层网络的去噪能力,这样训练出来的每层编码器可作为一个具有容错性能的特征提取器,同时学习得到的特征表示具有更好的健壮性。

SDA 的网络结构如图2 所示。通过图1中的步骤首先破坏原始数据,然后最小化重构误差,训练第1层去噪自编码器,从而学习得到了编码器函数fθ。接下来使用此函数学习原始的数据(如图2(a)所示),得到的结果作为第2层去噪自编码器的输入,用来训练第2层的去噪自编码器(如图2(b)所示),从而学习到第2层的编码器函数f(2)θ。然后重复这一过程(如图2(c)所示),直至所有的去噪编码器层都已经训练完成为止。

图片

图2堆叠去噪自编码器的结构

为了让堆叠去噪编码器具有分类识别的功能,需要在堆叠自编码器神经网络的最后一个隐藏层之后加个sigmoid分类器,将整个神经网络训练成能完成分层特征提取和数据分类任务的多重感知器。然后利用有监督学习规则,在监督学习损失函数上使用梯度下降算法,实施微调,最小化预测目标的误差,不断调整整个网络的参数。微调结构如图3所示。

图片

图3分类深度网络的微调结构

2堆叠去噪自编码器实现

2.1堆叠去噪自编码器的参数更新

去噪自编码器的最终目的是找出模型最合适的参数,可以按照如下步骤更新参数。

初始化模型参数:输入数据、可视节点个数、隐层节点个数、输入数据破坏比例和更新的学习率(learning rate),权值矩阵和偏置向量;根据数据破坏比例,随机选取原始数据,将其值设置为0,达到破坏数据的目的;使用sigmoid函数计算输入数据的隐藏表示和重构表示;计算输入数据的重构误差;对重构误差使用梯度下降算法,更新参数。具体过程如算法1。

算法1Denoising AutoEncoder。

程序前

输入: X, n_vis, n_hid, c_r, l_r;

输出: W, b, b′。

X′=get_corrupted_input(X, c_r)

1

for iter from 1 to iteration

2)

Y=get_hidden_units(X′, W, b)

3)

Z=get_reconstruction_units(Y, W, b′)

4)

cost=get_cost(X, Z)

5)

for param in parameters(W, b, b′)

6)

gparam=get_gradient(cost, param)

7)

param=param-l_r * gparam

8)

end for

9)

end for

程序后

2.2堆叠去噪自编码器的预训练

在堆叠去噪自编码器的预训练步骤中,首先应该确定隐藏层的数目,一般情况下,使用3层的去噪自编码器构成深度学习网络来训练堆叠去噪自编码器;每一层都训练成去噪自编码器,并且通过最小化重构误差,更新参数10次以上。第i-1层的输出即为第i层的输入,这样通过自底向上的方式训练堆叠去噪自编码器。每一层的数据破坏比例和隐藏节点个数可以互不相同;最后获取整个网络的参数。训练步骤如算法2。

算法2Pretrain Step。

程序前

输入:X,n_layers, n_vis, n_hid[n_layers],c_r[n_layers], l_r[n_layers];

输出:dA_layers[n_layers], Y_out=X。

1

for i from 1 to n_layers

2)

X′=get_corrupted_input(Y_out,c_r[i])

3)

for iter from 1 to iteration

4)

Y=get_hidden_units(X′,W[i],b[i])

5)

Z=get_reconstruction_units(Y,W[i], b′[i])

6)

cost=get_cost(Y_out, Z)

7)

for param in parameters(W[i], b[i], b′[i])

8)

gparam=get_gradient(cost,param)

9)

param=param-l_r[i] * gparam

10)

end for

11)

end for

12)

Y_out=Y

13)

end for

程序后

2.3堆叠去噪自编码器的微调

在堆叠去噪自编码器的微调过程中,使用有监督学习方法优化从预训练步骤中获得的模型参数。由于最后一个隐含层只能输出原始数据的重构,因而不具有分类识别功能。为了让堆叠去噪编码器具有分类识别的功能,需要在完成微调的神经网络的输出层之后加入sigmoid分类器,将整个神经网络训练成能完成分层特征提取和数据分类任务的多重感知器。多重感知器的sigmoid层的参数和预训练步骤中去噪自编码器的sigmoid函数具有相同的参数,因此可以通过最小化多重感知器的预测错误来不断微调模型的参数。微调步骤作用在整个堆叠去噪自编码器过程。微调的过程如算法3。

算法3Fine Tuning Step。

程序前

input: train_batches, test_batches, iteration, l_r

1

while iter < iteration do

2)

for batch in train_batches

3)

cost=get_finetuning_cost(X)

4)

for i from 1 to n_layers

5)

for param in parameters(W[i], b[i], b′[i])

6)

gparam=get_gradient(cost, param)

7)

param=param-l_r[i]*gparam

8)

end for

9)

end for

10)

valid_error=get_valid_error(batch)

11)

if valid_error

12)

update best_valid_error

13)

test_error=get_test_error(test_batches)

14)

if test_error

15)

update best_test_error

16)

end if

17)

end if

18)

end for

19)

end while

程序后

3实验与分析

3.1数据集

3.1.1数据集描述

实验中使用了6个著名的、数据量比较大的、公开的数据集Enron[14]。其中Enron1、Enron2和Enron3的合法邮件占多数,而Enron4、Enron5和Enron6的垃圾邮件占多数。Enron数据集中正常邮件是从Enron公司的前员工的邮箱中收集的,垃圾邮件则有不同的来源。6个数据集的具体组成如表1。

3.1.2数据集预处理

1)分别从垃圾邮件文件夹和合法邮件文件夹,按照30%的比例随机选取文件,然后合起来作为测试集,剩余的70%合起来作为训练集。

2)分别对训练集和测试集进行分词处理,字母小写化和去除停用词。

3)将训练集和测试集表示为词频逆文档(Term FrequencyInverse Document Frequency, TFIDF)的向量形式。

4)使用特征值提取技术对特征值进行提取,选取3000个特征值作为实验特征。

3.2实验性能测量标准

比较出名的性能指标有垃圾邮件准确率(Spamming precision, Spr),垃圾邮件召回率(Spamming recall, Sre),合法邮件准确率(Legitimate email precision, Lpr),合法邮件召回率(Legitimate email recall, Lre),准确率(Accuracy, Acc)。在分类时,垃圾邮件的类标设置为1(正例),合法邮件的类标设置为0(负例)。其中分类的混淆矩阵(confusion matrix)如表2所示,真正例(True Positive, TP),假负例(False Negtive, FN),假正例(False Positive, FP),真负例(True Negtive, TN)。

表格(有表名)

文献[15]的研究表明,在机器学习的分类问题中,马修斯相关系数(Matthews Correlation Coefficient,MCC)是最好的性能测试指标之一。相比其他的指标,MCC对于准确率提供了更为平衡的测量。MCC值的返回值介于-1和+1之间:+1,表明是完美的预测;0,表明是随机的预测;-1,则表明是一个相反的预测。MCC的计算式如下:

MCC=TP*TN-FP*FN(TP+FP)(TP+FN)(TN+FP)(TN+FN)(6

MCC同时提供了相对合理的评价:现实情况下,垃圾邮件的数目要比合法邮件的数目更高,因此MCC可以自动调整一个假正例(即合法邮件分类为垃圾邮件)错误相对于一个假负例错误的严重程度,随着垃圾邮件相对于合法邮件的比例的上升,一个假正例错误会比一个假负例错误更加严重,即MCC值会降低。

3.3实验结果与分析

3.3.1隐藏层节点数目选择对实验的影响

由文献[10-11]中一系列的参数实验可以总结出,在大部分数据集上,SDA一般使用三层隐藏层就可以达到较优的效果,因此本文中使用三层的隐藏层。

首先指出,图4和图5中的最低点Acc值是0.7101。这种情况是SDA把所有的邮件都分类为垃圾邮件。图4中,350,650,950是第一层隐藏层的节点数目,30表示第三层隐藏层的节点数目;图5中,350,650,950是第一层隐藏层的节点数目,500表示第二层隐藏层的节点数目。

图4中,固定第一、三隐藏层的节点数目,SDA在数据集Enron 5上的Acc值随着第二层隐藏层节点数目的改变而变化。从图4中可看出,固定第一、三隐藏层节点数目时,当第二层节点个数过小或者过大时,Acc值会达到最低点0.7101,而第二层节点个数处于两者之间时,Acc值正常波动。第二、三隐藏层节点固定时,可以看出,当第一层的节点数目越大时,第二层隐藏层节点的数目受到的限制更大。

对于图4中出现的随着第二层隐藏层节点数目的增加,Acc值会降至最低,可以通过改变第三层隐藏层节点数目来改变。图5中,固定第一、二隐藏层节点的数目,SDA在数据集Enron 5上的Acc值随着第三层节点数目的改变而变化。可以看出,为了取得较优的结果,第一层隐藏层的节点数越多,第三隐藏层需要的节点数也越多。

3.3.2在6个数据集上的实验结果

为了书写方便,下面描述中,Basic表示基本朴素贝叶斯方法、Bool表示布尔朴素贝叶斯方法、MN Bool表示多项式布尔朴素贝叶斯方法。

在6个Enron 数据集上的实验结果如表3~8所示,其中加下划线的数据表示该实验中最大的MCC值。

表格(有表名)

表3Enron1上各个分类器的实验结果

分类器Sre/%Spr/%Lre/%Lpr/%Acc/%MCC

Basic91.3385.0993.4896.3692.860.831

Bool96.0051.6163.3297.4972.780.540

MN Bool82.6762.0079.3591.8280.310.578

SVM83.3387.4195.1193.7091.700.796

DBN91.5690.7596.1996.5494.850.875

SDA90.2292.9197.1896.0595.160.882

表格(有表名)

表4Enron2上各个分类器的实验结果

分类器Sre/%Spr/%Lre/%Lpr/%Acc/%MCC

Basic80.0097.5799.3193.5394.380.850

Bool95.3381.2592.4598.3093.190.836

MN Bool74.0098.2399.5491.7793.020.814

SVM90.6790.6796.8096.8095.230.875

DBN95.9891.6897.0298.6096.750.916

SDA95.9895.5698.4798.6297.830.943

表格(有表名)

表5Enron3上各个分类器的实验结果

分类器Sre/%Spr/%Lre/%Lpr/%Acc/%MCC

Basic57.33100.00100.0086.2788.410.703

Bool99.3399.3399.7599.7599.640.991

MN Bool62.00100.00100.0087.5889.670.737

SVM91.3396.4898.7696.8396.740.917

DBN96.4489.6795.8498.6396.000.903

SDA92.6799.2999.7597.3297.820.945

表格(有表名)

表6Enron4上各个分类器的实验结果

分类器Sre/%Spr/%Lre/%Lpr/%Acc/%MCC

Basic94.67100.00100.0086.2196.000.903

Bool98.00100.00100.0094.3498.500.962

MN Bool96.89100.00100.0091.4697.670.941

SVM98.89100.00100.0096.7799.170.978

DBN96.9697.9894.0091.1696.220.901

SDA99.9397.2691.5699.7697.840.942

表格(有表名)

表7Enron5上各个分类器的实验结果

分类器Sre/%Spr/%Lre/%Lpr/%Acc/%MCC

Basic89.6798.8097.3379.3591.890.825

Bool87.23100.00100.0076.1490.930.815

MN Bool94.29100.00100.0087.7295.950.909

SVM89.4099.7099.3379.2692.280.837

DBN96.3799.4498.6791.7497.040.931

SDA98.7399.4598.6796.9498.710.969

表格(有表名)

表8Enron6上各个分类器的实验结果

分类器Sre/%Spr/%Lre/%Lpr/%Acc/%MCC

Basic86.0098.9897.3369.8688.330.757

Bool66.8999.6799.3350.0075.000.574

MN Bool92.8997.2192.0081.1892.670.816

SVM89.7895.2886.6773.8690.050.727

DBN96.3798.5695.7589.7996.210.902

SDA99.0498.4595.3397.0698.110.949

通过观察6个数据集6种分类器的实验数据可以分析:在实验的大部分数据集上,SDA垃圾邮件过滤器的性能超过了其他几种分类器。同时在有些情况下SDA的过滤效果远远地优于SVM和NB分类器:比如在Enron6数据集上的结果表明,SDA的垃圾邮件召回率达到了99.04%,而SVM却只达到了89.78%。这意味着在Enron6数据集上,SDA要比SVM多识别9.26%的垃圾邮件,同时因为具有比SVM更好的合法邮件召回率,所以相对于SVM,SDA垃圾邮件过滤的总体性能提升要大于9%。在实际的应用中,这些差异将会非常重要。这种对比现象在数据集Enron1、Enron2、Enron3和Enron5也可以得到。在数据集Enron4上,SDA过滤效果稍逊于SVM,但是相差不大。

对于实验中所有朴素贝叶斯过滤器,实验数据表明它们之间达到了相似的结果,并且不具有太大的差异性。相对堆叠去噪自编码器过滤器和支持向量机过滤器在所有的数据集上的准确率(Acc)达到90%以上,而基于朴素贝叶斯方法的过滤效果要差些。

实验中的DBN的分类效果,总体上要优于其他4几种分类器,但是SDA的分类效果要稍微优于DBN。

表中的实验数据表明堆叠去噪自编码器在垃圾邮件过滤中具有更好的效果:在实验的所有数据集上,堆叠去噪自编码器的准确率(Acc)都高于95%;在实验的所有数据集上,堆叠去噪自编码器的MCC值都高于0.88,这表明堆叠去噪自编码器应用于垃圾邮件过滤中取得相对完美的预测。上述结果表明将堆叠去噪自编码器应用到垃圾邮件过滤中是可行的。

4结语

本文提出了一种新的基于堆叠去噪自编码器的垃圾邮件分类器。在6个著名的、数据量较大的、公开的数据集上进行测试,将实验结果同基于支持向量机和贝叶斯方法的垃圾邮件过滤器的结果进行比较。对比分析表明,本文所提出的垃圾邮件过滤器表现出更好的性能。特别是基于堆叠去噪自编码器的垃圾邮件分类器在6个数据集上具有最好的平均性能并且准确率(Acc)都高于95%。这些表明将堆叠去噪自编码器应用到垃圾邮件过滤中是可行的。

未来的工作将会集中在以下3个方面:1)如何更好地选择深度置信网络隐藏层数以及每层的单元个数,如何选择学习率等参数来提高算法的性能。2)在诸如TRE05、TRE06、TRE07等更大的数据集上进行更多的实验来验证实验结果,同时也希望同一些诸如Bogo filter、Spam Assassin等开源和商业垃圾邮件过滤器进行比较。3)应把垃圾邮件过滤看作是共同进化问题,因为垃圾邮件过滤器努力提高预测能力的同时,垃圾邮件递送者也不断地改变垃圾邮件内容的表现形式以达到欺骗过滤器的目的,因此一个有效的垃圾邮件过滤器应该能够有效地检测垃圾邮件特征的变化,从而不断地调整自身的规则。

参考文献:

[1]GARTNER. Gartner survey shows phishing attacks escalated in 2007; more than $3 billion lost to these attacks[EB/OL].[20150220].http:///it/page.jsp?id=565125.

第4篇:卷积神经网络的步骤范文

【关键词】互联网金融 人脸识别 信息安全 身份认证

一、引言

国家建设部于“十二五”期间颁布了关于开展国家智慧城市试点工作的通知,意在通过综合运用现代科学技术来营造社会建设和管理的新模式。伴随着智慧经济的建设和我国的传统金融行业对于创新变革的诉求,国内的互联网金融行业开始快速发展。人脸识别在国内互联网金融领域的应用也借助这一浪潮拉开帷幕。

二、人脸识别技术简介

进入21世纪,随着计算机技术、光学技术等技术的迅猛发展,人脸识别技术逐渐成熟,步入了应用阶段。人脸识别安防、考勤、支付等系统走进了我们的生活。

人脸识别算法蓬勃发展,尤其是基于深度学习的识别方法。深度学习利用其对大型数据集的优秀预测能力突破了之前在人脸识别过程中的精准率瓶颈。深度学习算法种类繁多,目前被广泛应用于人脸识别领域的主要是卷积神经网络。其现主要分为四个步骤。

首先是局部感知。在处理在图像处理中,把图像表示为像素的向量。只对局部的联系紧密的向量进行感知,初步降低参数;第二步是权值共享。挑选第一步中的某个局部参数提取特征,再将其作为探测器也就是卷积核,应用到图像的任意区域,对特征进行匹配,得到不同的激活值。将符合条件的激活值筛选出来;第三步是多卷积核。挑选更多的卷积核,不断重复第二步骤,学习更多特征;最后是池化。一个图像区域有用的特征极有可能在另一个区域同样适用,对不同位置的特征进行聚合统计可以简化对于大图像的描述,进一步降参。

三、互联网金融的人脸识别运用

互联网金融是借助于互联网技术、移动通信技术来实现资金融通、支付和信息中介等业务的一种新兴金融模式。毫无疑问,互联网金融正以其独特的运行方式和价值创造模式,影响着传统金融业务,逐步成为整个金融生态体系中不可忽视的一部分。

(一)互联网金融面临的风险

互联网金融行业也同传统金融行业一样,它们的核心问题都是如何预防和处理风险。目前我国的互联网金融行业面临着政策法律风险、监管风险、流动风险、市场风险、信用风险、技术风险这六大风险。

(1)信用风险。互联网金融的信用风险主要来自于对客户的真实身份的认证带来的信息不对称问题。由于国内的互联网信用业务还没有得到很完善的监管,互联网金融的虚拟性就会给对客户身份的认证带来不确定性素。例如,一些用户在P2P网贷平台进行身份信息造假骗取贷款。

(2)技术风险。互联网金融是互联网与金融的结合产物,自然避免不了对于网络信息安全的要求。传统的字符密码具有可复制性,容易被网络黑客、木马病毒所窃取,造成不必要的损失。传统的字符密码认证对互联网金融企业的网络技术安全提出了更高的要求,而我国的互联网金融企业大多还在成长阶段,无法维护庞大的信息数据库,给行业带来了很大的技术风险。

(二)人脸识别技术降低信用风险与技术风险

人脸识别技术依靠人脸独特性、难以复制性等优势可以很大程度上降低互联网金融的信用风险和技术风险。目前,国内的云从科技、Linkface等科技公司都在LFW数据库的实验环境下,取得了99.5%以上的人脸识别成功率,高于人眼识别97.52%的准确率。

在人脸识别模式下的开户过程需要用户先需要出示自己的二代身份证,系统在客户填写开户信息后继续发出指令,让客户进行基于视频流的身份认证,人脸识别系统会以此判别个人身份的真实性。同时,利用“活体检测算法”、“图像脱敏算法”以及“人脸比对算法”等算法对视频流的背景和人像的对比分析,可以避免一些用户利用录制好的视频来伪造身份信息。

识别开户成功后,系统自动上传用户信息至后台。当遇到支付等操作指令时调出信息,再次对客户进行基于视频流的身份认证来确定指令的安全性。

(三)互联网金融中的人脸识别运用

(1)招商银行“ATM刷脸取款”。我国的招商银行一直以勇于创新的先行者姿态活跃于金融领域,在手机银行和自助银行等多种电子信息化自助服务渠道中保持着领先地位。继在VTM渠道应用人脸识别技术以辅助柜员核实客户身份后,又率先推出“ATM刷脸取款”业务。首先收集客户的可信照片,再主要利用人脸识别技术并辅之以手机号码验证和密码验证来确认客户信息,误识率在万分之一以下。

这是国内银行首次将人脸识别技术应用到自助提款机上,也意味着招行“智能银行”再一次取得进展。

(2)蚂蚁金服的人脸识别体系。蚂蚁金服起步于阿里巴巴集团的支付宝,致力于推进互联网支付、消费、理财。蚂蚁金服于2015年在支付宝上推出人脸识别的功能,已在用户登录、实名认证、找回密码、商家审核、支付风险校验等多个场景中投入使用,利用人脸识别代替传统的密码输入。同年,阿里巴巴董事局主席马云在德国汉诺威消费电子、信息及通信博览会上展示了蚂蚁金服的“smiletopay”技术,用手机“刷脸支付”的方式在网上购买了一张1948年的汉诺威纪念邮票,完美展示了计算机人脸技术在支付中的应用。此项技术还在不断完善,蚂蚁金服的刷脸支付功能正式投入商用指日可待。

(四)人脸识别目前存在的问题

(1)没有统一的安全标准。人脸识别技术领域的实际应用还在起步阶段,目前还没有统一的行业标准与国家标准,主要都是技术厂家自己制定标准。然而厂家标准制定的不一致,会导致不同的安全状况与安全水平。只有通过制定统一的国家安全标准,才能解决人脸识别在技术推广过程中的障碍。

(2)识别中的“矫枉过正”。当人脸识别技术被作为加密技术投入实际应用时,我们最看重的就是它的安全性。而人脸识别技术的安全性可以用误接受率与误拒绝率两个指标来衡量。为了严格保证安全,技术厂商往往会尽量降低误接受率,但这同时会提高误拒绝率,使一些真正的用户也会被系统拒绝,“矫枉过正”,影响了用户体验。

(3)可信照片的分辨率低。目前互联网金融行业在使用人脸识别技术进行开户等操作时,用于确定客户信息的可信照片往往是居民二代身份证。而二代身份证的照片不仅分辨率低而且信息量少,这会降低人脸注册、识别的准确率。

(4)人脸的变化。随着时间的推移,用户的年龄增长,会发生胖瘦、常规的化妆、自然老化等变化。通常情况下,这些变化是在计算机的识别范围内的,但是如果出现整容、过浓的妆容、或者是佩戴眼镜与一些装饰性的饰物可能就会影响人脸识别的识别率。同时,由于双胞胎、多胞胎的人脸信息过于相像,双胞胎、多胞胎人脸信息的分辨在人脸识别技术中也是一个待攻克的难题。

四、未来发展应用趋势

(一)发展展望

(1)制定统一的行业标准。为了保障人脸识别技术在应用过程中的安全性、规范性,有关的人脸识别科技公司和互联网金融企业等应该联合国家相关机构,加速人脸识别技术系列标准和规范的起草进一步规范人脸识别的技术指标和要求,为业务的深入和推广提供基础参考。

(2)突破对源图信息提取瓶颈。计算机人脸识别技术中很关键的一环就是将可信的源图信息与后期获取图像的信息进行对比筛选,计算机才能做出精确的判断。在获取到的源图数据不充分、不理想的时,如何对信息进行有效的提取,到目前为止还没有很好的解决办法。但是,伴随着科技的高速发展,人脸识别技术的这一瓶颈在将来必定会被突破。

(3)与其他生物识别技术相结合。各种生物特征识别技术都有各自的优缺点,在具体的应用过程中,人脸识别技术可以和虹膜、静脉等其他生物特征识别技术相结合使用,降低对用户的误接受率和误拒绝率,进一步提高身份识别的整体安全性。

(二)应用展望

(1)全方位的身份查核。人脸识别身份验证技术的应用是对互联网金融业务的基础性工作的一项重要技术保障。在将来,人脸识别身份验证技术的应用应该从单纯的“登录认证”到扩展到“支付认证”,做到全方位的身份核查,提高群众服务的便捷性,同时保证业务更加安全、可靠。除此之外,人脸识别身份验证技术还可以带动其他行业的类似业务场景,从而在全社会范围内促成更广泛的工作流程改进和社会成本节约。

(2)全面的私人数据保护。在将来,用户的一切经济活动信息都可以通过人脸识别技术进行有效保护,避免敏感数据泄露,消除欺诈者利用不正当途径来窃取用户个人信息进行非法交易的可能,提升互联网金融行业客户的体验友好程度。

五、结语

对于互网金融行业来说,改革与创新、提高金融服务质量和安全防范是今后互联网金融行业发展的主要趋势,人脸识别等高科技技术投入互联网金融行业,会对整个行业的发展起到一种非常积极的作用。未来的人脸识别技术在互联网金融行业中的应用必会继续朝着远程化发展,进一步取代现在的柜台开户、字符密码认证等传统的服务流程,做到“智慧金融,智慧生活,智慧城市”。

参考文献:

[1]李子青.人脸识别结合视频监控看公安与金融市场应用[J].中国安防,2015,(8).

[2]吕晓强. 生物识别技术再造银行客户身份认证体系[J].金融电子化,2016,(4).

[3]廖敏飞,黄瑞吟,刘丽娟. 生物识别技术在金融行业的应用现状与前景分析[J].金融电子化,2016,(4).

第5篇:卷积神经网络的步骤范文

本文结合计算机行业的发展,对计算机网络云计算技术进行了分析研究,希望能为计算机技术的进步提供一定的理论支持。

一、计算机网络的云计算技术概念

美国的网络公司最早提出计算机网络云计算技术的概念,随着科学的进步与发展已经逐渐成为了一门成熟的技术,有着丰富的理论基础与实践经验。现在的“云计算”技术是指能将网络、硬件、设备相融合,同时实现规模性、安全性、虚拟性的技术。目前来看,对计算机网络云计算的定义还没有统一的趋势,每一名研究人员都有自己的研究与看法,通过研究与分析,本文对云计算的观点是:首先,每一个“云”都是独立的计算机分布体系,基于网络化、虚拟化的计算机服务层,与计算机中的资源保持一定的节奏,实现计算机资源的同步。其次,计算机网络云是一个综合体,并非是独立的,计算机软件的开发中离不开云计算的环节,其重点就是网络云计算特征的研究。对于计算机网络的使用者来说,计算机集成软件层面,能被接受与理解的就是云计算,在本文重点突出的就是云计算的属性。最后,计算机网络的使用者没有进行长期的规划后使用,很容易出现浪费现象,目前的云计算技术可以实现分或秒内的数据计算,可以很好地避免资源过载或资源浪费现象。

通过研究可以看出,计算机网络云计算技术可以定义成计算机网络中进行的某种服务形式,其中相关的硬件设施与软件系统统称为计算机网络云计算。定义中包括网络计算机、超级计算机、集成技术等,相关的技术既有区别又有联系。计算机网络云计算技术的原理是:大量的数据分布于分布式计算机中,同时保证用户的数据系统与计算机同步运行,进而实现及时将需要的资源切换到相应的应用中,根据使用者的访问需求进行存储系统与计算机系统的定位。计算机网络云计算技术可以基于用户服务需求及时提供所需的网络信息资源。计算机网络云计算技术适应性强,弹性好,专业技术性高,发展前景十分好,应用越来越广泛。

二、计算机网络云计算技术的分类

基于多样化的标准,计算机云计算的分类也有多种方式。比较常见的是:根据服务方式的不同,云计算可以分为私有云和公有云。私有云是根据用户的自身情况进行独立使用,同时建立平台,操作性与实用性十分好。公有云是ζ渌用户的资源进行开发利用。在选择私有云与公有云时,应该考虑的主要因素是:

1.服务的延续性

大部分情况下,公有云提供的服务容易受外界影响,如网络故障等情况,而私有云则不会出现这种问题。

2.数据安全性

如果对于稳定性与安全性不存在过高要求,则比较适合使用公有云。

3.综合使用成本

通常状况下,如果对于计算资源要求不高可以选用公有云,如果对于计算资源要求较高则比较适合建立自己的私有云平台。

4.监控能力

公有云可以将使用用户对系统的监控能力屏蔽起来,这对于金融保险投资行业是十分有必要的。

三、计算机网络云计算技术的实现

为了将计算机系统的系统处理过程进行简化,通常将该过程划分为预处理过程与功能实现过程两大部分。对系统的各项功能进行分解,得到一些不需要进行功能实现过程与预处理过程的功能。对于可以进行预先处理过程的功能通常是一次性处理,在执行过程中,可以将预处理过程得到的结果直接使用,以此完成特点的系统功能。该方法与原则的采用,极大地简化了系统,大幅度提高了系统运行效率。计算的云化中的系统就是计算云化系统,它的计算量十分巨大,系统计算运行效率极高。但因为计算云化系统为一次处理系统,只要计算云规则生成,计算云化系统的使命与任务也就完成,而不是在对计算机加以应用时需要该系统。通常在计算机网络云计算中形成的系统就是云计算系统,是一个十分简单的系统,对计算机的处理能力没有过高要求,同时应用于各类计算机系统计算中。

四、计算机网络云计算的计算与优势

建立计算机网络云计算过程的第一步是服务器架构的建立,其对计算机网络云计算技术中的IAAS部分进行充当。目前来看,仍没有关于网络云计算服务器架构的专门、统一的标准出现,这需要一定的相关技术进行支持,例如计算区域网SAN和附网NAS等,这都是应用比较多的服务器架构技术。NAS文件计算系统是松散结构型的集群,它的架构有很明显的分布式特征。NAS文件系统集群中的各个节点具有互补与相互影响的特点,文件是最小的单位,因为只要在集群存储文件就可以计算出文件的数据信息,直接减少了很多计算的冗余性。它的拓展性很高,同时成本较低,安全控制系统安全稳定。如果客户发出过多的请求,NAS系统的限制就表现出来,二级计算就可以通过NAS的云服务完成。

SAN是一种紧密结合类型的集群,在集群中存储文件之后,可以分解成很多个数据块。相比于集群之中的节点,各数据块之间能够进行相互访问。节点可以借助于访问文件间的数据块针对客户的请求进行处理。SAN系统之中可以通过节点数量增减来响应请求,同时提升界定本身的性能。为了能够将以SAN为基础的OBS发展起来,就需要更好的性能与更低的成本。而SAN计算建构的硬件价格十分高,同时依托于SAN的服务价格,因此可以适当地降低一下性能,保证更好的性能与更低的成本。

五、实例――基于谷歌云计算技术的AlphaGo亮点分析

AlphaGo通过谷歌云计算技术,拥有与人类棋手类似的“棋感”,其技术远胜于1997年IBM公司研制的超级电脑“深蓝”。“深蓝”面对的是相对围棋简单多的国际象棋,设计理念为根据棋局情况不断演算各种可能的步骤,最终从各种步骤中选定走棋方案。AlphaGo背后的云计算技术,可以让AlphaGo无需“暴力”分析演算所有步骤,只需要把运算能力都集中在“棋感策略”网络中最有可能的情况上。其背后的深层算法,具备三大亮点:(1)深度卷积神经网络学习技术:“棋感策略”网络的本质学习人类围棋大师走法思维。AlphaGo藉此拥有强大的盘面评估能力。(2)增强学习算法技术:此算法可通过自我对弈来持续提升AlhpaGo的棋感策略和盘面评估能力,并且给出落子选择。(3)蒙特卡洛搜索技术:“评价网络”的核心,可以融合棋感策略和盘面评估能力,修正落子选择而最终给出落子方案。

六、计算机网络云计算技术发展遇到的问题

在目前计算机网络云计算技术广泛地运用到各个领域的过程中,云计算技术也存在一些缺陷与不足还需要引起我们的重视,同时在云计算的应用过程中应采用足够的措施来对数据信息的安全性进行可靠的保障,这是计算机网络云计算技术发展过程中十分重要的一项课题。现在的大部分云端是通过浏览器进行接入的,浏览器是计算机系统中非常薄弱的地方,存在着很多的缺陷与漏洞,因此用户的云端接入浏览器时,用户证书与认证密钥特别容易因为浏览器漏洞而产生泄密。同时由于不同的应用都需要在云端中进行认证,这就需要保证认证机制的高效性与安全性。在应用服务层之中,应该采取安全有效的措施来保护用书的隐私安全,在基础设施层中要采取安全可靠的方法保C数据的安全性。

七、采取措施保障网民数据安全

如果数据的安全不能得到保障,就会对云计算的发展产生不利影响,所以为了能够保障网民数据的安全。就需要采取切实可行的手段来保证数据的安全性。

1.隔离操作系统与数据

为了能够切实有效地保障网民信息的安全,就需要充分使用Hypervisor,从而将网民的操作系统与数据资源隔离起来,从而有效地保证了计算资源的安全性,避免了网民操作系统所带来的可能的不利影响。

2.重置API保护层

服务商提供给用户API,用户根据需要进行应用。但同时第三方也有可能对这些API进行使用。为了保证数据的安全性,就需要你安装API保护层,重叠保护API。

3.严格身份认证

服务商应严格的执行身份认证,防范冒充网民身份的行为,加强对账号与密码的管理控制,确保网民只访问自己的程序与数据,从而保证数据资源的安全性。

第6篇:卷积神经网络的步骤范文

关键词: 极低信噪比环境; 基音频率; 进化算法; 遗传算法; 粒子群算法

中图分类号: TN912.3?34 文献标识码: A 文章编号: 1004?373X(2017)11?0046?07

Evolutionary algorithm based fundamental tone frequency

detection in low SNR environment

ZHANG Xiaoheng1, 2, LI Yongming2, XIE Wenbin2

(1. Chongqing Radio & TV University, Chongqing 400052, China; 2. College of Communication Engineering, Chongqing University, Chongqing 400030, China)

Abstract: A frequency?domain detection model was constructed. The fundamental tone frequency is extracted as characteristic value. The model parameter (optimization factor) is introduced into the detection model, for which the global optimization is carried out with evolutionary algorithm (EA) to get the global optimum of the fundamental tone frequency, and obtain a better balance in optimization accuracy and time cost. Two representative EAs (genetic algorithm (GA) and particle swarm optimization (PSO) algorithm) are used to perform the algorithm design. The proposed algorithm is compared with the other representative algorithms. The comparison results show that the proposed algorithm can improve the detection recognition rate greatly in the noise environments of different types and different degrees, especially in the very?low SNR environment.

Keywords: very?low SNR environment; fundamental tone frequency; evolutionary algorithm; genetic algorithm; PSO

0 引 言

基音频率是语音信号最为重要的参数之一。准确有效地检测基音频率对很多语音技术起着极为关键的作用,如说话人检测、跟踪、语音分离及识别等。尽管基音频率检测已经研究多年,并取得了一系列成果,但相关算法大都适用于高信噪比环境,而实际应用中,大多数语音都处于复杂恶劣的噪声环境中。因此,针对低信噪比环境,特别是-5 dB以下的基音频率检测算法的研究,对实现性能优良、实用的语音处理技术,取得实效应用有着重要的现实意义[1?4]。

基音频率检测的有效性依赖于语音信号谐波结构的完整性,噪声叠加造成谐波结构被破坏,而随着信噪比的下降最终难以分辨一个完整的谐波周期。因此低信噪比下实现优良的检测性能具有较大难度[5?9]。

由于语音信号参数随时间变化缓慢,相邻多个语音帧信号参数会保持一定连续性,因此典型的基音频率检测算法可以分为两个阶段[10]:第一个阶段找出基音频率的多个可能候选值,或者计算基音频率值落在不同频率区间的概率。第二阶段一般依赖DP[11]或HMM[12]算法,从多个候选值选出最终的基音频率值。这些算法大都利用了相邻语音帧数据之间的相关性找出最优的基音频率序列值,从而使得整体的后验误差概率最低。但这类利用数据间强相关性的算法本身也会导致一定错误。此外,该类算法对相关性的过高要求在现实中常常难以得到较好满足。

为了抑制噪声,目前研究的方法一般分为参数化方法和非参数化方法两类[13]:参数化算法采用统计方法对谐波结构进行建模,其典型的代表算法有GMM[14]算法;非参数化算法一般从频域的谐波结构或者时域的周期特性入手,通过对频域或时域峰值的检测得到基音频率,其典型的代表算法有RAPT[15]算法和YIN[16]算法,但这类方法在信噪较高时比较有效,而当信噪比较低时其峰值特性很容易湮没在噪声之中从而使得难以检测出基音频率。

近年在该领域有一些研究成果出现,如HSAC?SAMSF[17]算法对谐波进行自相关运算,然后作对称性相加求和来寻找基音周期,该算法充分利用语音的谐波特性,并通过DCT相关运算及对称累加运算抑制噪声;TAPS?CA[18]算法对频域信号进行相关运算,并利用稀疏矩阵对其进行重建,该算法利用短时谱的自相关运算抑制噪声,在高信噪比环境利用最小均方误差法求取稀疏矩阵,在低信噪比环境下利用GMM法对误差信号进行建模,从而得到最优稀疏矩阵。PEFAC[13]算法是最近提出的性能优良的基音频率检测算法,其通过对信号的对数谱进行压缩以求取峰值信号,充分利用噪声统计特性及幅度谱的压缩抑制噪声,具有极低信噪比环境下较好的抗噪声干扰能力,且在-20~20 dB信噪比下均性能良好。基于人工神经网络的基音频率检测算法[10]也利用了PEFAC算法的特征提取优势,并进一步采用深度神经网络进行建模,但相比PEFAC算法仅在-10 dB信噪比以上得出性能优良的结论。

总的来说以上算法都是在经典的参数化及非参数化方法上做了一定程度的改进,但仍然很难改变无法精确有效描述复杂噪声环境中语音信号的缺陷。由于语音信号具有多次谐波特性,基音频率这一重要参数可通过特征波形的峰值表达。因此,本文针对参数化方法与非参数化方法的各自不足,充分利用PEFAC对语音信号进行基音频率特征提取,构造基音频率特征波形,通过对特征波形的峰值求取实现基音频率的提取。但是当语音信号被噪声污染时,信号的谐波特征被破坏,特征波形的峰值与基音频率就存在一定的误差。当信噪比恶化时,该误差就会明显增大,严重影响了峰值对基音频率的表达。基于此,本文引入优化因子对特征波形进行校正以抵消噪声带来的畸变。该优化因子的精确取值能最大程度地抑制噪声带来的畸变影响,从而消除特征波形峰值与基音频率的误差。

本文将优化因子最佳取值问题转换为最优化问题,尝试利用进化算法来获取其全局最优解。进化算法的优势在于其可解决复杂的非线性及多维空间寻优问题,通过构造含有优化因子的适应度函数,从而能动态寻找出最佳基音频率值所对应的优化因子的值。

1 基于进化算法面向极低信噪比环境的基音频

率检测方法(LSNR_PFD_EA)

本文提出的基音频率估计算法,即低信噪比下基于进化算法的基音频率估计(LSNR_PFD_EA)主要包括特征提取模块、基于进化算法的优化因子搜索模块及基音频率提取模块三部分。图1为该算法主要流程。

如图1所示,首先提取语音的频域特征,此频域特征称为基音特征波形,其峰值用来表达基音频率值,然后设计一个多维变量称为优化因子,对基音频率特征波形的峰值进行有效调整,使得调整后的峰值能够表达的基音频率是真实基音频率值的最佳逼近。本文的特征提取方式基于PEFAC,包括短时傅里叶变换,频域对数化,规整化,再进行频域卷积得到基音特征波形即图中的特征值。接着,通过优化因子搜索模块,利用基音特征波形与优化因子共同构造适应度函数,利用进化算法结合训练语音搜索到最佳优化因子。最后,对测试集语音提取其特征值,基于搜索得到的最佳优化因子对该特征值进行优化,优化完成后再通过动态规划(DP)得到语音的基音频率。

1.1 特征提取模块

特征提取模块主要包括如下步骤:

(1) 语音帧信号首先通过短时傅里叶变换映射到频域。代表第帧的功率谱密度,对数频域的功率谱密度采用表示,其中规整化后的功率谱密度为:

(1)

式中:代表长程平均语音谱;而代表平滑后平均语音谱。

(2) 规整化的频谱通过如下扩展峰值的滤波器增强其谐波特性。其中滤波器定义如下:

(2)

其中的选取满足而设置为1.8且设置为10。

(3) 通过对规整化的功率谱密度进行卷积得基音特征波形接下来的基音检测方法一般可先从中选取较大的几个峰值对应的频率值作为候选基音频率值。

(4) 然后通过DP等规划算法得到基音频率值的最佳估计值。

当信噪比恶化时,特征波形的峰值被严重破坏,使得候选值均极大地偏离真实值,也就无法得到准确的估计值。为减小候选值与真实值的误差,本文提出了优化因子策略,即使用优化因子计算优化后的基音特征波形从中选取新的峰值对应的候选基音频率值,使得最终的基音频率估计值与真实值的误差最小。

1.2 优化因子搜索模块

1.2.1 优化函数分析

图2表示了优化因子在基音频率检测中的作用。其中图2(a)为不含噪声的语音帧经过特征提取之后的输出;图2(b)为SNR=-10 dB下语音帧经过特征提取之后的输出;图2(c)为图2(b)经过优化因子处理后的波形,若选取幅值最大的3个峰值作为基音频率候选值,通常最大峰值对应的基音频率值成为估计值的概率是最大的,如果后续不作DP规划,则最大峰值对应的基音频率值就是基音频率估计值,如果要作DP规划,最终的估计值要在候选值,三个值之中选取。从图中发现,图2(a)中基音频率候选值与图2(b)中基音频率候选值的误差很大,特别是最大峰值对应的频率值误差极大,这是低信噪比环境下噪声干扰的结果。

若要提升基音频率估计精度,减小估计误差,可通过优化因子处理,如图2(c)所示。通过将区间segment的幅度做一定程度的提升,则该区间峰值对应的频率就会成为候选基音频率,而免遭错误遗漏。优化因子取值的不同可以使波形在不同区间的幅度进行放缩。通过进化算法来搜索最优因子,从而使图2(a)与图2(c)的基音频率候选值误差最小。图2是某一类语音帧的情况,由于不同语音帧的基音频率候选值有所不同,而受到噪声污染后基音特征波形的畸变也明显有所不同,因此每个语音帧的理想优化因子也不尽相同,事实上针对每一帧语音数据找出其对应的理想优化因子是没有意义的,因为优化因子数量十分庞大而无法使用,其次优化因子与语音帧的关联性也无法得到有效建立。但肯定能找出一个合理的优化因子,相对于每一帧语音数据来说虽不一定最优,但相对于所有帧语音数据来说,总体误差最小。基于以上分析,优化因子的取值就被转化为一个求解最佳优化因子的最优化问题。由于优化因子是高维向量,加上不同维的取值都有一定精度,优化因子的可能取值是海量的,即候选解空间较大。此外,优化因子和峰值与基音频率间误差的关系并非线性相关,因此候选解空间将存在多个局部极值点。鉴于进化算法全局寻优的特性,本文基于GA[19]和PSO[20]算法分别求解该优化问题。

GA和PSO算法都涉及确定适应度函数的问题,用于基音频率检测的优化因子的适应度函数分为如下两种情况:

(1) 不使用DP动态规划

由于不使用DP动态规划,优化后的基音特征波形最大峰值对应的频率值为基音频率估计值,其与真实基音频率值的误差。

因此适应度函数即小于5%的概率。

(2) 使用DP动态规划

表示时刻语音帧基音特征波形的峰值幅度,表示与之相关联的频率,则选择较小峰值的代价其中为最大峰值幅度;基音频率候选值的选择率其中为相邻语音帧的时间偏移量,则跃迁到的代价为其中为在训练语音库中的均值;时刻语音帧基音频率候选值与基音频率中值的相对误差为,其中可通过时刻最大峰值幅度对应的基音频率候选值及相邻帧的值估计得到,若相邻帧不是浊音帧则跳过。综上,时刻语音帧的第个基音频率候选值跃迁到时刻语音帧的第个基音频率候选值的总代价为三者之和:其中为限制的最大值,而表示各参数相关权重。

将总代价最小时选择的峰值频率作为基音频率估计值,因此适应度函数为:

即小于5%的概率。

1.2.2 优化算法?进化算法

(1) GA算法

本文采用二进制遗传算法,其主要流程如下:

步骤1: 二进制编码;

步骤2: 随机产生二进制种群;

步骤3:计算其对应的适应度函数值

步骤4: 计算种群适应度之和

步骤5: 计算每个的选择概率

步骤6: 计算每个的累加概率

步骤7: 竞争法进行选择操作;

步骤8: 对新一代种群进行单点随机交叉运算;

步骤9: 单点随机变异操作;

步骤10: 第一代计算完毕,返回继续计算步骤3,直到达到满意的结果为止。

(2) PSO算法

本文采用粒子群算法的主要流程如下:

步E1:根据优化因子的维度与取值范围确定粒子群的参数;

步骤2:初始化粒子群,其中粒子的信息可用两个维向量表示,第个粒子的位置(即优化因子)可表示为:

其中与为每一维的取值上下限,速度可表示为其中与均为取值范围在0~1之间的随机数;

步骤3:计算每个粒子的适应度;

步骤4:根据进化方程更新及粒子位置速度:

步骤5:是否满足终止条件,否则返回继续计算步骤3,直到达到满意的结果为止。

2 实验结果与分析

2.1 实验条件

2.1.1 数据说明

本文采用TIMIT标准数据库测试算法性能。训练集包含20男20女,每人3句话。噪声训练集为NOISE?92,包含white,babble,car三种噪声。纯净语音与噪声相混合,信噪比SNR分为9个不同的等级:-20 dB,-15 dB,

-10 dB,-5 dB,0 dB,5 dB,10 dB,15 dB,20 dB。测试集包含10男10女,每人3句话。标准基音频率使用Praat工具从纯净语音中提取。

以两种标准方式测试估计结果:基音频率识别率(DR)。DR是针对浊音而言,计算误差不超过5%的概率,为浊音帧数,为其中计算误差不超过5%的帧数,计算式如下:

2.1.2 参数设置

优化因子的维度为10,每一维的取值范围均在0.5~1.5之间。当使用GA算法时,基因总数为100,搜索下限为0.5,上限为1.5,交叉概率为0.8,变异概率为0.1,迭代次数为30;当使用PSO算法时,种群大小为20,粒子初始速度为0.01,最大速度为1,粒子群维度为10,取值范围在0.5~1.5,认知加速度为2,社会加速度为2,惯性权重为1,退化因子为1,迭代次数为60。

2.2 两种进化算法的效果对比

图3为不同迭代次数下,两种进化算法的检测效果。两种算法共同的规律是随着信噪比的提高,收敛速度会加快。随着迭代次数的增加,检测率变化越来越缓慢或者根本不发生变化。这说明信噪比越低优化的空间越大,因此信噪比越低,特征波形的结构受噪声影响越大。再对比GA与PSO算法,GA算法仅在信噪比为-20 dB下的识别率有较为明显的变化,其他信噪比下几乎没有变化。从最终的识别率来看,相同信噪比下PSO的识别率要高于GA,因此说明PSO算法在搜索最佳优化因子上更加有效。因此,后续实验中,主要采用基于PSO的基音检测算法进行效果对比。为了便于说明,基于GA的基音检测算法记为LSNR_PFD_GA,基于PSO的基音检测算法记为LSNR_PFD_PSO。

2.3 不同类型噪声环境下的检测效果对比

图4为三种类型的噪声环境下,本文LSNR_PFD_ PSO算法与三种主流算法J&W,YIN,RAPT的识别效果对比。

由图4可见,对于不同类型的噪声(白噪声,babble噪声,car噪声),本文算法均优于其他算法。此外,信噪比越低,本文算法的改进效果越明显。例如,-5 dB以下,本文算法的识别率提高了10%~20%,而在-20 dB时,其提升程度可以达到20%~50%。这说明本文算法非常适合低信噪比环境下的基音频率检测。

2.4 DP对基音频率检测的影响分析

图5为本文算法与PEFAC算法针对采用DP与否进行的效果对比。比较采用DP与不采用DP计算的三种噪声(白噪声,babble噪声,car噪声)在不同信噪比下的平均识别率,采用DP算法并用PSO优化后的识别率是最好的,不采用DP而使用PSO优化的识别率并不如使用了DP的PEFAC效果好,但比未采用DP和PSO优化的效果好很多。这说明DP对基音频率检测算法具有明显的正面作用,本文算法也不例外。为了最大限度地发挥本文算法效率,建议采用DP。

图4 基音频率识别率比较

2.5 进化算法参数影响分析

图6为基于不同参数设置,在不同信噪比下(白噪声,babble噪声,car噪声) LSNR_PFD_PSO算法的平均识别率。图6(a)为种群规模设置不同带来的影响。图6(b)为粒子飞行初始速度设置不同带来的影响。

由图6(a)可见,随着种群规模的增大,识别率有所增加但不明显,当种群规模由20增加至200,-5 dB以下识别率平均提升了2%左右。鉴于种群规模与计算复杂度的关系,因此需要结合具体情况,通过统计实验设定合适的种群规模。此外,还发现种群规模对识别率的正面作用在低信噪比下更明显。由图6(a)可见,在信噪比为-20 dB,200的种群规模较20的种群规模提高效果为25%左右。由图6(b)可见,粒子初始速度与识别率为负相关关系,当其较大时,识别率会变差。具体来说,当粒子速度由0.01增至0.05时,-5 dB以下识别率平均下降3%。这个结果的可能原因是初始速度太大将影响搜索的精细程度,较容易错过最优解。由于初始速度过小将增加计算代价,因此也需要结合具体情况,通过统计实验来设定合适的初始速度。

2.6 相关算法的时间代价对比

表1为不同算法基于同一运算平台的平均时间代价。计算机平台为Intel CPU 2.6 GHz,算法分别为PSO,GA,PEFAC,RAPT,YIN,“算法时间代价”是指当前算法在装有Matlab软件的计算机平台上处理1 s语音数据运行的平均时间代价。

由表1可见,LSNR_PFD_PSO,LSNR_PFD_GA和PEFAC算法的时间代价一致,均为0.175 s。这个时间代价并不包含进化算法的训练时间,这是由于一旦训练完成后,几种算法的实时检测过程所需时间代价几乎无差别。本文算法与YIN算法的时间代价也相当,比PART算法明显降低。根据多次实测表明,本文算法工作所需时间代价完全满足实时性要求,现实可行。

3 结 论

极低噪声环境下的基音频率检测是一个非常有用但具有较大难度的科研问题,迄今为止,一直没有得到很好的解决。针对目前新提出的抗噪性能较好的基音检测算法的不足,本文引入最佳优化因子来消除噪声带来的畸变影响。通过把最佳优化因子取值问题转化为最优化问题,引入进化算法加以求解,显著提升了低信噪比环境下基音频率检测性能。实验结果表明,面对不同类型不同信噪比的噪声环境,本文算法均取得了较为显著的改进效果,且信噪比越低,改进效果越明显。针对下一步工作,本文拟考虑进行更大噪声环境的实验及对进化算法的改进以提高最佳优化因子的搜索效率和基音频率检测的泛化性能。

参考文献

[1] RAMAKRISHNAN A G, ABHIRAM B, PRASANNA S R M. Voice source characterization using pitch synchronous discrete cosine transform for speaker identification [J]. Journal of the acoustical society of America, 2015, 137(6): 469?475.

[2] WOHLMAYR M, PERNKOPF F. Model?based multiple pitch tracking using factorial HMMs: model adaptation and inference [J]. IEEE transactions on audio, speech and language processing, 2013, 21(8): 1742?1754.

[3] HAN K, WANG D L. A classification based approach to speech segregation [J]. Journal of the acoustical society America, 2012, 132(5): 3475?3483.

[4] RAO K S, MAITY S, REDDY V R. Pitch synchronous and glottal closure based speech analysis for language recognition [J]. International journal of speech technology, 2013, 16(4): 413?430.

[5] SHARMA D, NAYLOR P A. Evaluation of pitch estimation in noisy speech for application in non?intrusive speech quality assessment [C]// Proceedings of 2009 European Signal Processing Conference. Glasgow: IEEE, 2009: 2514?2518.

[6] SHIMAMURA T, KOBAYASHI H. Weighted autocorrelation for pitch extraction of noisy speech [J]. IEEE transactions on speech and audio processing, 2001, 9(7): 727?730.

[7] SHAHNAZ C, ZHU W P, AHMAD M O. Robust pitch estimation at very low SNR exploiting time and frequency domain cues [C]// Proceedings of 2005 IEEE International Conference on Acoustics, Speech, Signal Processing. Philadelphia: IEEE, 2005: 389?392.

[8] SHAHNAZ C, ZHU W P, AHMAD M O. A robust pitch estimation algorithm in noise [C]// Proceedings of 2007 IEEE International Conference on Acoustics, Speech, and Signal Proces?sing. Honolulu: IEEE, 2007: 1073?1076.

[9] WU M, WANG D L, BROWN G J. A multipitch tracking algorithm for noisy speech [J]. IEEE transactions on speech and audio processing, 2003, 11(3): 229?241.

[10] HAN Kun, WANG Deliang. Neural network based pitch tracking in very noisy speech [J]. IEEE transactions on audio, speech and language processing, 2014, 22(12): 2158?2168.

[11] GOSAIN A, SHARMA G. A survey of dynamic program analysis techniques and tools [J]. Advances in intelligent systems and computing, 2014, 327: 113?122.

[12] JIN Z, WANG D L. HMM?based multipitch tracing for noisy and reverberant speech [J]. IEEE/ACM transactions on audio, speech and language processing, 2011, 19(5): 1091?1102.

[13] GONZALEZ S, BROOKES M. PEFAC: a pitch estimation algorithm robust to high levels of noise [J]. IEEE/ACM transactions on audio, speech and language processing, 2014, 22(2): 518?530.

[14] MCLACHLAN G, PEEL D. Finite mixture models [M]. New York: Wiley?Blackwell, 2000.

[15] TALKIN D. A robust algorithm for pitch tracking (RAPT) [R]. Amsterdam: Elsevier, 1995: 495?518.

[16] DE CHEVEGNE A, KAWAHARA H. YIN, a fundamental frequency estimator for speech and music [J]. Journal of the acoustical society America, 2002, 111(4): 1917?1930.

[17] SHAHNAZ C, ZHU W P, AHMAD M O. Pitch estimation based on a harmonic sinusoidal autocorrelation model and a time?domain matching scheme [J]. IEEE transactions on audio, speech and language processing, 2012, 20(1): 322?335.

[18] FENG Huang, TAN Lee. Pitch estimation in noisy speech using accumulated peak spectrum and sparse estimation technique [J]. IEEE transactions on audio, speech and language processing, 2013, 21(1): 99?109.

第7篇:卷积神经网络的步骤范文

【关键词】 遥感 城市扩张 城市范围 分类

1 引言

随着我国经济持续快速的增长,我国进入城市数量和体量快速增长的阶段。城市的发展与扩张,引起了诸多学者的关注,然而城市范围的界定往往是研究城市扩张的前提,而利用遥感进行城市范围提取正趋于成熟。

遥感是指不与探测目标相接触,从远处把目标的电磁波特性记录下来,通过分析揭示出物体的特征性质及其变化的综合性探测技术[1]。由于遥感具有大面积同步观测、时效性、综合性、经济性等特点,因而在城市范围提取中被广泛使用,如阿里木江・卡斯木[2]等在研究塔什干市城市扩张时同时使用了TM、ETM+、ALOS-AVNIR2三种影像数据。在众多关于城市扩张的研究中,对城市范围的提取方法种类繁多,本文基于各方法特点,将如今主要的基于遥感影像的城市范围提取方法归纳总结为基于人工解译方法,基于图像分类方法,基于光谱指数和指数模型方法,基于相关因素提取方法这四种方法。

2 方法研究

2.1 基于人工解译方法

人工解译方法主要是指目视解译,它凭借解译人员的经验知识,将遥感图像转换成可以被非专业人士理解的现实中的实物。作为传统的判别方法,人工解译的方法一般精度较高,但工作量大。王茜[3]等在对南京市城市扩展的研究中将预处理和几何纠正的图形直接进行人机交互目视解译的方法,对南京市市区成片的区域在计算机中勾画,由此获得南京市城市范围。

人工目视解译作为遥感研究人员必备的一项技能,但在如今遥感技术智能化,高效化的发展过程中,其作为城市范围提取方法的核心作用越来越小,更多的只能作为一种辅助判别方法或是对成果进行检验的手段。人工目视解译本身也受到解译标志、图像质量、解译人员的经验等因素的影响[4],所以在解译的过程中应该在这些方面引起足够重视以保证解译的质量。

2.2 基于图像分类方法

遥感图像分类分为非监督分类与监督分类,其为获取遥感图像信息最常见的处理方法。非监督分类是指人们事先对分类过程不加入任何先验知识,而仅凭遥感图像中地物光谱特征进行分类,分类结果不能确定类别属性,相对的监督分类则是引入已知类别象元作为训练区再对图像进行分类[5]。

在遥感影像的城市范围提取中首先会对图像进行预处理与增强,增大城市与非城市像元DN值的差别,再对影像进行分类,从而区分出城市与非城市区域。图像处理方法的选择对城市区域分类结果有很大的影响。如杨恒喜[6]等在提取昆明市图像中,先对图像做了直方图均衡化处理,将DN值域增大使其呈正太分布,增强了图像上地物与地物之间的反差,再利用非监督分类的方法提取了城市建成区域,得到城市面积大小。余新朝[7]利用植被差值归一化指数阈值的设定,经过波段运算处理后,单独对图像进行监督或非监督分类都不能取得良好效果,而在结合了多次监督与非监督分类的方法后才较为准确地生成了城市建成区范围图。

基于图像分类的城市范围提取方法在很大程度上减轻了研究人员解译的工作强度,并能得到较为准确的结果。分类前的图像处理方法多样,且多内置于影像处理软件中,操作简单,效果显著;另一方面,分类算法中如最大似然分类、马氏距离分类等逐渐完善,人工神经网络等更智能的分类算法的出现,使图像分类结果更加准确,也使该方法在提取城市范围中得到更广泛的认可。

2.3 基于光谱指数和指数模型方法

由于地物对太阳光的反射和吸收存在差异,导致不同波段中的地物反射信息存在差异,研究人员利用这种差异将卫星不同波段探测数据进行组合运算,得到反映研究所需特定信息的指数,称之为光谱指数,而提取这种指数的特定方法则称为指数模型。

基于此方法的城市范围提取也随着相关的光谱指数和指数模型如归一化差异建筑指数(Normalized Difference Built-up Index, NDBI)[8]、图像卷积运算模型[9]等的发展而得到大量应用。NDBI相对来说使用最广泛,它是在对归一化植被指数NDVI经过深入研究后的拓展,最早由杨山[10]对提取无锡市城乡聚落空间信息而提出,称之为仿植被归一化指数。Y.ZHA[8]等基于TM数据的TM4与TM5波段特性,得到表达式

NDBI=(band5-band4)/(band5+band4)

运算后城镇区域的亮度值增大,其他区域的亮度值都减小,其中NDBI>0的部分为城市,NDBI≤0的部分为非城市区,从而提取出城市范围。NDBI在分类中也存在不足,邓文胜等[11]就曾证明其在大面积复杂区域的应用效果不是很好。基于此光谱指数的城市范围方法也在不断的改进,徐涵秋[12]就放弃了单纯使用NDBI,同时利用了NDBI、土壤调节指数SAVI、修正归一化差异调节指数MNDWI将ETM+数据的六个波段压缩为呈不相关的三个波段,并用谱间信息的相关性逻辑运算,提取出城市建成区域,且抽样验证精度达到 91.3%。

基于光谱指数和指数模型方法充分利用了图像波段间的光谱信息差异,城市范围确定精度通常高于基于图像分类方法的结果。由于此方法充分挖掘了城市地物与非城市地物间光谱信息异同,所以光谱指数和指数模型方法的可重用性更加强,适用范围也更加广泛。

2.4 基于相关因素提取方法

城市作为一个综合体,其包容的元素多样,所表现的性质从不同的角度观察也有不同的结果,因此,除了如上常用的一些方法外,还有一些利用相关因素间接提取出城市范围的方法。

基于不透水面的确定来提取城市范围的方法。广义的不透水面(Impervious Surface Area,ISA)是指天然或人为建造,能够隔离地表水渗透到土壤,进而改变洪水径流的流动、物质沉淀和污染剖面的任何物质[13]。目前研究的人工不透水面多指停车场,道路,屋顶,广场等地物,然而这些地物也是城市的组成部分,再加上如今城市的建设都离不开人工修建的不透水面,所以对城市不透水面范围的确定,在一定程度上可以看作是对城市范围的确定。白杨[14]等人已经完成了在不透水面的基础上,用面向对象的方法,对城市建成区域的提取,得到的城市范围基本与实际吻合。

基于地表温度的确定来提取城市范围的方法。地表温度主要受地表覆盖物影响,由于城市建设,城市地表主要被水泥等人工化合物取代,导致与农田、林地、水体等自然覆盖物的地表温度有明显差异。李昕瑜[15]等人就已经通过反演地表亮温发现,地表温度与归一化不透水面指数NDISI、NDBI呈正相关。王跃[16]等更是利用Landsat的热红外波段,将反演的亮温以296K为界,提取出了苏州市城市范围。

基于这些相关因素提取来提取城市范围的方法突破了以往比较固定的思维,为城市区域研究提供了一种新的思路。但此方法的不足在于难以验证这些相关因素和城市范围之间的联系紧密度,因而有时会对准确提取城市范围造成较大影响。

3 结论与讨论

城市范围的提取在对城市扩张、城市总体规划、城市生态环境等研究中都具有基础性的作用。随着对城市的研究增多,出现了多种多样的城市范围提取方法,经过对大量研究的对比总结,基于对各种方法的主体思想或关键步骤的分析,本文将众多城市范围提取的方法归纳为人工解译方法、图像分类方法、光谱指数与光谱模型方法以及相关因素提取方法。

经过分类后的对比还发现,人工解译方法提取的相对精度较高,但进度慢,耗时多;图像分类方法较人工解译方法更加便捷,但结果相对较差,同时分类前的影像处理和分类方法的选择对分类的结果有较大的影响;光谱指数与光谱模型方法在指数和模型建立之前需要进行大量的分析,但其方法适应范围广,同时对城市范围的提取结果又有充分的物理依据;相关因素提取方法通过对城市特有的相关信息的提取来确定城市范围,此方法思路新颖,发展前景广,但相关因素与城市相关性的确定将是其研究的重点与难点。各种方法虽有不同之处,但在研究中往往又相互联系,相互补充,使城市范围的提取朝着更加精确的方向发展。

随着中国经济的发展,城市的扩张还将持续,由此给我们带来的影响,将会引起越来越多学者的关注。笔者认为,随着遥感信息提取技术的发展,多源数据的应用,以及土地信息数据库的完善,基于遥感的城市范围研究也必然会有新的突破。

参考文献:

[1]梅安新等编著.遥感导论.北京市:高等教育出版社,2001.

[2]阿里木江・卡斯木,阿斯耶姆・图尔迪.基于遥感数据的塔什干市城市扩展时空特征分析[J].新疆师范大学学报(自然科学版),2012,(第2期).

[3]王茜,张增祥,易玲,谭文彬,王长友.南京城市扩展的遥感研究[J].长江流域资源与环境,2007,(第5期).

[4]姜放,张国勇.遥感图像目视解译值得注意的几个问题[J].长春工程学院学报(自然科学版),2002,(第3期).

[5]汤国安等编著.遥感数字图像处理.北京市:科学出版社,2004.

[6]杨恒喜,史正涛,陈可伟.基于遥感影像的1992-2002年昆明市城区扩张及驱动力分析[J].环境科学与管理,2010,(第6期).

[7]余新朝.基于多时相遥感影像的城市演变分析[J].城市勘测,2013,(第6期).

[8]Zha, Y. Y., Gao, J. J., & Ni, S. S. (2003). Use of normalized difference built-up index in automatically mapping urban areas from TM imagery. International Journal Of Remote Sensing, 24(3), 583.

[9]MUXiaodong,LIUHuiping,WANGHongbin.Application of image convolution to extract the urban extent[J].遥感学报,2011,(第6期).

[10]杨山.发达地区城乡聚落形态的信息提取与分形研究:以无锡市为例[J].地理学报,2000,(第6期).

[11]邓文胜,关泽群,王昌佐.从TM影像中提取城镇建筑覆盖区专题信息的改进方法[J].遥感信息,2004,(第4期).

[12]徐涵秋.基于谱间特征和归一化指数分析的城市建筑用地信息提取[J].地理研究,2005,(第2期).

[13]SloneckerET,JenningsD,GarofaloD. RemoteSensingof ImperviousSurfaces: AReview[J]. Remote Sensing Reviews,2001,20(3):227-255.

[14]白杨,宁晓刚,张继贤.基于不透水面和引力模型的城市建成区提取与分析[J].测绘科学,2014,(第1期).