公务员期刊网 精选范文 神经网络论文范文

神经网络论文精选(九篇)

前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的神经网络论文主题范文,仅供参考,欢迎阅读并收藏。

神经网络论文

第1篇:神经网络论文范文

[关键词]反射认知创造神经网络人工智能

一、生物神经网络系统

生物神经系统是以神经元为基本单位,神经元的外部形态各异,但基本功能相同,在处于静息状态时(无刺激传导),神经细胞膜处于极化状态,膜内的电压低于膜外电压,当膜的某处受到的刺激足够强时,刺激处会在极短的时间内出现去极化、反极化(膜内的电压高于膜外电压)、复极化的过程,当刺激部位处于反极化状态时,邻近未受刺激的部位仍处于极化状态,两着之间就会形成局部电流,这个局部电流又会刺激没有去极化的细胞膜使之去极化等等,这样不断的重复这一过程,将动作电位传播开去,一直到神经末梢。

神经元与神经元之间的信息传递是通过突触相联系的,前一个神经元的轴突末梢作用于下一个神经元的胞体、树突或轴突等处组成突触。不同神经元的轴突末梢可以释放不同的化学递质,这些递质在与后膜受体结合时,有的能引起后膜去极化,当去极化足够大时就形成了动作电位;也有的能引起后膜极化增强,即超极化,阻碍动作电位的形成,能释放这种递质的神经元被称为抑制神经元。此外,有的神经元之间可以直接通过突触间隙直接进行电位传递,称为电突触。还有的因树突膜上电压门控式钠通道很少,树突上的兴奋或抑制活动是以电紧张性形式扩布的,这种扩布是具有衰减性的。

图1

一个神经元可以通过轴突作用于成千上万的神经元,也可以通过树突从成千上万的神经元接受信息,当多个突触作用在神经元上面时,有的能引起去极化,有的能引起超极化,神经元的冲动,即能否产生动作电位,取决于全部突触的去极化与超级化作用之后,膜的电位的总和以及自身的阈值。

神经纤维的电传导速度因神经元的种类、形态、髓鞘有无等因素的不同而存在很大差异,大致从0.3m/s到100m/s不等。在神经元与神经元之间的信息交换速度也因突触种类或神经递质的不同而存在着不同的突触延搁,突触传递信息的功能有快有慢,快突触传递以毫秒为单位计算,主要控制一些即时的反应;慢突触传递可长达以秒为单位来进行,甚至以小时,日为单位计算,它主要和人的学习,记忆以及精神病的产生有关系。2000年诺贝尔生理学或医学奖授予了瑞典哥德堡大学77岁的阿维·卡尔松、美国洛克菲勒大学74岁的保罗·格林加德以及出生于奥地利的美国哥伦比亚大学70岁的埃里克·坎德尔,以表彰他们发现了慢突触传递这样一种“神经细胞间的信号转导形式”。本次获奖者的主要贡献在于揭示“慢突触传递”,在此之前,“快突触传递”已经得过诺贝尔奖。此外,使用频繁的突触联系会变得更紧密,即突触的特点之一是用进废退,高频刺激突触前神经元后,在突触后神经元上纪录到的电位会增大,而且会维持相当长的时间。所以可以得出一条由若干不定种类的神经元排列构成的信息传导链对信息的传导速度会存在很大的弹性空间,这一点对神经系统认知事件有着非常重要的意义。

神经系统按功能可大致分为传入神经(感觉神经)、中间神经(脑:延脑、脑桥、小脑、中脑、间脑、大脑脊髓)与传出神经(运动神经)三类。

生物要适应外界环境的变化,就必须能够感受到这种变化,才能做出反应。生物的感受器多种多样,有的是单单感觉神经元的神经末梢;有的是感受器细胞;还有的感受器除了感受细胞外还增加了附属装置,且附属装置还很复杂,形成特殊的感觉器官。无论感受器的复杂程度如何,它在整个神经系统中都起着信息采集的作用,它将外界物理的或化学的动态信号反应在感觉神经细胞膜的电位变化上,膜上的电位变化可形成动作电位向远端传导。

中间神经在系统中起着计算及信息传导的作用,通常感觉神经传来的动作电位经过若干个中间神经元的计算响应后在传递到传出神经形成反射弧,但也有的反射弧仅由传入神经元与传出神经元直接组成,如敲击股四头肌引起的膝反射。传出神经可分为躯体神经与内脏神经两类,它们都最终连接着效应器,只是内脏神经需要通过一个神经节来连接效应器,最后由效应器调空肌体器官做出相应的反应。

二、生物神经网络的建立

1994年,一种被称为Netrin-1、将轴突吸引到分泌它的神经细胞的可扩散蛋白被发现,此后人们发现,同一轴突引导分子既可吸引、也可排斥前来的轴突。其中,环状AMP(也称cAMP)、环状GMP(也称cGMP)和钙离子,都可能是从参与将发育中的神经元引导到其目标上的受体中转导信号的第二种信使。新的实验表明,正是cAMP/cGMP的比例决定着Netrin-1是起一种吸引信号的作用还是起一种排斥信号的作用,这些环状核苷通过控制轴突生长锥中的L-型钙通道来起作用。

目前已经发现大量对神经轴突生长具有导向作用的分子,这些分子可以分为两大类:一类分子固着在细胞膜表面或细胞外基质中,影响局部的神经纤维生长,这类因子包括ephrin,MAG(myelin-associatedglycoprotein),Nogo等;另一类是分泌性分子,能扩散一定的距离并形成浓度梯度起作用,如netrin,slit,semaphorin家族的大多数成员,及各种神经营养因子等。神经轴突的前端有生长锥(growthcone)的结构起到对环境信号的探测作用。神经生长锥表面存在各种导向因子的受体,它们特异地识别环境中各种因子,并向细胞内传递吸引(attractive)或是排斥(repulsive)的信号,从而通过调节生长锥内的细胞骨架的重组来引导神经纤维沿特定路线生长(我国科学家袁小兵等研究人员发现,在脊髓神经元上,神经细胞内RHOA酶和CDC酶直接传递外界方向信号,引导神经生长方向,同时这两种酶相互作用,对生长方向进行细致的调节)。未成熟神经细胞柔弱的轴突在这些信号的引导下,试探地穿行于正处于发育阶段、仍是一片纷乱的大脑之中,最终抵达适当的目的地。一旦轴突的末端找到了其正确的栖息地,它就开始与周围神经元建立尽可能广泛的突触联系,以便传导信息。

脊椎动物出生后早期发育中的一个特征是,神经键(或神经连接)的消除。最初,一个神经肌肉连接被多个轴突支配,然后所有轴突都退出,只剩下一个,对相互竞争的神经元来说,决定胜负的是它们的相对活性。为了能准确的连接到目的地,单个或多个神经元会沿导向分子所确定的大致方向上生长出若干条神经纤维,其中总会有能正确连接到目的地的神经纤维,所建立的若干神经链路在刺激信号的作用下,正确的信息传递会使链接会变的更加稳固,反之则慢慢萎缩分离。打个比方讲:两个城市间原本没有路,如果要修的话会先派人去探索出若干条路,最后去修筑被优选出来的路,而其他的则会被遗弃。

三、神经网络的基本工作原理

1、反射

自然界中,事物的发展、能量的转化、信息的传递等等各种的自然现象都包含着因果关系,只要时间没有停滞,这种关系将广泛存在,从“因”到“果”,贯穿着事物的发展过程,当过程长且复杂时我们称之为“事件”,反之则称之为“触发”。

生物个体在与外界环境或是个体自身进行物质或信息交换时,也存在着这种现象,在这里我们称之为“反射”。

反射是最基本的神经活动,现行的说法是将反射分为两种,无条件反射和条件反射,其中,无条件反射是动物和人生下来就具有的,即遗传下来的对外部生活条件特有的稳定的反应方式,在心理发展的早期阶段,这种反应方式提供最基本的生存技能,也就是本能,如:食物反射、防御反射、定向反射,还有一些可能是在人类进化过程中,曾经有一定生物适应意义的无条件反射,如:巴宾斯基反射、抓握反射、惊跳反射(又叫摩罗反射)、游泳反射、行走反射等,此外,还有其他一些无条件反射,如眨眼反射、瞳孔反射、吞咽反射、打嗝、喷嚏等等。

条件反射是后天训练出来的,著名科学家巴甫洛夫就曾对条件反射的形成、消退、自然恢复、泛化、分化以及各种抑制现象进行过相当细致、系统的实验研究,。

无论是条件反射还是无条件反射,从主观上都可以看作是一种因果作用关系,即都存在着触发条件,都会导致某一结果的产生,所以无条件反射其实也属于条件反射范畴。只有在成因上,无条件反射是根据遗传信息形成的神经网络结构,而条件反射是后天在先前的网络基础上,依据外界环境继续发展完善的神经网络结构。两者之间是继承和发展的关系,但从这两个阶段所形成的神经网络功能来看,对外界的刺激都具备输入、传递、输出这一处理过程即反射过程,所以从某种意义上讲,也可以把无条件反射归类到条件反射范畴中去,或者说条件反射等同于反射。

神经系统中的条件反射具有三个要素:输入、传递、输出。其中的每一个要素既可以用单个神经元表示,也可以用一个神经群落来表示。当用少数几个神经元表示时,对应的是生物个体对局部刺激的反应,当扩展到神经群落时,对应的就可能就是对某一激发事件的处理方法了。

反射中的输入,最能使我们联想到传入神经元(感觉神经元),但在这里,它可以指单个的感觉神经元,也可以指一种感官(眼睛中的视神经群落、耳中的听觉神经中枢、皮肤中与各类感受器连接的神经群落等等),甚至可以是大脑中某一区域内形成某一表象或是概念的神经群落。反射中的输出同样可以指传出神经元(即脊髓前角或脑干的运动神经元),也可以指大脑中某一区域内形成某一概念或是表象的神经群落。反射中的中间传递过程是信息的加工处理的过程,可以由单个神经元、神经链路或是神经网络来承担,甚至可以直接由输入与输出的对应载体来分担。这样生物神经系统中的反射弧只是它的一个子项罢了,条件反射在主观上也对应着我们常说的“产生、经过与结果”即因果关系。

2、认知

有一个低等生物海兔的记忆试验:海兔本身具有被触摸(水管部分)后的鳃缩反射,但连续十几次的刺激后,鳃缩反应就逐渐减慢.经过研究发现,海兔的习惯化是由于神经递质发生变化所致.进一步的研究发现这种变化是突触中的感觉神经元的Ca离子门关闭,导致递质的释放量减少所致.上述试验说明简单的记忆与神经递质和突触有关.又如大鼠的大脑皮质切除试验:用迷宫训练大鼠,如果大鼠学会并记住顺利走出迷宫的道路后,切除它的大脑皮质,记忆就会消退.不论切除的是大脑皮质的哪一部分,总是切除的多,记忆消退的多;切除的少,记忆消退的就少。

首先,认知通常强调的是结果,是神经网络定型后的结果。神经网络的定型过程就是认知的建立过程,也就是生物个体的学习过程,它同时表现了出生物的记忆过程。定型好的神经网络对触发信息的处理过程即反射过程,就是记忆的提取过程,也正是通过这一过程反映出了认知的存在。

生物个体对客观事物的认知可以解释为:客观事物在主观意识中形成了表象,并且该表象与一系列的活动(生理的或心理的)相联系。换句话说,某一客观事物的信息如果经过大脑处理能够引发出一系列的动作(这是一种反射现象,符合前面对反射的定义),我们就可以说对这一事物已经认知了。

行为主义与符号主义中对认知建立过程中所显现出的记忆现象都有很详细的类别划分,其中每一种记忆类别都仅与一种认知的建立模式相对应。所以,与其用记忆类别来划分还不如用认知类别来划分更为合理,在这里由于篇幅所限,我仅将认知简单概括为以下三种类别:物体认知、事件认知以及两种认知的衍生产物抽象事物认知。

a、物体认知

感受外界客观环境最简单的办法是通过感官直接去“接触”物质对象,并通过大脑处理,并最终导致一个或一系列的结果,这种因果过程就是对客观物体的认知。如:看到一个苹果,我们产生了拿的动作,同时也可以产生许多其他的动作如激活色彩感觉中枢、激活味觉中枢等等,当可以有这些动作产生时,就完成了对苹果的认知。

下面我们将详细讲解神经网络对物体认知的描述。

一个输入集合I(触觉、视觉等的感应细胞构成的集合或是处于某一层次上的神经元集合)对之内两个不同区域(A、B)的刺激做出相应Y与X两种不同反应的神经处理过程,如图2。

图2的a、b、c为三种AB可能存在的输入情况。图2a中A、B分别对应Y、X,神经链路没有重叠,刺激A时得到Y的输出,刺激B时得到X的输出,结果不会出现问题,请注意:带有方向的黑线只是代表逻辑上的链路,在实际中,链路与链路之间有质的区别,这里只做简单的等价说明,用数量表示质量。图2b中A、B间有了交叉,在处理过程中,当A受到刺激会产生Y的输出,同时会有三条逻辑链路去刺激X,但做为X的全部决定因素,这三条相比从B到X余下的空闲联络,只占很小的一部分,它们还不足以激活X,所以分别刺激A、B仍然会得到正确的输出。对于X这种在某一层次上的输出神经元来说,是否能被激活,主要取决于所有处于不同状态的输入链路的能量对比,在这里能量被量化为逻辑链路的数量,这样每个神经元对值的判断则等价为判断处于激活状态的逻辑链路数是否过半。此类神经链路就是兴奋类传导神经网络,单纯采用此类神经链路的系统只需要根据相应刺激感受区域是否有刺激发生,就可以得出正确的输出结果,但是在图2c中,刺激区域A包含着B的情况下,如果刺激B区会有正确输出X,然而如果刺激A区则会出错,Y与X会同时有效,这时我们就需要一种链路来阻止这种错误的发生,这就是抑制类神经链路,如图2c中的虚线箭头所示,抑制类逻辑链路只起到冲减、抵消兴奋类逻辑链路数量的作用,使得X在冲减后的兴奋链路合计数小于阀值,从而达到唯一正确输出Y得目的。

在图2中列举的神经网络认知模式中,虽然只涉及到了输入与输出,但在两者之间已经包含了计算的成分,或是说承担了传递计算的功能,此外不难发现:能够对某一物体认知,必须要首先区分开其他物体,尤其是符合图2c中的情况,物体间的差异正好可以满足这一需求。这样,即使是从同一个感官传来的信息,也能做到很好的区分。

当认知的对象较为复杂时(如苹果),对象包含有各种各样的属性,其中的每一种属性的响应过程,在局部都遵循着反射的定义。当在某一时刻,与苹果相关的各种属性的神经子网络被大部分激活时,苹果的表象就成了焦点。更确切的讲是,感官捕捉的信息在传递的过程中,经过了代表各种属性的神经子网络,一些属性因条件不满足而停止传递,最后由可以通过的(即被确认的属性)神经子网络继续向后传递,最后再引发一系列的动作,其中反射可以指局部的传递(单个属性的确认),也可以指整个传递过程(看到苹果后,可以去拿可以去想等等)。

苹果在人脑中形成的表象,其实就是指感官根据苹果实物产生的电信号所能经过的神经链路,神经链路与神经网络的关系相当于行走路径与公路网的关系。此外其他的神经区域输出的电信号如果在传递过程中也能引发出与前面提到的“苹果神经链路”相同或相似动作或是功能的话,也可以说是形成了苹果的表象,这种现象可以使我们认知客观世界不存在的事物或个体自身从未接触过的事物。

b、事件认知

任何事物在一段时间内发生了变动,在这里都可以被称之为事件。因果关系同样也具备事件的属性,如果能深入分析一下各种事件的过程,基本上都能找到因果关系的影子。在前面对物体的认知中,我们知道了神经网络认知物体是以因果关系的方式建立的网络链路,为了不引起混淆,下面以因果关系为认知对象的,我们用事件来代替,对事件的认知过程,近似于对物体的认知过程,相当于把事件等同于物体,由于事件具有时间性,所以神经网络就必须能够处理时间问题。

神经元的形状各异,轴突有长有短,且对信息的加工时间与传递速度也各不相同,这样对同一起点不同的传递路径,信息的传递速度可能不同。还以图2为例,现在假设每一个箭头除了代表一个神经元连接外,还代表一个单位传递时间,当首先刺激A区后并在第二个单位时间内刺激B区,将两次触发过程当作一个事件,导致一个输出Y;同法当先刺激B区,然后在刺激A区时会有另一个输出X,如图3

根据这种通过神经链路上神经元个数进行延时的方法,任何处于时间片段上的信息都可以被处理。我们再举个更加复杂的例子,单输入神经元网络对摩尔斯电码的识别与重现。

假设输入神经元为A,按严格的尔斯电码规则来刺激该神经元,最后由神经网络得出字符序列,如图4

当A收到刺激信号时,将信号广播给不同的识别群体,图4中只给出了其中的一个网络群体,给出的这个群体只能认识字符“b”即电码“—…”。为了简化说明,图4中舍弃了每个神经元的其他输入输出链路以及相关的抑制链路,所以图中的每一个指向神经元的箭头均存在着“与”的逻辑运算关系,在这里它们不表示逻辑数量。

由图4可以看出,先收到的信号经过较多的传递神经元进行延时,再连同后面收到的信号一起同时传递到结果输出上,这样处于时间片段上的信息就可以被当作是一个整体来进行处理。粗虚线上半部分为输入识别部分,下半部分为信息重现部分,仔细观察就会发现,两部分的神经链路并不是互成镜像,输入为前端延时,依次为:1、3、5、7、8、9,输出为后端延时,依次为:9、7、5、3、2、1,所以认识事物与应用事物是由两套不同的神经网络来控制完成的。图4中的两条倾斜细虚线是一个虚拟的标示线,从某种意义上讲这里是事物的表象层,中间本应该是更加复杂的表象处理网络,在这里只简单的假设性的给出了表象输出与输入。

c、抽象概括与抽象描述

对事物(事件、物体)的认知,使我们得以在大脑中建立出与客观世界相对应的表象,作为记录事物表象的神经链路网上的每一个分支与合并都可能是事物在不同层次上的一种“特征的概括与描述”(参见图3左图)。

神经网络在认知新的事物时,输入信息总是尽可能的使用已存在的网络链路进行传递处理,当处理不足以产生正确的结果时才在信息的中断处搭建新的网络连接。在局部,如果已存在的网络链路可以被使用,那么这部分网络结构通常是一种共性的表达,当这种表达随着同类认知的增加而逐渐完善时,就可以作为一种属性的表象,这在主观上是一种抽象概括的过程。

例如,对苹果的认知,“苹果”本身是一个概括出来的词汇,它不具体指哪一个苹果,但在认知若干个具体苹果的过程中,与各个苹果相对应的神经链路的共用部分被逐渐加强,这部分神经网络就可以说是“苹果”这一概念的表象区域。此外,神经网络结构不光能实现对有形的抽象概括,也可以对无形的加以抽象概括,例如“水果”的表象,这一表象的形成可以说是用若干不同种类的水果培养出来的,也可以说是由“苹果”、“梨”等等表象的神经链路的共用部分完善而成的,后一种方式可以理解为抽象概括可以建立在另一种抽象概念之上,即对无形的事物也可以做抽象概括。换个角度讲,这些抽象出来的表象本身就是一种有形的物质,它是由若干神经元搭建起来的网络系统,是客观存在的东西,这样的话就与第一种方式相一致了。

语言是生物间交流的工具,是生物为了更好的适应周围的环境而进化产生的,在这里它包含有声音、文字、动作、行为以及低等生物的化学接触等等内容。就拿我们人类来说,每一个发音、每一个文字符号都可以说是对应着一种表象,这个表象可以是抽象出来的也可以是具体事物产生的。语言是通过触发来进行工作,当然也可以说是一种反射或是因果现象。无论是说还是听,也不论是写还是看,对于说或者是写这种输出性质的处理,可以解释为某个表象被激活时,它又被作为输入信号沿着该表象至发音或是运动器官间的语言神经链路传递电信号,直至发音或是运动器官做出相应的动作。听与看也是如此,感官接收到信息后传递直至激活某一个表象区域(请参见图4)。语言与表象之间广泛存在着对等映射关系,它可以使我们能够直接去运用语言来进行思维,即便是表象与输入输出没有语言神经链路对应关系的,如果需要我们也会临时的建立起语言神经链路,如本文中说的图几图几、这个那个等等,或者用相关的有语言链路的表象通过塑造、阐述、刻画、定位等等方式来体现或是建立该表象,这种建立神经链路的过程往往体现出不同种类的记忆模式。

生物的记忆过程与机械的存储过程原理基本相同,都是通过改变载体的性状来表达的,只是生物是通过神经网络的响应过程来表达或再现记忆的内容,就是说该神经网络的连接结构就反映着记忆的内容,所以生物的记忆过程就是建立特定连接方式的神经网络的过程,而提取过程就是激活这部分神经网络的过程。一旦载有相关记忆内容的神经网络结构被确定时,能量只能体现在信息的提取与再现上,当然维持这种结构也需要一点能量,不然神经元就饿死了:)注意:这里强调的是“过程”。

生物的认知过程对外表现为学习过程,对内表现为神经网络的建立及使用过程,在学习过程中往往会同时伴随着反馈过程(内反馈或外反馈),生物从外界获得信息,传递处理后再作用给外界,并同时获取作用后新的信息,周而复始的运做,这就是外反馈过程。外反馈过程是依靠外界因素帮助或是引导或是促使生物个体建立起能与环境相协调运做的神经网络系统,主观上我们称之为“教育”。内反馈主要体现在我们的思维活动上,通常外界事物在大脑中存在着对应的表象,被外反馈完善了的事物表象之间同样可以建立起互动联系,比如讲一个事物的表象被激活(输入),引发其他的表象也被激活(输出),这些被激活的表象同样也可以作为输入去激活先前的或是其他的表象,然后周而复始的运做,使得信息得以在脑内进行反复的处理。内反馈过程实际上就是一种“自学”的过程,但它的激发源头必定是与外界有关,并且最终要作用于外界,所以说内外反馈往往是兼而有之的。

在认知过程中随着内反馈的素材(表象)不断增多,生物个体渐渐能够认知自身与外界间的互动关系,自我意识也就随之产生,同时我们用以进行思维的素材及其运作方式,如概念,词汇以及由这些材料所带来的情感因素及组织方式等等,绝大部分都来源于前人或者是借用他人的经验,生物个体对这些经验素材的获取,或是由于接触的几率的不同,或是由于认同的程度的高低,个体间总会存在着差异,这样就产生了我们不同的个性特征。

3、创造

生物在与周围环境发生相互作用时,不可避免的会对周围的环境造成一定的影响,无论是主动的还是被动的,这些对环境的影响最终都是为了促使生物以更好的适应周围的环境。遵循优胜劣汰的法则,好的影响将会被保留继承下去,如搭窝、建巢、获取食物等等,而坏的影响会增加生物生存的风险。

神经网络在认知事物后,事物的表象往往不是特定对应着某一个具体事物,而是对应着在一个模糊的范围内所含阔的一类事物。例如,我们认知的苹果,泛指各种各样的苹果,甚至还包括那些嫁接出来的长的象其他水果的苹果等等。在我们依据苹果的表象勾勒出一个具体的苹果时,这个苹果将肯定不会与客观世界中的任何一个苹果相同,因为没有两样东西是绝对相同的。产生一个客观世界不存在的事物,就是创造,其过程就是创造的过程。

生物神经网络中事物的表象往往穿插交错在一起,它们以链路最省的方式构成。任何神经链路上的合并都可以说是事物的某一特征在某一层次上的概括,所以表象可以以不同的内涵层次来拆分成各种各样的属性单元(元素),而任何神经链路上的分支都可以说是事物的某一特征在某一层次上的副本,使得这些属性单元也能够隶属于别的表象或是说用于构建(表达)别的表象,当若干种属性单元在某一时刻都处于激活状态时,就等同于一种表象被激活,无论这个表象是否对应着客观世界中的事物,如果没有对应关系那就是一个较高形式的创造过程。

创造的几种主要的表达形式:联想、推理、顿悟

a、联想

当一个事物的表象被激活时,也就是说该表象所包含的若干属性单元(元素)同时有效时,我们的注意力焦点就集中在这个表象上,如果对该表象的处理(内或外反馈)使的表象被否决时,也就是说由于一些属性单元的失效(或被抑制,或处于高阻),导致该表象无法成立的时候,剩余的属性单元或许可以构成另一种事物的表象,或许还需要结合那些被激活了的新的属性(或是由外界事物具有的新的属性所激活,或是因降低了对一些属性的抑制所导致的激活)。

b、推理

联想是一种去激活与事物表象相关联的其他表象的过程,主观上是一种横向扩展的过程,那么纵向过程就是由于一个或若干个事物表象被激活,从而导致另一个表象也被激活的过程,即推理过程,其中的任何一个表象的确立(激活)都会通过反馈过程加以验证。推理与联想在神经网络结构上十分的相似,功能上也基本相同,只是在主观认识上,联想更强调相关性或是相似性,而推理则强调的是次序性或层次性。

c、顿悟

当我们思考一件事情时,或设计一件东西的时候,常常会遇到百思不得其解的情况发生,但有时,在某个偶然的事件影响下,我们会突然明白或能够解决这些问题,这就是顿悟现象。

事物的表象是由若干个神经网络属性单元所构成的,我们说的“问题”在大脑中也是一种表象,是一种经反馈过程没有验证通过的特殊的表象,这个表象的属性单元可能包括具体的事物表象、抽象的事物表象、逻辑关系、公理、定律等等内容,但这些属性同时有效时,问题的表象并不能通过内外反馈的验证。作为一个急切需要解决的“问题”,“问题”的表象被反复的激活(深思熟虑反复思考),在一个偶然机会,一个别的事件表象被激活,或是因为此事件的某个属性单元弥补了“问题”表象的一个重要的空缺;或是因为此事件“问题”表象中的某个关键的属性单元被抑制失效,“问题”表象得以完善并能够通过反馈验证,这就是顿悟。

四、神经网络的相关问题

人在成长过程中,他的学习过程就是构建相应神经网络结构的过程,随着认知程度的增加,网络结构也日趋复杂,对刺激的反应过程也随之复杂化,当复杂到无法预测时,主观上就会认为反应过程是自发产生的,这是人的一种错觉。

幼年,人脑神经网络的建立过程需要大量的空闲神经元,基本雏形确定后,剩余的空闲神经元会损失大半,这样才能够给网络的发展腾出空间。余留下来的空闲神经元或是成为新建神经链路中的一部分而被确定下来;或是被用于临时搭建的某些链路;或是作为备用存在于网络的空隙当中。

青少年,神经网络属于高速建立阶段,这个阶段的神经网络可塑性极强,主要是因为针对事物的认知,即是以机械性记忆为主,对事物认知的量及内容是抽象逻辑思维建立的基础及倾向,随着量的增加抽象概括的能力会逐渐增强。

中青年,事物的认知量及逻辑思维能力的配比达到了最佳程度,不光有一套较好的能与外界交互的神经网络系统,而且神经网络还保留有发展的余地,即还保留有一定的可塑性。

中年,无论是抽象事物还是具体事物,认知量已基本确定,网络的结构已日趋复杂化,在一些局部,需要修改的或是新建的神经链路对空闲神经元的需求也已日趋紧张,使得我们的认知速度逐渐减慢。

老年,在许多的神经网络区域,空闲的神经元已开始满足不了认知的需求,另外因为无法认知新的事物,对外界的反应能力也开始下降,连带的相关神经区域得不到激活,神经链路的健壮性开始下降,以至于一些神经链路解体,伴随的就是认知量的下降,即健忘等等现象,并且成为一种恶性循环发展下去……。

五、后记

为了能清楚的阐述它的运行机制,同时也是为了验证这套理论,根据前面所提到的神经元的结构功能及组网方式,我通过计算机软件设计了虚拟的神经网络系统,2000年软件完成了调试,并得到了很好实验结果。

参考文献

1《现代科学育儿答疑》(0-3岁)人民教育出版社1999年第1版

2陈守良等,《人类生物学》,北京大学出版社,2001年12月

3陈阅增等(1997).《普通生物学》.北京:高等教育出版社

4苏珊·格林菲尔德,《人脑之谜》杨雄里等译

5陈宜张《分子神经生物学》人民军医出版社1997年2月

6伊·普里戈金、伊·斯唐热著、曾庆宏、沈小峰译《从混沌到有序》,上海译文出版社1987年版。

第2篇:神经网络论文范文

关键词PID控制;BP神经网络;遗传算法;参数优化

1引言

由于常规PID控制具有鲁棒性好,结构简单等优点,在工业控制中得到了广泛的应用。PID控制的基本思想是将P(偏差的比例),I(偏差的积分)和D(偏差的微分)进线性组合构成控制器,对被控对象进行控制。所以系统控制的优劣取决于这三个参数。但是常规PID控制参数往往不能进行在线调整,难以适应对象的变化,另外对高阶或者多变量的强耦合过程,由于整定条件的限制,以及对象的动态特性随着环境等的变化而变化,PID参数也很难达到最优的状态。

神经网络具有自组织、自学习等优点,提出了利用BP神经网络的学习方法,对控制器参数进行在线调整,以满足控制要求。由于BP神经网络学习过程较慢,可能导致局部极小点[2]。本文提出了改进的BP算法,将遗传算法和BP算法结合对网络阈值和权值进行优化,避免权值和阈值陷入局部极小点。

2加热炉的PID控制

加热炉控制系统如图1所示,控制规律常采用PID控制规律。

图1加热炉控制系统简图

若加热炉具有的数学模型为:

则PID控制过程箭图可以用图2表示。

其中,

采用经典参数整定方法——临界比例度对上述闭环系统进行参数整定,确定PID控制器中Kp=2.259,Ki=0.869,Kd=0.276。参考输入为单位阶跃信号,仿真曲线如图3所示。

图2PID控制系统

图3Z—N整定的控制曲线

仿真曲线表明,通过Z—N方法整定的参数控制效果不佳,加上PID参数不易实现在线调整,所以该方法不宜用于加热炉的在线控制。

3基于遗传算法改进的BP神经网络PID控制器参数优化整定

对于加热炉控制系统设计的神经网络自整定PID控制,它不依赖对象的模型知识,在网络结构确定之后,其控制功能能否达到要求完全取决于学习算法。

3.1遗传算法改进的BP算法实现

一般BP网络结构如图4所示,其算法步骤为:

(1)输入训练样本,按网络结构得到输出;

(2)将实际输出与希望输出比较,得到误差,根据误差调节阈值和权值。重复两个步骤,直到误差满足要求为止;

研究表明,采用上述BP算法逐步调整权值和阈值,可能导致学习过程收殓速度慢,训练时间过长,又易陷入局部极小点而得不到最佳的权值和阈值分布。为了加快学习速率,已经有了一些优化BP算法[3],采用动态学习因子和惯性因子。这些方法在加快网络收殓速度方面比较显著,能较好地避免网络陷入局部极小。遗传算法不要求目标函数具有连续性,而且可以对复杂的多峰的,非线性及不可微的函数实现全局寻优,因此容易得到全局最优解或性能很好的次优解。将遗传算法和BP算法相结合可以具有寻优的全局性和精确性。算法过程为:

(1)对权值和阈值编码生成初始种群,由于是多参数优化问题,采用多参数映射编码;

(2)计算适应度值;

(3)如果不满足遗传算法停止条件,则对当代种群进行交叉、选择和变异产生新的个体,转(2);否则,转(4);

(4)对遗传算法找到的较好的解空间,采用BP算法在这些小的解空间中搜索出最优解。

3.2PID参数优化

由图5可知,神经网络根据系统的运行状态,通过在线调整PID的三个参数Kp,Ki,Kd,以达到某种性能指标的最优化。

图5BP网络整定PID参数原理图

经典增量式PID的控制算法:

算法步骤:

(1)确定网络结构,采用3—4—3的结构,输入分别为e(k),e(k)-e(k-1),e(k)-2e(k-1)+e(k-2)。输出为Kp,Ki,Kd。

(2)选择初始种群N=60,交叉概率Pc=0.08,权值,阈值的范围和初始化。选取目标函数为(偏差绝对值积分):,适应度函数为:

(3)采样得到rin(k)和yout(k),计算该时刻的误差。

(4)对网络进行学习,在线调整权值,阈值,计算神经网络的各层输入,输出,得到三个可调参数Kp,Ki,Kd。计算系统输出。

(5)计算适应度若不满足要求,转入第(3)步。

(6)找到最优的Kp,Ki,Kd,对系统仿真。

图6BP网络整定的控制曲线

仿真结果显示,用BP神经网络整定的PID控制系统比经典的Z—N(临界比例度)法有更快的响应特性,良好的动态特性和比较强的鲁棒性。

4结束语

由于神经网络具有自组织、自学习等优点,本文提出的优化的BP神经网络相结合的方法对控制器参数进行寻优,可根据对象的变化情况对控制器参数的在线调整,满足控制对象的动态特性随着环境变化而变化的要求。达到好的控制效果。遗传算法与BP网络的结合弥补了BP网络学习过程收敛速度慢,可能陷入局部级小的不足。

参考文献

[1]王树青等编著.工业过程控制工程[M].北京:化学工业出版社,2002

[2]李士勇著.模糊控制、神经控制和智能控制论[M].哈尔滨:哈尔并工业大学出版社,1996

[3]胡志军,王建国,王鸿斌.基于优化BP神经网络的PID控制研究与仿真[J].微电子学与计算机2006,23(12):138—140

[4]张文修著.遗传算法的数学基础[M].西安:西安交通大学出版社,2003

第3篇:神经网络论文范文

人工神经网络(AartificialNeuralNetwork,下简称ANN)是模拟生物神经元的结构而提出的一种信息处理方法。早在1943年,已由心理学家WarrenS.Mcculloch和数学家WalthH.Pitts提出神经元数学模型,后被冷落了一段时间,80年代又迅猛兴起[1]。ANN之所以受到人们的普遍关注,是由于它具有本质的非线形特征、并行处理能力、强鲁棒性以及自组织自学习的能力。其中研究得最为成熟的是误差的反传模型算法(BP算法,BackPropagation),它的网络结构及算法直观、简单,在工业领域中应用较多。

经训练的ANN适用于利用分析振动数据对机器进行监控和故障检测,预测某些部件的疲劳寿命[2]。非线形神经网络补偿和鲁棒控制综合方法的应用(其鲁棒控制利用了变结构控制或滑动模控制),在实时工业控制执行程序中较为有效[3]。人工神经网络(ANN)和模糊逻辑(FuzzyLogic)的综合,实现了电动机故障检测的启发式推理。对非线形问题,可通过ANN的BP算法学习正常运行例子调整内部权值来准确求解[4]。

因此,对于电力系统这个存在着大量非线性的复杂大系统来讲,ANN理论在电力系统中的应用具有很大的潜力,目前已涉及到如暂态,动稳分析,负荷预报,机组最优组合,警报处理与故障诊断,配电网线损计算,发电规划,经济运行及电力系统控制等方面[5]。

本文介绍了一种基于人工神经网络(ANN)理论的保护原理。

1人工神经网络理论概述

BP算法是一种监控学习技巧,它通过比较输出单元的真实输出和希望值之间的差别,调整网络路径的权值,以使下一次在相同的输入下,网络的输出接近于希望值。图1是人工神经Ui的结构模型,图中Ui为神经元内部状态,Qi为门槛值,Yi为输出信号,Xi(i=1,2,…,n)为神经元接收信号。该模型可表示为:

式中Wji——连接权值。

BP算法的神经网络图形如图2所示,设网络的输入模块为p,令其作用下网络输出单元j的输出为Opj。如果输出的希望值是Tpj,则其误差为Dpj=Tpj-Opj。若输入模块的第i个单元输入为Ipi,则就输入模块p而言,输入接点I与输出接点j之间的权值变化量为:

ΔWpji=zDpjIpi

式中,z是某一个常数。当反复迭代该式时,便可使实际值收敛于目标值[6]。其中隐含层既有输入网线,又有输出网线,每一个箭头都有一定的权值。

在神经网络投运前,就应用大量的数据,包括正常运行的、不正常运行的,作为其训练内容,以一定的输入和期望的输出通过BP算法去不断修改网络的权值。在投运后,还可根据现场的特定情况进行现场学习,以扩充ANN内存知识量。从算法原理看,并行处理能力和非线是BP算法的一大优点。

2神经网络型继电保护

神经网络理论的保护装置,可判别更复杂的模式,其因果关系是更复杂的、非线性的、模糊的、动态的和非平稳随机的。它是神经网络(ANN)与专家系统(ES)融为一体的神经网络专家系统,其中,ANN是数值的、联想的、自组织的、仿生的方式,ES是认知的和启发式的。

如图3所示,装置可直接取线路及其周边的模拟量、数字量,经模式特征变换输入给神经网络,根据以前学习过的训练材料,对数据进行推理、分析评价、输出。专家系统对运行过程控制和训练,按最优方式收集数据或由分析过程再收集控制,对输出结果进行评估,判别其正确性、一致性,作出最终判决,经变换输出,去执行机构。即使是新型保护,也会存在着某些功能模块不正确动作的可能,这时可以过后人为干预扩展专家系统数据库或由专家系统作出判别,作为训练样本训练ANN的这部分功能模块,改变其某些网线的权值,以使下次相同情况下减少不正确动作的可能。

下面是一个简单的ANN线路保护例子。当电力系统故障时,输电线路各相、各序电压、电流也随之发生变化,特别是故障后故障相的相电压和相电流,以及接地系统在接地故障的零序电流的变化有明显的代表性。比如选输入层神经元个数为14个,分别是Uar,Uai,Ubr,Ubi,UcrUci,Iai,Ibr,Ibi,Icr,Ici,Ior,Ioi(下标r和i分别代表实部与虚部),选定输出层神经元个数为5个:YA(A相),YB(B相),YC(C相),YO(接地),YF(方向),各输出值为1,代表选中;输出值为0,代表没选中(YF为0代表反向)。这5个输出完全满足线路方向保护的需求(没考虑正向超越),隐含层神经元数目为2N+1(N为输入层神经元数目)。训练样本集包含14个输入变量和5个输出变量,而测试样本集中的样本则只有14个输入变量。选图4的双侧电源系统作研究对象,输电线路、系统的等值正、零序参数如图4所示。

考虑的故障类型包括单相接地(K1),两相短路(K2),两相接地(K1—1),三相短路(K3)。

对图4所示的500kV双侧电源系统的各种运行方式和故障情况建立训练样本。

在正常状态下,令h∠δ=(EM)/(EN),h=1,δ

随负荷变化,取为-60°,-50°,-40°,-30°,-20°,-10°,0°,10°,20°,30°,40°,50°,60°,有13个样本。故障情况下,δ取值为-60°,-30°,0°,30°,60°,故障点选反向出口(-0km),正向出口(+0km),线路中部(150km),线末(300km)。接地电阻Rg取值0Ω,50Ω,100Ω,150Ω,200Ω,相间电阻Rp取值0Ω,25Ω,50Ω,则共有5×4×(5+3+5×3+3)=520个样本。每个样本的5个输出都有一组期望的输出值,以此作为训练样本。而实际运行、故障时,保护所测到的电流、电压极少直接与样本相同,此时就需要用到模糊理论,规定某个输出节点。如YA(A相)在某一取值范围时,则被选中。

文献[1]认为全波数据窗建立的神经网络在准确性方面优于利用半波数据窗建立的神经网络,因此保护应选用全波数据窗。

ANN保护装置出厂后,还可以在投运单位如网调、省调实验室内进行学习,学习内容针对该省的保护的特别要求进行(如反措)。到现场,还可根据该站的干扰情况进行反误动、反拒动学习,特别是一些常出现波形间断的变电站内的高频保护。

3结论

本文基于现代控制技术提出了人工神经网络理论的保护构想。神经网络软件的反应速度比纯数字计算软件快几十倍以上,这样,在相同的动作时间下,可以大大提高保护运算次数,以实现在时间上即次数上提高冗余度。

一套完整的ANN保护是需要有很多输入量的,如果对某套保护来说,区内、区外故障时其输入信号几乎相同,则很难以此作为训练样本训练保护,而每套保护都增多输入量,必然会使保护、二次接线复杂化。变电站综合自动化也许是解决该问题的一个较好方法,各套保护通过总线联网,交换信息,充分利用ANN的并行处理功能,每套保护均对其它线路信息进行加工,以此综合得出动作判据。每套保护可把每次录得的数据文件,加上对其动作正确性与否的判断,作为本身的训练内容,因为即使有时人工分析也不能区分哪些数据特征能使保护不正确动作,特别是高频模拟量。

神经网络的硬件芯片现在仍很昂贵,但技术成熟时,应利用硬件实现现在的软件功能。另外,神经网络的并行处理和信息分布存储机制还不十分清楚,如何选择的网络结构还没有充分的理论依据。所有这些都有待于对神经网络基本理论进行深入的研究,以形成完善的理论体系,创造出更适合于实际应用的新型网络及学习算法[5]。

参考文献

1陈炳华.采用模式识别(智能型)的保护装置的设想.中国电机工程学会第五届全国继电保护学术会议,[会址不详],1993

2RobertE.Uhrig.ApplicationofArtificialNeuralNetworksinIndustrialTechnology.IEEETrans,1994,10(3).(1):371~377

3LeeTH,WangQC,TanWK.AFrameworkforRobustNeuralNetwork-BasedControlofNonlinearServomechannisms.IEEETrans,1993,3(2).(3):190~197

4ChowMo-Yuen.TheAdvantageofMachineFaultDetectionUsingArtificialNeuralNetworksandFuzzyLogicTechnology.IEEETrans,1992,5(6).(2):1078~1085

第4篇:神经网络论文范文

1.1采用计算机模拟技术建立模拟模型

对BP神经网络模拟模型建立的基础,人们是这样认为的,因为影响工程造价的因素,大多数人们都是没办法确定的,所以我们不需要把这个值具体是多少确定下来,而是从另一个方面考虑,根据这个项目的基本情况,估计实际的造价落在某个范围的机会会大一些,这个思想就是计算机模拟技术建立模拟模型的理论基础。

1.2人工智能模型

工程造价估算专家系统,是通过人工智能,加上知识库技术而建立起来的,可是这种人工智能模型主要靠专家的知识,来对工程造价进行估计计算的,但是估算的结果是被估算人员的主观意识所影响的,不同专家的性格,知识面的宽窄,经验丰富与否、都是不确定因素,几乎可以会所不一样的估算专家所得出的结果都不会一样。这种方法很容易带有个人偏见和片面性。受专家的主观偏见性较强。

2BP神经网络模型构造与算法

2.1人工神经网络的基本原理

1985,D•E•Rumelhart等人组成的PDP小组提出的一种神经网络模型,这就是我们今天所说的BP神经网络,BP神经网络结构是利用误差反向传播来消除误差的,它有三个层次,有一个输入层,第二个是隐层,最后一个当然就是输出层。在训练估算中,我们可以通过计算输出值和我们预期的期望值,他们之间所产生的误差,逆向思维,去求解输出层单元的一般化误差,然后再把误差进行反向传播,把隐含层单元的一般化误差求解出来,并最终调整输出层和隐含层,包括输入层之间的连接权,还有连接权与隐含层和输出层的阈值,最终目的就是让系统误差达到我们可以接受为止。当先前的系统误差达到我们所需求的时候,权值和阈值就变成了固定不变的了,这样我们再通过反向逆推,就可以测出我们这个项目的未知信息。这就是人工神经网络的基本原理。

2.2BP神经网络模型建立的步骤

(1)我们首先确定模型输入层,隐含层还有输出层的神经元个数。并且以此为依据,确定BP神经网络模型的结构参数;(2)神经网络只能处理-l~l之间的数据,所以在输入网络时,我们不仅需要对原始数据进行规范化处理,还要对隐含单元和各个单元输入信息进行求和;通过反向逆推之后得到本单元的输入信息。所以对原始数据,隐含单元输入模块规范化细致化是非常重要的;(3)隐含单元的输出值可以根据神经网络操作模型得出,只要我们把net信号经过一次激发函数的处理,可以得到这个隐含单元的输出值;(4)对于输出单元节点,我们只要对前一层的隐含层单元输入信息,并且加权求和后,就能得到该单元的输入信息。操作起来非常方便快捷;(5)对权矩阵的调整,因为人工神经网络可以近似实现任意空间的数学映射。所以我们假设,如果神经网络输入单元数为M,输出单元为N,则在m维欧式空间尺中会有一个有界子集A,存在着一个到n维欧式空间,那么R中一个有界子集F(A)的映射。

3基于BP神经网络的工程造价估算模型

3.1定量化描述工程特征的因素

什么是工程特征,在BP神经网络中所说工程特征,就是指不但能表示工程特点,而且还能反映工程的主要成本构成的重要因素。,我们可以通过参照历史工程资料的统计和分析,进行工程特征的选取工作。选取完成之后,再根据专家的经验来确定,这样就可以万无一失了。首先我们可以通过典型住宅工程的造价组成进行分析,然后对建筑结构参数的变化和别的工程做一下对比,通过以上两点得出的结果,分析这些因素对造价的影响,依照以上的理论方法,我们进行了实践性的研究,最终把础类型,结构形式,建筑层数,门窗类型,外墙装饰还有墙体材料以及平面组合等,这7种因素作为工程的主要特征。不同的建筑工程有着不同的类型,比如说结构,可以是砖混结构和框架结构等;砖条基和钢筋砼条基础等都可以作为基础特征,对于这样的特征选取的多样性我们称之为特征类目,通过工程特征不同类目的列举,再跟据定额水平,工程特征对造价影响的相关性,这些对平方米造价的改变,对工程定量化的描述可以主观的给出对应的量化数据。

3.2建立估价模型

工程造价估算的指标体系到该项目的单位造价的非线性映射,就可以统称为是建设项目工程造价的估算问题。BP网络可以根据人们的需求以任意的精度去逼近任意映射关系,究其原因就是上文说的BP网络采用的是三层BP神经网络结构,不同于其他的电脑估算网络。不仅是因为该模型的输入单元为7个,还有他们的项目样本特征也不尽相同。神经网络可以根据已经经过我们优选的模型特征,做为参考估算要素,然后再通过项目工程造价估算中,我们所提供的一定数量的已知样本,采取对样本的神经网络训练,最后根据以往的大的数据库,提取类似的项目估算值,然后才能对其它特征的项目进行估算。这样我们只需要输入指标体系的各指标值,BP神经网络就可以在该项目的单位造价的非线性映射中给出该项目的单位造价。

3.3检测结果的分析

上面我们通过大量的实际实验得知了这两个固定不变的数字,然后我们可以用程序值被收敛后的网络,对现在要进行求解的数据进行检测,在测试后,如果发现总体误差比率较小,那么就满足我们初步设计的概算需求了,同时对工程可行性研究的投资估算需求也已经基本符合了,这些结果能有好的保证,全是依赖我们所选择的模型的宽度够用,模型在所有的因素中具有广泛的代表性。所以估价模型的计算才较为成功。几个工程估算的好坏也不能代表所有的项目都是完美的,也有个别工程造价估算误差大,因为电脑毕竟是人在给其输入程序,电脑的经验,还有就是对一些特征的学习不够用,本身的知识储备还是有局限性的。因为对样本数量的学习始终是有限,不可能面面俱到,而且挑选的样本也不可能针对这个工程而言都是符合这个项目的特性。虽然说BP神经网络模型有这样无法控制的缺点,但是和其他的造价估算模型相比,BP神经网络模型的优点还是可圈可点的,其优点和其他的造价模型相比较优点还是非常明显的。在以后的估算中,随着样本的不断充实,数据的不断积累,经验的不但丰富,其估算的误差也将不断缩小,这些方面的补充,在以后的估算中,必定会取得非常完美的成绩。

4总结

第5篇:神经网络论文范文

在本研究中,其中一个目标(或者说是非合作型的度量指标)就是非连续度量,其非连续性在那些具有较少模式的数据集中尤为明显。由于该度量使神经网络优化过程难以聚敛,因此本文采用交叉熵方法得到一个连续函数并以此作为第一个目标。在本文算法中,初始种群为任意一个由N个神经网络个体构成的群体。该种群中个体间的连接权重是随机建立的某一确定间隔(输入层和隐藏层之间的权重为[-2,2],隐藏层与输出层之间的权重为[-10,10],这些间隔范围值都是经过实验而确定的)。初始种群产生后,使用上面提到的两个目标函数对其进行评估。经过评估后,可按照帕累托最优原则对群体中的个体进行分类,每个个体都被赋予了与其非支配水平相同的适应度。那些非支配个体被选为父代个体进行遗传操作,然后再对他们进行二进制淘汰(两两对比后选择较优个体)。

为了产生新的子代个体,需要对选择的父代个体进行变异运算。这里共有五种变异算子可供选择,其中,四种是结构变异,一种是参数变异,选择任何一种变异算子并对个体进行变异的概率均为1/5。参数变异在父代连接权重中加入高斯噪音;结构变异使用种群多样性来增加搜索空间的多样性。具体来讲,变异算子实际上就是“增加/删除神经元”和“增加/删除连接”。将新产生的子代个体加入到下一代群体中,重复以上过程直至后代种群数量达到N;接着,对后代种群进行两项指标评估并将其与父代种群合并;然后再对新产生的种群按照帕累托原则进行分类,其中最优的N个个体被选为下一代的父代,重复以上的生产过程。本文算法使用局部搜索来对父代群体和后代群体进行合并,只有那些来自第一次帕累托前沿的(即通过非支配分类得到的)个体才能进行优化,这大大地减少了运算成本,因为没有对整个变异的后代个体进行局部搜索。经过优化,每个个体的适应度在近似误差方面都得到了更新。整个演算过程只在开始、中间和结束部分使用优化算法,也即整个演化过程只使用了三次局部搜索。

2实验结果

本节将以电子行业高新企业的投资决策方案评估实例来验证方法的可行性。在电子元器件的生产过程中,其装配系统的投资决策方案有三种,本章所使用的装配系统每年能够生产的产品数是不断增加的。在投资决策方案A中,整个装配过程包含以下几个有序操作:产品自动预装配、两级人工装配、试验台测试、焊台焊接、二级试验台测试、三级装配、自动贴标以及包装。与投资决策方案A相比,B方案的区别在于其三级装配为自动装配,C方案在B方案的基础上又将包装升级为自动包装。表1概括总结了三种投资决策方案的主要信息。从表1可见,A方案的装配系统初始投资是最低的,产量也是最低的。对于A方案而言,三级装配是第一个产能限制的操作,第二个就是包装。若要将A方案的产能提升至C方案的产能,三级自动装配站的改造成本为10万元,自动包装站的改造成本为12万元。每一种系统配置的运营成本可根据每个生产单元的非固定成本以及雇员数决定的固定成本(每人每年4万)来计算。对于每种投资决策方案而言,每个生产单元的可调节价格为3元。由于产能弹性是装配系统所需的弹性要求,故对三种不同产品需求场景进行了描述对比(如表2所示),它们之间的主要区别在于年需求增长百分比和出现的可能性。

场景I的增长百分比最小,但是它出现增长的可能性最大,因此场景I是未来的基本场景,场景II和III是未来可能出现的场景。根据以上信息,假设现在年需求利率为9%,可获得不同投资方案的资产收益率(ROA)。结果显示,所有方案都能满足未来基本场景的需求,因此投资决策方案没有必要改造。表3对比了不同投资决策方案的评估结果,可见B方案具有最高的资产收益率(5.04%),因此它也是实现未来基本场景的较为经济的配置;C方案的资产收益率很低,主要是因为它的初始投资以及每个生产单元的变动成本都很高。在本案例中,系统的产品需求以及产能之间的对比可显示该种装配系统是否需要改造。在场景II中,A方案需要在第四年进行改造,因为所需的产品量已经超过系统的生产能力,改造成本为10万元。在场景III中,A方案需要两次改造(第二年和第四年),B方案在第四年需要改造。

不同系统配置的预期ROF指标如表3所示。由于A方案在所有场景中都需要改造,它的预期ROF为1.7%。C方案的产能弹性最高,因此其预期ROF也最高,为2.9%。计算结果显示,B方案在所有场景中都是较为经济的系统配置,其资产收益率为5%,资产收益率和预期ROF之和高达7.4%,所以B方案是平衡初始投资和产能弹性之间的最佳配置。

3结束语

高新企业投资范围极广,很多复杂因素都需要考虑。社会因素、城镇化、环境条件、能源供应及政治平衡等多种因素共存于高新企业投资之中,影响着高新企业投资问题的任一决策。根据笔者掌握的资料,对于涉及范围广、影响不易控制的高新企业投资决策方案评估来说,那些常见的评估方法很难得到令人满意的结果。鉴于此,本文基于多目标神经网络提出并构建了一种高新企业投资决策方案评估方法。在本文方法中,笔者首先定义了两个评估指标:非连续度量指标和最低灵敏度指标。初始种群为任意一个由多个神经网络个体构成的群体。初始种群产生后,使用上面提到的两个目标函数对其进行评估。经过评估后,可按照帕累托最优原则对群体中的个体进行分类,每个个体都被赋予了与其非支配水平相同的适应度。那些非支配个体被选为父代个体进行遗传操作,然后再对他们进行二进制淘汰。本算法使用局部搜索来对父代群体和后代群体进行合并,只有那些来自第一次帕累托前沿的个体才能进行优化。经过优化,每个个体的适应度在近似误差方面都得到了更新。

第6篇:神经网络论文范文

关键词:神经网络系统入侵检测系统网络安全

入侵检测作为一种主动防御技术,弥补了传统安全技术的不足。其主要通过监控网络与系统的状态、用户行为以及系统的使用情况,来检测系统用户的越权使用以及入侵者利用安全缺陷对系统进行入侵的企图,并对入侵采取相应的措施。

一、入侵检测系统概述

入侵检测系统(IntrusionDetectionSystem,简称IDS)可以认为是进行入侵检测过程时所需要配置的各种软件和硬件的组合。对一个成功的入侵检测系统来讲,它不但可使系统管理员时刻了解计算机网络系统(包括程序、文件和硬件设备等)的任何变更,还能给网络安全策略的制订提供指南。更为重要的一点是,对它的管理和配置应该更简单,从而使非专业人员能非常容易地进行操作。而且,入侵检测的规模还应根据网络威胁、系统构造和安全需求的改变而改变。入侵检测系统在发现入侵后,会及时做出响应,包括切断网络连接、记录事件和报警等。

二、入侵检测系统的功能

1.检测入侵。检测入侵行为是入侵检测系统的核心功能,主要包括两个方面:一方面是对进出主机或者网络的数据进行监控,检查是否存在对系统的异常行为;另一方面是检查系统关键数据和文件的完整性,看系统是否己经遭到入侵行为。前者的作用是在入侵行为发生时及时发现,使系统免受攻击;后者一般是在系统遭到入侵时没能及时发现和阻止,攻击的行为已经发生,但可以通过攻击行为留下的痕迹了解攻击行为的一些情况,从而避免再次遭受攻击。对系统资源完整性的检查也有利于我们对攻击者进行追踪,对攻击行为进行取证。

2.抗欺骗。入侵检测系统要识别入侵者,入侵者就会想方设法逃避检测。逃避检测的方法很多,总结起来可分为误报和漏报两大类。一种使入侵检测系统误报的实现形式,是快速告普信息的产生让系统无法反应以致死机,这其实是通用的网络攻击方式一拒绝服务攻击在入侵检测系统上的体现。与误报相比,漏报更具危险性,即躲过系统的检测,使系统对某些攻击方式失效。入侵检测系统无法统一漏报和误报的矛盾,目前的入侵检测产品一般会在两者间进行折衷,并且进行调整以适应不同的应用环境。

3.记录、报警和响应。入侵检测系统在检测到攻击后,应该采取相应的措施来阻止攻击或者响应攻击。作为一种主动防御策略,它必然应该具备此功能。入侵检测系统首先应该记录攻击的基本情况,其次应该能够及时发出报警。好的入侵检测系统,不仅应该把相关数据记录在文件或数据库中,还应该提供好的报表打印功能。必要时,系统还应该采取必要的响应行为,如拒绝接受所有来自某台计算机的数据、追踪入侵行为等。

三、神经系统网络在入侵检测系统中的应用

目前计算机入侵的现状是入侵的数量日益增长、入侵个体的入侵手段和目标系统多种多样,因此要确切的描述入侵特征非常困难,入侵规则库和模式库的更新要求难以得到满足,这就要求入侵检测应该具有相当大的智能性和灵活性,这是多项人工智能技术被相继应用到入侵检测中的原因。

1.传统入侵检测中存在的问题。我们先来分析一下传统IDS存在的问题。传统IDS产品大多都是基于规则的,而这一传统的检测技术有一些难以逾越的障碍:

(1)在基于规则的入侵检测系统中,所有的规则可理解为“IF一THEN”形式,也就是说,这一规则表述的是一种严格的线性关系,缺乏灵活性和适应性,当网络数据出现信息不完整、变形失真或攻击方法变化时,这种检测方法将失效,因此引起较高的误警率和漏报率。

(2)随着攻击类型的多样化,必然导致规则库中的规则不断增多,当这些规则增加到一定程度,会引起系统检测效率的显著降低,在流量较高时,可造成丢包等现象。此外,攻击方法的不断发展,使得传统的入侵检测系统无法有效地预测和识别新的攻击方法,使系统的适应性受到限制。

(3)传统的用来描述用户行为特征的度量一般是凭感觉和经验的,这些度量是否能有效地描述用户行为很难估计。有些度量当考虑所有用户可能是无效的,但当考虑某些特别的用户时,可能又非常有用。

2.神经网络在入侵检测中的应用

作为人工智能(AD)的一个重要分支,神经网络在入侵检测领域得到了很好的应用。神经网络技术在入侵检测系统中用来构造分类器,主要用于资料特征的分析,以发现是否为一种入侵行为。如果是一种入侵行为,系统将与已知入侵行为的特征进行比较,判断是否为一种新的攻击行为,从而决定是进行丢弃还是进行存盘、报警、发送资料特征等工作。神经网络在入侵检测中的具体实现方法一般有两种:

(1)系统或模式匹配系统合并在一起

这种方法不是像以前一样在异常检测中用神经网络代替现有的统计分析部分,而是用神经网络来过滤出数据当中的可疑事件,并把这些事件转交给专家系统处理。这种结构可以通过减少专家系统的误报来提高检测系统的效用。因为神经网络将确定某一特别事件具有攻击迹象的概率,我们就可以确定一个闽值来决定事件是否转交给专家系统作进一步分析,这样一来,由于专家系统只接收可疑事件的数据,它的灵敏度就会大大增加(通常,专家系统以牺牲灵敏度来减少误报率)。这种结构对那些投资专家系统技术的机构大有好处,因为它提高了系统的效用,同时还保护了在现有IDS上的投资。

(2)网络作为一个独立的特征检测系统

在这个结构中,神经网络从网络流中接受数据,并对数据进行分析。任何被识别为带有攻击迹象的事件都将被转交给安全管理员或自动入侵应答系统来处理。这种方法在速度方面超过了以前的方法,因为它只有一个单独的分析层。另外,随着神经网络对攻击特征的学习,这种结构的效用也会不断提高,它不同于第一种方法,不会受专家系统分析能力的限制,而最终将超越专家系统基于规则的种种限制。

参考文献:

第7篇:神经网络论文范文

 

 

本 科 生 毕 业 论 文(设计)

 

本 科 生 毕 业 论 文(设计)

题目 阵列化的非晶体纳米硅神经突触器件制备与数值模拟        

 

 

姓名与学号     郑浩 315104964    

指导教师        皮孝东          

合作导师                        

年级与专业  2015级 材料科学工程  

所在学院        材料科学工程        

 

提交日期                          

A Dissertation Submitted to Zhejiang University for

Bachelor Degree of Engineering

 

Preparation and Numerical Simulation of Arrayed Amorphous Nano Silicon Synaptic Devices

 

Submitted by

Hao Zheng

 

Supervised by

Prof. XiaoDong Pi

 

 

School of Materials Science and Engineering

 Laboratory of Silicon Materials, Zhejiang University, Hangzhou

 People’s Republic of China

May, 20th, 2019

 

 

浙江大学本科生毕业论文(设计)承诺书

1.本人郑重地承诺所呈交的毕业论文(设计),是在指导教师的指导下严格按照学校和学院有关规定完成的。

2.本人在毕业论文(设计)中除了文别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 浙江大学 或其他教育机构的学位或证书而使用过的材料。

3.与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。

4. 本人承诺在毕业论文(设计)选题和研究内容过程中没有伪造相关数据等行为。

5. 在毕业论文(设计)中对侵犯任何方面知识产权的行为,由本人承担相应的法律责任。

6.本人完全了解 浙江大学 有权保留并向有关部门或机构送交本论文(设计)的复印件和磁盘,允许本论文(设计)被查阅和借阅。本人授权 浙江大学 可以将本论文(设计)的全部或部分内容编入有关数据库进行检索和传播,可以采用影印、缩印或扫描等复制手段保存、汇编本论文(设计)。

 

 

作者签名:                         导师签名:

 

签字日期:     年   月   日      签字日期:      年   月   日

 

 

 

致  谢

致谢内容。(仿宋字体或Times New Roman,小四号,两端对齐,首行缩进两个汉字符位,段前0磅,段后0磅,固定行距20磅。)

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

 

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

致谢内容。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

摘  要

信息时代的来临,人类在处理大数据与多信息的任务面前面临着很大的挑战,传统的冯-诺依曼式计算机思想在处理这些问题时出现了本质上的不足,因此神经网络的应用于硬件化变得十分迫切。随着忆阻器的发现,类脑计算的实际应用变得可能。本文从硬件神经网络的兴起出发,阐述了硬件神经网络的研究现状与实现途径,之后引入了生物神经元的特征,阐述了以往关于人类神经元建立的数学模型。之后本文提出了一种阵列化硅纳米晶体神经突触器件的制备方法与过程,并且在基于这样的器件上,得到相应的LTP与STDP数据,将这些数据分别用于探究:神经元激活函数数值模拟,有监督脉冲神经网络之tempotron算法数值模拟与STDP无监督学习网络数值模拟,在得到结果的基础上,提出了硬件化神经网络所需要的器件的基本性质与要求。为未来的硬件化目标提出了可行性与基本方向。

关键词:硬件神经网络;神经元;神经突触器件;激活函数;Tempotron算法;STDP;无监督学习

Abstract

With the advent of the information age, human beings face great challenges in dealing with the task of big data and multiple information. The traditional von Neumann-style computer thought has its essential shortcomings in dealing with these problems, so the application of Hardware

neural networks have become very urgent. The discovery of memristors made it possible for the practical application of brain-like calculations. Starting from the rise of hardware neural networks, this thesis firstly expounds the research status and implementation of hardware neural networks, and then introduces the characteristics of biological neurons, and expounds the previous mathematical models of human neuron establishment. After that, an arrayed hybrid silicon nanocrystal based synaptic devices have been prepared. Nervous function behaviors, e.g. LTP and STDP, have been obtained based on this device. These data are then separately used to explore neuron activation function values Simulation, numerical simulation of tempotron algorithm with supervised pulse neural network and numerical simulation of STDP unsupervised learning network. Based on the results, the basic properties and requirements of the hardware required for hardware neural network are proposed. The feasibility and basic direction for future hardware goals are proposed.

Keywords: Hardware neuron network; neurons; Synaptic device; activation function; Tempotron algorithm; STDP; unsupervised learning;

目  次

第一部分  毕业论文(设计)

A DiSubmitted to Zhejiang University for

I

III

V

VII

IX

第一章 绪论

1.1.1 硬件神经网络的兴起

1.1.2 硬件神经网络的实现

1.3.1 生物神经元介绍

1.3.2 人工神经元介绍

1.3.3 人工神经网络介绍

1.3.4 脉冲神经网络介绍

3.1.1 神经网络结构

3.1.2 神经元硬件化结论

3.2.1 脉冲编码

3.2.2 权值更新

3.2.3 数值模拟结果

3.2.4 LTP权值改变法

3.2.5 STDP权值改变法

3.2.6 结论

3.3.1 理论背景与基础

3.3.2 网络设计

3.3.3 模拟结果

作者简历

攻读学位期间发表的学术论文与取得的其他研究成果

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

第一部分

 

毕业论文(设计)

第一章  绪论

11.1  硬件神经网络1.1.1  硬件神经网络的兴起

21世纪进入信息时代后,计算机的普及率大大上升,计算机本身也在计算力与逻辑处理上远远超过了人脑,然而不足的是,在数据的存取与记忆上,仍然是采用冯-洛伊曼式的串行方法,且功耗很大,而人类大脑拥有10^11 个神经元和10^15神经突触。这使得人类处理信息的方式是高效的并行方式,并且功耗很低。例如人类大脑看到一种东西,识别它的过程往往使视觉神经信号与记忆信号同时作用的结果,功耗在fj量级。在使得冯-洛伊曼式计算机处理复杂指令与控制上体现出了根本性的缺陷。基于这一点,神经网络的研究开始兴起,在1943年,McCulloch 和 Pitts 提出了神经元的形式化模型后, 有关于神经网络的讨论也逐渐火热起来,但其发展的中途受到很多科学家对其的质疑[19]。直到 1980年左右, Rumelhert 与他的研究伙伴[20]一起发表了著名的并行分布式处理( Parallel Distributed Processing)方法的工作 , 并且建立了 BP 算法和前向神经网络,从数学上的形式,证明了这种算法的可行性,BP神经网络是一种前馈式的误差逆向传播网络,通过训练集不断缩小输出值与目标值的差值从而达到非线性优化的目的。由此,神经网络的数学原理得到证明,其实在1970年神经网络存在一段低落期,也受到了很多怀疑。但是BP神经网络的兴起与提出,让科学们对于神经网络的态度再次火热起来。21世纪随着深度学习的提出,又掀起了一股关于人工智能的热潮,Deep learning 是在多层感知机的基础上,不断增加隐含层的层数,这上面又出现了一些数学上的问题比如激活函数的梯度弥散问题,但是由于Relu激活函数替代sigmod函数的提出,这些问题逐步得到了解决,深度学习向前发展了一大步。比如IBM的“深蓝”击败世界围棋选手李智石等,但是实际上,“深蓝”在击败李智石时消耗的电量等于一桶油的燃烧的焦耳值,但是李智石仅仅使用了两个馒头的热量战斗。也就是说,这场比赛其实并不公平。其实这反应的是人工智能的工作效率与真正人脑的学习效率仍然有很大的差距。神经网络本质是由多个简单的信号处理单元组成,这些简单的信号单元之间由一种方式连接形成网络,它意在模仿人类大脑处理信息的模式,从而实现图像识别,音像识别,特征提取和记忆等功能。现在计算机能够从软件上对神经网络进行实现,然而关于数据的存取方式仍然无法得到突破,数据的存取方式仍然是老式冯-诺依曼式的串行处理方式。但是人类识别图像,获得信息是并行的。因此硬件神经网络的开发是必要的,硬件神经网络能够使用集成电路实现并行处理信息,并且能耗低,效率高,能够更贴近人类大脑的工作方式。因此硬件神经网络的开发受到很多的关注与研究,未来人工智能和类脑计算的发展前景中,硬件神经网络的研究是必须的。

[ANNOTATION:

BY 'wenhuang'

ON '2019-05-23T09:23:00'w

NOTE: '这部分放到前言部分比较好,或者干脆就不要了,放在这里是不合适的。']本文的第一章即绪论,主要是阐述当前关于硬件化神经网络的突破,现状与发展形势。

第二章主要从人类的神经元开始,讲述人类生物神经元的特点,讲述现在人工神经元的数学模型,以及硬件化神经元需要的要求与方式

第三章主要讲述制备实验器件的技术路线,与制备的过程和使用的材料

第四章从数值模拟的角度,探究神经元硬件化的条件是怎么样的,数值模拟选取MNIST数据集作为样本数据集,通过使用实验得到的激活函数替论激活函数,观察网络的准确率,得出相关结论,探究硬件需要满足的条件

第五章从数值模拟的角度,探究突触硬件需要满足的条件,突触与神经元不同,它是作为神经网络中存储权值,改变权值的存在,与神经元有本质上的区别,数值模拟采用26个英文字母的图片作为数据集,进行编码后发送脉冲,使用Tempotron 的有监督脉冲神经网络进行数值模拟,通过实验硬件得到的LTP与LTD图像进行权值更新。得到预测率的图像,证明了LTP的电或者光电器件能够作为脉冲神经网络硬件化的一个器件,为未来做出相关硬件网络道出了一种可行性。

第六章主要是针对STDP的学习机制扩大网络规模,将数据集扩展到MNIST手写数据集,使用STDP无监督学习网络[16]对数据进行训练,之后再对训练好的神经元进行分类。得到我们想要的结果。

第七章主要是总结本文的工作得到的结论,以及对于未来硬件神经网络的发展的一些展望与看法

 

 

1.1.2  硬件神经网络的实现

一般硬件神经网络的实现方式有三种,即采用电子学方法——依靠微电子技术实现人工神经网络, 采用光电方法——依靠半导体光电集成技术实现人工神经网络, 采用光学方法实现人工神经网络[18]。微电子技术应该是通过各种电路设计,例如放大电路,差分电路等集成电路,实现神经网络的reference部分。依靠光电实现的硬件神经网络是本文的重点,利用电学元器件,忆阻器器件,或者是光电器件,模拟生物神经元的膜电位变化曲线,与人类大脑的权重学习规则,从而实现神经网络的硬件化。采用光学的方法实现网络计算的方法十分有趣,UCLA大学的研究小组发明了一种全光的深层神经网络,通过光的反射与折射传递信号,利用光入射的相位差记录权值变化,实现了全光的神经网络,而且由于光的传播速度是光速,在整个网络的效率与速度上都十分惊人,能耗也十分低[21]。神经网络的电子学硬件实现方法主要有四种,其中分别是数字实现、模拟实现、混合数/模实现和脉冲技术实现等[18]。通过数字实现的神经网络一般精度很高[1,2],权值易存储也容易改变,并且能够通过电路实现并行处理,克服传统计算机串行处理数据的弊病,但是缺点是电路难以集成,体积很大,很难适用于计算机新型芯片这种地方。通过模拟实现的神经网络能够很好克服上面的缺点[3,4,5],但是由于突触和神经元器件对参数敏感,准确度下降,更关键是对于权值的存储存在困难。1987年是一个转机,即脉冲技术第一次用于了神经网络,使用VLSI技术作为实现,从这以后,神经网络的脉冲技术受到了很多关注[9,12]。

脉冲技术,简单来说就是将神经元的兴奋或者抑制状态通过一定的编码方式转化到脉冲的波形上,编码的方法一般有高斯编码,或者可以自定义的编码方式。由于脉冲化的信号是离散的,因此一定程度上可以简化运算电路:例如突触电路。神经元与一般的电路元件不同,它本身的密度很高,正如人类神经元的密度很高一样。这种紧密的排列方式使得脉冲信号把芯片和外围设备的接口变得更容易连接。本文正是利用从脉冲神经网络出发,制备出硬件化的元件,通过数值模拟硬件的实际可行性,并且对于未来硬件化神经网络的方向提出一些看法

21.2  硬件神经网络研究进展当前的人工神经网络存在三种模式,第一种是非学习型神经网络,即网络的前馈过程与权值计算过程全部由软件进行实现,权值是固定不变的,只用神经网络的电路结构完成之后,再与实际电路结构匹配即可。另外一种是on-chip的模式,即前馈过程通过微电子电路进行实现,权值的更新与计算通过计算机实现。还有一种off-chip模式,即是一种全自动的自主性芯片,从神经网络的前馈环节到神经网络的BP算法实现都一并完成。目前的研究状况,我们已经能够熟练通过电路的设计实现非学习神经网络。在on-chip式的人工神经网络上,我们也能通过一定的模拟方式得到实现。现在的当务之急是开发off-chip式的神经网络,使用硬件对权值的存储与改进是必要的。自从20世纪60年代后期引入忆阻器概念以来,由于其简单性和功能相似性,它们被认为是模拟突触装置的最有希望的候选者。2008年,惠普公司公布了基于TiO2的RRAM器件[6],开拓了RRAM和忆阻器之间联系,做出了一定的应用之后以非易失性存储器件和神经突触晶体管为代表开始成为神经突触器件的基础。但将这些器件用于第二代神经网络(也就是多层感知机)上,取得了一定的成就,现在关于这方法的也在如火如荼的进行着,但是由于第二代神经网络的基础仍然是基于计算机的算力达到的深度,也就是说,加深隐含层的数目提高准确度,知识因为有着强大的计算芯片作为支持。我们需要考虑一种完全类似于人脑思考问题的神经网络与算法,于是脉冲神经网络开始兴起,并且被誉为第三代神经网络,这是一种完全基于人脑计算模式的神经网络,从长程记忆可塑性LTP,时间可塑依赖性STDP等研究的深入,这一网络的硬件化也成为了可能

31.3  从生物神经元到人工神经网络1.3.1 生物神经元介绍

人的大脑中有超过 1011个神经元,这些神经元之间的连接的突触又大约有10^15个,这些突触使得神经元互相连接,从而构成了复杂多变而又有条不紊的神经网络[7]。这些神经元的单独处理信息的速度并不算很快,但是人类的大脑能够很有效的利用这些神经元并行处理。即大量神经元一起处理一个任务,这有些类似于计算机里的多线程并行操作算法。人类大脑的神经元数目虽然庞大,但是它的能耗低却是特点,我们每日摄入的热量与一些机器的能源是不能够比拟的,然而我们的大脑就能够实现很多计算功能,有数据显示,脑神经系统一个动作每秒消耗的能量比最优秀的处理器能耗小1010个数量级。

人的生物神经元有两个部分,分别是细胞体和突起。具有处理并且整合输入的神经信号,然后传出这些信息的作用。突起有树突和轴突两种。树突相对较短但分枝很多,其作用是接受其他神经元轴突传来的冲动并传给细胞体。轴突长而分枝少,常常出现在轴丘,一般为粗细均匀的细长突起,其作用是接受外来刺激,再由细胞体传出。神经元与神经元之间的连接被称为神经突触,两个神经元之间连接强度或者关联程度体现在突触的连接强度。一般而言神经元有以下的特点[8]:

1):可塑性:即神经元之间的突触可以连接,也可以取消,连接可以变强,也可以慢慢变弱,方便与人类去适应不同的环境。

2):兴奋与抑制:神经元受到外界刺激之后,会产生膜内外渗透压的差别从而导致Na+或者Ca2+的流入或者流出,这些离子的迁移会产生动作电位,导致膜电位的上升或者下降,也就对应了人类神经元的兴奋和抑制过程。

3):学习与遗忘:由于可塑性的存在,当人类在长时间受到同一种刺激的时候,会产生我们的所说的学习功能,而这种功能其实是神经元之间的连接得到了加强,同理,如果我们慢慢遗忘了一些东西,是因为长期不去使用从而神经元之间的连接衰弱了。对应的有LTP,LTD图像来进行表征。

4):突触的延时和不应期。神经冲动的传递在突触中是需要时间的,一般这个时间是1-150ms。另外,神经元也不会在短时间内接受两次冲动,一般需要间隔一定的时间,这个被称为不应期。

从上面可以看到,想要用神经元器件模拟人类的生物的神经元,一定要从生物本质和特征去进行模拟。本文后面的数值模拟会再把这些特征一一强调一次,从而达到一种仿真的目的。

1.3.2 人工神经元介绍

早在1943 年 McCulloch 和 Pitts 提出了神经元的形式化模型, 神经元可用简单的zha值函数表示,并完成逻辑函数功能[19]。20世纪初期,美国心理学家Willian Jame 提出,一个神经元应该是同时接受来自不同神经元的信号后,由于不同神经元之间的突触连接强度不同,神经元相当于是一个加权和,并且由于兴奋存在一个阈值电压,需要一定的电压值才会fire,因此神经元可以用一个数学模型来勾画,即著名的MP模型。

y=f(∑i=1nwixi+b)

                        (2-1)

 

其中,表征每个神经元的输入值,表征神经元之间的连接强度,b代表阈值电压。外界的f函数则是一种神经元的处理函数。

 

图1-1 MP 神经元模型

Fig.1.1 Neurons model

可以看到,对于神经元的硬件实现实际上是一个乘法器的实现以及加权和非线性处理,这个可以通过放大电路等进行实现。后续本文也将探究一下神经元应该具备怎样的条件,或者怎么样的器件适合作为神经元器件。

1.3.3 人工神经网络介绍20世界80年代,J.Hopfield 提出了 Hopfiel 神经网络, 引起了神经网络理论在优化学术界的轰动。然而热潮还远远没有结束。1986年,Rumelhart和McCelland提出了BP神经网络,这种神经网络是现在很多网络算法的基础,它是一种依靠逆向传播输出值与实际值误差修正网络权值的网络,利用梯度下降算法或者随机梯度下降法降低目标值与实际值的误差,随机梯度下降算法时为了加速算法收敛速度提出的更好的方式,现在很多网络也应用这种方法

 

图 1-2 经典的神经BP神经网络模型

从图中我们可以看到的是,网络一般由输入层,隐含层和输出层三个部分构成,其中输入层可以是图像的像素值,音频信号等等,因此神经网络现在广泛用于人脸识别,图像识别,声音识别等等领域。隐含层的多少是决定一个网络是否是深层网络的基本要素,隐含层如果越多,那么挖掘的信息,提取的特征就越难以用表面语言描述,训练的精度也会逐步的提升。输出层是网络的输出,网络的输出后往往会选择一个损失函数,这个损失函数是用于衡量目标值与实际值的差值从而进行误差反向传播计算。常见的损失函数有MSE函数,Cross-Entorpy函数等等。

 

图1-3 硬件神经网络的一种实现[15]

基于经典的BP神经网络MLP的硬件实现如上图所示,使用电路模拟整个网络的结构,在电路横向与纵向的cross_bar 的地方放置突触装置,利用电流与电压的比值进行权值的存储与更新。这样的网络往往需要得到的I-V曲线是对称的,就是说,权值的变化需要是随着强度的增加而增加,减少而减少,呈现一种线性的变化,从而保证在进行BP算法时,误差能够不断减小。

1.3.4 脉冲神经网络介绍随着在21世纪早期计算能力的显现,DNN(多层感知器,深层信念网络,传统神经网络等等)迅速发展,DNN的基本特征是有很多隐含层,这些神经网络能够实现监督与非监督学习,并且能够优秀的完成有大量数据的任务。然而实际上,现在的DNN的优秀来源于GPU的并行加速机制,是在计算机多核算力上的体现,在其本身的算法上,其效率远远不如人脑高。SNN(脉冲神经网络)最近引起了很多关注,因为它们与生物系统非常相似,在SNN中,输入信号是尖峰,而不是传统神经元中的恒定馈送。 人们普遍认为能够处理尖峰是大脑在序列识别和记忆方面如此壮观的主要原因之一[9]。序列识别是计算中更重要的主题之一,因为它直接影响系统处理强烈时序依赖的刺激的能力,例如语音识别和图像检测[10]

 

图1-4  STDP图像

对应STDP的最简单理解是,如果前突触神经元的信号在后突触神经元的信号之前达到,有理由认为前突触的信号导致后突触神经元的信号产生,那么这两者之间的突触连接强度应该增加,反之就该减少。但如何保证这种训练模式一定是有效的呢?Bengio 和 Fischer 两人在2015发表的文章[11]指出具有对称反馈权重的网络将具有以下特性:“输出单元”的小扰动将向更好的预测传播到内部层,使得隐藏单元移动到大致遵循预测误差J相对于隐藏单元的梯度。而STDP规则大致对应于预测误差的梯度下降,即STDP的规则其实和SGD算法有着异曲同工之妙。Scellier和Bengio(2016)报告的实验已经真实地表明这些近似值可以工作并且能够训练有监督的多层神经网络[12]。

脉冲神经网络被称为新一代神经网络,与经典的神经网络不同在于它的输入实际上不是一个连续值而是一系列脉冲,更为重要的是他的神经元膜电位,一旦达到了膜电位的峰值,那么这个神经元就被激活,后面的脉冲会进入一段不应期。关于神经元的模型,已经提出了HH模型,Izhikevich模型与LIF模型,其中以LIF模型为例,其微分方程的表示如下:

τdVdt=−(V−Vr)+RI

                      (2-2)

 

τ

是膜的时间常数,R为膜电阻,V是膜电位,Vr是复位电位,I是注入电流,当膜电压超过一个阈值时,神经元会发送一个脉冲。如果后面没有连续的刺激,这个产生的脉冲信号会不断衰退,膜电位也会恢复到复位电位后稳定。之后再接受电流再刺激。

 

针对脉冲神经网络的学习过程,也分为有监督学习和无监督学习,无监督学习主要以STDP为主[13,14],有监督学习包括Tempotron算法,ReSuMe算法和SpikeProp算法等等。本文主要采用Tempotron算法,下面做个详细的介绍:

在Tempotron算法中,考虑在阈值下,突触前神经元产生的脉冲信号,对突触后膜电位(PSPs)的贡献是来自所有脉冲输入的加权和:

V(t)=∑iωi∑tiK(t−ti)+Vrest

                  (2-3)

 

ti

表示第i个神经元的脉冲发送时间,

K(t−ti)

表示第i个脉冲对于膜电位的贡献,即突触前神经元发出的脉冲对于突触后神经元膜电位的影响。其标准形式如下:

 

K(t−ti)=V0(exp[−(t−ti)/τ]−exp[−(t−ti)/τs])

          (2-4)

 

τ,τs

是时间常数,为了保证K(t)在(0,1)之内变动,我们需要用V_0进行归一化处理,K(t)图像绘制如下图:

 

 

图1-5 K(t)随时间变化图

由监督学习的重点是要将权重更新向着误差减少的方向进行,获得期望的输出脉冲,更新规则如下:

Δωi=λ∑ti−tmaxK(tmax−ti)

                     (2-5)

 

即以二分类为例,ti

为突触前神经元峰值的产生时间,这里的

tmax

设定为我们设置的时间序列的终点,默认为突触后神经元的峰值的产生时间,但这和一般的STDP不一样,因为STDP的神经网络训练规则实际是不需要有监督的,而这里有一个参数

λ

,用于控制输出值与期望值的误差方向,如果突触前神经元产生峰值超过阈值电压的神经脉冲,并且突触后神经元指向分类标准与前神经元指向的分类相同,则不需要修改权值(说明这个连接正确),如果突触前神经元峰值未超过阈值电压,那么需要根据上式指定

λ

>0,并且计算需要增加的权值。反之当

λ

<0时,需要进行减小权值。总体看来,这是在借助有监督学习的条件下,在明白误差修正方向下利用STDP中的LTP与LTD曲线获得修正的幅度(可以认为是学习的速率),从而使我们获得期望的输出。注意上面提出一种概念:即在有监督学习的条件下,后突出神经元的峰值由标签值决定,并且根据误差值指明误差修正放向(体现为

λ

的正负性),然后依靠STDP决定修正幅度。这也是一种将STDP曲线用于有监督学习的可行性展示。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

第二章  实验部分12.1  阵列化基于硅纳米晶体杂化结构的神经突触器件制备2.1.1  制备技术路线在本论文里面,采用了冷等离子方法制备了掺B的Si量子点,相比于其他的掺杂方法,冷等离子法是借助了动力学的原理,从而实现了对硅纳米晶体的高效掺杂,一定程度上避免了利用热力学原理来掺杂的过程中出现的“自洁净”现象。相比之下能够实现比较高浓度的掺杂。

 

图2.1 使用冷等离子法制备掺杂硅纳米晶体示意图

使用冷等离子体法制备掺杂硅纳米晶体的装置设计示意如图2.1所示。先准备每分钟流量值12标准公升的硅烷氩气混合气(20% SiH4)、157 sccm的硼烷氩气混合气(其中含有0.5% B2H6)和105 sccm的高纯氬气通入到石英管中混合,调节系统尾部的真空泵,使腔体内的气压稳定在6 mbar。石英管中间部位套有两个铜环,分别接匹配箱和射频发生器的正负两级。在射频发生器(功率约为150 w)的激发下,铜环之间的石英管内将产生等离子体,混合气体在通过等离子体区域时将会发生分解反应,这个反应的产生是因为气体受到了高能粒子和电子的轰击产生的,具体化学反应式如下:

SiH4⃗Si+H2B2H6⃗2B+3H2

 

在器件制备方面,本文利用硅纳米颗粒的光电性能与以及表面缺陷对载流子具有俘获的性质,首先与钙钛矿进行杂化形成混合容易。通过旋涂工艺制备成了太阳能电池结构的神经器件,器件的结构是:Ito/pcbm/钙钛矿与硅量子点杂化层/spiro/Au。在该结构里面,ITO是通过光学刻蚀得到。PCBM, 钙钛矿与硅量子点杂化层, Spiro是通过旋涂方法得到。其中钙钛矿CH3PbI3与硅量子在DMF溶液(461mg PbI2, 159mg MAI,  71uL DMSO, 630 ul DMF.。Si量子点在溶液里面的浓度为10mg/ml.杂化旋涂后就制备出了膜。)里面。硅量子点掺杂B,掺杂B的硅纳米晶体尺寸是6nm, 钙钛矿膜厚大概在300nm左右,晶粒尺寸大概在200nm。Au电极采用热蒸发工艺得到,厚度大约为100nm。

[ANNOTATION:

BY 'wenhuang'

ON '2019-05-23T10:15:00'w

NOTE: '这一段是不是应该要删掉?']2.1.1  器件制备路线

在器件制备方面,本文准备利用硅纳米颗粒的光电性能与decay长的性质,与钙钛矿进行杂化形成自驱动电池,在制备电池的工艺上,选择旋涂工艺做成太阳能电池的结构,器件结构分别是:Ito/pcbm/钙钛矿与硅量子点杂化层/spiro/Au,之后使用热蒸发工艺将电极Au安装上,设置厚度大约为100nm。钙钛矿CH3PbI3与硅量子在DMF溶液(461mg PbI2, 159mg MAI,  71uL DMSO, 630 ul DMF. Si以DMF为溶剂,浓度为10mg/ml. 杂化旋涂后就制备出了膜。)里面。硅量子点掺杂B,掺杂B的硅纳米晶体尺寸是6nm, 钙钛矿膜厚大概在300nm左右,晶粒尺寸大概在200多纳米。段落内容。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 第三章  数值模拟13.1 神经元硬件化数值模拟3.1.1  神经网络结构对于神经元的模拟,和突触的模拟不同,神经元的功能由上文中的MP模型已经表述很清楚,他承担一个乘法器和加权和、还有实现一个神经元函数的功能,这个功能也是我们下面模拟要探索的。

 

图3-1 MINST数据集对于的神经网络结构

采用常用的MNIST手写识别数据集作为整个网络的输入,先将图像的RGB值转换成一个单位的灰度值,设计输入层应该有784个节点,隐含层300个节点,输出层设置10个节点,分别对应0-9个数字的pattern。在实际模拟时,采用两种方式处理,第一种是利用STDP非线性函数直接对输入的图像像素值进行处理,意在将灰度值转换为强度值。再用网络进行训练。第二张利用STDP非线性函数作为神经网络中的激活函数,意在探究神经元的基本性质。

训练模式采用SGD算法,样本集总共55000个图片,每张图片28×28有784个输入值,epoch设置扫描样本集10次以上,损失函数使用交叉熵函数,激活函数选择softmax函数进行激活分类,因为这个函数比较适合于多分类问题,在优化上也得到了理论的证明。首先我们先将实验中得到的STDP数据拟合结果如下:

 

图3-2 STDP Positive 拟合图像

这里故意选择了一个与常规激活函数相关性为负的激活函数,一般的激活函数比如sigmod,relu激活函数,其强度其实和输入值是呈

[ANNOTATION:

BY 'wenhuang'

ON '2019-05-23T10:23:00'w

NOTE: '什么意思']现正相关的,这里选取的作为负相关的原因是想探究是否能够作为激活函数使用。其结果如下:

 

图 3-3 拟合的Loss与Accuracy随训练次数的变化图

可以看到上述的结果是可观的,也就是说,激活函数的选取,与是否与输入值正相关没有关系。另外我比较了理论激活函数,实验激活函数,与对输入直接非线性处理得到结果的异同性:

 

图3-4 三种不同方法得到Loss函数变化情况

 

图3-5 三种方法得到的Accuracy变化情况

可以看到,理论激活函数(红色)在准确率上仍然时最高的,最后的样本内准确率有98.42%,但在loss的下降速度上,实验激活函数体现的更好,但实验的激活函数最后准确率只有96.69%。

3.1.2  神经元硬件化结论根据上面的模拟结果我们可以得到结论,对于神经元的硬件模拟,作为激活函数,只需完成非线性这个条件即可,但是在实现乘法器的过程中,需要电路由很好的线性度。这个线性度的要求实际是从BP算法的推导中获得的,这里简单的推导一下:

Δw=∂Loss∂w=∂Loss∂y∗∂y∂output∗∂output∂w

              (3-1)

 

上式想说明的是,我们需要调节权值w使得我们计算出的loss函数达到最小值,因此我们需要求其导数从而获得调整的方向,可以看到等式右边第一项实际是损失函数对于输入值的导数,第二项时激活函数对于输入值的导数,这两项在有输入值的条件下是可以求出的。而根据神经网络的矩阵运算:

output=w⋅x+b

                       (3-2)

 

可以看到,output值与输入的值时存在线性关系的,那么也就是说,我们权值变化量Δw

与输入的x需要满足线性关系。因此神经元硬件化需要实现的线性度不仅仅影响了加权的效果,还影响到权值更新的效率性。很多关于神经网络硬件化的论文一定会提到这个线性度,因为这个线性度时实现神经网络算法达到收敛的基本保障。

 

 

图3-6.a SET与RESET模式下的I-V曲线;b SET模式下的权值变化随刺激次数的变化;c RESET模式下的权值变化随刺激次数的变化[15]

如上图清华大学完成的忆阻器神经突触器件,选取电导作为权值时,需要I-V曲线在第一二想象有近似的对称值,其导数值(即权值)随着固定电压的刺激次数线性增加或者减小。一般而言,在硬件神经网络进行权值跟新的时候,会选择一个固定更新电压,在这个指定的电压下,我们需要保证权值的正向更新与负向更新有近似的值,这个在图像上体现为图像的对称。之前也有文章在图像的对称性上做了相关的材料探究。证明这样的对称性是必要的

23.2 有监督脉冲神经网络数值模拟3.2.1  脉冲编码脉冲神经网络与第二代神经网络最为不同的一点在于,它的输入并不是一系列连续的值,不是像图像像素一样一个个数据连续计入,也没有二值化的操作。而是离散的脉冲值,就图像识别而言,简单的多层感知器输入是输入图像的RGB值或者是图像的灰度值,将这些值进行标准化后作为网络的输入。而脉冲神经网络需要对于输入进行一定的脉冲编码处理,这个处理可以自己选择,但转化的思想很重要。即将图像的灰度值信息编程处理成一系列脉冲,并且将脉冲发出的时间作为网络的输入。下面介绍本文中tempotron算法的编码方式。

选取26个英文字母A-Z作为需要识别的样本集。每一个字母由一张16×16像素的图像组成,且该图像只有0和1两种灰度,即非黑即白。因此我们输入一张图片后,它会编程一个16×16的二值矩阵,我们将这一的二维矩阵一维化,使其变成1×256的一维数组,然后我们对其进行编码,每次随机从256个数中随机去8个数且不放回,组成一个32×8的新矩阵,对于每一行数,得到的是一个8位的二进制数,因此我们将其转化成十进制数,得到一个0-255范围的数,将原来的矩阵转化成了32×1的矩阵。且每一行代表一个脉冲的发送时间,即将一张16×16的图像矩阵转化成了在不同时间一共发送32次脉冲的输入值。

3.2.2  权值更新按照tempotron算法的权值更新规则:

Δωi=λ∑ti−tmaxK(tmax−ti)

                     (3-3)

 

我们需要设置一个时间轴,并且对于这个时间轴上进行时间窗口的划分,等于说我们需要将这个时间轴切割成一份份来进行一个个的循环。由于之前在输入编码的时候,我们将16×16像素的黑白图像转换成了发送32次脉冲的输入,这些输入的脉冲的时间是0-255,也就是说,我们建立一个长度为256ms的时间轴,并且以1ms为一个时间窗口,每次检查在当前时间窗口前是否有脉冲输入,并且每次都选取在当前时间之前能够发送脉冲的数据,认为他们发送一次脉冲,将这个脉冲与核函数相乘,作为我们膜电压,如果膜电压超过了我们设置的threshold电压值,我们则认为该神经元处于fire状态,并且会进入一段不应期,即shut down后面在256ms内的所有脉冲输入。我们输入是5个神经元,这是因为我们需要对26个英文字母分类,即用5个二进制数最大可以表示到0-31的每个数,于是我们用5个二进制数表示我们分类的pattern,例如字母A我们使用00001表示,字母B用00010表示。以此类推。当神经处于fire状态时,它会表现出1的状态,反之如果它没有能够达到阈值电压,它会处于0的状态,我们将网络的输入与我们准备好的标签值进行对比,如果说产生了不同,即分类产生了误差,我们就需要对其进行权值更新,从而在慢慢的训练过程中,获得我们期望得到的脉冲值。

即如果网络发出了脉冲,但是实际没有发送脉冲,我们降低该脉冲产生的权值,从而让其在后面慢慢变得不发出脉冲。

如果网络没有发出脉冲,但是实际输入应该发出脉冲,我们应该强化该脉冲的产生,即增大其权值。

 

图3.7 训练前脉冲与训练后脉冲对比图

我们设置1.0 v为阈值电压,可以看到,随着训练次数的增大,一开始正的脉冲倾向于在后面发出超过阈值电压的脉冲。但是一开始负的脉冲,虽然一开始超过了阈值电压,但是由于随着训练次数的增大,变得不断被抑制,不再发出脉冲。我们的网络就是基于这样一种思路去训练与优化。

3.2.3  数值模拟结果数值模拟上,本文选取了两组实验数据进行了权值更新法则函数的模拟,即使用实验得到的LTP与STDP数据进行了数值模拟,并且对比了两者在应用于tempotron算法的差异,提出一定看法。

3.2.4  LTP权值改变法数值LTP曲线是模拟人类大脑学习时候的长程可塑性,在图像上体现为,施加一段固定脉冲间距和脉冲峰值的脉冲,使突触器件的模拟膜电压升高,经过一段时间再进行了衰减。表现的图像如下:

 

图3.8 LTP拟合图像

线是得到实验的LTP数据后,使用神经网络算法进行拟合,得到完美拟合的曲线,这样保证了能够使用完全的实验数据。另外由于实验的数据仅仅有LTP数据,然而对于我们的模拟也需要LTD数据,基于我们对于这两个图像的了解,他们在一定程度上是中心对称的。我们通过对于LTP数据的神经网络拟合,外推LTD的数据,将LTD的数据应用于模型的抑制环节,保证权值的增加与减少对称。

将LTP的数据带入,进行训练,设置最大epoch数为100次,设置阈值电压为1 v。训练结果如下:

 

图 3.9 准确率随训练次数的变化图像(LTP)

可以看到,在100 epoch下,准确率在随训练次数的增加而增加,最终稳定在89%左右。

3.2.5  STDP权值改变法人脑的学习模式是STDP已经被大部分论文和实验所证实,因此也许基于STDP的权值改变方法能够更加促进学习的效率。STDP的本质定义是说:如果突出前神经元的峰值脉冲到达时间小于突触后的神经元峰值脉冲,那么认为突触前神经元脉冲的产生可能是有利于突触后神经元的产生,即这两者之间是存在一定的联动关系的。于是加强这两个神经元的连接。反之则减弱它们之间的连接。

利用实验得到对的STDP Positive数据,波张选取375nm的光做刺激。得到光驱动下的STDP。但实验与理论存在偏差的一点,是光刺激下的STDP图像实际上是存在于一、二象限的,这样意味着,无论是突出前神经元的脉冲先到达还是后到达,产生的权值更新过程,都是加强该两个神经元之间的连接。在保证权值更新双向对称性的情况下,这样的情况显然是不允许。于是在三象限部分,本文选取了其他数据作为替代,这个数据是从电突触元器件得到的。这里也可以得出一个设想,是否可以有光与电合并的突触器件,使用光完成第一象限的STDP工作,由电器件完成第三象限STDP工作。为何要选择光器件是因为,光学突触器件的耗能相比于电学突触器件要节省很多。如果能够使用光电混合信号实现光电STDP,也不失为一种选择。

拟合后正向STDP函数表达式如下:

y=−0.346ln(x)+2.708

 

负向STDP函数表达式如下:       

y=0.302ln(−x)−2.546

 

根据上面的STDP函数更新法则,带入我们的temportron算法进行求解。得到准确率变化情况如下,设置参数与LTP更新规则相同。

 

图3.10 准确率随训练次数变化情况(STDP)

可以看到,经由STDP训练的网络,在epoch=60左右的时候,已经达到了准确率100%,在训练的准确度与效率上,高于使用LTP训练的结果。这也可能是为什么当前很多的研究都着眼于STDP权重更新机制。这可能也和STDP实际上与人类大脑的学习机制十分相似,本次模拟也证明了大脑学习模式在权值调整上的优越性,基于LTP的调制模式,更多是对于算法当中核函数K(t)的模拟,而并非是对于本质上人类大脑学习模式的仿真。

3.2.6  结论无论选取LTP,STDP作为权值更新的方式,神经网络的权值更新一定要是对称,这样在梯度下降算法过程中,才能够有正和负梯度,使得最后的结果收敛于局部最小点。另外,在学习机制上,STDP是存在一定优越性的。后面本文将针对SDTP学习机制,将网络扩展到更大的规模,展现STDP学习机制的强大之处。

33.3 无监督脉冲神经网络数值模拟3.3.1  理论背景与基础这SNN的发展之所以广受著名,是因为它网络的元器件要求是有一定硬件基础的,不论是在神经元的设计上,如LIF模型,HH模型,还是电导突触,指数型的衰减机制,阈值电压。都可以通过我们设计的电学或者光学器件进行实现。

本文基于2015年Peter发表的关于STDP无监督学习网络的代码基础上,加上实验得到的数据,进行数值模拟。模拟之前,先了解一下网络的具体结构与基本理论。

对于神经元的设置,应用integrated -and-fire model模型:

τdVdt=(Erest−V)+ginh(Einh−V)+gexc(Eexc−V)

            (3-6)

 

这里V是膜电压,Erest

是神经元在没有外界刺激下的一种静息电压。

τ

是抑制或者兴奋神经元的时间时间常数,这个常数时间上就是用于控制各种不同的STDP图像。

galignlink

gexc

是抑制性神经元和兴奋性神经元的电导值,这个值在神经网络中表现为权重,也是我们需要训练的东西。训练模式与tempotron算法类似,当膜电压到达阈值电压的时候,就会发送尖峰脉冲信号,然后膜电位复位到静息电压。如果有神经元的尖峰信号达到突触,那么突触就会提升权值,即电导,如果没有,那么权值就会指数型的衰减。权值更新的模式仍然是取决于突触前神经元与突触后神经元的尖峰达到时间差。如图3.11所示,由于前后神经元的脉冲尖峰抵达时间差不一样,产生了兴奋和抑制两种模式

 

 

图 3.11 STDP权值更新模式图[17]

我们需要定义兴奋性神经元与抑制性神经元的权值改变方式。对于兴奋性神经元的电导更新模式如下:

τgedgedt=−ge

                      (3-7)

 

抑制性电导的更新模式其实只需要更换常数:

τgidgidt=−gi

                      (3-8)

 

时间常数得控制会影响STDP得学习曲线,人脑或者生物的时间常数一般是10 ms-20 ms量级。我们由实验得到得时间常数数值也靠近这个值

然后是基于STDP的权值更新法则:

Δw=η(xpre−xtar)(wmax−w)u

               (3-9)

 

实际上,STDP的更新规则很多,还有指数型的,这里选取一种更新规则,他们大多大同小异。这里的η

是学习的速率,

Xpre

是该脉冲产生时的上一次脉冲值,每当有一次脉冲到达突触时,

Xpre

会增加1,如果没有,它会按照指数型进行衰减。

Xtar

是前一次的突触前神经元产生的脉冲,其反应在突触后神经元的目标值。这其实也是在将突触前神经元和后神经元产生的时间在进行比较,从而正确的更新权值。

 

3.3.2  网络设计脉冲神经网络的设计与普通的经典神经网络有所不同,由图5.2看到,Input输入层图像的像素编码脉冲数据,脉冲的频率由图像像素点的灰度值,即成正比关系,28×28的像素值会变成一个784×1的一维序列,每一个值代表一定频率的脉冲信号。

 

图3.12 SNN神经网络结构[16]

 

之后进入激活层,激活层放置激活神经元,然后再进入抑制层,放置抑制层神经元。这里可以看到,非监督学习网络的结构是不存在标签值的。更新完全依靠激活层与抑制层之间的关系。从图3.12可以看到,输入层与激活层实际上时全连接模式,即每一个像素点产生的脉冲序列都会再激活层有一个对应权重。激活层与抑制层之间时一一对应连接,但抑制层与激活层的连接却是全连接模式,除了激活层已经与抑制层产生连接的神经元。这样的网络设计模式实际上是由理由的。这应用的winter take all法则,即当某个激活层的神经元产生兴奋后,该兴奋传递到抑制层后,抑制层会抑制其他所有神经元产生脉冲。也就是说,不断的训练后,能够产生脉冲的神经元会趋向于越来越容易产生脉冲,而其他神经元会越来越无法产生脉冲。从而达到训练的目的。这和传统的K-means算法也有异曲同工之妙,但不同的是STDP 非监督学习存在抑制层,从而避免了某几个神经元一直占据某个pattern。

3.3.3  模拟结果数值模拟将MNIST 六万个训练数据编码后作为脉冲输入,整个训练集进行了6次迭代,一共是36万张图片,训练结束后学习虑被置为零,动态阈值被锁定。之后输入每一类的数字图片,记录每个神经元对应该类图片的激活次数,并且选取其中激活次数最多的为该神经元的标签。之后使用测试集的一万张图片作为脉冲输入,观察每当一张图片输入时,哪个神经元的激活频率最高,如果该神经元的标签与输入图片属于同一pattern,那么认为分类正确。统计10000万张图片的平均准确率,得到网络的训练的评价值即Accuracy。

 

图3.13 神经网络权值矩阵图

这里训练后激活层的权值矩阵。之前提到了,当网络训练完成后,我们会输入每一个图片的pattern,以激活次数最高的神经元作为该pattern的标签,在这样经过改进后,图5.3是激活层神经元重组后的权值分布,可以看到,不同神经元对于不同pattern的适应程度不同,体现在颜色的深浅上。

 

图3.14 输入层到激活层权值矩阵可视化图

 

图3.15 激活层到抑制层权值矩阵可视化图

从图3.14我们可以看到,只有很少部分的权值很高,即呈现黄色小点模式,体现即只有少数pattern才能够产生脉冲,其他的脉冲都被抑制,这个图像很好体现了我们在学习过程中的winer-take-all的模式。图3.15体现的更加明显的是,因为网络的设计是激活层与抑制层一对一连接,抑制层与激活层反向全连接,但除去了从激活层连接过来的神经元,因此在权值的对角线上都是winer,而其他的神经元都被抑制,从而达到了我们从众多神经元中选取出适合当前输入的正确pattern。

之后我们输入10000个MNIST的test集图片进行外推,结果是:Sum response - accuracy:  91.43  number incorrect:  857。即我们在验证集上达到了91.43%的准确度。总的来说还是比较可观的。

结  论本文用了三个数值模拟的方法,分别对于神经元硬件化条件,神经突触硬件化条件,神经元学习规则优越性做了探究。在神经元硬件化上,通过使用不同的非线性函数进行数值模拟,得到了其实在当选取激活函数时,函数与输入值的正相关性并不是必要的,非线性才是最为重要的基准。并且作者使用简单的链式求导法则,证明了神经元的硬件化需要有加权乘法器的功能,并且强调了乘法器的线性程度。也就推出了权值更新时,权值该变量与输入值的正相关性的重要性,也可以说是正负变化的对称性是对随机梯度下降法达到收敛的充分条件。在SNN数值模拟上,本文先尝试了tempotron有监督SNN算法,并且对其权值改变的方程做出了LTP与STDP法则的两种试探,发现STDP的效果更好,也不愧是贴近人类大脑的学习模式。这里也需要指出tempotron算法的缺点在于该算法只能针对单神经元,即脉冲只能判断单个神经元能不能发出脉冲,泛用性不是特别强,但是将输入改成离散的脉冲输入,在神经网络的结构和理念上是一个很大的突破。接着文章以STDP学习机制更为优秀的基础上,在基于2015年Peter教授的无监督STDP学习网络[16]这篇论文的基础上,使用实验相关的数据进行了数值模拟,指出了该网络的结构,采用winter-take-all模式与IF神经元结构,实现了在没有任何标签和领域知识的无监督学习网络的模拟,并且在MNIST的test数据集上达到了91.43%的正确率。从实验上证实了STDP学习机制可以用于无监督学习,指出了其在未来发展的巨大潜力。

最后本文提出一些对于当前硬件神经网络研究的看法,目前实现硬件神经网络的方法在绪论也有提出,主要有微电子方法、半导体突触和光学实现。作者认为想要实现真正的类脑计算。我们就需要研究更与人类达到贴切的器件。尽管在微电子方面,目前的技术可以实现精度很高的数字模拟电路。但是实际上那也只是靠我们强大的算力与耗费了很多资源达到的结果。再说全光学的神经网络,这样的设想只能够用天才来形容,这样的网络耗能少,效率高,速度快。但这并不能够算是类脑计算,只是从物理的角度对于神经网络进行了实现。真正的类脑计算我相信应该是基于STDP,LTP, LTD这些与人脑大脑对于信号实际反映做出的模型之上的。近年来已经发展了很多基于STDP或者类脑计算的算法,并且在数值模拟上都证实了其实现的可能性。目前的当务之急应该是制备出与这些理论符合的突触器件或者神经元元件,然后进行集成,实现一个结合微电子设计电路与编码处理,从而实现一个从输入,到reference,再到自动Back Propagation修改误差的自主型芯片,真正达到off-chip模式的神经网络计算与硬件化。

参考文献[1]Takao Watanabe, Katdutaka Kimura, Masakazu Aoki, et al. A Sinngle 1.5-V Digital Chip for a 106  Synapse Neural Network. IEEE Transactions on Neural Networks. May 1993,4(3): 387-39 

[2]Matthew S Melttn, Tan Phan, Douglas S Reeves, et al. The TInMANN VLSI Chip. 1993, 4(3): 394 -340 

[3]Hendrik C A M, Withagen. Neural Networks: Analog VLSI Implementation and Learning Algorithms. Ph.D thesis, Eindhoven,1997 

[4]高丽娜 邱关源. 一种连续可调权值 CMOS 神经网络. 电子学报, 1998, 26(2): 120-122 

[5]Bernabé Linares-Barranco et al. A Modular T-Mode Design Approach for Analog Neural Network Hardware Implementations. IEEE Journal of Solid-State Circuits,1992, 27(5): 701-712 

[6]Strukov, Dmitri B, Snider, Gregory S, Stewart, Duncan R and Williams, Stanley R. The missing memristor found. Nature. 2008, 453: 80–83. doi:10.1038/nature06932. 

[7]贺静, 基于CMOS 模拟技术的多种前馈人工神经网络硬件的研究与实现 [D]. 湘潭大学, 2014 

[8]侯媛彬,杜京义,汪梅. 神经网络 [M]. 西安:西安电子科技大学出版社, 2007: 16-19. 

[9]Q. Yu, S. Member, R. Yan, H. Tang, K. C. Tan, H. Li, IEEE Trans. Neural Networks Learn. Syst. 2016, 27, 621. 

[10]M. Giulioni, X. Lagorce, F. Galluppi, R. B. Benosman, Front. Neurosci. 2016, 10, 1 

[11]Bengio, Y. and Fischer, A. (2015). Early inference in energy-based models approximates back-propagation. Technical Report arXiv:1510.02777, Universite de Montreal. 

[12]Scellier. B. and Bengio, Y. (2016).Towards a biologically plausible backprop. arXiv:1602.05179 . 

[13]Markram H, Lübke J, Frotscher M, et al. Regulation of synaptic efficacy by coincidence of postsynaptic APs and EPSPs[J]. Science, 1997, 275(5297): 213-215. 

[14]Bi G, Poo M. Synaptic modifications in cultured hippocampal neurons: dependence on spike timing, synaptic strength, and postsynaptic cell type[J]. Journal of neuroscience, 1998, 18(24): 10464-10472. 

[15]Peng Yao, Xueyao Huang, Wenqiang Zhang,Qingtian Zhang.Face classification using electronic synapses.2017.5.12.DOI: 10.1038 

[16]Peter U. Diehl, Matthew Cook.Unsupervised learning of digit recognition using spike-timing-dependent plasticity.Front. Comput. Neurosci., 03 August 2015 | DOI:10.3389 

[17]Qingzhou Wan, Mohammad T. Sharbati, John R. Erickson, Yanhao Du, and Feng Xiong.Emerging Artificial Synaptic Devices for Neuromorphic Computing 

[18]陈琼. 郑启伦.人工神经网络系统硬件实现的研究进展.[J].电路与系统学报.2000 年 3 月 

[19]Cowan J D . Discussion:McCulloch-Pitts and related neural nets from 1943 to 1989[J]. Bulletin of Mathematical Biology, 1990, 52(1-2):73-97. 

[20]Mcclelland J . Reflections on Cognition and Parallel Distributed Processing[J]. 1986. 

[21]Xing Lin, Yair Rivenson, Nezih T. Yardimci, Muhammed Veli, Yi Luo, Mona Jarrahi and Aydogan Ozcan.All-optical machine learning using diffractive deep neural networks[J].Science.DOI:10.1126.July 26.2018 

附  录代码具体说明请参考github.com/zhenghaobaby/graduated_design

作者简历姓名:郑浩  性别:男  民族:汉族  出生年月:1997-04-11  籍贯:四川成都

教育背景:

2012.09-2015.07  成都七中

2015.09-2019.07  浙江大学攻读材料科学工程学士学位

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

攻读学位期间发表的学术论文与取得的其他研究成果已:

[1]XXXXXXX 

[2]XXXX 

待:

[1]XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 

[2]XXXX 

已授权专利:

[1]XXXXXX 

 

 

第8篇:神经网络论文范文

论文名称:基于BP神经网络的技术创新预测与评估模型及其应用研究

课题来源:单位自拟课题或省政府下达的研究课题

选题依据:

技术创新预测和评估是企业技术创新决策的前提和依据。通过技术创新预测和评估,可以使企业对未来的技术发展水平及其变化趋势有正确的把握,从而为企业的技术创新决策提供科学的依据,以减少技术创新决策过程中的主观性和盲目性。只有在正确把握技术创新发展方向的前提下,企业的技术创新工作才能沿着正确方向开展,企业产品的市场竞争力才能得到不断加强。在市场竞争日趋激烈的现代商业中,企业的技术创新决定着企业生存和发展、前途与命运,为了确保技术创新工作的正确性,企业对技术创新的预测和评估提出了更高的要求。

二、本课题国内外研究现状及发展趋势

现有的技术创新预测方法可分为趋势外推法、相关分析法和专家预测法三大类。

(1)趋势外推法。指利用过去和现在的技术、经济信息,分析技术发展趋势和规律,在分析判断这些趋势和规律将继续的前提下,将过去和现在的趋势向未来推演。生长曲线法是趋势外推法中的一种应用较为广泛的技术创新预测方法,美国生物学家和人口统计学家RaymondPearl提出的Pearl曲线(数学模型为:Y=L∕[1+A?exp(-B·t)])及英国数学家和统计学家Gompertz提出的Gompertz曲线(数学模型为:Y=L·exp(-B·t))皆属于生长曲线,其预测值Y为技术性能指标,t为时间自变量,L、A、B皆为常数。Ridenour模型也属于生长曲线预测法,但它假定新技术的成长速度与熟悉该项技术的人数成正比,主要适用于新技术、新产品的扩散预测。

(2)相关分析法。利用一系列条件、参数、因果关系数据和其他信息,建立预测对象与影响因素的因果关系模型,预测技术的发展变化。相关分析法认为,一种技术性能的改进或其应用的扩展是和其他一些已知因素高度相关的,这样,通过已知因素的分析就可以对该项技术进行预测。相关分析法主要有以下几种:导前-滞后相关分析、技术进步与经验积累的相关分析、技术信息与人员数等因素的相关分析及目标与手段的相关分析等方法。

(3)专家预测法。以专家意见作为信息来源,通过系统的调查、征询专家的意见,分析和整理出预测结果。专家预测法主要有:专家个人判断法、专家会议法、头脑风暴法及德尔菲法等,其中,德尔菲法吸收了前几种专家预测法的长处,避免了其缺点,被认为是技术预测中最有效的专家预测法。

趋势外推法的预测数据只能为纵向数据,在进行产品技术创新预测时,只能利用过去的产品技术性能这一个指标来预测它的随时间的发展趋势,并不涉及影响产品技术创新的科技、经济、产业、市场、社会及政策等多方面因素。在现代商业经济中,对于产品技术发展的预测不能简单地归结为产品过去技术性能指标按时间的进展来类推,而应系统综合地考虑现代商业中其他因素对企业产品技术创新的深刻影响。相关分析法尽管可同时按横向数据和纵向数据来进行预测,但由于它是利用过去的历史数据中的某些影响产品技术创新的因素求出的具体的回归预测式,而所得到的回归预测模型往往只能考虑少数几种主要影响因素,略去了许多未考虑的因素,所以,所建模型对实际问题的表达能力也不够准确,预测结果与实际的符合程度也有较大偏差。专家预测法是一种定性预测方法,依靠的是预测者的知识和经验,往往带有主观性,难以满足企业对技术创新预测准确度的要求。以上这些技术创新预测技术和方法为企业技术创新工作的开展做出了很大的贡献,为企业技术创新的预测提供了科学的方法论,但在新的经济和市场环境下,技术创新预测的方法和技术应有新的丰富和发展,以克服自身的不足,更进一步适应时展的需要,为企业的技术创新工作的开展和企业的生存与发展提供先进的基础理论和技术方法。

目前,在我国企业技术创新评估中,一般只考虑如下四个方面的因素:(1)技术的先进性、可行性、连续性;(2)经济效果;(3)社会效果;(4)风险性,在对此四方面内容逐个分析后,再作综合评估。在综合评估中所用的方法主要有:Delphi法(专家法)、AHP法(层次分析法)、模糊评估法、决策树法、战略方法及各种图例法等,但技术创新的评估是一个非常复杂的系统,其中存在着广泛的非线性、时变性和不确定性,同时,还涉及技术、经济、管理、社会等诸多复杂因素,目前所使用的原理和方法,难以满足企业对技术创新评估科学性的要求。关于技术创新评估的研究,在我国的历史还不长,无论是指标体系还是评估方法,均处于研究之中,我们认为目前在企业技术创新评估方面应做的工作是:(1)建立一套符合我国实际情况的技术创新评估指标体系;(2)建立一种适应于多因素、非线性和不确定性的综合评估方法。

这种情况下,神经网络技术就有其特有的优势,以其并行分布、自组织、自适应、自学习和容错性等优良性能,可以较好地适应技术创新预测和评估这类多因素、不确定性和非线性问题,它能克服上述各方法的不足。本项目以BP神经网络作为基于多因素的技术创新预测和评估模型构建的基础,BP神经网络由输入层、隐含层和输出层构成,各层的神经元数目不同,由正向传播和反向传播组成,在进行产品技术创新预测和评估时,从输入层输入影响产品技术创新预测值和评估值的n个因素信息,经隐含层处理后传入输出层,其输出值Y即为产品技术创新技术性能指标的预测值或产品技术创新的评估值。这种n个因素指标的设置,考虑了概括性和动态性,力求全面、客观地反映影响产品技术创新发展的主要因素和导致产品个体差异的主要因素,尽管是黑匣子式的预测和评估,但事实证明它自身的强大学习能力可将需考虑的多种因素的数据进行融合,输出一个经非线性变换后较为精确的预测值和评估值。

据文献查阅,虽然在技术创新预测和评估的现有原理和方法的改进和完善方面有一定的研究,如文献[08]、[09]、[11]等,但尚未发现将神经网络应用于技术创新预测与评估方面的研究,在当前产品的市场寿命周期不断缩短、要求企业不断推出新产品的经济条件下,以神经网络为基础来建立产品技术创新预测与评估模型,是对技术创新定量预测和评估方法的有益补充和完善。

三、论文预期成果的理论意义和应用价值

本项目研究的理论意义表现在:(1)探索新的技术创新预测和评估技术,丰富和完善技术创新预测和评估方法体系;(2)将神经网络技术引入技术创新的预测和评估,有利于推动技术创新预测和评估方法的发展。

本项目研究的应用价值体现在:(1)提供一种基于多因素的技术创新定量预测技术,有利于提高预测的正确性;(2)提供一种基于BP神经网络的综合评估方法,有利于提高评估的科学性;(3)为企业的技术创新预测和评估工作提供新的方法论和实用技术。

四、课题研究的主要内容

研究目标:

以BP神经网络模型为基础研究基于多因素的技术创新预测和评估模型,并建立科学的预测和评估指标体系及设计相应的模型计算方法,结合企业的具体实际,对指标和模型体系进行实证分析,使研究具有一定的理论水平和实用价值。

研究内容:

1、影响企业技术创新预测和评佑的相关指标体系确定及其量化和规范化。从企业的宏观环境和微观环境两个方面入手,密切结合电子商务和知识经济对企业技术创新的影响,系统综合地分析影响产品技术创新的各相关因素,建立科学的企业技术创新预测和评估指标体系,并研究其量化和规范化的原则及方法。

2、影响技术创新预测和评估各相关指标的相对权重确定。影响技术创新发展和变化各相关因素在输入预测和评估模型时,需要一组决定其相对重要性的初始权重,权重的确定需要基本的原则作支持。

3、基于BP神经网络的技术创新预测和评估模型研究。根据技术创新预测的特点,以BP神经网络为基础,构建基于多因素的技术创新预测和评估模型。

4、基于BP神经网络的技术创新预测和评估模型计算方法设计。根据基于BP神经网络的技术创新预测和评估模型的基本特点,设计其相应的计算方法。

5、基于BP神经网络的技术创新预测和评估模型学习样本设计。根据相关的历史资料,构建基于BP神经网络的技术创新预测和评估模型的学习样本,对预测和评估模型进行自学习和训练,使模型适合实际情况。

6、基于BP神经网络的技术创新预测和评估技术的实证研究。以一般企业的技术创新预测与评估工作为背景,对基于BP神经网络的技术创新预测和评估技术进行实证研究。

创新点:

1、建立一套基于电子商务和知识经济的技术创新预测和评估指标体系。目前,在技术创新的预测和评估指标体系方面,一种是采用传统的指标体系,另一种是采用国外先进国家的指标体系,如何结合我国实际当前经济形势,参考国外先进发达国家的研究工作,建立一套适合于我国企业技术创新预测和评估指标体系,此为本研究要做的首要工作,这是一项创新。

2、研究基于BP神经网络的技术创新预测和评估模型及其计算方法。神经网络技术具有并行分布处理、自学习、自组织、自适应和容错性等优良性能,能较好地处理基于多因素、非线性和不确定性预测和评估的现实问题,本项目首次将神经网络技术引入企业的技术创新预测和评估,这也是一项创新。

五、课题研究的基本方法、技术路线的可行性论证

1、重视系统分析。以系统科学的思想为指导来分析影响企业技术创新发展和变化的宏观因素和微观因素,并研究影响因素间的内在联系,确定其相互之间的重要度,探讨其量化和规范化的方法,将国外先进国家的研究成果与我国具体实际相结合,建立我国企业技术创新预测和评估的指标体系。

2、重视案例研究。从国内外技术创新预测与决策成功和失败的案例中,发现问题、分析问题,归纳和总结出具有共性的东西,探索技术创新预测与宏观因素与微观因素之间的内在关系。

3、采用先简单后复杂的研究方法。对基于BP神经网络的技术创新预测和评估模型的研究,先从某一行业出发,定义模型的基本输入因素,然后,逐步扩展,逐步增加模型的复杂度。

4、理论和实践相结合。将研究工作与具体企业的技术创新实际相结合,进行实证研究,在实践中丰富和完善,研究出具有科学性和实用性的成果。

六、开展研究已具备的条件、可能遇到的困难与问题及解决措施

本人长期从事市场营销和技术创新方面的研究工作,编写出版了《现代市场营销学》和《现代企业管理学》等有关著作,发表了“企业技术创新与营销管理创新”、“企业技术创新与营销组织创新”及“企业技术创新与营销观念创新”等与技术创新相关的学术研究论文,对企业技术创新的预测和评估有一定的理论基础,也从事过企业产品技术创新方面的策划和研究工作,具有一定的实践经验,与许多企业有密切的合作关系,同时,对神经网络技术也进行过专门的学习和研究,所以,本项目研究的理论基础、技术基础及实验场所已基本具备,能顺利完成本课题的研究,取得预期的研究成果。

七、论文研究的进展计划

2003.07-2003.09:完成论文开题。

2003.09-2003.11:影响企业技术创新发展的指标体系研究及其量化和规范化。

2003.11-2004.01:基于BP神经网络的技术创新预测和评估模型的构建。

2004.01-2004.03:基于BP神经网络的技术创新预测和评估模型计算方法研究。

2004.03-2004.04:基于BP神经网络的技术创新预测和评估模型体系的实证研究。

2004.04-2004.06:完成论文写作、修改定稿,准备答辩。

主要参考文献:

[01]傅家骥、仝允桓等.技术创新学.北京:清华大学出版社1998

[02]吴贵生.技术创新管理.北京:清华大学出版社2000

[03]柳卸林.企业技术创新管理.北京:科学技术出版社1997

[04]赵志、陈邦设等.产品创新过程管理模式的基本问题研究.管理科学学报.2000/2.

[05]王亚民、朱荣林.风险投资项目ECV评估指标与决策模型研究.风险投资.2002/6

[06]赵中奇、王浣尘、潘德惠.随机控制的极大值原理及其在投资决策中的应用.控制与决策.2002/6

[07]夏清泉、凌婕.风险投资理论和政策研究.国际商务研究.2002/5

[08]陈劲、龚焱等.技术创新信息源新探.中国软科学.2001/1.pp86-88

[09]严太华、张龙.风险投资评估决策方法初探.经济问题.2002/1

[10]苏永江、李湛.风险投资决策问题的系统分析.学术研究.2001/4

<11>孙冰.企业产品开发的评价模型及方法研究.中国管理科学.2002/4

[12]诸克军、杨久西、匡益军.基于人工神经网络的石油勘探有利性综合评价.系统工程理论与实践.2002/4

[13]杨力.基干BP神经网络的城市房屋租赁估价系统设计.中国管理科学.2002/4

[14]杨国栋、贾成前.高速公路复垦土地适宜性评价的BP神经网络模型.统工程理论与实践.2002/4

[15]楼文高.基于人工神经网络的三江平原土壤质量综合评价与预测模型.中国管理科学.2002/1

[16]胥悦红、顾培亮.基于BP神经网络的产品成本预测.管理工程学报.2000/4

[17]陈新辉、乔忠.基于TSA-BP神经网络的企业产品市场占有率预测模型.中国农业大学学报.2000/5

[18]刘育新.技术预测的过程与常用方法.中国软科学.1998/3

[19]温小霓、赵玮.市场需求与统计预测.西安电子科技大学学报.2000/5

[20]朱振中.模糊理论在新产品开发中的应用.科学管理研究.2000/6

[21]KimB.Clark&TakahiroFujimoto.ProductDevelopmentPerformance–Strategy、OrganizationandManagementinIndustry.HarvardBusinessSchoolPress.Boson1993

[22]GobeliDH,BrownDJ.Improvingtheprocessofproductinnovation.Research,TechnologyManagement,1993.36(2):46-49

[23]SimonJ.Towner.Fourwaystoacceleratenewproductdevelopment.LongRangPlanning1994.27(2):57-65

[24]AbdulAli,etal.Productinnovationandentrystrategy.JournalofProductInnovationManagement1995.12(12):54-69

[25]EricVinHippel.ThesourcesofInnovation.OxfordUniversityPress.1988

[26]ShtubA,ZimermanY.Aneural-network-basedapproachforestimatingthecostofassembly.InternationalJournalofProductionEconomics,1993.32:189-207

[27]Wee-LiangTan,DattarreyaG.Allampalli,InvestmentCriteriaofSingaporeCapitalists,1997InternationalCouncilforSmallBusiness,SanFrancisco,California,June1997

[28]MichaelHenos,TheRoadtoVentureFinancing:GuidelinesforEntrepreneuts,R&DStraregistMagazine,Summer1991

[29]ChowGC,TheLargrangeMethodofoptimizationwithapplicationstoportfoliandinvestmentdecisions.JofEconomicDymamicsandControl1996

[30]Jensen,R..InformationCostandInnovationAdoptionPolicies,ManagementScience.Vol.34,No.2,Feb,1988

[31]R.K.Zutshi,T.W.Liang,D.G.Allampulli,SingaporeVentureCapitalistsInvestmentEvaluationCriteria:AReexamination.SmallBusinessEconomics13:9-26(1999)

第9篇:神经网络论文范文

[关键词]软件项目风险管理神经网络粗集

本篇论文的中心是基于粗集的人工神经网络(ANN)技术的高风险识别,这样在制定开发计划中,最大的减少风险发生的概率,形成对高风险的管理。

一、模型结构的建立

本文基于粗集的BP神经网络的风险分析模型,对项目的风险进行评估,为项目进行中的风险管理提供决策支持。在这个模型中主要是粗糙集预处理神经网络系统,即用RS理论对ANN输入端的样本约简,寻找属性间关系,约简掉与决策无关的属性。简化输入信息的表达空间维数,简化ANN结构。本论文在此理论基础上,建立一种风险评估的模型结构。这个模型由三部分组成即:风险辨识单元库、神经网络单元、风险预警单元。

1.风险辨识单元库。由三个部分功能组成:历史数据的输入,属性约简和初始化数据.这里用户需提供历史的项目风险系数。所谓项目风险系数,是在项目评价中根据各种客观定量指标加权推算出的一种评价项目风险程度的客观指标。计算的方法:根据项目完成时间、项目费用和效益投入比三个客观指标,结合项目对各种资源的要求,确定三个指标的权值。项目风险系数可以表述成:r=f(w1,w2,w3,T,T/T0,S/S0,U/U0),R<1;式中:r为风险系数;T、T0分别为实际时间和计划时间;S、S0分别为实际费用和计划费用;U、U0分别为实际效能和预计效能;w1、w2、w3分别是时间、费用和效能的加权系数,而且应满足w1+w2+w3=1的条件。

2.神经网络单元。完成风险辨识单元的输入后,神经网络单元需要先载入经初始化的核心风险因素的历史数据,进行网络中权值的训练,可以得到输入层与隐含层、隐含层与输出层之间的权值和阀值。

(1)选取核心特征数据作为输入,模式对xp=[xp1,xp2,.,xpn]T,dp(网络期望输出)提供给网络。用输入模式xp,连接权系数wij及阈值hj计算各隐含单元的输出。

m

Ypj=1/{1+exp[-(∑wijxpi-hj)]},i=1,2,.,m;j=1,2,Λ,n,

i=1

(2)用隐含层输出ypj,连接权系数wij及阈值h计算输出单元的输出

m

Yp=1/{1+exp[-(∑wjxpi-hj)]},i=1,2,.,m;j=1,2,Λ,n,

i=1

Yp=[y1,y2,……,yn]T

(3)比较已知输出与计算输出,计算下一次的隐含各层和输出层之间新的连接权值及输出神经元阈值。

wj(k+1)=wj(k)+η(k)σpσpj+α[wj(k)-wj(k-1)]

h(k+1)=h(k)+η(k)σp+α[h(k)-h(k-1)]

η(k)=η0(1-t/(T+M))

η0是初始步长;t是学习次数;T是总的迭代次数;M是一个正数,α∈(0,1)是动量系数。σp是一个与偏差有关的值,对输出结点来说;σp=yp(1-yp)(dp-yp);对隐结点来说,因其输出无法比较,所以经过反向推算;σpj=ypj(1-ypj)(ypwj)(4)用σpj、xpj、wij和h计算下一次的输入层和隐含层之间新的连接权值及隐含神经元阈值。wij(k+1)=wij(k)+η(t)σpjxpi+α[wij(k)-wij(k-1)]

3.风险预警单元

根据风险评价系数的取值,可以将项目的风险状况分为若干个区间。本文提出的划分方法是按照5个区间来划分的:

r<0.2项目的风险很低,损失发生的概率或者额度很小;

0.2≤r<0.4项目的风险较低,但仍存在一定风险;

0.4≤r<0.6项目的风险处于中等水平,有出现重大损失的可能;

0.6≤r<0.8项目的风险较大,必须加强风险管理,采取避险措施;

0.8≤r<1项目的风险极大,重大损失出现的概率很高,建议重新考虑对于项目的投资决策。

总之,有许多因素影响着项目风险的各个对象,我们使用了用户评级的方式,从风险评估单元中获得评价系数五个等级。给出各风险指标的评价系数,衡量相关风险的大小。系数越低,项目风险越低;反之,系数越高,项目风险越高。

二、实证:以软件开发风险因素为主要依据

这里我们从影响项目风险诸多因素中,经项目风险系数计算,作出决策表,利用粗集约简,抽取出最核心的特征属性(中间大量复杂的计算过程省略)。总共抽取出六个主要的指标(PersonnelManagement/Training,Schedule,ProductControl,Safety,ProjectOrganization,Communication)确定了6个输入神经元,根据需求网络隐含层神经元选为13个,一个取值在0到1的输出三层神经元的BP网络结构。将前十个季度的指标数据作为训练样本数据,对这些训练样本进行数值化和归一化处理,给定学习率η=0.0001,动量因子α=0.01,非线性函数参数β=1.05,误差闭值ε=0.01,经过多次迭代学习后训练次数N=1800网络趋于收敛,以确定神经网络的权值。最后将后二个季度的指标数据作为测试数据,输入到训练好的神经网络中,利用神经网络系统进行识别和分类,以判断软件是否会发生危机。实验结果表明,使用神经网络方法进行风险预警工作是有效的,运用神经网络方法对后二个季度的指标数据进行处理和计算,最后神经网络的实际输出值为r=0.57和r=0.77,该软件开发风险处于中等和较大状态,与用专家效绩评价方法评价出的结果基本吻合。

参考文献:

[1]王国胤“Rough:集理论与知识获取”[M].西安交通大学出版社,2001

相关热门标签