前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的神经网络的复杂度主题范文,仅供参考,欢迎阅读并收藏。
关键词:物联网;LS-SVM;数据模型
中图分类号:TP393
文献标识码:A
文章编号:1009-3044(2017)10-0145-02
1.引言
前神经网络(feedforwardneuralnetwork),简称前馈网络,是人工神经网络的一种。
2.概念相关概述
2.1前馈人工神经网络现实基础模型
首先,生物神经元模型。人的大脑中有众多神经元,而神经元之间需要神经突触连接,进而构成了复杂有序的神经网络。而神经元主要由树突、轴突和细胞体组成。一个神经元有一个细胞体和轴突,但是却有很多树突。树突是神经元的输入端,用于接受信息,并向细胞体财团对信息。而细胞体是神经元的信息处理中心,能够对信号进行处理。轴突相当于信息输出端口,负责向下一个神经元传递信息;其次,人工神经元。人工神经元的信息处理能力十分有限,但是,由众多人工神经元构成的神经网络系统庞大,具有巨大的潜力,能够解决复杂问题。人工神经网络与生物神经网络具有相似之处,人工神经网络能够从环境中获取知识,并存储信息。前馈人工神经网络主要包括隐含层、输入层和输出层。在前馈人工神经网络中,神经元将信号进行非线性转换之后,将信号传递给下一层,信息传播是单向的。并且,前馈人工神经网络是人们应用最多的网络模型,常见的有BP神经网络、单层感知器、RBF神经网络等模型。
2.2 LS-SVM相关概述
支撑向量机是一种基于统计学习理论的机器学习方法,能够根据样本信息进行非现象映射,解回归问题的高度非现象问题。并且,支撑向量机在解决非线性、局部极小点方问题上有很大的优势。LS-SVM也叫最小二乘支撑向量机,是支撑向量机的一种,遵循支撑向量机算法的结构风险最小化的原则,能够将支撑向量机算法中的不等式约束改为等式约束,进而将二次问题转换为线性方程问题,大大降低了计算的复杂性。并且,LS-SVM在运算速度上远远高于支持向量机。但是,LS-SVM也存在一定的缺点,在计算的过程中,LS-SVM的忽视了全局最优,只能实现局部最优。并且,LS-SVM在处理噪声污染严重的样本时,会将所有的干扰信息都拟合到模型系统中,导致模型的鲁棒性降低。另外,LS-SVM的在线建模算法、特征提取方法以及LS-SVM的支持向量稀疏性都有待改进。
2.3物联网下人工神经网络前馈LS-SVM研究的意义
物联网是互联网技术的发展趋势,为前馈人工神经网络的发展与LS-SVM研究提供了技术保障,在物联网背景下,研究人工神经网络前馈LS-SVM不仅能够创新人工神经网络的计算方法,完善人工神经网络在现实生活中的应用,而且对人们生活的自动化和智能化发展有着重要意义。另外,物联网为人们对LS-SVM的研究提供了条件,在物联网环境下,人们能够运用信息技术深化最小二乘支撑向量机研究,不断提高LS-SVM回归模型的鲁棒性,改进LS-SVM的特征提取方法和在线建模算法,完善计算机学习方法,提升计算机的运算速度。3基于LS―SVM的丢包数据模型
在选择的参数的基础上,运用IS-SVM方法,建立评估模型。本文选用LS-SVM回归方法的原因,SVM优于神经网络的方法主要是以下几点:
首先,了解数据挖掘,数据挖掘前景广阔,SVM是数据挖掘中的新方法。其次,选择合适的数据分析方法根据数据集的大小和特征。小样本训练适合SVM,样本大情况的训练适宜神经网络,这里用SVM。
然后,就是文献使用SVM和PCA建立跨层的评估QOE,实验结果表明主观MOS评分和此评价结果具有很好的一致性。
最后,本文采用SVM基础上的进一步拔高,LS-SVM,比SVM运行快,精确度高。srcl3_hrcl_525.yuv实验素材的特征是具有高清性质。525序列60HZ,帧大小为1440x486字节/帧,625序列50HZ,大小同上。YUV格式是422格式即4:2:2格式的。
时域复杂度的模型如下,视频的时域复杂度σ;编码量化参数是Q;编码速率为R;待定模型的参数为a和b。σ=Q(aR+b)。通过大量的实验和理论分析,得到模型的参数:a=l 260,b=0.003。其中,编码速率和帧率可以看作是视频的固有属性。高清视频编码速率R是512kb/s,最大帧速率为30000/1001=29.97幅,秒。量化参数是根据实验的具体情况确定的。计算σ的值如下所示:当量化参数为31时,σ=19998720.1,当量化参数为10时,σ=6451200.03,当量化参数为5时,σ=3225600.02,当量化参数为62时,σ=39997440.2,当量化参数为100时,σ=64512000.3,当量化参数为200时,σ=129024001,当量化参数为255时,σ=164505601。
对于srcl3网络环境建立考虑网络丢包的视频质量无参评估模型使用LS-SVM方法。
(1)输入x的值。XI是量化参数,X2封包遗失率,X3单工链路速度,X4双工链路速度,X5视频的时域复杂度。等权的参数。
LS-SVM要求调用的参数只有两个gam和sig2并且他们是LS-SVM的参数,其中决定适应误差的最小化和平滑程度的正则化参数是gam,RBF函数的参数是sig2。Type有两种类型,一种是elassfieation用于分类的,一种是function estimation用于函数回归的。
4.机器学习和物联网的结合
物联网中也用到人工智能,人工智能中有机器学习,机器学习中有神经网络。机器学习是人工智能研究的核心问题之一,也是当前人工智能研究的一个热门方向。
关键词:中立神经网络;鲁棒稳定性;离散时滞;范数有界;李雅普诺夫泛函
中图分类号:TP183
近年来,各种类型的神经网络已经广泛应用于许多实际工程问题,如信号与图像处理、模式识别、联想记忆、并行计算和优化与控制等[1-3]。在这些应用中,神经网络的动力学行为是非常重要的。众所周知,许多实际系统的数学模型中均含有时滞的现象,如在模拟神经网络电路实现中,由于运放器的开关速度限制会产生时滞,神经网络中的轴突信号传输延迟也会产生时滞。当在模型中引入时滞后,它将影响轴突信号传输率下降,进而导致失稳。因此,在神经网络的稳定性分析中时滞是不可或缺的。近来的文献中,已经有很多利用各种分析和不等式方法,研究了不同类型的神经网络,得到了一些时滞神经网络的稳定性结果[4-7]。事实上,为了精确描述神经网络的平衡和稳定属性,前一个状态的时间导数信息的必须引入神经网络的状态方程,即中立神经网络,这种神经网络的稳定性研究已经有许多的结果,包括离散时滞、分布时滞以及变时滞[8-11]。
另一方面,在很多实际的系统中,如在物理电路和生物系统中,随机干扰在动力系统中起着非常重要的作用。那么由于随机因素客观存在于实际过程中,确定性系统建模的只能描述实际过程动态特性的某种近似。显而易见,利用确定性系统理论的系统建模方法对某些系统实行的描述常常会严重背离所期望的效果。为了抵消这些不确定因素的影响,必须将系统描述为不确定系统。
本文将在Lipschitz连续的激活函数条件下,研究参数范数有界不确定的离散时滞中立神经网络的鲁棒稳定性问题。应用范数分析方法,构造合适的Lyapunov-Krasovskii泛函并考虑参数范数有界不确定,研究新的稳定性判定准则,用以保证离散时滞中立神经网络在平衡点是全局渐近鲁棒稳定的。与现有文献中稳定性准则绝大多数使用LMI形式[5,7,8,10,13]相比,本文的准则未知参数少且计算复杂度底,更加易于验证。
在本文中,用Rn表示n维欧几里德空间;对任意p=(pij)n*n,p>0表示p是对称正定矩阵;pT,p-1,λm(p),λM(p)分别代表P的转置、P的逆、P的特征值的最小值和P的特征值的最大值;矩阵的范数P2=[λM(PTP)]1/2;对于向量 , 。
1 系统模型及引理
考虑以下一类具有离散时滞的中立神经网络模型:
(1)
其中n 是神经元数目,xi是第i个神经元状态;参数ci为常数;αij表示神经网络中神经元之间的互连权值;τj为时滞;bij表示在具有时滞τj的情况下神经元之间的互连权值;eij表示时滞状态的时间导数的系数;fj(・)表示神经元的激活函数;常数ui表示外部输入。在系统(1)中,τj≥0表示时滞参数τ满足τ=max(τj),1≤j≤n。系统(1)的初始条件为: ,其中 表示从[-τ,0]到R的连续函数集。
假设1 考虑系统模型参数的不确定性,假设系统(1)中ci,αij,bij,eij和τj是范数有界且满足
(2)
假设2 系统(1)中的激活函数fj(),i=1,2,…,n是Lipschitz连续,即存在 使得
(3)
接下来,系统模型(1)写成矩阵向量形式,如下
(4)
其中 A=(aij)n×n,B=(bij)n×n,
E=(bij)n×n,C=diag(ci>0),u=(u1,u2,…,un)T,
f(x(t))=(f1(x1(t)),f2(x2(t)),…,fn(xn(t)))T,
f(x(t-τ))=(f1(x1(t-τ1)),f2(x2(t-τ2)),…,fn(xn(t-τn)))T.
为了求得结果,将使用下列1个事实和4个引理。
事实1 如果W=(Wij)和V=(Vij)满足式(2)且范数有界,则存在正常数σ(W)和σ(V)使得||W||2≤σ(W)和||V||2≤σ(V)。
引理1[12] 对W∈W1:=
下列不等式成立:
其中
引理2[13] 对W∈W1:=
下列不等式成立:
σ2(W)=||W*||2+||W*||2
其中
引理3[14] 对W∈W1:=
下列不等式成立:
其中
引理4[15] 对W∈W1:=
下列不等式成立:
其中
2 稳定性分析
为了简化证明过程,通过变换z(t)=x(t)-x*,转移中立神经网络(1)的平衡点到新系统的原点,得到以下系统模型:
(5)
写成矩阵向量形式,如下
(6)
其中 是转换后神经网络的状态向量, g(z(t))=g1(z1(t)),g2(z2(t)),…,gn(zn(t)))T,和表示新的非线性激活函数。式(5)中的激活函数gi(zi(t))满足
(7)
以下将导出主要的稳定性结果。
定理1 对于中立神经网络(5),让||E||2
γ1=||C||2-||P||2-||Q||2-||H||2-σ2(C)||R-1||2>0,
γ2=||C||2||L-2||2-||D||2-σ2(A)||P-1||2-σ2(A)||R-1||2>0, (8)
γ3=||D||2-σ2(B)||Q-1||2-σ2(B)||R-1||2>0,
γ4=||H||2-3σ2(E)||R||2>0,
其中
证明 构造如下Lyapunov-Krasovskii泛函:
(9)
其中hi和di,i=1,2,…,n是正常数。
沿着系统(5)解的轨迹,对V(z(t))求时间的导数:
(10)
由于 ,则有
(11)
另有下列不等式:
2zT(t)Ag(z(t))≤zT(t)Pz(t)+gT(z(t))ATP-1Ag(z(t))
≤||P||2||z(t)||22-||A||22||P-1||2||g(z(t))||22
(12)
2zT(t)Bg(z(t-τ))≤zT(t)Qz(t)+gT(z(t-τ))BTQ-1Bg(z(t-τ))
≤||Q||2||z(t)||22+||B||22||Q-1||2||g(z(t-τ))||22
(13)
-2zT(t-τ)ETCz(t)≤zT(t-τ)ETREz(t-τ)+zT(t))CTR-1Cz(t)
≤||E||22||R||2||(z(t-τ)||22+||C||22||R-1||2||z(t)||22
(14)
2zT(t-τ)ETAg(z(t))≤zT(t-τ)ETREz(t-τ)+gT(z(t))ATR-1Ag(z(t))
≤||E||22||R||2||(z(t-τ)||22+||A||22||R-1||2||g(z(t))||22,
(15)
2zT(t-τ)ETBg(z(t-τ))≤zT(t-τ)ETREz(t-τ)+gT(z(t-τ))BTR-1Bg(z(t-τ))
≤||E||22||R||2||(z(t-τ)||22+||B||22||R-1||2||g(z(t-τ))||22
(16)
其中P,Q,R是正定矩阵。
根据式(7)有
zT(t)Cz(t)≥gT(z(t))CL-2g(z(t)) (17)
将(12)-(17)代入(11),可得:
(18)
由事实1和引理1-引理4,
||A||2≤σ(A),||B||2≤σ(B),||C||2≤σ(C),||E||2≤σ(E)
,则有
(19)
即
(20)
等于
(21)
显然,如果z(t),g(z(t-τ)),gT(z(t))和z(t-τ)中任意一个向量非零,则γ1>0,γ2>0,γ3>0,和γ4>0,就能保证 。当且仅当在系统(5)的原点有,z(t)=z(t-τ)=g(z(t-τ))=g(z(t))=0,则 。另外,V(z(t))∞as||z(t)||2∞意味着用于稳定性分析的Lyapunov泛函是径向无界的。因此,可以从标准的Lyapunov稳定性理论得出结论:系统(5)的原点(等价于系统(1)的平衡点)是全局渐近鲁棒稳定的。定理1证明完毕。
选择定理1中的H,D,P,Q和R,令H=hI,D=dI,P=pI,Q=qI和R=rI,我们能得到以下推论1。
推论1 对于中立神经网络(5),让||E||2
(22)
其中
3 仿真示例
在本节,将用一个仿真算例说明所得结论的有效性。
例1 考虑具有离散时滞和范数有界不确定性的中立神经网络模型系统(5),其参数为
其中χ>0是一个实数。
计算矩阵A*,A*,B*和B*,有
那么,有
σ21(A*)=|||A*TA*|+2|A*T|A*+A*TA*||2=105.3505χ2,
σ22(A)=(||A*||2+||A*||2)=98.3826χ2,
σ23(A)=||A*||22+||A*||22+2||A*T|A*|||2=95.4366χ2,
因为σ(A)=minσ1(A),σ2(A),σ3(A),σ4(A),
可得σ2(A)=95.4366χ2。同理,计算得σ2(B)=95.4366χ2,σ2(C)=4。
由推论1,令||E||2,r,h,为极小值,d=1,p=q,则有
联立上述4项必要条件,可得95.4366χ2≤1,即χ≤0.1024。因此,根据推论1,如果选择χ≤0.1024,推论1中的稳定性条件就能满足,那么就能判定系统(5)的平衡点是全局渐近鲁棒稳定的。
接下来,考虑本例中的一种特殊情况,将给出可视化的模拟结果。令χ=0.08(满足χ≤0.1024),则有
选择
使用Matlab模拟,结果如图1所示,可以看出系统(5)经过一段时间后收敛于平衡点。
图1
系统(5)的x(t)轨迹(初始状态x(0)=[0.4 -0.2]、激活函数f(x(t))=tanh(x(t))
4 结束语
本文得到了一个有关具有离散时滞和参数范数有界的不确定性中立神经网络的全局渐近鲁棒稳定性的新结果。通过将神经网络模型中的参数不确定性转化为范数有界问题,并利用矩阵不等式分析方法,构造合适的Lyapunov-Krasovskii泛函,得到了新的与时滞无关的稳定性判定准则,能够保证该类离散时滞中立神经网络在平衡点全局渐近鲁棒稳定。与现有文献中大多数LMI形式的稳定性准则不同,该稳定性判定准则中未知参数少且计算复杂度低,易于计算验证。最后,一个数值仿真算例验证了稳定性判定准则的有效性。在后续的研究工作中,将进一步研究具有变时滞的范数有界不确定神经网络的全局渐近鲁棒稳定性问题。
参考文献:
[1]韩广,乔俊飞,薄迎春.溶解氧浓度的前馈神经网络建模控制方法[J].控制理论与应用,2013(05):585-591.
[2]黄亮,冯登国,连一峰.基于神经网络的 DDoS 防护绩效评估[J].计算机研究与发展,2013(10):2100-2108.
[3]吴玉香,王聪.基于确定学习的机器人任务空间自适应神经网络控制[J].自动化学报,2013(06):806-815.
[4]刘国权,周书民.一类含有时变时滞的不确定中立型Hopfield神经网络的鲁棒稳定性判据[J].自动化学报,2013(09):1421-1430.
[5] DU Y,ZHONG S,ZHOU N, et al.Exponential stability for stochastic CohenGrossberg BAM neural networks with discrete and distributed time-varying delays[J].Neurocomputing,2014(01):144-151.
[6]LIU B. Global exponential stability for BAM neural networks with time-varying delays in the leakage terms[J].Nonlinear Analysis:Real World Applications,2013(01):559-566.
[7]KWON O,PARK J H,LEE S-M,et al.Analysis on delay-dependent stability for neural networks with time-varying delays[J].Neurocomputing,2013(01):114-120.
[8]LAKSHMANAN S,PARK J H,JUNG H Y,et al.A delay partitioning approach to delay-dependent stability analysis for neutral type neural networks with discrete and distributed delays[J].Neurocomputing,2013(01):81-89.
[9]WANG K,ZHU Y.Stability of almost periodic solution for a generalized neutral-type neural networks with delays [J].Neurocomputing,2010(16-18):3300-3307.
[10]LIU P L.Improved delay-dependent stability of neutral type neural networks with distributed delays[J].ISA Trans,2013(06):717-24.
[11]ZHANG Z,LIU W, ZHOU D.Global asymptotic stability to a generalized Cohen-Grossberg BAM neural networks of neutral type delays[J].Neural networks,2012(01):94-105.
[12]FAYDASICOK O,ARIK S.A new upper bound for the norm of interval matrices with application to robust stability analysis of delayed neural networks[J].Neural Networks,2013(01):67-71.
[13]CAO J,HUANG D-S,QU Y.Global robust stability of delayed recurrent neural networks[J].Chaos,Solitons & Fractals,2005(01):221-229.
[14]ENSARI T,ARIK S.New results for robust stability of dynamical neural networks with discrete time delays[J].Expert Systems with Applications,2010(08):5925-5930.
[15]SINGH V.Global robust stability of delayed neural networks:Estimating upper limit of norm of delayed connection weight matrix[J].Chaos,Solitons&Fractals,2007(01):259-263.
作者简介:吴海霞(1979-),女,山东临清人,博士后,副教授,美国IEEE会员,中国计算机学会会员。研究方向:神经网络、基因调控网络动力学行为。
关键字神经网络,BP模型,预测
1引言
在系统建模、辨识和预测中,对于线性系统,在频域,传递函数矩阵可以很好地表达系统的黑箱式输入输出模型;在时域,Box-Jenkins方法、回归分析方法、ARMA模型等,通过各种参数估计方法也可以给出描述。对于非线性时间序列预测系统,双线性模型、门限自回归模型、ARCH模型都需要在对数据的内在规律知道不多的情况下对序列间关系进行假定。可以说传统的非线性系统预测,在理论研究和实际应用方面,都存在极大的困难。相比之下,神经网络可以在不了解输入或输出变量间关系的前提下完成非线性建模[4,6]。神经元、神经网络都有非线性、非局域性、非定常性、非凸性和混沌等特性,与各种预测方法有机结合具有很好的发展前景,也给预测系统带来了新的方向与突破。建模算法和预测系统的稳定性、动态性等研究成为当今热点问题。目前在系统建模与预测中,应用最多的是静态的多层前向神经网络,这主要是因为这种网络具有通过学习逼近任意非线性映射的能力。利用静态的多层前向神经网络建立系统的输入/输出模型,本质上就是基于网络逼近能力,通过学习获知系统差分方程中的非线性函数。但在实际应用中,需要建模和预测的多为非线性动态系统,利用静态的多层前向神经网络必须事先给定模型的阶次,即预先确定系统的模型,这一点非常难做到。近来,有关基于动态网络的建模和预测的研究,代表了神经网络建模和预测新的发展方向。
2BP神经网络模型
BP网络是采用Widrow-Hoff学习算法和非线性可微转移函数的多层网络。典型的BP算法采用梯度下降法,也就是Widrow-Hoff算法。现在有许多基本的优化算法,例如变尺度算法和牛顿算法。如图1所示,BP神经网络包括以下单元:①处理单元(神经元)(图中用圆圈表示),即神经网络的基本组成部分。输入层的处理单元只是将输入值转入相邻的联接权重,隐层和输出层的处理单元将它们的输入值求和并根据转移函数计算输出值。②联接权重(图中如V,W)。它将神经网络中的处理单元联系起来,其值随各处理单元的联接程度而变化。③层。神经网络一般具有输入层x、隐层y和输出层o。④阈值。其值可为恒值或可变值,它可使网络能更自由地获取所要描述的函数关系。⑤转移函数F。它是将输入的数据转化为输出的处理单元,通常为非线性函数。
2.1基本算法
BP算法主要包含4步,分为向前传播和向后传播两个阶段:
1)向前传播阶段
(1)从样本集中取一个样本(Xp,Yp),将Xp输入网络;
(2)计算相应的实际输出Op
在此阶段,信息从输入层经过逐级的变换,传送到输出层。这个过程也是网络在完成训练后正常运行时的执行过程。
2)向后传播阶段
(1)计算实际输出Op与相应的理想输出Yp的差;
(2)按极小化误差的方式调整权矩阵。
这两个阶段的工作受到精度要求的控制,在这里取作为网络关于第p个样本的误差测度,而将网络关于整个样本集的误差测度定义为。图2是基本BP算法的流程图。
2.2动态BP神经网络预测算法
在经典的BP算法以及其他的训练算法中都有很多变量,这些训练算法可以确定一个ANN结构,它们只训练固定结构的ANN权值(包括联接权值和结点转换函数)。在自动设计ANN结构方面,也已有较多的尝试,比如构造性算法和剪枝算法。前一种是先随机化网络,然后在训练过程中有必要地增加新的层和结点;而剪枝法则正好相反。文献[2]中提出了演化神经网络的理念,并把EP算法与BP进行了组合演化;也有很多学者把遗传算法和BP进行结合,但这些算法都以时间复杂度以及空间复杂度的增加为代价。根据Kolmogorov定理,对于任意给定的L2型连续函数f:[0,1]nRm,f可以精确地用一个三层前向神经网络来实现,因而可以只考虑演化网络的权值和结点数而不影响演化结果。基于此,在BP原有算法的基础上,增加结点数演化因子,然后记录每层因子各异时演化出的结构,最后选取最优的因子及其网络结构,这样就可以避免由于增加或剪枝得到的局部最优。根据实验得知,不同的预测精度也影响网络层神经元的结点数,所以可根据要求动态地建立预测系统。具体步骤如下:
(1)将输入向量和目标向量进行归一化处理。
(2)读取输入向量、目标向量,记录输入维数m、输出层结点数n。
(3)当训练集确定之后,输入层结点数和输出层结点数随之而确定,首先遇到的一个十分重要而又困难的问题是如何优化隐层结点数和隐层数。实验表明,如果隐层结点数过少,网络不能具有必要的学习能力和信息处理能力。反之,若过多,不仅会大大增加网络结构的复杂性(这一点对硬件实现的网络尤其重要),网络在学习过程中更易陷入局部极小点,而且会使网络的学习速度变得很慢。隐层结点数的选择问题一直受到神经网络研究工作者的高度重视。Gorman指出隐层结点数s与模式数N的关系是:s=log2N;Kolmogorov定理表明,隐层结点数s=2n+1(n为输入层结点数);而根据文献[7]:s=sqrt(0.43mn+0.12nn+2.54m+0.77n+0.35)+0.51[7]。
(4)设置结点数演化因子a。为了快速建立网络,可以对其向量初始化,并从小到大排序[4,7]。
(5)建立BP神经网络。隐含层传递函数用tansig,输出层用logsig,训练函数采用动态自适应BP算法,并制订停止准则:目标误差精度以及训练代数。
(6)初始化网络。
(7)训练网络直到满足停止判断准则。
(8)用测试向量对网络进行预测,并记录误差和逼近曲线,评估其网络的适应性。其适应度函数采取规则化均方误差函数。
(9)转到(5),选取下一个演化因子,动态增加隐含层结点数,直到最后得到最佳预测网络。
3基于神经网络的预测原理[4]
3.1正向建模
正向建模是指训练一个神经网络表达系统正向动态的过程,这一过程建立的神经网络模型称为正向模型,其结构如图3所示。其中,神经网络与待辨识的系统并联,两者的输出误差用做网络的训练信号。显然,这是一个典型的有导师学习问题,实际系统作为教师,向神经网络提供算法所需要的期望输出。当系统是被控对象或传统控制器时,神经网络多采用多层前向网络的形式,可直接选用BP网络或它的各种变形。而当系统为性能评价器时,则可选择再励学习算法,这时网络既可以采用具有全局逼近能力的网络(如多层感知器),也可选用具有局部逼近能力的网络(如小脑模型控制器等)。3.2逆向建模
建立动态系统的逆模型,在神经网络中起着关键作用,并且得到了广泛的应用。其中,比较简单的是直接逆建模法,也称为广义逆学习。其结构如图4所示,拟预报的系统输出作为网络的输入,网络输出与系统输入比较,相应的输入误差用于训练,因而网络将通过学习建立系统的逆模型。但是,如果所辨识的非线性系统是不可逆的,利用上述方法将得到一个不正确的逆模型。因此,在建立系统时,可逆性应该先有所保证。
4应用实例分析
以我国西南某地震常发地区的地震资料作为样本来源,实现基于动态神经网络的地震预报。根据资料,提取出7个预报因子和实际发生的震级M作为输入和目标向量。预报因子为半年内M>=3的地震累计频度、半年内能量释放积累值、b值、异常地震群个数、地震条带个数、是否处于活动期内以及相关地震区地震级。在训练前,对数据进行归一化处理。由于输入样本为7维的输入向量,一般情况下输入层设7个神经元。根据实际情况,输出层神经元个数为1。隐含层神经元的传递函数为S型正切函数,输出层也可以动态选择传递函数。实例数据来自文献[4],将数据集分为训练集、测试集和确定集。表1中的7×7数组表示归一化后的训练向量,第一个7表示预报因子数,第二个7表示样本数。
表1归一化后的训练向量
在不同神经元数情况下,对网络进行训练和仿真,得到如图5所示的一组预测误差曲线。其中,曲线A表示隐层结点数为6时的预测误差曲线,曲线B表示隐含层结点数为3时的预测误差曲线,曲线C表示隐含层结点数为5时的预测误差曲线,曲线D表示隐含层结点数为4时的预测误差曲线。将五种情况下的误差进行对比,曲线C表示的网络预测性能最好,其隐含层神经元数为5,图中曲线E表示的是隐含层结点数为15时的预测误差曲线(文献[4]中的最好结果)。同时也证明,在设计BP网络时,不能无限制地增加层神经元的个数。若过多,不仅会大大增加网络结构的复杂性,网络在学习过程中更易陷入局部极小点,而且会使网络的学习速度、预测速度变得很慢。
5结论
本文针对基本的BP神经网络,提出了可动态改变神经元数(与精度相关)的BP神经网络预测方法,可以根据实际情况建立预测系统。用此种方法可以建立最好的神经网络,不会有多余的神经元,也不会让网络在学习过程中过早陷于局部极小点。
参考文献
[1]YaoX,LiuY.FastEvolutionaryProgramming.inEvolutionaryProgrammingⅤ:Proc.5thAnnu.Conf.EvolutionaryProgram,L.Fogel,P.AngelineandT.Bäck,Eds.Cambridge,MA:MITPress,1996,451-460
[2]XinYao,YongLiu,ANewEvolutionarySystemforEvolvingArtificialNeuralNetworksIEEETRANSACTIONSONNEURALNETWORKS,VOL8,NO.31997,694-714
[3]潘正君,康立山,陈毓屏.演化计算[M].北京:清华大学出版社,1998
[4]飞思科技产品研发中心.神经网络理论与实现.北京:电子工业出版社,2005
[5]蔡晓芬,方建斌.演化神经网络算法.江汉大学学报,第33卷第3期,2005.9
(黑龙江民族职业学院,黑龙江 哈尔滨 150066)
摘 要:盈余预测具有引导投资者投资行为的作用,因此受到投资者的广泛重视。然而,国内对公司未来盈利进行预测的研究还相当少。提出了以决策树作为基分类器,采用集成学习方法,利用上市某公司2001至2005年的财务数据对该上市公司在2006年的盈利状况进行预测研究。首先,采用有放回的随机抽样技术分别从训练样本和测试样本中产生50个训练子集和1个测试集;然后利用决策树,采用CHAID算法对50个训练子集分别进行训练,得到50个基决策树分类器;通过采用Bagging方法,构建决策树集成模型。所得到的集成模型在测试集上的分类准确率达到96%以上,通过比较由不同数目的基分类器构成的集成模 型和单个分类器的预测准确率,证明了该集成模型的预测准确率高且稳定。
关键词 :神经网络;集成学习;盈利预测
中图分类号:F275文献标志码:A文章编号:1000-8772(2014)31-0253-02
收稿日期:2014-10-28
作者简介:潘道华(1981-),女,汉族,黑龙江哈尔滨人,研究生,主要研究方向:人工智能、数据挖掘与决策支持。
1 引言
公司的财务状况及其未来盈利情况不但对公司的管理层十分重要,而且对其他投资者也非常重要。如果能够利用公司以往的财务报表数据和其它一些宏观经济数据(如GDP、CPI、利率等)及早准确预测公司未来的盈利状况的话,那么就可以更有效地对公司进行管理和指导投资者的投资行为。但是,一个公司的财务报表往往只反映了公司在过去的财政年度内的经营状况,并不反映出公司在下一年中的管理情况。因而,一个公司的财务状况与其未来盈利之间的关系并没有那么明显,它受到很多因素的影响,要构建一个精确的模型反映它们之间的关系是很困难的。针对此情况,本文提出采用决策树集成方法,构建模型来刻画公司财务状况与其未来盈利之间的关系,利用上市公司已有的财务数据,并结合主要的宏观经济变量来预测公司未来的盈利状况,这必将是公司财务处理的一个新发展。
数据挖掘技术越来越多地被用于预测研究。集成学习方法作为数据挖掘技术中一种较新的方法,由于其在提高预测的准确性上的优点,正被越来越多的研究者使用。
尽管许多领域都应用集成学习方法来进行研究,但在对公司未来盈利的预测研究上还很少,在国内尚未见到任何报导。虽然Takashi Washio等人对日本上市公司的未来盈利状况进行了研究,但是他们只是将盈利状况分为两种情况来进行研究。本文通过利用集成学习方法,考虑宏观经济对公司盈利可能造成的影响,提出将宏观经济变量纳入变量体系,同时,为了使结果更有指导意义,将上市公司的每股收益(EPS)指标将公司盈利的情况划分为三类,即EPS为负,EPS大于均值及EPS介于二者之间,对其进行预测研究。
2 研究方法
2.1神经网络
人工神经网络是由大量并行分布式处理单元组成的简单处理单元[1]。由于神经网络具有非线性,自学习能力、自适应性强和容错性高等优点,因而被广泛用于各种非线性预测问题。
所有神经网络都有一个输入层和输出层,一个网络结构可以包含一个或多个隐含层。神经网络的学习是通过调整连接权重和偏差实现的。Cybenko等人证明了如果神经网络利用一个有界的,连续的,非递减的激活函数时,只要不对隐含层的神经元数进行限制,一个三层网络(包含一个隐含层)就能够学习任意一个在输入和输出空间的连续映射[2]。在实际应用中用的最多的是BP神经网络。
BP神经网络是一种基于误差后向传播算法(BP算法)的多层感知器网络。BP神经网络的激活函数一般采用Log-Sigmoid或Tangent Sigmoid等可微函数。BP算法分为两个阶段。第一阶段是前向过程,逐层计算各神经元的输出值,第二阶段是误差后向传播过程,从后向前逐层传播输出层的误差并据此修正各层权重,直到输出结果满足预先设定的精度要求或达到算法设定的最大循环次数。
2.2神经网络集成
如何根据观测数据学习得到精确估计是机器学习领域中人们非常关注的一个问题,机器学习的一个重要目标就是对新的测试样本尽可能给出最精确的估计。构造一个高精度估计是一件相当困难的事情,然而产生多个只比随机猜测好的粗糙估计却很容易。传统的机器学习方法是在一个由各种可能的函数构成的空间中寻找最接近实际分类函数的分类器。常用的单个分类器模型主要有决策树、人工神经网络等。
集成学习(ensemble learning)的基本思想是在对新的实例进行分类的时候,把若干个单个分类器集成起来,通过对多个分类器的分类结果按某种方式来进行组合,决定最终的分类,以取得比单个分类器更好的结果。如果把单个分类器比作一个决策者的话,集成学习方法就相当于多个决策者共同进行一项决策。
尽管单个神经网络在处理非线性问题上表现良好,但是用单个神经网络来进行预测,一个不足的地方就是结果的稳定性差。因为神经网络的预测结果受网络各层之间的初始权重影响很大。为了克服这一不足,本文利用集成学习的思想,采用以BP神经网络作为基分类器的神经网络集成方法来对公司未来盈利状况进行预测。
以神经网络作为基分类器构建集成模型的方法主要有Bagging和Boosting。本文选择采用Bagging方法,因为Bagging方法较易于实现,而且不容易产生过拟合现象。对一个已知的有n个数据元素的数据集,Bagging法的原理是[1]:对每次循环(=1,2,…,),采用有放回的随机抽样方法从数据集中抽取m个数据形成训练集(mn),分类器模型从中学习。为了对一个未知的元素X分类,每个都返回一个分类值,将该分类值看成是一票,而最后的集成分类器,通过统计这些投票,将X归为得票最多的那一类。
3 研究步骤与具体实例分析
3.1样本选取
本文采用的上市公司数据样本来自天软数据库。在剔除了财务变量有大量缺失值后,样本共包含从2001年至2006年的深市和沪市A股的1174家上市公司。其中,沪市上市公司734家,深市440家。本文选取了反映上市公司偿债能力,成长能力,经营能力,资本结构,盈利能力,现金流,每股指标等方面的29个财务变量作为初始变量。此外,为了研究宏观经济环境对公司未来盈利的影响,相应的选择了2001年至2006年的三个宏观经济变量:国内生产总值增长率(GDP),居民消费价格指数增长率(CPI)及一年期金融机构贷款基准利率。这几个变量都与公司的盈利状况有着密切的关系。国内生产总值反映了整个国家的经济状况,而居民消费价格指数是反映居民购买并用于消费的商品和服务项目价格水平的变动趋势和变动幅度的相对数,它可以全面反映多种市场价格变动因素及其对居民实际生活的影响程度。一年期金融机构贷款基准利率会影响公司的营运成本,会对公司的利润产生直接的影响。所有变量见附表。
为了预测未来公司的盈利状况,本文将数据样本分为训练样本和测试样本。其中,训练样本由2001年至2005年的公司样本数据用有放回的随机抽样方法得到,每个训练样本包含1000个观测,测试样本是用相同方法得到的上市公司在2006年的数据样本,包含400个观测。
3.2指标选择
对于初始变量表,变量之间存在着相关性。虽然神经网络对变量间的相关性具有较强的容忍度,但是,变量太多会增加网络的复杂度,还有可能使网络过适应,从而使得网络在测试样本上的表现很差,而且并不是变量越多,神经网络的预测精度就越大,所以适当选择具有代表性的指标变量既可以达到与用所有变量相同的预测精度,又能降低网络的复杂度,避免使网络陷入过适应,提高网络的训练速度。
然而,运用神经网络方法,对输入变量的选取目前并没有一个公认的方法。为了从众多的初始变量中选择具有代表性的变量,本文利用spss Clementine11.1数据挖掘软件包选项面板中的建模栏中的特征选择节点来对变量进行筛选。通过构建一个带有特征选择节点的流,可以为每一训练集筛选出重要的变量。利用筛选出来的变量和全部变量分别对训练样本进行训练,得到两种神经网络模型,分别对测试样本进行分类,并分别构建集成模型。
3.3 建立模型
本文是对2001年至2005年上市公司的数据样本进行训练得到单个神经网络模型,用该模型对测试样本进行预测。如何产生不同的分类模型是影响集成模型准确性的一个重要因素[4]。以下四种方法——不同的初始条件,不同的网络结构,不同的训练数据,不同的训练算法常用来产生分类模型。本文采用不同的训练数据和不同的网络结构这两种方式结合得到基神经网络。
按照Bagging方法的要求,本文采用有放回随机抽样方法,从训练样本中随机抽取了15个子训练集,并用相同的方法从测试集中抽取了400个样本数据组成测试集。每个子训练集含有1000个样本,它们均由2001至2005年的200个公司样本组成。利用特征选择节点在每个训练集上选出的变量分别在这15个子样本上进行训练得到子分类器,然后用这些子分类器对测试样本进行分类。采用多数投票法对子分类器进行集成,得到集成方法在测试集上的预测结果。
3.4 结果分析
为了比较集成模型与单个神经网络预测准确率的差异,按照单个神经网络模型预测准确率按升序进行排序,分别计算了由7个、9个、11个、13个、15个基神经网络模型构成的集成模型的预测准确率,集成模型,不论是由用全部变量进行训练得到的基神经网络构建还是由用筛选出的变量进行训练得到的构建,都显示出了很高的准确率,而且得到的预测准确率相当稳定。
4 结论
本文利用神经网络集成的方法,以上市公司过去的财务数据和宏观经济数据为样本,对上市公司的未来盈利状况进行预测。研究结果表明,相比于单个神经网络模型,尽管选用7个预测精度最差的单个神经网络作为基神经网络,其集成网络的预测准确率仍然很高,因而集成方法得到的结果更稳定,更具有说服力。
由于上市公司管理水平的差异,影响公司盈利状况的因素又多,所以要想较好的刻画它们对盈利状况的影响,是一个很有挑战性的问题。本文的研究结果还表明,采用神经网络集成方法来研究未来盈利状况是可行的。进一步的研究可以从以下几个方面考虑:
(1)变量的选取。为了使预测更为准确,在建模时,需要考虑更多的影响因素。由于公司盈利状况跟公司的管理水平直接相关,因此,如何合理选取量化一些有关公司治理的指标变量,将它们加入到模型中去,是一个值得深入研究的问题。
(2)产生集成神经网络的方法。除了Bagging方法,还有其他产生集成神经网络的方法,比如Boosting方法。不同的方法会得到不同的结果,从而通过比较不同的结果,可以得到一个用来研究此类问题的最好的方法。
参考文献:
[1] Lars Kar Hansen, Peter Salamon. Neural network ensembles,IEEE transactions on pattern analysis and machine intelligence,vol.12, pp993-1001, 1990.
[2] Li-Chiu Chia,Tseng-Chung Tang. Artificial neural networks in reorganization outcome and investment of distressed firms: The Taiwanese case, Expert Systems with Applications, vol.29,pp641-652, 2005.
[3] Jiawei Han Micheline Kamber, data mining; concepts and tech-niques(second edition)[M].北京:机械工业出版社,2006.
文章通过对比不同种类的预测模型,找到一种能够适合预测宽带网络故障的方法。文中使用动态神经网络和自回归移动平均法来预测非线性系统,并对结果进行比较,并得到了比较满意的结果。对于每个测试用例,相关参数都进行了调整以适应相应的精度要求。
【关键词】网络故障 神经网络 自回归移动平均法 非线性系统
1 引言
宽带电信网络现已经大规模的市场化,虽然网络服务的质量一直在不断提高,但是网络故障的不断发生,仍然是电信运营商所必须关注的问题。网络故障最常见的表现是:服务完全中断,下行带宽低,无法访问网站,拨打VoIP电话时的噪音,无法建立一个电话呼叫等。最能够反映网络服务质量的参数是MTBF(发生故障之间的平均时间),减少故障的发生也就是提高发生故障之间的平均时间是运营商对于网络改进的重点。国内外的运营商也正在开发中运营支持系统和业务支持系统,目的为了分析大量来自网络的可用数据。但是由于服务复杂度,较长的平均服务时间和更多终端设备的实例,与传统的电话网络相比,宽带接入网络的平均故障间隔时间(MTBF)比传统的非宽带网络低2-6倍,也就是是说网络故障发生的频率远高于传统的电话网络。另一方面,网络的复杂性使得难以准确地诊断可能会导致更高的重复数的问题故障。同时在用户被引入通过感知和报告故障的随机分量的数量和复杂性的增加,一个宽带网络中发生的故障可以看作是一个时间序列。时间系列描述宽带故障的特点是事件发生的随机性,事件驮有砸约笆录数量庞大,这就使得到的时间序列具有较高的过程噪声。由于监视系统的不完善性,时间序列中的噪声是必然是很多没有观察到的变量所导致的。监视系统的不完善性表明其预警的模糊性,不准确性,同时也可能导致在某些特定的网络故障事件发生时,无法预警。通过测量噪声的水平,我们确定了模型中所需的变量和其复杂度。描述时间序列有两个相关的变量,即平稳性和线性、非线性。描述宽带网络的时间序列是由于其特性,即高水平的波动多引起的非平稳性所决定的。在系统中的变量都是线性的和非线性的,一个时间序列的线性/非线性决定哪种模型会更有效地预测时间序列的结果,最终确定的最终实施的最佳模式。线性的时间序列可以使用自回归模型,例如ARMA或ARIMA来描述,而非线性的时间序列则更适合用神经网络的非线性激活函数来描述。本文的目的是为了找到最合适的模型来描述它表征的系统。
2 一个网络故障时间序列实例
为了动态跟踪和预测的故障发生,我们将故障的数量作为一个时间序列。它被认为是一个随机序列而不是确定性的序列,也就是说未来的结果只能进行估计,而不能够精确计算。数据收集的频率依赖于时间序列的性质和逻辑,也就是说结果依赖于所描述的现象。采样的频率利用每天,每周,每月和每年的时间序列。运营管理中,对于宽带故障的短期预测是必不可少的,而长期的预测是与战略和长期规划相关。此外,正确选择的数据采集频率有助于确定数据的周期性。宽带故障有两个清晰可辨的周期性,每天每周一次。故障发生模式本质上是动态的,并随着时间和季节的变化。每日样本反映住宅及商业客户的工作活动以及之后形成每周模型。本文对每10分钟,每小时,每天,每周序列进行了分析,为实际应用提供了足够的选择。图1显示了一个例子系列描述的是故障发生在10分钟的时间间隔,采样的总时间为2000分钟。一般情况下,该序列具有可识别的形式,然而像诸如如核心网元发生故障或雷雨可以显着影响曲线的形状和扭曲,使其不可识别。
3 神经网络模型
人工神经网络由于其十分强的自适应、自学习功能,因此经常用来预测不同种类的时间序列。人工神经网络是一个以有向图为拓扑结构的动态系统,它通过对连续或断续式的输入作状态响应而进行信息处理。是一个高度复杂的非线性动力学系统,不但具有一般非线性系统的共性,更主要的是它还具有自己的特点,比如高维性、神经元之间的广泛互连性以及自适应性或自组织性等。
3.1 感知器神经网络
MLP网络是神经网络中研究的一个重点,它们具有很强的分类能力,它能解决模式分布非常复杂的分类问题。它由三部分组成:一组感知单元(源节点)组成输入层、一层计算节点的隐含层、一层计算节点的输出层。第一层的激活函数为对数s形函数,第二层激活函数为线性函数。如图2所示。
3.2 BP神经网络
BP神经网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种多层前向型网络。其神经元的传递时S型函数,输出量为0-1的连续量,它可以实现输入到输出的任意非线性映射。BP神经元的传输函数为非线性函数,常用的函数为losig函数和tansig函数,输出层则采用线性函数purelin。如图3所示。
3.3 NARX神经网络
NARX神经网络即Jordan神经网络是一个能表示动态系统的网络,它把输入也反馈到网络的输出,这就使加入的状态反馈反映到网络的动态性能中。我们的想法得到进一步提高在非线性自回归网络与外部输入,输出的数据是保存在延迟存储器线。Jordan网络的输出值存储在网络本身的状态变量中,而NARX网络中,他们存储在延迟矢量中。如图4所示。
3.4 ARIMA 模型
ARIMA模型全称为差分自回归移动平均模型,是由博克思和詹金斯于70年代初提出的一著名时间序列预测方法。所谓ARIMA模型,是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。ARIMA模型根据原序列是否平稳以及回归中所含部分的不同,包括移动平均过程(MA)、自回归过程(AR)、自回归移动平均过程(ARMA)以及ARIMA过程。ARIMA模型的基本思想是:将预测对象随时间推移而形成的数据序列视为一个随机序列,用一定的数学模型来近似描述这个序列。这个模型一旦被识别后就可以从时间序列的过去值及现在值来预测未来值。模型如下图公式所示。
4 数据分析和对比
通过使用均方根误差和判定系数,对比实际的数据和预测的数据来估算预测模型的准确性。
图5和图6是对LRN模型和NARX模型预测的结果与实际数据的对比,从图形可以直观看出,这两个模型具有相对可靠地准确性。
5 结束语
本文的主要目的是比较不同的预测方法对于宽带网络故障的短期和长期预测。研究的结果表明动态递归神经网络优于静态神经网络。此外,传统的预测方法,ARIMA无法实现神经网络的准确性预测,这证实了在电信网络中大多数故障的非线性特征的假说。未来的改进方向是应用动态内存模型,像NARX和LRN模行,调节相应的网络参数,另外识别和输入参数的引入,也将有利于提高模型的准确性。
参考文献
[1]陆宁云,何克磊,姜斌,吕建华.一种基于贝叶斯网络的故障预测方法[J].东南大学学报自然科学版,2012,42:87-91.
[2]艾红,周东华.动态系统的故障预测方法[J].华中科大学学报:自然科学版,2009,37:222-225.
[3]吴昕慧.基于神经网络的铁路客运量优化预测[J].计算机仿真,2010(10):168-170.
[4]李楠,曾兴雯.基于EMD和神经网络的时间序列预测[J].西安邮电学院学报,2007(01):51-54.
[5]汪远征,徐雅静.多元平稳时间序列ARIMAX模型的应用[J].统计与决策,2007(18):132-135.
关键词:个性化;信息检索;文本分类
中图分类号:TP311文献标识码:A 文章编号:1009-3044(2008)29-0265-02
Method of Text Categorization in Personalized Retrieval
PENG Ye-ping, XIAO Da-guang
(Information science and Engineering college,Central South University,Changsha 416000,China)
Abstract: Personalized retrieval is becoming a hot topic for research, this paper mainly discusses about the text categorization algorithm, its principles and scope of application.
Key words: personalized; retrieval; text categorization
1 引言
搜索引擎在信息检索中起了重要作用,但是由于引擎的通用性,使其不能满足不同目的,背景,时期的用户查询需求,因此需要针对拥护特征向用户提供个性化服务。文本分类方法通过构造某种分类模型,并以此判断样本所属的类别。文本分类对合理组织,存储文本信息,提高信息检索速度,提高个性化信息检索效率的基础。
2 分类方法
2.1 朴素贝叶斯方法
朴素贝叶斯方法是一种在已知先验概率与条件的情况下的模式识别方法,假设词条之间是相互独立的。设d为一任意文本,它属于文档类C{c1,c2,…,ck}中的一类Cj,引用词条和分类的联合概率来计算给定文档的分类概率的公式如下:
计算所有文本类在给定d情况下的概率,概率值最大的那个类就是文本d所属的类,既:
2.2 贝叶斯网络分类法
贝叶斯网络分类法考虑了特征之间的依赖关系,该方法更能真实反映文本的情况,但是计算复杂度比朴素贝叶斯高的多。
2.3 决策树方法
决策树极强的学习反义表达能力使得其适合于文本分类,它是通过一组无序,无规则的实例推理出树型的分类规则,采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值进行判断从该结点向下的分支,在决策树的叶结点得到结论,决策树的建立算法有很多,文献[5]其中包括基于信息增益的启发式计算ID3;基于信息增益率的解决联系属性的算法C4.5;基于Gini系数的算法CART和可并行性算法SPRINT算法。决策树方法特点是使用者只要将训练样例能够使用属性-结合式的方法表达出来,就能够用该方法来学习,但是这种算法生成的仍是多叉树。
2.4 K-邻近方法
K-邻近方法,根据测试文本在训练文本中与之最相近的K篇文本的类别来判定它的类别,其中,K是一个重要的参数,文献[4]K值过大,则与待分类文本实际上并不相似的一些文本也被包含,造成噪音增加;K值太小,则不能充分体现待分类文本的特点.一般对K会选定一个初值,相似值的判定可取欧拉距离或余旋相似度等,若分类系统中相似值的计算采用余旋相似度,则公式如下:
Sim(x,di)为相似度公式,X为新文本的向量,y(di,cj)为类别属性函数,若d∈cj,则y(di,cj)=1;否则y(di,cj)=0;将新文本分到权重最大的类别中去。
2.5 支持向量机
Vapnik提出在结构风险最小化准则理论上的支持向量机方法,能有效解决小样本集的机器学习问题,向量机主要是针对两类分类问题,在高维空间寻找一个满足分类要求的最优超平作为两类的分割,既保证分类精确度,又要使超平面两侧的空白区域最大化,以保证最小的分类错误率,文献[1]对于大于两类的多类文本分类,就对每个类构造一个超平面,将这一类与其余的类分开,有多个类就构造多个超平面,测试时就看哪个超平面最适合测试样本。支持向量机方法避免了局部性问题,样本中的支持向量数,能够有效地用于解决高纬问题。
2.6 神经网络方法
神经网络是模仿人脑神经网络的基本组织特性构成的新型信息处理系统,其性质取决于网络拓扑结构,网络的权值和工作规则.通常由等于样本特征数的输入层,输出层,等于样本类数的神经元组成。其中,每一个连接都有一定的权值,通过训练类来训练的过程就是调整这些权值的过程,从而使神经网络与可以正确地预测类别。
3 几种方法的比较
3.1 朴素贝叶斯与网络贝叶斯
朴素贝叶斯方法使用概率去表示所有形式的不确定性,学习或其他形式的推理都用概率规则来实现,但是大部分情况是文本特征之间的依赖关系是相互存在的,所以特征独立性会影响朴素贝叶斯分类的结果;网络贝叶斯能够考虑特征之间的依赖关系,但是计算复杂度比朴素贝叶斯高得多;
3.2 支持向量机方法
支持向量机方法的优点:首先,该方法是针对有限样本情况的分类方法,其算法最终将转化为一个二次型寻优万恶提,理论上得到的将是全局最优点,避免了局部极值问题;其次,该方法计算的复杂度不再取决于空间维度,而是取决于样本数,这可能有效地用于解决高维度问题;再次,该方法对稀疏数据不敏感,能更好地捕捉数据的内在特征。缺点是:该方法参数的调整比较困难,分类比较费时。
3.3 神经网络方法
神经网络方法的优点:首先,具有自适应功能,它能根据所提供的数据,通过学习找出输出结果之间的内在联系,从而球的问题的解答;其次,神经网络善于联想、概括、类比和推广,任何局部的操作都不会影响整体效果;再次,具有高速寻找优化解的能力。缺点:该方法根据输入输出的关系训练网络,缺少解释能力,受训练样本影响大,训练过程较慢,不适应大量数据的学习。
3.4 决策树方法
决策树方法的优点是它在学习过程中不需要使用者了解很多背景知识,只要训练样例能够使用属性-结论式的方法表示出来,就能使用该方法。缺点是测试属性的选择对该方法影响较大。
3.5 K-邻近方法
K-邻近方法的优点是该方法训练过程较快,且可随时添加或更新训练文本来调整;缺点是因为需要很大的空间来保存文本,所以它分类的开销很大,K值确定较慢,分类效果较差.
4 文本分类方法效果评价
1) 精确度(查全率):是指通过分类系统正确分类的文本数与实际分类的文本数的比值,其公式如下:
精确度:=
2) 召回率(查全率):是指通过分类系统正确分类的文本数与人工分类中应有的文本数的比值,公式如下:
召回率:=
3) F1测试值:对查权率和查准绿的综合测试
F1测试值:=
参考文献:
[1] 史忠植.知识发现[M].北京:清华大学出版,2002.
[2] 朱明.数据挖掘[M].合肥:中国科技大学出版社,2002.
[3] 王继成,潘金贵,张福炎.web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520.
清河水库位于辽宁省铁岭市清河区境内,辽河左岸支流清河偏下游处。是一座以防洪、灌溉、工业供水为主,兼养鱼、旅游等综合利用多年调节的大型水利枢纽工程。水库已安全运行了50年,在防洪、兴利等方面取得了显著的经济效益和巨大的社会效益。
洪水分类预报是针对洪水典型过程代表性的不足,通过降雨成因和聚类分析,确定不同类别洪水预报参数的优选方法。清河水库根据现代洪水预报所存在的问题,结合工程实际,采用当前先进的分类预报方法,在流域长系列资料中将预报误差较大的洪水提出来,根据其成因不同,采用人工神经网络分类,利用遗传算法参数优选,然后根据洪水特征,选择不同的模型参数和规则进行洪水调度,从而提高了水库预报调度精度,并与先进的计算机技术结合,集成到防洪调度系统中去,使其具有可行性、外延性和推广性,从而取得显著的经济效益和社会效益。本文就人工神经网络在清河水库洪水分类预报中的应用作以介绍。
一、人工神经网络的基本原理
人工神经网络是由大量神经元广泛互连而成的网络系统,用以模拟人脑的行为。它是在现代神经科学研究成果的基础上提出来的,是一种全新的模拟人类智能的方法和技术。目前,世界上已有50余种神经网络计算模型,这些模型大体上可以分为三类,即:前馈网络(Feedforward NNS)、反馈网络(Feedback NNS)和自组织网络(Self-Organizing NNS) 。
多层神经网络能够以任意精度逼近任意连续的非线性映射程的前提是在网络任意大的情况下成立。对于给定的问题,网络的层数取决于问题的要求,同时直接影响其推广能力。对于用于分类的BP模型,选用3层BP神经网络结构,具体的训练算法分别采用标准的BP算法、动量法、基于动量法的自适应调整学习率的策略、拟牛顿法的BFGS法、共轭梯度法的Polak-Ribievre(简称P-R)法以及Leveberg-Marquardt(简称L-M)法。其输入层节点数与输入的特征数相同;输出层节点数与分类类别数相同;隐含层节点数视问题的复杂度经试验确定。一般确定隐节点数的方法采用“试错法”(Trail-and-Error);先设定一个数为隐节点数,如果训练误差不能下降到所需范围就增加节点数。如果误差已经很小而分类效果依然很差,说明隐节点数过多,此时需适当减少隐节点数。这样经过训练合格后的BP模型就是一个分类器,可以对输入样本进行分类,这种分类器适于离线或在线分类。
Back-Propagation(反向传播,简称BP算法)是目前研究最多的算法之一。BP神经网络通常有一个或多个隐含层,含有一个隐含层的BP神经网络结构如图1所示。
图1中,R代表输入层有R个分量的输入向量,Q为样本数,P为输入矩阵,W1、W2、b1、b2、a1、a2、s1、s2、n1、n2分别为隐含层和输出层神经元的权重矩阵、阈值向量、输出向量、神经元数及加权和向量。
在基本结构确定后,就可利用输入输出样本集对网络进行训练。BP算法的训练就是对网络的权值和阈值进行学习和调整,使网络实现给定的输入输出映射关系。BP算法实质上是把一组样本输入输出问题转化为一个非线性优化问题,并通过梯度算法利用迭代运算求解权值问题的一种学习算法。已经证明,具有sigmoid非线性函数的三层神经网络可以任意逼近任何连续函数。其学习过程包括误差正向传播和反向传播两个过程。在正向传播过程中,输入信息从输入层经隐含层逐层处理,并传向输出层,每一层神经元的状态只影响下一层神经元的状态。如果输出层不能得到期望的输出,则转入反向传播,将误差信号沿原来的路径返回。通过反复修改各层神经元的权值和阈值,使误差最小。
二、BP算法在清河水库洪水预报分类中的应用
洪水过程具有高度复杂性、模糊性和随机性,但同时又表现出自身的规律性。对洪水进行模糊聚类分析,寻找同类型洪水的规律,以便将参数分类调试和洪水分类预报有机地结合起来,提高预报精度。在分析模糊ISODATA聚类不适合大样本和实时在线分类的不足的基础之上,BP算法和ANN模型解决洪水的分类问题是可行的,还具有良好的外延性和推广性。
本文选用图1的3层BP神经网络结构,具体的训练算法分别采用上面提及的标准的BP算法、动量法、基于动量法的自适应调整学习率的策略、拟牛顿法的BFGS法、共轭梯度法的Polak-Ribievre(简称P-R)法以及Leveberg-Marquardt(简称L-M)法。选取清河水库从1964年至2004年41年的38场洪水按传统预报方法进行重新计算,在这38场洪水中,用随机函数随机取出28场洪水作为分析资料,其他10场洪水留作检验用。由于在清河水库历史洪水资料中,降雨时期的天气情况资料不完整,所以只考虑流域平均降雨量、前期影响雨量、降雨强度、降雨时空特征四个因子。
关键词:多移动机器人;未知环境;导航;智能算法
1.引言
移动机器人的研究始于20世纪60年代末期,目的是研究人工智能技术及在复杂环境下机器人系统的自主推理和规划能力。本文从多个方面对移动机器人的导航进行了深入的系统研究,其主要的内容和成果如下:从移动机器人的历史和现状出发,对比了国内外的不同发展状况,对移动机器人导航领域的研究方向进行了综述。着重介绍了移动机器人导航中常用的方法,对其中的人工势能场法、神经网络、遗传算法和模糊控制进行了逐一的分析阐述,最后综述结尾对全文进行了总结并对移动机器人导航研究进行了展望。
2.移动机器人的几种导航方式
移动机器人导航是指移动机器人通过传感器感知环境和自身状态,实现在有障碍物的环境中面向目标的自主运动。我们可以将移动机器人所处的环境分成以下几个研究方向:1)完全已知环境:机器人知道所在工作环境的所有信息,包括目标点的位置,方向,障碍物的位置和方向;2)部分已知环境:机器人知道所在工作环境中的部分信息,比如知道一部分障碍物的位置和方向,有另外一部分环境是不知道的;3)完全未知环境:机器人完全不知道所在工作环境的信息,只知道目标点的方向和位置,其它障碍物的信息是一点都不知道。
目前,机器人导航要解决的关键问题表现为以下三个方面[1]:
1)通过一定的检测手段获取移动机器人在空间中的位置、方向以及所处环境的信息;
2)用一定的算法对所获信息进行处理并建立环境模型;
3)寻找一条最优或近似最优的无碰路径,实现移动机器人安全移动的路径规划。
目前,移动机器人导航有很多方法,常用的方法有:人工势能场法、神经网络、遗传算法和模糊控制等,下面本文将对这几种常用的方法进行分析比较。
2.1 基于人工势能场法(APF)的移动机器人导航
人工势场法[1,2]是Khatib提出的一种虚拟力法。人工势场法是传统算法中较成熟且高产的规划方法,其基本思想是将移动机器人在环境中的运动视为一种虚拟人工受力场中的运动。障碍物对移动机器人产生斥力,目标点产生引力,引力和斥力周围由一定的算法产生相应的势,机器人在势场中受到抽象力作用,抽象力使得机器人绕过障碍物。该法结构简单,便于低层的实时控制,在实时避障和平滑的轨迹控制方面,得到了广泛应用。
高云峰等[3]针对势场原理所固有的几个缺陷进行了改进,使改进后的势场法适用于未知复杂环境下移动机器人的导航,具备一定的学习能力,并通过仿真实验验证了该方法的有效性。王肖青等[4]讨论了传统的人工势能场方法的不足,并提出了一种改进的人工势能场方法。王奇志等[5]提出了一种改进的人工势场法,通过排除一个距机器人最远的障碍物,同时加一个同等大小反方向力来消除零势能点,从而实现消除零势能域,达到多障碍物情况下机器人运动规划的快速、实时、避障的效果,结果表明,该算法对多个障碍物和非静态的障碍物同样适用。
人工势场法突出的优点是系统的路径生成与控制直接与环境实现了闭环,从而大大加强了系统的适应性与避障性能。但是人工势场法也存在几个主要的缺陷:1)陷阱区域;2)在相近的障碍物之间不能发现路径;3)在障碍物前振荡;4)在狭窄通道中摆动;针对这些缺陷,提出了一些改进办法。对于人工势场法存在“机器人在到达目标位置前由于陷入局部极小点而无法到达目标位置”的问题,解决的方法有:重新定义势函数,使之没有或有更少的局部极小点;利用搜索算法跳出局部极小点;还可以利用模拟退火算法使势函数跳出局部极小点,到达机器人的目标位置。
2.2 基于神经网络的移动机器人导航
神经网络具有很强的适应复杂环境和多目标控制要求的自学习能力,并具有以任意精度逼近任意非线性函数的特点,神经网络可与其他控制方法如专家系统、模糊控制等相结合,为其提供非参数化的对象模型、推理模型等。
近年来神经网络在移动机器人导航领域得到越来越广泛的应用。Zhang等[6]利用移动机器人在未知杂乱的环境中基于神经网络和模糊逻辑的反应式导航原理,提出了一种新的方法,即提供一条指导命令使移动机器人避免内部碰撞及与障碍物相撞,说明了如何使用ART神经网络在感知空间分区中控制移动机器人,如何为反应式导航的移动机器人建立一个三维的模糊控制器,并通过实验模拟,证明了这种方法能够很好地适应这种未知杂乱的环境。Zhu等[7]提出了一种基于模糊神经网络将传感器信息与机器人的移动结合起来的导航方法,这种方法可以使移动机器人充分感受周围环境、自主避开静态和动态障碍物,并在不同情况下避开“死循环”产生到达目标的合理的轨迹。通过仿真证明了该方法的实用性和有效性。Yang等[8]提出了一种神经网络结构,这是一个有序的离散拓扑结构,用支路神经网络模型为移动机器人进行路径规划,分流利用。Meng等[9]使用生物激励神经网络的方法,使移动机器人在动态环境中实现动态无碰撞。Millan[10]提出了一种强化学习的结构模型,使移动机器人在经过一定的尝试后获得导航的策略。为了避免简单的模糊反应式方法带来的两大隐患,即从陷阱的情况下逃脱以及if-then规则的推理机制组合爆炸。尽管神经网络在很多复杂度很高的问题上取得了很好的效果,但在使用时有几点需要注意:1)神经网络很难解释,目前还没有能对神经网络做出显而易见解释的方法学;2)神经网络会学习过度,这主要是由于神经网络太灵活、可变参数太多,如果给足够的时间,他几乎可以“记住”任何事情,因此在训练神经网络时一定要恰当的使用一些能严格衡量神经网络的方法;3)训练一个神经网络可能需要相当可观的时间才能完成,除非问题非常简单。当然,一旦神经网络建立好了,在用它做预测时运行时还是很快的;4)建立神经网络需要做的数据准备工作量很大。
2.3 基于遗传算法的移动机器人导航
遗传算法是由美国的J.Holland教授于1975年在他的专著《自然界和人工系统的适应性》中首先提出的,它本质上是对染色体模式所进行的一系列运算,即通过选择算子将当前种群中的优良模式遗传到下一代种群中,利用交叉算子进行模式重组,利用变异算子进行模式突变。通过这些遗传操作,模式逐步向较好的方向进化,最终得到问题的最优解。
张文志等[11]给出了一种用遗传算法学习模糊规则以完成移动机器人导航的方法,采用了变长度编码方法和竞争型小生境遗传算法,减少了染色体的尺寸和复杂度,同时提高了学习速度。Nishida等[12]利基于神经元系统提出了一种预测机器人伙伴感知的控制方法,该预测方法对于减少计算量、提取感知信息是非常重要的。龚涛等[13]分析了未知远程环境下移动机器人导航过程中进化学习的效率和知识更新问题,提出了并行进化模型来解决此问题。Hu等[14]提出了一种基于遗传算法的移动机器人路径规划,即使用具体的遗传算法来解决机器人的路径规划问题。这种遗传算法结合了专门的领域知识及本地搜索技术的知识,是一种独特而简单的路径表示,具有简单而有效的特点。现有多机器人协作构建地图的方法对环境和机器人位置信息有着较高要求,因而在实际应用中存在一定局限性,Kala等[15]在文中提出了遗传算法在移动机器人导航中的应用,使机器人可用于业界派调查,数据采集等,移动机器人可以在动态环境中避免内部碰撞证明了这种算法的有效性。
3.展望
目前,移动机器人导航技术已经取得了很好的研究成果。计算机技术、电子技术、通信技术、传感器技术、控制技术、网络技术地迅猛发展必将推动和促进移动机器人导航技术取得更多的研究成果。移动机器人导航技术的发展有以下几方面的趋势:(1)视觉导航具有信息量大、探测范围广等特点,仍然是移动机器人导航技术的主要发展方向;(2)导航系统结构将朝着分布式、模块化、网络化、多机器人协作的方向发展。分布式和模块化的结构有利于减少机器人的体积和自重。通过互联网实现机器人的远程操作以及基于网络的多机器人协作是导航技术的新的研究热点;(3)路径规划将朝着多层规划和多方法相结合的方向发展。采用基于反应式的行为规划与基于慎思行为规划相结合的方法。全局路径规划和局部路径规划相结合更有利于复杂环境的避障规划;(4)新技术、新方法(如,虚拟现实技术、信息融合新方法、新型传感器等)将促进移动机器人导航技术更快地发展。
参考文献:
[1]王志文,郭戈.移动机器人导航技术现状与展望[J].机器人,2003,25(5):193-197.
[2]徐秀娜,赖汝.移动机器人路径规划技术的现状与发展.计算机仿真.2006.10
[3]高云峰,黄海.复杂环境下基于势场原理的路径规划方法[J].机器人,2004,26(2):114-118
[4]王肖青,王奇志.传统人工势场的改进[J].计算机技术与发展,2006,16(4):96-98.
[5]王奇志,基于改进人工势场法的多障碍机器人运动控制,北京交通大学计算机学院,北京 100044.
[6]M.Zhang,S.Peng,and Q.Meng,Neural network and fuzzy logic techniques based collision avoidance for a mobile robot,Robotica,1997:627C632.
[7]A.Zhu and S.X.Yang,Neurofuzzy-based approach to mobile robot navigation in unknown environments,IEEE Trans.Syst.Man,Cybern.C.2007,37(4):610-621.
[8]S.X.Yang and Q.-H.M.Meng,Real-time collision-freemotion planning of mobile robots using neural dynamics based approaches,IEEE Trans.Neural Netw.2003,14(6):1541-1552.
[9]X.Yang and M.Meng,Neural network approaches to dynamic collision-free robot trajectory generation,IEEE Trans.Syst.Man,Cybern.2001,31:302-318.
[10]J.del R.Millan.Rapid,Safe and Incremental Learning of Navigation Strategies[J].IEEE Trans.on SMC-Part B,1996,26(3):408-420.
[11]张文志,吕恬生.基于改进的遗传算法和模糊逻辑控制的移动机器人导航[J].机器人,2003,25(1):1-6.
[12]N.Kubota and K.Nishida,Perceptual control based on prediction for natural communication of a partner robot,IEEE Trans.Ind.Electron.2007,54(2):866C877.
[13]龚涛,蔡自兴.未知远程环境下移动机器人导航的并行进化模型[J].机器人,2003,25(3):470~474.
[14]Y.Hu,S.X.Yang,A knowledge based genetic algorithm for path planning of a mobile robot,in:Proceedings of the 2004 IEEE International Conference on Robotics and Automation.2004:4350 - 4355.
【摘要】 目的建立高效准确的穿心莲样品识别模型,为进行质量控制提供参考。方法收集不同产地的12个穿心莲药材样品的指纹图谱,提取4个主成分利用LM-BP神经网络进行模式识别。结果建立了穿心莲药材指纹图谱的LM-BP神经网络模型,经过对不同产地穿心莲的识别,证明其有较好的识别功能。结论LM-BP算法在识别速度和精度上都比传统BP算法有了较大提高。
【关键词】 LM-BP神经网络 穿心莲 指纹图谱
为了更全面地检测各种成分在药材中分布的全貌,评价药材质量,促进优质中成药的生产,对中药品种的分类识别是一个首要环节[1]。我国中药材产地多,资源丰富、品种繁多、来源复杂,单凭传统的经验鉴别容易造成失误,而随着计算机技术发展和模式识别算法的提出和改进,利用中药指纹图谱进行中药材鉴定已经取得了长足发展。由于中药指纹图谱含有大量信息,形成一个巨大的多维信息库,且同时存在一些噪声干扰而真伪难辨等,因此如何提高中药指纹图谱的识别效率,获取更多有用的数据信息成为亟待解决的问题。本研究结合Levenberg-Marquardt算法与BP神经网络技术,提取不同产地批次的穿心莲中药指纹图谱的特征空间信息,利用Matlab7.0软件编程建立高效准确的穿心莲样品识别系统。
1 材料与仪器
1.1 样品来源 12批穿心莲药材样品由广东省中药研究所提供,经广州华南植物研究所陈炳辉研究员鉴定为穿心莲Andrographis paniculata(Burm.f.)Nees,其中4批产自江西,5批来自广东,福建3批。
1.2 试剂 乙腈(色谱纯),甲酸(分析纯),二次蒸馏水(自制)。
1.3 仪器Agilent四元泵高效液相色谱仪、SPD210A紫外检测器,LC210ATVP输液泵、UV24802型紫外可见分光光度计,AR2140电子分析天平。
2 方法
2.1 色谱分析条件 Phenomsil ODS柱( 250 mm ×4.6 mm,5 μm),0.1%甲酸乙腈(A)与0.2%甲酸(B)梯度洗脱:0~20 min(20%A-80%B),20~40 min(30%A -70%B),40~55 min(40%A -60%B),55~60 min(85%A-15%B)。流速1.0 ml/min,柱温25。C,检测波长254 nm,进样量10 μl,所有组分均在60 min内被洗脱。
2.2 对照品溶液的制备精密称取穿心莲内酯、脱水穿心莲内酯、新穿心莲内酯和脱氧穿心莲内酯对照品适量,用50%甲醇配制成1.0 mg/ml的对照品溶液。
2.3 供试品溶液的制备 取各批干燥的穿心莲药材2.0 g,粉碎,过40目,用20 ml 85%的乙醇回流提取两次,2 h/次,过滤,合并滤液,回收乙醇,滤液浓缩至干,再加50%甲醇使其充分溶解,置10ml量瓶中稀释至刻度,作为供试品溶液。
2.4 方法学考察
2.4.1 精密度实验取供试品溶液(样品1),连续进样6次,各主要色谱峰的相对保留时间和相对峰面积比值的RSD均小于3.0%,表明仪器精密度良好。
2.4.2 稳定性实验取供试品溶液(样品1)分别在0,1,2,4,12,24 h进样测定,各主要色谱峰的相对保留时间和相对峰面积比值的RSD均小于3.0%,表明样品在24 h内稳定。
2.4.3 重复性实验取穿心莲药材(样品1),按“2.3”项下的方法分别制备供试品溶液6份,进样检测,结果各主要色谱峰的相对保留时间和相对峰面积比值的RSD均小于3.0%,表明方法的重复性良好。
2.5 模式识别方法
2.5.1 模式识别和BP神经网络模式识别作为一个研究领域,迅速发展于20世纪60年代,它是一门以应用数学为理论基础,利用计算机应用技术,解决实际分类及识别问题的学问[2]。
神经网络是一种模拟人脑功能的成熟的模式识别方法,它借鉴了人脑神经系统处理信息的过程,以数学网络拓扑结构为理论基础,其中BP神经网络是迄今为止应用最为广泛的神经网络[3]。
BP神经网络是一种有监督的学习算法,它的特点是同一层内的神经元不连接,在整个信号传递过程中不存在任何信号反馈;输入层用于信号分配和传递,不具备运算功能;隐含层和输出层的神经元具有运算功能,可输出最终运算结果。BP神经网络的学习过程有正向与反向两个过程,在正向传播过程中,输入信息从输入层经过隐含层传向输出层,若不能得到预期输出,则转为反向传播,将信号沿原来的连接通道返回并修改各层节点间的权值,经过反复调试,使得误差信号小于某个阈值或等于0,此时训练结束。经过训练的网络则可将系统规则、预测能力等隐含在网络中,只需将测试样本输入则可给出处理结果。
2.5.2 Levenberg-Marquardt算法改进的BP算法BP神经网络的常规算法在实际应用还存在一些需要改进的问题,例如网络学习收敛速度慢,容易陷入局部极小等。而L-M算法是专门用于误差平方和最小化的方法,它在网络训练速度和识别精度上的具有明显的优势[4],因此本研究采用L-M算法对标准的BP算法进行改进。
设BP神经网络的误差指标函数为:
E(x)=12¶Ni=1Yi-Y^i2=12¶Ni=1e2i(x)
其中,Yi为实际输出向量, Y^i为预期的输出向量, ei(x)为误差。
设xk表示第k次迭代的权值和阈值组成的向量,新的权值和阈值组成的向量xk+1表示为:
xk+1=xk+x,x=[JT(x)J(x)=μI]-1J(x)e(x)
其中, J(x)为网络训练误差e(x)的Jacobian矩阵, I为单位矩阵, μ>0。
L-M算法的流程:①给出训练误差允许值ε,常数β和μ0,初始化权值和阈值向量k=0,μ=μ0。② 计算网络输出及误差指标函数E(xk)。 ③计算Jacobian矩阵J(x)。④计算x 。⑤如果E(xk)<¶,则转到⑥,否则以xk+1=xk+x为权值和阈值向量计算误差指标函数E(xk+1),若E(xk+1)<E(xk),则令k=k+1,μ=μ/β,转到②;否则令μ=μβ,转到④。⑥结束。
当μ=0时,L-M算法即高斯-牛顿法,当μ取值很大时,则越接近梯度下降法。在实践中,它具有二阶收敛速度,所需要的迭代次数很少,既具备牛顿法的局部收敛特性,又有梯度下降算法的全局特性。因此,L-M算法提供了一种快速有效的训练手段,其算法计算复杂度为O(n3/6) 。
2.6 指纹图谱的建立和分析
2.6.1 穿心莲的指纹图谱 按照上述方法,分别对12批穿心莲药材进行分析,制作了穿心莲药材的HPLC指纹图谱,并计算出其穿心莲内酯、脱水穿心莲内酯、新穿心莲内酯和脱氧穿心莲内酯的含量。
2.6.2 资料预处理 为消除由于数据变换的幅度和范围以及数据分布的非正态性对结果的影响,先将原始数据进行标准化变换。
2.6.3 LM-BP神经网络结构及训练测试结果本实验所采用的3层LM-BP网络中,输入节点数为4,即原始数据经特征提取后的4个主成分,隐含层节点数为4,输出层有1个节点。由于目前仍无系统的关于中间隐层节点数的选取理论,经多次实验比较,最终选取隐层节点数为4时效果比较显著。
动量因子和学习速率是影响BP神经网络训练速率和收敛度的两个重要因素。如果学习效率和动量因子过大则网络收敛很快,但最后网络发生振荡,失去功能;如果学习效率和动量因子太小则学习速度太慢,网络性能也会受到影响。因此经实验比较选择,本网络的最佳学习率为0.05,动量因子为0.6。
由于实验的样品数目较少,故采用交叉验证法进行分类验证,也就是说将标准化变换后的每个样本依次作为待测样本,用剩余的其它样本组成新的训练集建立学习模型,用于预测每个样本的归属。
经过LM-BP神经网络的训练,可发现有一个穿心莲样品被识别错误,这份来自江西的样品被鉴别为福建的样品,其他11个样品的鉴别结果均正确。从总体来看,使用LM-BP网络鉴别穿心莲样品的识别正确率达到了91.67%,结果见表1。
表1 LM-BP神经网络对穿心莲预测样本的预测结果(略)
同时实验预先使用传统BP神经网络进行训练学习,发现虽然传统BP神经网络的鉴别结果与改进的模型结果一致,但从训练的速度进行比较,LM-BP算法的收敛速度很快,而传统算法的收敛速度则比较缓慢,其误差收敛曲线图如图1和图2。
图1 传统BP神经网络的误差收敛曲线(略)
图2 LM-BP神经网络的误差收敛曲线(略)
3 讨论
中药指纹图谱是一种综合的、可量化的鉴定手段[5,6],它是建立在中药化学成分系统研究的基础上,它能通过指纹图谱的特征性来有效鉴别样品的真伪或产地,并且能够通过指纹图谱主要特征峰的面积或比例的确定,有效控制产品的质量,确保产品质量的相对一致。但由于受到不同产地及不同采收期的影响,当不同药材样品的指纹图谱非常相似时,不可能用直接观察的方法对各类产区的药材作出准确鉴别,如果使用简单的传统相关系数法,当样品间的相关系数非常大也很难作出鉴定。因此使用神经网络方法可对相似度较高的样品分类鉴定作深入地研究。
本文首先利用穿心莲HPLC的指纹图谱资料建立了LM-BP神经网络模型,测试时只需将样品的主要图谱数据作为输入,则可输出相应的产地类别,操作简便快捷。由于中药指纹图谱的模糊综合等特性,单纯依靠人工识别容易出现混淆,因此借助人工神经网络技术对中药指纹图谱资料进行分析,充分利用了模糊、非线性的技术特性,可以真实反映中药材的内在质量。
应用基于L-M算法的神经网络进行穿心莲药材的识别分类,训练时间比普通的BP网络训练时间短,且拟合精度并未降低。本方法克服了传统BP网络训练时间长、易陷入局部极小的局限性,在对识别精度和识别速度要求比较高的情况下,采用L-M算法改进的BP网络可以达到很好的效果,具有一定的实用价值。
【参考文献】
[1] 万绍晖,万绍明,康廷国.系统科学在中药质量控制中的运用[J].时珍国医国药,2005,16(5): 457.
[2] Andrew R.Webb著.王 萍,杨培龙,罗颖昕译.统计模式识别,第2版[M].北京:电子工业出版社, 2004.
[3] 汤 丹,李 薇,许 毅,等.广藿香指纹图谱解析的人工神经网络方法研究[J].中药材,2004,27 (7): 534.
[4] 赵 弘,周瑞祥,林廷圻.基于Levenberg-Marquardt算法的神经网络监督控制[J].西安交通大学学报,2002,36(5):523.
[5] 林蔚兰,曾令杰,梁惠瑜.不同产地穿心莲药材HPLC指纹图谱初步研究[J].中成药,2007,29 (5): 730.