前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的神经网络降维方法主题范文,仅供参考,欢迎阅读并收藏。
【关键词】图像分类深度 卷积神经网络 加权压缩近邻
1 研究背景
手写数字识别是一个经典的模式识别问题。从0 到9这10 个阿拉伯数字组成。由于其类别数比较小,它在些运算量很大或者比较复杂的算法中比较容易实现。所以,在模式识别中数字识别一直都是热门的实验对象。卷积神经网络 (Convolutional Neural Networks,CNN),在手写体识别中有着良好的性能。卷积神经网络的神经元是局部连接,神经元之间能够共享权值。深度卷积神经网络不但可以解决浅层学习结构无法自动提取图像特征的问题,并且提高了分类的泛化能力和准确度。
2 深度卷积神经网络
深度卷积神经网络是一种具有多层监督的神经网络,隐含层中的卷积层和池采样层是实现深度卷积神经网络提取特征的核心模块,并通过使用梯度下降算法最小化损失函数来进行权重参数逐层反向调节,再经过迭代训练提高分类精确度。
深度卷积神经网络的首层是输入层,之后是若干个卷积层和若干个子采样层和分类器。分类器一般采用Softmax,再由分类器去输出相应的分类结果。正常情况下,一个卷积后面都跟一个子采样层。基于卷积层里权值共享和局部连接的特性,可以简化网络的样本训练参数。运算之后,获得的结果通过激活函数输出得到特征图像,再将输出值作为子采样层的输入数据。为了实现缩放、平移和扭曲保持不变,在子采样层中将之前一层对应的特征图中相邻特征通过池化操作合并成一个特征,减少特征分辨率。这样,输入的数据就可以立即传送到第一个卷积层,反复进行特征学习。将被标记的样本输入到Softmax分类器中。
CNN 能够简化网络的样本训练参数,降低计算难度。这些良好的性能是网络在有监督方式下学会的,网络的结构主要有局部连接和权值共享两个特点:
2.1 局部连接
深度卷积神经网络中,层与层之间的神经元节点是局部连接,不像BP 神经网络中的连接为全连接。深度卷积神经网络利用局部空间的相关性将相邻层的神经元节点连接相邻的上一层神经元节点。
2.2 权重共享
在深度卷积神经网络中,卷积层中每一个卷积滤波器共享相同参数并重复作用,卷积输入的图像,再将卷积的结果变为输入图像的特征图。之后提取出图像的部分特征。
在得到图像的卷积特征之后,需要用最大池采样方法对卷积特征进行降维。用若干个n×n 的不相交区域来划分卷积特征,降维后的卷积特征会被这些区域中最大的或平均特征来表示。降维后的特征更方便进行分类。
3 实验结果
为了验证卷积神经网络的有效性,本实验中使用以最经典的MNIST 和USPS 库这两个识别库作为评测标准。手写数字MNIST数据库有集60000 个训练样本集,和10000 个测试,每个样本向量为28×28=784维表示。手写数字USPS 数据库含有7291 个训练样本和2007 个测试样本,每个样本向量为16×16=256 维。
表1给出了卷积神经网络在MNIST 和USPS 库上的识别结果。从表1中可知,深度卷积神经网络对MNSIT 库识别率能够达到97.89%,与用BP 算法得到的识别率94.26%相比,提高了两个多百分点。对USPS 库识别率能够达到94.34%,与用BP 算法得到的识别率91.28%相比,也提高了三个多百分点。
因此,使用深度卷积神经网络算法训练在图像识别中获得更高识别率。因此,深度卷积神经网络在识别手写体字符时有着较好的分类效果。
4 总结
本文介绍深度卷积神经网络的理论知识、算法技术和算法的结构包括局部连接、权重共享、最大池采样以及分类器Softmax。本文通过深度卷积神经网络对两组手写识别库实验来验证CNN 有着较低的出错率。
参考文献
[1]赵元庆,吴华.多尺度特征和神经网络相融合的手写体数字识别简介[J].计算机科学,2013,40(08):316-318.
[2]王强.基于CNN的字符识别方法研究[D].天津师范大学,2014.
[3]Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification with Deep Convolutional Neural Networks.Advances in Neural Information Processing Systems,2012,25(02),1097-1105.
[4]郝红卫, 蒋蓉蓉.基于最近邻规则的神经网络训练样本选择方法[J].自动化学报,2007,33(12):1247-1251.
作者简介
关鑫(1982-),男,黑龙江省佳木斯市人。硕士研究生学历。现为中国电子科技集团公司第五十四研究所工程师。研究方向为计算机软件工程。
上海市作为国家云计算服务创新试点城市之一,“十二五”期间将在五大领域推进云计算的示范应用,其中包括以云计算、物联网等信息服务系统来支撑上海建设“智慧城市”的交通管理。面对传统交通信息来源有限、可靠性差、滞后等缺陷,急需借助于云计算环境来研究多源交通信息的融合机理,催生多源交通信息服务模式的改变。本文着力构建多源信息云智能交通系统自适应服务模型,筛选年鉴数据为样本,通过SPSS软件仿真,最终验证此模型的可行性。
模型构建
1、处理流程云计算环境下智能交通系统中多源信息渠道得到的原始数据具有典型无组织性。本文构建多源信息云智能交通系统自适应服务模型,处理流程如图1所示。多源信息云智能交通系统自适应服务模型全流程均在云计算环境下进行,实时信息至历史信息的传递过程体现本模型处理过程的动态性。此模型中自适应性体现在:(1)通过Newton多元参数优化法实现样本降维处理;(2)通过前馈神经网络训练过程得到云智能交通系统信息服务最优拓扑结构,即确定前馈神经网络中隐藏层逻辑结构,通过前馈神经网络训练过程得到最优层间权重和最优迭代参数,从而得到最优神经网络;(3)通过有限混合分布拟合前馈神经网络正向输出数据,得到更具灵活性的全局分布。2、多元参数优化多元参数优化目的旨在寻找维元参数向量的标量评分函数的最小值。在多源信息神经网络自适应服务模型中,实验样本维数通常比较大,而多维空间中局部最小值现象突出,如果在多源数据预处理过程中找到局部最小值,则能剔除非最小值空间,从而有效将样本数据降维。多元参数优化运用迭代的思想,直至找到局部最小值。局部迭代一般过程为:其中,是第步迭代时的估计参数,是下一步迭代移动方向的维向量。神经网络中的反馈思想运用的是最陡峭下降算法,最陡峭下降的梯度不一定指向最小值,理论上经过有限次迭代可以找到对应的,但并不是优选迭代法。Newton方法定义局部迭代过程为:其中,是在点处二阶导数矩阵的逆矩阵(),为函数的一阶导数,为矩阵中元素,帮助判定并剔除迭代过程中非指向局部最小值的点。3、前馈神经网络多层前馈神经网络包括输入层、若干隐藏层和输出层。训练样本反馈入输入层,输入层与隐藏层、隐藏层与输出层之间加权全连接,和分别为其权重,如图2所示。多层前馈神经网络层数取决于隐藏层个数,若隐藏层个数为3,则有4层输出单元,则此多层前馈神经网络为四层神经网络。神经网络结构越复杂,则多层前馈神经网络的层数越多,需要权重参数参与数越多,自适应系统训练能力也就越强。确定最优系统的隐藏层个数没有确定的规则可以遵循,多层前馈神经网络最优结构的确定与网络层间最优参数的确定一样,都是重复训练过程,训练结果直接影响神经网络自适应系统的准确性。估计的准确性为本模型重要精度指标。4、有限混合分布一般地,多源数据集数据为异质数据集,代表数据来自不同的小组,而非单一同质组。通常,异质数据可能反映不同内在现象,简单处理异质数据将人为导致数据信息沉没。引入权重处理有限源数据集的数据异质性,使得混合分布模型比单一拟合分布模型在分析和预测上更具灵活性和灵敏性。假设全局分布为:其中,为随机变量的值,为随机变量在分量上的分布函数,是分量上的参数向量,为分布函数的权重,全局混合度有限,为。
仿真与结果
1、样本选择本次仿真样本来源于2003年至2011年的《上海年鉴》以及2001年至2011年的《上海统计年鉴》,抽取2000年至2010年间4组大类8组小类共32个属性(如图3)验证本文中多源信息云智能交通系统自适应服务模型的可行性。样本数据从旅客出行行为出发,对不同交通出行模式和支付方式数据依次进行预处理、优化处理、前馈神经网络训练、混合分布拟合。2、前馈神经网络训练结果本次仿真在进行神经网络训练之前,运用SPSS软件对维度为11×32维数据进行预处理,首先通过区间估算方法处理统计过程中的缺省数据,其次统一所有数据量纲,最后Newton法优化为11×19维。优化结果显示,{{旅客发送量,公路},{{“市民信箱”累计注册用户“,付费通”业务平台交易量“,付费通”业务平台交易额,交通卡销售额,银行卡交易额},{个人信用报告累计出具数量}},{{轨道运营车辆,轨道行驶里程,轨道客运总量},{高架道路长度}},{{公交线路长度,公交线路条数,公交客运总量},{出租运营车辆数,出租载客车次量,出租运营里程},{轮渡乘客人数}}}被保留进入神经网络训练进程。本次仿真取100%样本作为训练数据集,运用SPSSClementine软件进行神经网络训练,对隐藏层数为1、2、3三种情况分别做训练,结果如表1所示。结果显示,本次样本训练得到2个隐藏层的神经网络为本次最优神经网络,估计的准确性可达90.188%。同时证明Newton法预优化原始数据一方面缩短神经网络训练时间,另一方面控制神经网络具有较高估计准确性。可以认为,本多源信息云智能交通系统自适应服务模型基本可行。3、混合分布拟合结果本次仿真运用SPSS软件拟合混合分布。拟合结果如图4所示。X轴为时间轴,Y轴为数量轴,X轴下方19个属性代号,代表混合分布由19个简单分布混合拟合得到。综上证明,源信息云智能交通系统自适应服务模型具有可行性。
关键词:人工神经网络;电力变压器;故障诊断
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)32-0174-03
1引言
电力变压器在长期的运行中,故障是不可避免的。变压器一旦损坏会造成大面积停电且故障修复耗时长,因此变压器故障的及早发现和处理具有非常重要的意义。
电力变压器的故障一般有机械故障、热性故障和电性故障,由于机械故障一般都以热性故障和电性故障的形式体现,因此主要以热性故障和电性故障为主。热性故障一般为中低温过热和高温过热,电性故障一般为低能放电和高能放电。传统的变压器故障诊断方法存在着效率偏低以及诊断准确率不高的问题,因此我们可以利用人工神经网络的方法对电力变压器的故障进行自动诊断。
2人工神经网络
2.1 人工神经网络概述
人工神经网络(ANNs)是对人脑或生物神经网络若干基本特性的抽象和模拟。
依靠系统的复杂程度,ANNs可通过调整内部大量节点之间相互连接的关系,进而对有效信息进行可靠处理。而BP神经网络通常是指基于误差反向传播(Back Propagation)算法的多层前向神经网络, 不仅能对输入-输出模式映射关系进行学习和存储,而且对描述此种映射关系的数学方程不需要事前揭示。最速下降法为BP神经网络的学习规则,通过反向传播来持续调整网络的权值和阈值,使其误差平方和最小。
本文采用BP神经网络的三层前馈结构,分别为(input)、隐含层(hide layer)和输出层(output layer)。输入层的节点数为5(对应电力变压器油中气体H2、CH4、C2H4、C2H2、C2H6),输出层则有5个节点(对应无故障,中低温过热,高温过热,低能放电,高能放电),隐含层的节点数根据经验公式确定:
其中,r为隐层的节点数,n为输入的节点数,m为输出的节点数,a则为1~10之间的常数。经试验,本文r取13。各层间神经元相互连接,且各层内没有连接。如图1所示:
BP神经网络的训练首先对每一层的权值和偏差进行初始化(用小的随机数),以免被大的加权输入饱和,并且需对一些参数进行设定及初始化(期望的误差最小值、最大循环次数、修正权值的学习效率);第二步需要对网络各层输出矢量及网络误差进行计算;第三步需要对各层反向传播的误差变化、各层权层的修正值及新的权值进行计算,最后需要对权值修正后的误差平方和进行计算,若符合要求则训练完成,若不符合要求则继续。
2.2电力变压器故障诊断的BP神经网络设计
2.2.1样本数据的定义
电力变压器的故障主要体现为中低温过热、高温过热、低能放电和高能放电。电力变压器的故障数据一共为70组,其中样本集数据为50组,测试集数据为20组,且分别定义样本数据如下:
无故障,记为10000;
中低温过热,记为01000;
高温过热,记为00100;
低能放电,记为00010;
高能放电,记为00001。
2.2.2样本数据的预处理
为提高神经网络的训练效率,本论文对数据进行了标准化处理,使其落入[-1,1]区间;并且对输入样本集数据进行了主元分析,以减小各样本矢量的相关性,从而达到降维的目的。
2.2.3 BP神经网络设计参数设置
MATLAB中,BP神经网络设计需要定义有关参数:训练步数、显示训练结果的间隔步数、训练目标误差、训练允许时间和训练中最小允许梯度值等,最终可返回训练后的权值、循环训练的总数和最终误差。神经网络对象的一些主要训练参数及含义如表1所示。
2.2.4 BP神经网络验证
表2列出了20组测试集数据,最后一列为网络期望输出,对应变压器的实际故障类型。
由电力变压器故障诊断的误差变化曲线可知:在使用BP神经网络法对网络进行训练时,网络只训练了112步,速度非常的快。网络的训练均方误差此时已经达到目标误差0.01的数量级,因此该网络可用。对样本集数据进行训练后,我们可得到一个相关的BP神经网络模型,再用测试集数据对改模型进行验证,验证结果如表3所示。(注:图中*号表示该BP神经网络模型诊断错误的数据组)
由以上BP神经网络自动诊断结果可以得知:电力变压器故障诊断正确的个数为18个,故诊断正确率为90%左右。
3 结论
本文应用人工神经网络的方法对电力变压器的故障进行了自动诊断,诊断正确率可达90%。随着计算机技术和人工智能技术的发展,利用人工神经网络进行变压器的故障诊断有利于有效地实现对故障的综合诊断,从而提高故障诊断的准确性,可靠性和诊断效率,为变压器故障诊断技术的发展拓展新的途径。
参考文献:
[1] 张铮,徐超,任淑霞,等.数字图像处理与机器视觉――Visual C++与Matlab实现[M].北京:人民邮电出版社,2014.
[2] 马锐.人工神经网络原理[M].北京:机械工业出版社,2010.
[3] 郭磊,董秀成.BP神经网络在变压器故障诊断中的应用[J] .西华大学学报,2008(5):10-13.
[4] 殷跃.基于BP神经网络的电力变压器故障诊断的研究[D].吉林:吉林大学通信工程学院,2007.
[5] 王连成.基于神经网络的DGA法在变压器故障诊断中的应用研究[D].黑龙江:哈尔滨工业大学电气工程及自动化学院,2009.
[6] 李霖.基于BP神经网络的变压器故障诊断方法研究[D].湖南:长沙理工大学电气与信息工程学院,2013.
[7] 曾成碧,蒲维,曾先锋.BP神经网络在油浸式变压器过热性故障诊断中的应用[J]. 四川电力技术,2012(4):60-63.
[8] 陈小玉.改进的神经网络在变压器故障诊断中的应用[J].计算机仿真,2012(8):318-321.
[9] 宋彩利, 吴宏岐.神经网络在变压器故障诊断中的应用研究[J].微计算机信息,2008(34):155-157.
【关键词】人工智能;深度学习;大数据时代;机器学习
1.引言
近年来,深度学习逐步推动了人工智能领域的新浪潮。2010年,美国国防部DARPA计划首次资助深度学习项目;2011年来,微软和Google研究人员先后采用深度学习技术降低语音识别错误率20%~30%,取得该领域重大突破;2013年百度创始人兼CEO李彦宏高调宣布成立百度研究院,其第一个重点方向就是深度学习;2013年4月,《麻省理工学院技术评论》杂志将深度学习列为2013年十大突破性技术之首。在今天,Google、百度、微软等知名高科技公司争相投入资源,占领深度学习的技术制高点。
2.大数据时代的深度学习
大数据时代迫切需要深度学习。为了说明这个观点,本文来谈一下浅层学习和深度学习模型。
浅层模型有个重要特点——靠人工经验来抽取样本特征,而强调模型主要是负责分类或预测。所以,特征提取就成了整个系统性能的瓶颈,通常开发团队中更多的人力是投入到构造更好的特征上去的,这就要求开发人员对待解决的问题有很深入的理解。而达到这个程度,往往需要反复摸索。因此,人工手动构造样本特征,不是一个具有生命力的途径。
深度学习的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。区别于传统的浅层学习,深度学习的不同之处在于:一是强调了模型结构的深度,通常有5层、6层,甚至10多层的隐层节点;二是明确突出了特征学习的重要性,即通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,使分类或预测更加容易。
3.深度学习的基本思想和常用方法
(1)Deep Learning的基本思想
假设我们有一个系统S,它有n层(S1,…Sn),它的输入是I,输出是O,形象地表示为:I=>S1=>S2=>…..=>Sn=>O,如果输出O等于输入I,即输入I经过这个系统变化之后没有任何的信息损失,保持了不变性,这意味着输入I经过每一层Si都没有任何的信息损失,即在任何一层Si,它都是原有信息(即输入I)的另外一种表示。现在回到我们的主题Deep Learning,我们需要自动地学习特征,假设我们有一堆输入I(如一堆图像或者文本),假设我们设计了一个系统S(有n层),通过调整系统中的参数,使得它的输出仍然是输入I,那么我们就可以自动地获取得到输入I的一系列层次特征,即S1,…,Sn。
另外,前面是假设输出严格地等于输入,这个限制太严格,我们可以略微地放松这个限制,例如我们只要使得输入与输出的差别尽可能地小即可,这个放松会导致另外一类不同的Deep Learning方法。
(2)Deep Learning的常用方法
AutoEncoder(自编码),自编码算法是一种基于神经网络算法的无监督学习算法,它使用了神经网络中经典的反向传播算法,其特殊之处在于其目标在于让神经网络的输出节点的输出值等于网络的输入值,如在下面具有一个隐藏层(一般自编码算法中会有多个隐藏层)的神经网络中,我们应使得目标输出,自然地,其输出节点数目与输入节点的数目应该相等。同时,自编码算法的另外一个特征是隐藏层的节点数目一般少于输入输出节点的数目。这样的意义在于,此时相当于将输入的特征通过神经网络的非线性变换到节点数更少的隐藏层,再由隐藏层通过非线性变换“无损”地恢复出输入的信息,这样实际上相当于用神经网络实现了对于高维特征向量的一个特征提取和降维。如果输入数据中隐含着一些特定的结构,比如某些输入特征是彼此相关的,那么这一算法就可以发现输入数据中的这些相关性。由此,用这种特殊的神经网络对样本进行学习和训练,我们即可“自动地”得到输入数据的降维后的特征,即隐藏层的节点,省去了人工特征提取的麻烦。
(3)自编码算法的实现过程
将已得到的某一样本的特征向量(或)作为自编码算法的输入,即上面特征向量的每一个分量代表自编码网络中的一个输入节点。令其输出节点的期望类别向量赋值为(或)。
1)对于自编码网络中某一层,,令矩阵该层权重矩阵的修正矩阵为零矩阵,偏置向量的修正向量为零向量。
2)设有个训练样本,对于每一个训练样本到。
①调用反向传播算法函数backwards_trans()
计算训练自编码网络的准则函数的梯度和。
②计算。
③计算
3)更新权重系数:
4)反复迭代上面过程直到达到要求。训练得到的神经网络最靠近输出层的隐藏层的输出值即为深度学习后自动得到的新特征。
通过上面的学习训练,我们便可以得到一个具有深度学习功能的自编码网络。当我们需要自动提取数据包用户数据的特征时,仅需要去掉上面的自编码网络的原来的输出层,将原来最靠近输出层的隐藏层作为新的输出层,再将初始的特征向量输入,此时的网络输出即为自动提取的特征。
4.总结
近年,深度学习被逐渐应用到语音识别、图像识别、自然语言处理等领域,总之,深度学习带来了机器学习的一个新浪潮,受到从学术界到工业界的广泛重视,并带来大数据的深度学习时代。深度学习在应用方面的深度和广度都将会得到更高程度的发展。同时,如果机器学习理论界取得突破,为深度学习提供强力的支撑,使之成为今后无论何种机器学习应用都不得不采用的基石,那么,人工智能的梦想将不再遥远。
参考文献:
[1]周志华,李航,朱军.Deep Learning大家谈[J].
[2]卢鸫翔.DNN与微软同声传译系统背后的故事[J].
本文利用人工神经网络的钢材表面缺陷快速识别系统以及BP神经网络的缺陷检测和分类的方法,实现钢材表面疵病的准确检测与分类。选用Matlab作为系统软件工具,以BP神经网络作为其缺陷检测的计算方法,实现冷轧带钢表面缺陷检测技术的软件方案设计,完成BP神经网络在钢材表面缺陷检测的应用研究,满足带钢生产线的表面缺陷检测要求。
关键词:缺陷检测;人工神经网络;BP神经网络
中图分类号:TN711 文献标识码:A 文章编号:
冷轧带钢已成为汽车生产、机械制造、化工、航空航天、造船等工业不可缺少的原材料,在国民经济中占据重要地位。而钢材表面缺陷是影响带钢质量的重要因素,因此,表面缺陷的识别检测对提高带钢的质量具有十分重要的意义。
本文根据钢材表面的缺陷情况,研究需要系统识别的常见钢材表面缺陷类型,结合表面缺陷检测系统的主要技术要求,提出基于人工神经网络的钢材表面缺陷识别系统的总体方案。利用计算机和图像采集设备,使软件和硬件协同配合,实现图像信息的实时采集及处理,为BP神经网络的训练学习建立钢材表面缺陷数据库,通过训练可以实时自动识别钢材表面存在的缺陷。
1BP神经网络的基本原理
BP(Back Propagation)神经网络是一种神经网络学习算法,全称基于误差反向传播算法的人工神经网络。它是目前研究最多、应用最广泛的神经网络模型之一【1】。BP网络是一种多层前向反馈神经网络,把样本的输入输出变成一个非线性优化问题,使用了最优化中最普遍的梯度下降算法,用迭代运算求解权值,它可以实现从输入到输出的任意连续的非线性映射。BP网络主要用于函数逼近、模式识别、数据压缩等。BP神经网络由输入层、隐含层和输出层三部分组成,其结构如图1所示。
图1BP神经网络结构示意图
Fig. 1 The BP neural network structure diagram
BP神经网络在具体工作之前必须通过学习获得一定的“智能”,才可以在实际的应用中取得良好的效果。其学习由四个过程组成:
第一是输入向量由输入层经隐含层向输出层的“正向传播”过程;
第二是网络实际输出与网络的希望输出之间的误差信号由输出层经隐含层向输入层逐层修正连接权值的“误差反向传播”过程;
第三是由“正向传播”与“误差反向传播”的反复交替进行的网络“记忆训练”过程;
第四是网络的全局误差趋向极小值的“学习收敛”过程。
2BP算法在钢材表面缺陷识别的具体实现
为了使用BP神经网络实现钢材表面缺陷检测方法研究,首先需要对钢材图像进行预处理,去除图像噪声,并进行图像增强处理,保留图像重要信息;然后,从样本图像中选择部分有缺陷的图像,进行样本图像分割,分割成适合网络训练的特征图像,并将分割结果分类为正常图像和缺陷图像样本集合;再使用各种图像特征提取方法分别提取出正常图像和缺陷图像的特征值,构成BP神经网络训练集合;再将训练集合输入BP网络训练器中,按照设定参数,设置选定精度,进行网络权值训练,得到所需的分类器;最后将测试样本输入分类器中,实现最终的缺陷分类识别。
系统选用Matlab作为系统软件工具。Matlab中专门编制了大量有关BP网络的工具函数,为BP网络的应用研究提供了强有力的便利工具【2】。BP网络的设计过程如下:
(1)输入训练样本
缺陷的出现会破坏其所在区域灰度值的排布规律,基于此先从带缺陷图像的缺陷区域截取图像,再从无缺陷的图像中截取相同大小的图像,然后从这些图像中提取特征向量【3】。对特征向量X进行归一化,再进行主分量分析进行降维处理,最后把处理后的特征向量的每一列作为一个样本输入神经网络。
(2)初始化网络
采用initff函数初始化网络。在建立网络对象的同时,自动调用初始化函数,根据缺省的参数对网络的连接权值和阈值进行初始化。initff函数格式:
[w1,b1,w2,b2]=initff(p,s1,f1,s2,f2)(1)
式中:w1表示隐含层神经元与输入层神经元之间的连接权重系数矩阵;
w2表示输出层神经元与隐含层神经元之间的连接权重系数矩阵;
b1、b2表示隐含层和输出层神经元的阈值矩阵;
p表示输入样本矩阵;
s1、s2表示隐含层和输出层神经元个数;
f1、f2表示隐含层和输出层激活函数形式。
运行initff函数,系统能自动根据给定的p,s1,f1,s2,f2的值对w1,b1,w2,b2赋予一个初始值。
(3)训练网络
采用trainbp函数训练网络。用基本梯度下降法训练网络函数进行BP网络训练,获取最终的权值与阈值矩阵。trainbp函数格式:
[w1,b1,w2,b2,te,tr]=trainbp(w1,b1,f1,w2,b2,f2,p,t,tp)(2)
式中:t表示输出样本矩阵;
te为网络的实际训练步数;
tr为训练过程中的误差平方和;
tp为网络训练参数。
选择训练参数tp进行训练,tp=[df,me,err,lr]
式中:df是指定两次更新显示间的训练次数;
me是指定训练的最大次数;
err是误差平方和指标;
lr是指定学习速率,即权值和阈值更新的比例。
trainbp函数以w1,w2,b1,b2的初始值和给定的f1,f2,p,t,tp开始训练,使当输入n时,网络的输出为目标矢量t。当训练过程中误差平方和小于等于目标误差平方和或者训练步数到达给定的最大步数时,停止训练。此时的w1,w2,b1,b2的值就是已训练好的网络参数。
(4)网络仿真
采用simuff函数对网络进行仿真。在网络训练前后分别进行输入输出的仿真,以做比较,从而对网络进行修改评价。simuff函数格式:
a=simuff(p,w1,b1,f1,w2,b2,f2) (3)
式中:a表示训练好的BP网络的实际输出;
w1、w2、b1、b2 是训练好的网络参数;
p、f1、f2 与(1)式相同。
网络训练后,形成稳定的权值和阈值,使网络输入和网络输出形成了较好的映射,从而可以对其他输入样本进行输出参数的预测。
3实际应用情况
从现场采集冷轧带钢样本,并对这些样本中的缺陷进行标定。将测试样本图像输入神经网络检测缺陷区域,得到每类样本的缺陷区域。将所有原始训练样本、测试样本图像,按照前面的预处理方法进行预处理,然后按照同样的分割方式进行分割,提取出样本块的特征信息,构成一序列的向量,输入已经训练完成的分类器,进行缺陷识别,检测出样本的缺陷区域。
经工业现场实践表明,经过训练的BP神经网络分类器对表面缺陷的识别分类较好,基本上能够满足带钢表面缺陷的分类识别要求。但是,神经网络技术也存在训练过程缓慢、需要大量的训练数据、对其决策过程无法得到透彻理解、参数的设计无规律可循等缺点。
事实上,基于BP网络的分类器只能识别BP网络已知的模式类别。如果出现了新的模式类别,分类器就不能正确地识别,只能再次对分类器进行训练,也就是说分类器没有自学功能。因此,在优化BP神经网络参数的基础上,我们可以考虑将现在已经构建的BP神经网络模型的分类器,分解成两步来实现表面缺陷的分类,即首先构建神经网络来对把缺陷和非缺陷识别分类开来,然后再对缺陷进行分类,以期提高分类识别的准确率。我们还需要研究基于其它神经网络模型的分类器,利用各自的长处,实现分类器的融合,并使分类器具有自学的功能,对新出现的缺陷能够记忆识别的功能,更好的满足工业现场的要求。
参考文献
[1]王婷,江文辉,肖南峰.基于改进BP神经网络的数字识别.电子设计工程.2011,19(3):108-112.
高新技术制造企业作为高新技术制造业的实体是知识密集型、技术密集型和资金密集型的企业,其发展决定了现实生产力的转化,对于促进整体制造业的快速发展具有重要意义。高新技术企业的高收益特性源于其高科技产品和服务的高增长和高附加值,而与之对应的便是企业的高风险性,据统计20%~30%的高新技术制造业的巨大成功是以70%~80%的企业失败为代价。企业财务风险的扩散和深化将直接导致企业陷入财务困境,从而影响正常的生产经营活动。所以,建立和完善高新技术制造企业的财务风险预警机制,提高企业有效预测和应对风险的能力,对于高新技术制造业的经营者和投资者具有一定的借鉴意义。
财务危机预警的研究由传统的统计研究方法发展到人工智能算法。最早是由Fitzpatrick(1932)采用单变量分析方法对公司的财务危机进行预警研究,得出权益负债率和权益净利率是判定企业财务风险的重要指标。Altman(1968)利用多元判别分析法建立基于Z-SCORE的财务预警模型。其后,回归模型克服了线性模型的假设局限性,常用的有Probit模型和Logistic模型。Ohlson(1980)使用Probit和Logistic回归方法建立逻辑回归模型,得出公司规模、资本结构、业绩和变现能力是影响公司破产的重要因素。上述以统计类方法为基础的模型是在样本满足合理的统计假设条件下才能有效,否则可能没有意义,由此许多学者相继将非统计的方法引入财务风险预警研究,其中应用最多的是神经网络分析法。Lapedes和Fyaber(1987)首次运用神经网络模型对银行的信用风险进行预测和分析,并取得了较好的预测效果。Odom和Sharda(1990)通过Z值模型中的5个财务比率构建了人工神经网络财务预警模型成功地对企业的财务危机进行了预测,证明了人工神经网络模型不但准确率高,而且鲁棒性也更好。Feng Yu Lin和Sally McClean(2001)以Logistic回归法、判别分析法、决策树方法和神经网络方法为基础,通过这些方法的组合运用,采用了三种混合模型,再分别对这些方法进行检验分析,分析结果表明同等条件下,混合模型在准确率方面优于单个方法模式。国内财务风险预警研究起步较晚,陈静(1999)对上市公司财务数据进行了单变量分析并建立Fisher线性判别分析模型,得出越临近企业被ST的日期,模型的预测准确率越高。吴世农、卢贤义(2001)验证了Logistic回归分析方法在预测财务困境的效果上比单变量判别模型更好。柳炳祥、盛昭翰(2002)划分了财务危机等级并验证了基于粗神经网络的财务预警方法的有效性。周敏,王新宇(2002)提出了模糊优选和神经网络模型,范静(2008)选择因子分析法—BP神经网络等评价方法。陈伟等(2010)主要分析了不同成长阶段高新技术企业的融资特点,提出了有效防范财务风险的具体措施。杨淑娥引入面板数据,构建BP神经网络模型对上市公司的财务状况进行预测,提高了预警精度。张晓琦(2010)证明了支持向量机(SVM)方法在高新技术企业财务危机预警建模方面的有效性。综上所述,现阶段对于高新技术企业的财务危机预警研究集中与理论分析阶段,大多数都是基于t-1期与t期的数据建立静态数据模型,忽略了企业财务比率的时间序列特点,企业财务危机的出现是一个逐渐演变的过程且不同行业的高新技术企业特点也不尽相同,这些因素将对企业财务状况的演化产生偏差,从而影响预警模型的有效性和精准度。
本研究综合了主成分分析方法、Logistic回归方法与BP神经网络机制,引入面板数据为研究样本,建立动态的高新技术制造企业财务危机预警模型。从理论分析而言,面板数据提供了多层面的数据信息,充分发掘企业财务信息,同时结合高新技术制造业的特点,从不同的侧面选取指标来反映企业财务状况的各个方面,所以能够深入全面地反映财务危机前的状况和趋势并作出及时合理的判断,采取相应措施。从实践结果而言,解决了一般企业由于数据缺乏带来的技术问题,扩大预警模型的适用性,为更多的高新技术制造企业服务。实证结果表明,基于Logistic-BP神经网络模型的预警能力明显优于传统Logistic回归分析方法和BP神经网络预警机制。
一、研究方法
(一)Logistic回归
二、数据和预警指标
(一)样本选取和数据来源
本研究考虑到时间因素和指标可比性两方面,选择高新技术制造企业作为研究对象,利用多期历史财务数据建立财务危机动态预警模型。本文以我国2008年至2012年深沪A股高新技术制造上市公司(通过2008《高新技术企业认定管理办法》的制造行业企业)为研究对象,数据源于CCER经济金融研究数据库以及巨潮资讯数据库,使用Excel、SPSS16.0和Matlab2010数据分析软件对数据进行分析。沿用国内研究习惯,以ST作为出现财务危机的标志,选取2012年ST和非ST高新技术制造业上市公司为待测样本。为了符合上市公司ST与非ST的实际比例,确保数据的真实性和可比性,参照Beaver(1966)的方法,采取1:3的配对方式,选择规模(总资产)相近的ST、非ST公司120家为训练样本,所有50家ST和150家非ST公司为分析样本。
由于上市公司在t年被特别处理是由其t-1年财务报告的公布所决定的。根据以往分析,t-1年财务数据的时效性较强,预测度很高,但是,其与正常样本相差很大,有失模型构建的真实性和可比性,实际预测的应用价值不高。财务风险的形成并非一朝一夕,而是一个连续的动态过程,越早洞察出财务风险,越有可能避免再次亏损。据此,选定t-2和t-3作为财务预警年度。
(二)预警指标的设计
在参照现有财务风险研究文献的基础上,同时结合高新技术企业本身高投入、高风险、高收益的特点以及新型制造业的运营特点进行综合评估,从公司的偿债能力、盈利能力、成长能力、运营能力指标和现金流量五个方面初步选定18个变量作为备选指标,如表1所示。基于识别财务风险的及时性和准确性,挑选的变量必须在ST公司与非ST公司之间显著不同。通过对指标进行显著水平5%的K-S检验得出财务比率均不服从正态分布特征,因此采用Mann-Whitney-U检验来预警指标在ST公司与非ST公司之间是否存在显著差异,在95%的置信区间内接受原假设,最终选取在2009年和2010年均存在显著差异的14个变量作为最佳评估指标,剔除4个不显著指标:营业利润增长率、应收账款周转率、流动资产周转率和存货周转率。
三、基于Logistic-BP神经网络的实证研究
(一)建立财务危机预警模型
由于财务指标之间相关性较强,信息重叠不利于后续预警模型的构建,首先分别对t-2和t-3年的14个财务指标进行因子分析,得到t-2和t-3年的KMO值分别为0.681和0.724,Bartlett球度检验给出的相伴概率均为0,小于显著性水平0.05,因此拒绝Bartlett球度检验的零假设,认为适合于因子分析。
本文在累计贡献率85%以上的基础上,采取正交旋转法提取5个主成分F1—F5。第一主因子F1由流动比率、速动比率、股东权益比率、资产负债率组成;第二主因子F2由净资产收益率、运营资金比率、主营业务利润率组成;第三主因子F3由净资产增长率、总资产增长率、主营业务收入增长率组成;第四主因子F4由资产周转率、固定资产周转率组成;第五主因子F5由现金流动负债比率和每股经营性现金流组成。通过上述因子分析所提取的五个财务指标包含了公司财务危机的主要信息,能够比较全面地反映公司的财务状况。
在静态BP神经网络模型中,同样选择训练样本的五个因子变量作为网络层的输入,经过反复试验,构建出5x24x1的基于因子分析的静态BP神经网络财务预警模型,模型收敛情况如图2所示,通过对所有上市公司样本进行预测,得到如表4的预测结果。
综合Logistic模型的回归分析结果pt-2和pt-3,将训练样本的w1pt-2和w2pt-3作为网络输入变量,建立动态BP神经网络财务危机预警模型,其中w1+w2=1,经过反复试验取中间层8,将所有样本作为验证样本带入模型,通过选取不同权重系数w1=0.4,w2=0.6时,模型呈现较高的预警精度,模型收敛情况如图3所示,预测结果如表4所示。
(二)三种模型的预测结果比较分析
由表4可知,在这三种模型中,t-2期的预测效果要明显高于t-3期的,即离目标预警期越近,预测准确率越高。但是t-3期的预测结果仍与t期财务状况存在紧密联系,如果忽视t-3期数据将会降低t期的预测结果。对于单期财务数据的Logistic回归模型和基于因子分析的BP神经网络模型预警分析结果,均有较好的预测能力。其中BP神经网络模型综合预测效果要优于Logistic模型,但BP神经网络模型中ST的误判率高于Logistic模型中ST的误判率。而基于动态BP神经网络模型无论是从ST公司和非ST方面均提高了预测的准确率,其总体预测准确率为94%,明显优于第一种和第二种模型。由此可见传统的预测模型仅仅体现了某一时期对目标时期的预测效果,难以实现不同时期的最优预测,通过将二者相结合,综合考虑t-2期和t-3期历史数据来建立基于面板数据的动态BP神经网络模型,且其预测结果优于前两种方法,第三种模型充分结合了BP神经网络和统计方法的优点。
四、结论
本文采用高新技术制造业上市公司的多期历史面板财务数据,利用因子分析对指标进行降维,采用多期数据建立动态Logistic-BP神经网络模型,提高了模型的纵向长期预测能力,实现多时段预警。通过实证研究得出以下结论:首先,高新技术制造企业财务危机的出现是循序渐进的过程,距离被ST时间越近,模型的预测准确率越高。其次,通过采用财务面板数据,从数据的截面和空间随时间变化两个方面研究,深入体现了企业财务状况发展机理的渐变特性,体现企业财务危机发生的连续动态特点,提高了样本中关键财务指标变化的特征信息,有利于建立更精确的模型,提高预警精度。最后,综合模型结合了Logistic非线性分析方法和BP神经网络的容错性、自我学习性特点,具有更强大的财务预警建模和预测能力,降低了ST公司的误判率,在实际应用中有助于经营者预防和监控财务危机,促进企业持续健康发展,也有利于投资者债权人规避财务风险,减少经济损失。
【参考文献】
关键词:城市产业结构;BP神经网络模型;灰色GM(1,1)等维新息模型;预测
Abstract: According to the present situation of urban industrial structure and its change tendency, BP NN model and GM(1, 1)constant dimension mew information model are established to forecast the evolutionary tendency of urban industrial structure for the accuracy of forecast. Then the industrial percentage is modified on the basis of the weight in the evolutionary process of urban industrial structure to ensure the amount of industrial percentage as constant 1, which offer exact information to recognize the evolutionary tendency of urban industrial structure correctly and the relationship among them.
Key words: urban industrial structure;BP NN model;GM(1, 1)constant dimension mew information model;forecast
中图分类号:TU-856 文献标识码:A 文章编号:1674-4144(2009)04-14(4)
作者简介:王福林 武汉理工大学产业经济学在职博士教授级高工
吴丹 河海大学博士生
1前言
城市产业结构是国民经济中产业构成及所占比例的综合概念,即在一定空间范围内的三大产业构成及其各产业内部构成。正确认识和研究在一定地域空间范围内的产业结构演变规律、经济社会运行机制,深刻理解地区经济发展的核心问题和资源的有效性、可用性,将有利于国民经济的协调发展。
目前,许多学者对城市产业结构演变趋势进行了系统深入地预测研究。张无畏①根据我国云南省及云南省各地建国以来产业结构的变动情况,利用三次产业分类法对云南省产业结构的发展和现状进行了分析,并对云南省未来25年产业结构的发展作出预测。王惠文等②基于北京市三次产业结构的动态规律,对于一序列按照时间顺序收集的成分数据,提出建立一种成分数据的非线性降维方法和预测模型,用于分析成分数据中各个份额随时间的变化规律。周瑜等③针对江苏省第三产业比重及其影响因素进行分析,提出运用灰色系统理论,建立灰色动态预测数学模型,对江苏省第三产业比重进行预测。基于此,为提高城市产业结构演变趋势预测的精度,采用BP神经网络方法和灰色GM(1,1)等维新息模型对城市产业结构演变趋势进行组合预测分析,以提高预测的精确性,并对城市产业结构演变过程中各产业比重进行权重修正,为正确认识城市产业演变趋势和内部关系提供准确的信息。
2基于组合模型的城市产业结构演变趋势预测
城市产业结构演变趋势反映了城市各产业在产业结构中所占比重随着时间变化而发生的变化趋势,可结合其现状及其变化趋势,对未来城市产业结构的演变趋势进行预测分析,根据产业结构布局的变化,为城市社会经济发展过程中水资源以及各种能源资源的优化配置提供决策依据。为提高城市产业结构演变趋势预测精度,采用BP神经网络方法和灰色GM(1,1)等维新息模型对城市产业结构演变趋势进行组合预测。
2.1 基于BP神经网络模型的城市产业结构演变趋势预测
人工神经网络是一种包含许多简单的非线性计算单元或连接点的非线性动力系统,具有很强的自适应、自学习及容错能力,是一种强大的非线性信息处理工具,在模式识别、智能控制、图形处理、预测和非线性优化等领域取得了成功的应用。BP神经网络算法称为误差逆传播算法,从结构上来讲,它是一种分层型网络,具有输入层、中间层(隐含层)和输出层,如图1。
基于BP神经网络强大的预测能力和预测精度,其在各个领域都得到广泛的应用。这里,以历年各产业在国民经济中的比例为样本,采用BP神经网络,对城市产业结构演变趋势进行预测,分析未来各产业在国民经济中所占比重。设观测到的某一产业在国民经济中历年的比重数据序列为x(1),x(2),… x(n),根据其中的n个观测值,预测n+1所对应年份该产业在国民经济中的比重。其具体步骤可表述为:
(1)BP网络学习算法训练网络,见表1。
(2)训练完毕后检验网络预测精度,见表2。
利用BP神经网络预测所得数据与x(n-1),x(n)所对应年份的实际数据进行对比。精度符合要求,网络预测能力满足要求,即以此对城市产业结构演变趋势进行预测;精度不符合要求,预测能力不能满足要求,需要对网络重新训练,返回1。
(3)预测n+1期所对应年份该产业在国民经济中的比重,见表3。
采用BP神经网络模型,可预测n+1期的城市产业结构演变趋势,并在n+1期预测值的基础上,进一步预测n+2期所对应年份城市产业结构演变趋势,其中,n+2期所对应年份城市产业结构演变趋势是以n+1期城市产业结构演变趋势预测值为前提所进行的预测研究。
2.2 基于灰色GM(1,1)等维新息模型的城市产业结构演变趋势预测
灰色系统预测理论对于信息不完整或不完全的实际情况具有良好的适用性,其中GM(1,1)模型具有充分利用“少数据”进行预测的优点,因此,可将各产业在国民经济产业结构中所占的比重随时间变化的数列作为原始序列,采用GM(1,1)模型对各产业在产业结构中的比重进行预测,以分析城市产业结构的演变趋势。但GM(1,1)模型采用的是现实时刻t=n为止的过去的数据,然而,任何一个灰系统的发展过程中,随着时间的推移,将会不断地有一些随机扰动或驱动因素进入系统,使系统的发展相继的受其影响。故随着系统的发展,旧数据的信息意义将逐步降低,而新数据的信息意义将逐步提高。因此,GM(1,1)模型在预测城市产业结构演变趋势时本身存在一定的缺陷,针对其不足之处,为更好地反映系统将来的发展趋势,可采用GM(1,1)等维新息模型对城市产业结构演变趋势进行预测分析,灰色GM(1,1)等维新息模型通过不断补充新信息,使建模数列更能反映系统目前的特征,更好地揭示了系统的发展趋势,从而获得较高的城市产业结构演变趋势预测精度。预测各产业在城市产业结构中演变趋势的灰色GM(1,1)等维新息模型的建模步骤可表述为:
记城市某产业在产业结构中所占比重按照时间先后顺序排列而成的原始数列为x(0)
根据灰色系统理论对城市某产业在产业结构中所占比重的原始数列进行一阶累加(1-AGO)生成后,得生成列x(1) ,即
z(1)为x(1)的紧邻均值生成数列:
(1)灰微分方程的最小二乘估计参数满足
(2)灰微分方程的白化方程 的时间响应式为
,t=1,2,……,n
(3)还原值
,t=1,2,……,n
① 当t≤n时,称 为城市某产业在产业结构中所占比重的现状模拟值;② 当t>n时,称 为城市某产业在产业结构中所占比重的预测值。
(4)将最新信息x(1)(n+1)加入到城市某产业在产业结构中所占比重的现状原始数列,利用建立等维新息模型,确定城市某产业在产业结构中所占比重的预测值。
2.3城市产业结构演变趋势组合预测
2.3.1基于灰色神经网络模型的城市产业结构演变趋势组合预测
为了进一步提高城市产业结构演变趋势预测的精度,结合BP神经网络和灰色GM(1,1)等维新息模型的预测结果,对城市产业结构的演变趋势进行组合预测,其公式为:
式中:xi(t)――t年i(i=1,2,……,I)产业在产业结构中所占比重的组合预测值;
xi(1)(t)―― t年i产业在产业结构中所占比重的神经网络模型预测值;
xi(2)(t)―― t年i产业在产业结构中所占比重的灰色GM(1,1)等维新息模型预测值;
――为权重系数,通过预测值与实际值的差别,根据实际情况而定, 。
2.3.2 城市产业结构权重修正
通过灰色神经网络模型的组合预测,可初步得出各产业在产业结构中所占比重,但其比重之和却不等于常数1,为保障城市产业结构比重之和恒定为常数1,可根据式(7),对城市产业结构演变过程中各产业比重进行权重修正,即式中: :t年i(i=1,2,……,I)产业在产业结构中所占比重的修正组合预测值。
3算例分析
根据某城市社会经济发展和产业结构的布局变化,对城市产业结构的演变趋势进行预测分析。假定1990-2007年城市三产在国民经济产业结构中所占比重数据,见表4。
根据表4中的数据,采用灰色神经网络模型预测城市产业结构演变趋势。
(1)BP神经网络模型预测
利用matlab工具箱④,构建三层BP神经网络,输入层和隐层之间使用 sigmoid函数,隐层和输出层之间使用pureline函数。训练函数选择trainlm,训练最大步长5000次,均方误差为10-5精度。经过训练对比,预测第一产业隐层设计成8个结点,第二产业为15个节点,第三产业为10个节点。并通过检验,最终使用成功网络完成预测。城市产业结构演变趋势的检验和预测结果,见表5。
(2)灰色G(1,1)等维新息模型预测
城市产业结构演变趋势的检验和预测结果,见表6。
(3)灰色神经网络模型预测
为提高组合预测模型的拟合精度,调整BP神经网络模型和灰色G(1,1)等维新息模型的权重系数,确定城市产业结构演变趋势组合预测的组合预测结果,见表7。
根据表7结果可知,采用灰色神经网络模型对城市产业结构演变趋势进行组合预测,继承了BP神经网络模型和灰色G(1,1)等维新息模型预测精准的优势,并在此基础上增强了预测精度。利用式(8),对2008年―2009年的预
测结果进行修正,最终得到2008年―2009年三产产业比重的组合预测结果。
4结论
基于城市产业结构发展现状及其变化趋势,在建立BP神经网络模型和灰色GM(1,1)等维新息模型的基础上,结合算例分析,对城市产业结构演变趋势进行组合预测,根据组合预测结果可知,灰色神经网络模型在预测城市产业结构演变趋势过程中,具有较高的精确度。
①张无畏.云南省产业结构现状分析及发展趋势预测[J].楚雄师范学院学报,2002,17(5):79-82.
②王惠文,黄薇,刘强.北京市三次产业预测分析[J].系统工程理论与实践,2003,(6):123-126.
关键词:聚类;k-means;算法;实验
中图分类号:TP311文献标识码:A 文章编号:1009-3044(2008)32-1176-02
Study on the Initial Centrists of K-means Algorithm
MOU Ying1, QUAN Tai-feng2
(1.College of Physics and Information Technology, Chongqing Normal University, Chongqing 400047,China;2.Chongqing Communication Institute, Chongqing 400035, China)
Abstract: In order to conquer the problem that k-means algorithm depends on initial cluster centrists, so this paper discusses use competition neural network and the mind of density to improve the classic k-means algorithm. The two methods are able to improve the random choice of the initial centrists in the classic k-means algorithm. Experimental results show that the two algorithms are effective.
Key words: clustering; K-means; algorithm; experiment
1 引言
聚类是将数据对象分组成为多个类或簇,在同一个簇中对象之间具有较高的相似度,而不同簇中的对象之间差别较大[1]。在聚类算法中,K-means算法是其中一种最常用最知名的划分方法[2],它根据事先确定的K值,把样本分为K类,使所有样本到聚类中心的距离平方和最小。现在K-means算法已经应用到各种领域,包括图像和语音数据压缩,用径向基函数网络进行系统建模的数据处理等[3],但经典K-means算法在运行初期随机产生聚类初始点;如果初始聚类点离数据本身中心较近,则算法运行效率较高否则反之。
本文将竞争神经网络和经典K-means算法相结合,提出一种基于竞争神经网络的K-means算法。另外还采用基于密度的思想进行寻找初始聚类中心,从而改变经典K-means算法对初始聚类中心的随机选择。实验结果表明,这两种方法有效的克服了K-means对初始聚类中心的依赖性。
2 经典K-means算法
经典K-means算法的基本思想是:给定一个包含n个数据对象的数据库,以及要生成的簇的数目k,随机选取k个对象作为初始的聚类中心,然后计算剩余各个样本到每一个聚类中心的距离,把该样本归到离它最近的那个聚类中心所在的类,直到调整结束且聚类平均误差准则函数E已经收敛。
K-means算法的具体描述如下:
1)任选k个对象特征矢量作为初始聚类中心:z1(0),z2(0)…zk(0),令t=0
2)将待分类的对象特征矢量集{xi}中的对象逐个按最小距离原则分配给k类中的某一类,即
如果
i=1,2,…N(1)
则判xi∈wi(t+1)。
其中dij(t)表示xi和wj(t)的中心zj(t)的距离,上角标表示迭代次数。于是产生新的聚类wj(t+1)(j=1,2,…,k)。
3)计算重新分类后的各类心
式中nj(t+1)为wj(t+1)类中所含对象的个数。
因为这一步采取平均的方法计算调整后各类的中心,且定为k类,故称K-均值法。
4)如果Zj(t+1)=Zj(t)(j=1,2,…,k),则结束;否则,t=t+1,转至(2)
经典K-means算法的计算复杂度为O(nkt),其中,n为对象个数,k为聚类个数,t为循环次数。由于它要求用户输入希望产生聚类的数目,而实际中的k值也很难被精确的确定,往往表现为一个模糊的取值区间[4]。并且在经典K-means算法中,首先需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响,一旦初始值选择得不好,可能无法得到有效的聚类结果,所以这个算法的聚类结果对初值的依赖是很强的,这也成为K-means算法的一个主要问题。然而其方法简单,结果尚令人满意,故应用较多。
3 两种改进算法介绍
3.1 基于竞争神经网络的K-means算法
竞争神经网络是基于生物神经系统中的“侧抑制”现象形成的。竞争神经网络的显著特点是它的输出神经元相互竞争以确定胜者,胜者指出哪一种原型模式最能代表输入模式。竞争神经网络是一种“自发”分类器,一种基于感知机的无监督的神经网络[5]。因此利用竞争神经网络来对经典K-means算法的初始聚类点进行改进,使改进后的K-means算法的初始聚类中心稳定的靠近于数据本身的类中心,从而减少经典K-means的循环次数。
考虑到竞争神经网络的建网速度,在训练竞争神经网络的时候,将原始数据按照10%进行采样,用采样后的数据建立竞争神经网络。按照竞争神经网络的聚类结果,将簇中数据的均值作为初始聚类中心输入经典的K-means算法,从而起到优化初始聚类中心的作用。具体的采样方法是,以α为半径画圆,在这个圆内随机选取数据点的10%作为采样数据,α越小,其采样频率越高,采样到的数据越多;α越大,其采样频率越低,采样到的数据越少。当α取一个较适中的值的时候,采样到的数据可以反映原始数据的分布,也能够有效的减少数据量。
图1为基于竞争神经网络的K-means算法的流程图。
算法描述如下:
1)从文件中读出数据。
2)利用最小-最大规范化操作将数据的每个属性映射到 空间。
3)采用欧式距离,计算各个数据之间的相异度矩阵。
4)计算Davg=AVG(Dij),α=Davg/2即α取数据平均相异度的一半。以α为半径,按10%的采样频率进行数据采样。
5)将采样后的数据输入竞争神经网络进行初始聚类。
6)将初始聚类产生的各个簇的对象的均值作为经典K-means算法的初始聚类中心。
7)运行经典K-means算法。
3.2 一种基于密度的K-means算法
由于经典的K-means算法对聚类个数和初始聚类中心存在依赖性的问题,所以其结果可能是局部最优的。如果随机选择的聚类初始点靠近于数据本身的中心,则算法运行的循环次数少,而且数据分类也比较合乎实际;当随机选择的初始聚类点不是很好的时候,算法运行的循环次数会增加,而数据分类也在一定程度上趋向于局部最优。这个改进思路就想利用数据的分布,寻找能够代表不同簇的数据,并利用他们周围的数据来对这些数据进行修正,试图寻找比较靠近于数据本身中心的初始聚类点。具体来说,首先寻找相距最远的两个点A和B,认为他们代表数据的两个簇。然后选取一个点C,使AC和BC的距离都大于某一个值,如此重复,直到找到k个代表点。接着在每个代表点附近寻找α・n/k个点,其中α表示采样频率,n表示数据个数,k表示簇数目。这些点和该代表点属于同一簇,然后对这些认为属于各簇的数据求平均,将得到的k个初始聚类点输入经典K-means算法。图2为一种基于密度的K-means算法的流程图。
算法描述如下:
1)从文件中读出数据。
2)输入k,表示数据需要聚成几类。
3)利用最小-最大规范化操作将数据的每个属性映射到[0,1]空间。
4)采用欧式距离,计算各个数据之间的相异度矩阵。
5)寻找两个相距最远的点,设为A和B,将它们作为簇中心,置h=2。
6)如果k>h,寻找一个点C,使C到已有簇中心的聚类大于ymax-β,其中ymax=(Davg+MAX(Dij))/2,Davg=AVG(Dij) (0
7)在这k个点的周围,寻找与其最近的α・n/k个点,其中α=0.1。
8)将这些认为属于某个簇的点做平均,将他们的均值作为经典K-means算法的初始聚类中心。
9)运行经典K-means算法。
4 实验
4.1 测试数据
本文的算法均使用matlab进行仿真实验,并与经典K-means算法进行比较。为了便于更加直观的观察聚类结果,采用了主元分析(PCA)进行降维处理,将数据投影到3维空间上进行显示。实验测试数据采用来自UCI测试库的专门用于测试分类、聚类算法的Iris数据库,以及一组客观的个人信用数据。表1列出了各测试数据集的记录数、属性数和类别数。
4.2 实验结果对比
首先实验同时使用两种改进算法和K-means算法对Iris数据进行聚类,表2是三种算法的实验结果对比,其中可以看出,两种改进方法的循环次数远远小于经典K-means算法。
然后实验同时使用两种改进算法和K-means算法对Credit数据进行聚类,表3是三种算法的实验结果对比,其中可以看出两种改进方法的循环次数小于经典K-means算法。
4.3 实验结果分析
通过实验结果对比可以看出:经典的K-means算法与聚类数目和初始聚类中心的选择有很大关系,多次运行算法,从不同的初始聚类中心出发会得到不同的聚类结果和准确性,具有一定的主观性和随机性,算法稳定性不好。基于竞争神经网络的K-means算法在运行经典的K-means算法之前用竞争神网做了一个预处理,而基于密度的K-means算法在运行经典的K-means算法之前做了一个预处理。这两种算法都改变了初始聚类中心的随机选择,使输入经典K-means算法的初始聚类中心离数据本身的类中心较近,改变其对聚类初始中心的依赖问题;而在竞争神网建立网络的时候,利用采样数据进行训练,有效降低了数据量,减少了竞争神网的建立速度;并且多次运行算法,结果较稳定。从实验结果也可以看出,它在两组测试数据上运行得较好。
5 结论
本文针对经典K-means算法的主要不足,采用优化聚类中心的方法提出了基于竞争神经网络的K-means算法和基于密度的K-means算法,从而使K-means算法能够自适应的确定聚类中心,避免初始聚类中心的随机性,在一定程度上弥补了经典算法的不足。
从实验的结果来看,采用随机选取初始聚类点的方法,初始聚类中心靠近数据本身的类中心时近时远,非常不稳定,用于实际的数据聚类,效果不太好。而采用了一系列的改进算法后,其初始聚类点离数据本身类中心较近,并且较稳定,用于实际的数据聚类,效果较好。
参考文献:
[1] HAN Jia-wei, Kamber M.数据挖掘:概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2001:223-230.
[2] Belouchrani A,Abed-meraim K,Cardoso J F,et al.A Bjind Source Separation Technique Using Second-order Statistics[J].IEEE Trans.Signal Processing,1997,45(2):434-444.
[3] Charalampidis D,Kasparis T.Wavelet-Based Rotational Invariant Roughness Features for Texture Classification and Segmentation[J].IEEE Transactions on Image Processing,2002,11(8):825-837.
关键词 数据挖掘 预处理方法 基因表达数据
中图分类号:O17文献标识码:A
Pretreatment Method of the Gene Expression Data
WANG Xiuzhu
(Computer Science and Technology, Southwest University of Science and Technology, Mianyang, Sichuan 621010)
AbstractThis paper introduces several common gene expression data pretreatment method, and compared those methods, elucidatedapplication advantages of different methods in different environment.
Key wordsdata mining; pretreatment methods; gene expression data
随着人类基因组计划对24对染色体全部基因测序工作的完成,人类对基因的研究将进入全新的发展阶段,而它的重点也将落在对基因表达数据的分析上。面对数以千兆计的基因表达数据记录,数据挖掘成了首当其冲的、强有力的分析工具。选择合适的数据挖掘算法,是基因表达数据知识发现的关键。一般基因表达数据都会存在诸如数据完整性、数据的冗余性、属性间的相关性等问题而不能直接满足挖掘算法的要求。本文首先提出几种常用的基因表达数据预处理方法,随后会对这些方法进行论述和比较,以阐明在不同环境下各种预处理方法的应用优势。
数据预处理是从大量的数据属性中提取出一些对目标输出有重要影响的属性,即降低原始数据的维数,从而达到改善实例数据质量和提高数据挖掘速度的目的。常见的基因表达数据预处理方法有以下几类。
1 基于粗糙集理论的约简方法
20世纪80年代初,波兰的Pawlak针对G.Frege的边界线区域思想提出了粗糙集理论,粗糙集理论的主要研究内容有知识约简、离散化问题和不完全知识的补齐等,它在一定程度上很好地解决了传统数据挖掘中存在的超大数据、不确定性数据、噪音数据、空值和冗余数据等问题。①
粗糙集理论的基本思想是:用数据集的等价关系,这种关系可以是某个属性,也可以是某几个属性的组合,对此数据集进行划分,从而得到不同的基本类,在这些基本类的基础上进一步求得最小约简集,以达到降维的目的。
粗糙集理论的优点是:无需提供额外的先验信息就可将问题的论域进行划分,无需相关领域专家的监督就可独立完成。能有效地去除基因表达数据库中的冗余数据、噪音数据和空数据,并对数据进行有效的降维。缺点是:只能处理离散型数据。因此,如果基因表达数据库中的数据是连续型的,则首先要对其进行离散化处理后才能运用粗糙集理论来进行后续处理。
2 基于概念树的数据浓缩方法
在基因表达数据库中,许多属性都是可以进行归类的,各属性值依据抽象程度可以构成一个层次结构,这种层次结构通常称为概念树。它依据抽象程度将属性按照一般到特殊的顺序排列,并用这种层次结构体现出来。这种方法其实是几组合并的处理过程,用这种方法从基因表达数据库中发现规则知识的核心是执行基本的和面向各属性的归纳。②
基于概念树的数据浓缩法的基本思想是:(1)用概念树中的父概念去替代下面同性的、较具体的属性值。(2)合并知识基表中出现的相同元组,并计算由这些相同元组所构成的宏元组所覆盖的元组数,如果元组数大于设定的阀值,则用概念树中更一般的父概念去替代。(3)得到覆盖面更广、数量更少的宏元组以达到降维的目的。(4)将最终结果进行归纳并转换成逻辑规则。
基于概念树的数据浓缩法是基于监督的方法,它的降维思想主要是根据经验和需要制定出相应的剪枝阈值,以对噪声数据进行有效剪除。这种概念泛化处理的手段,能使处理后的基因表达数据库以不同层次和汇聚密度展现出来,为后续数据挖掘阶段能更好地挖掘出不同层次属性值间的关系做出了铺垫。
3 主成分分析法
常见的基于统计分析的属性选取方法有主成分分析、逐步回归分析、公共因素模型分析等。它们都是旨在用尽可能少的特征去描述高维的原始基因表达数据库,从而达到降维的目的。其中最有代表性,应用得最广的就属主成分分析。③
主成分分析的基本思想是:将多个变量通过线性变换的方式选出较少的重要变量的一种多元统计分析方法,它是在数据信息丢失最少的原则下对高维空间进行降维处理。它设法将原来给定的一组变量X1,X2,,,Xp,通过线性变换,转换为一组不相关的变量Y1,Y2,,,Yp,在这种变换中,保持原始变量的方差和不变。通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标的同时,使得Y1具有最大方差,成为第一主成分,如果第一主成分不足以代表原来p个指标的信息,再考虑选取第二个线性组合Y2作为第二主成分。依此类推,原来的k个变量就可以转换成q个主成分。
主成分分析法的特点是用尽可能少的、具有代表性的特征变量来描述原本高维的基因表达数据库,它能依据变量间的相关程度,自动生成权重,在一定程度上避免了人为因素的干扰,确保了评价的客观性。它的局限性在于评价结果并不能重复使用,每次样本的增减都会使原来的评价失去意义。
4 遗传算法
遗传算法是一种基于生物进化论和分子遗传学的全局随机搜索算法,它模拟了生物界“生存竞争,优胜劣汰,适者生存”的机制,用逐次迭代法去搜索寻优,求得问题的最优解。④⑤遗传算法的基本思想是:将问题的可能解按某种形式进行染色体编码。在选择个体适应度评价较优的染色体中随机选取 N 个进行复制。通过选择、交叉、变异三个环节产生一群新的更适应环境的染色体,从而形成新的种群。
遗传算法应用的关键是适应度函数的建立和染色体的描述,具体体现在对遗传算法运行参数的设定上,其中包括对种群的大小、进化终止的最大代数、交叉概率、变异概率的确定等。在实际应用中,通常将它和神经网络方法综合使用。
5 结论
综上所述,在以上的数据预处理方法中,基于粗糙集理论的约简方法在处理离散型基因表达数据上具有明显优势;基于概念树的数据浓缩方法在有相关领域专家监督的前提下具有优势;基于统计分析的属性选取方法由于在对基因表达数据的预处理过程中无需通过人为赋值来确定各个指标的权重,增强了数据处理的客观性。此外,它是在数据信息丢失最少的前提下进行的。因此,它较其他三种方法在降维的质量上有优势,遗传算法在处理基因表达数据上的降维效果也是比较明显的,但通常要与神经网络相结合来使用,算法的复杂度相对较高。
基金项目:西南科技大学青年基金项目(项目编号:11zx3118,“西南科技大学科研基金资助成果”)
注释
①于成.粗糙集在基于神经网络的入侵检测系统的探讨[J].自动化与仪器仪表,2010.5:129-131.
②刘上力,赵劲强,聂勤务.Web使用挖掘中的数据预处理方法[J].郑州轻工业学院学报(自然科学版),2010.25(4):71-74.
③顾明,苏园园.主成分分析法在工作评价中的应用[J].科教导刊,2010(6):159-161.