前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的数学建模聚类分析主题范文,仅供参考,欢迎阅读并收藏。
中图分类号 O242 文献标识码 A 文章编号 1673-9671-(2012)052-0202-02
1 概述
2000年6月,人类基因组计划中DNA全序列草图完成。DNA序列由A、T、C、G4种碱基按一定规律排列而成。当前生物信息学最重要的课题之一是研究由这4种碱基排列成的序列中蕴藏的规律。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究其规律性和结构。现已知20个人工序列1~10属于A类,11~20属于B类,要求运用数学建模方法发掘已知类别DNA序列的特征,从而据此对未知类别的20个DNA序列进行分类。本文对T和G碱基在各DNA序列中所占的比例数据进行标准化处理,放大两类DNA序列的差异,采用模糊相似矩阵,模糊等价矩阵,λ截矩阵方法对DNA序列进行分类。
2 模糊聚类分析模型
2.1 主要研究步骤
通过观察发现,A类DNA序列中G碱基含量较多,T碱基含量较少,而B类DNA序列则刚好相反。所以可用这20条DNA序列中T和G碱基在自身序列中所占的频率作为基本研究对象,并对T、G碱基所占的比例的原始数据进行标准化,放大差异。再建立相应的模糊相似矩阵,模糊等价矩阵和λ截矩阵,找出一个最优的λ值进行DNA序列分类并使分类准确度达到最高。最后用上述方法以及λ值对另外20个未明类别的序列进行分类。
2.2 原始数据标准化
先对T和G碱基频率作标准化处理。平移—标准差变换
(i=1,2…,20;j=2,4)
其中xi是第i个DNA序列,x'ij是指碱基A,G,C,T在第i个DNA序列中出现的频率,x"ij是对x'ij进行标准化后的标准频率值,
,,(j=2,4)。
进行平移—极差变换,(j=2,4),
可得到关于碱基频率的模糊矩阵
2.3 模糊聚分析法
相关系数刻画随机变量之间的线性相关性:相关系数绝对值越大,随机变量之间的线性关系越密切;相关系数为0,称随机变量线性无关。所以利用相关系数法对碱基频率模糊矩阵的元素进行处理,利用公式:
得到一个关于xi与xj相似程度的模糊相似矩阵rij。
如果xi与xj的相似程度为rij,那么模糊矩阵R=(rij)20×20,显然R是模糊相似矩阵,为
为了从模糊相似矩阵R得到模糊等价矩阵R=(rij)n×n,从n阶模糊相似矩阵R出发,依次求平方RR2R4…直到R2i×R2i=R2i(2i≤n,i≤log2n),求出R传递闭包t(R),则t(R)=R。对于已知分类的20条DNA序列,由大到小取一组λ∈[0,1],确定相应的λ截矩阵Rλ=(λij)20×20,且λ截矩阵为一个对角线为1的对称0-1矩阵。即可将其分类:若λij=1,说明第i条DNA序列与第j条DNA序列属于同一类。若λij=0,说明第i条DNA序列与第j条DNA序列不属于同一类。对于未分类的DNA序列,利用已求出的λ值,得到相应λ截矩阵,再利用已知λ值便可对未分类的DNA序列进行分类。
2.4 分类结果及其分析
应用Matlab软件对第1-20个DNA序列数据进行处理,经平移-极差变得到类别A、B中A、T、C、G碱基的标准化频率(表1)。
可得到标准化矩阵:
那么得到表示这1-20个DNA序列之间的相关程度的模糊相似矩阵:
进而求得传递闭包t(R)及模糊相似矩阵RR=t(R)。对模糊等价矩阵R进行分析,发现选取λ∈(0.8714,0.9834)会得到最高的准确
率,高达100%,识别率为90%,没有出现误判。计算时可取平均值λ=0.9764,得到λ截矩阵Rλ=(λij)20×20。对于λ截矩阵Rλ=(λij)20×20,若λij=1,说明第i条DNA序列与第j条DNA序列属于同一类;若λij=0,则说明第i条DNA序列与第j条DNA序列不属于同一类。最后得到分类结果:
A{1,2,3,5,6,7,8,9,10}
B{11,12,13,14,15,16,18,19,20}
C类(无法识别){4,17}。
采用以上方法对第1-20个DNA序列分类的准确率为100%,识别率为90%,没有出现误判。把标号为21-40的DNA序列添加到原来的数据中,采用同样的模型与已求出的λ值对其进行分类,结
果为:
A类{22,23,25,27,29,33,34,35,36,37,39}
B类{21,24,26,28,30,31,38,40}
C类{32}。
3 结论
本文运用数学建模模糊聚类分析法方法,对T和G碱基在各DNA序列中所占的比例数据进行标准化处理,放大两类DNA序列的差异,采用模糊相似矩阵,模糊等价矩阵,λ截矩阵方法对DNA序列进行分类,方法简单、实用,且分类结果准确率高达100%,识别率为90%,没有出现误判。
参考文献
[1]csiam.省略/mcm.2000网易杯全国大学生数学建模竞赛题.
[2]顾俊华,盛春楠,韩正忠.模糊聚类分析方法在DNA序列分类中的应用[J].计算机仿真,2005,10(22):108-129.
[3]刘焕彬,库在强,廖小勇,陈文略,张忠诚.数学模型与实验[M].北京:科学出版社,2008.
[4]徐晓秋,初立元,左铭杰,谭欣欣.DNA分类方法的探讨[J].大连大学学报,2001,8.
[5]岳晓宁,徐宝树,王竞波.基于聚类分析的DNA序列分类研究[J].沈阳大学学报,2008,20(6):104-106.
【关键词】商业银行 收入结构 多元统计法 MATLAB SPSS
随着我国金融业的不断开放和利率市场化的改革,商业银行间的竞争日益激烈,再加上国家对商业银行的监管不断加强,其盈利能力受到挑战。商业银行传统的存贷息差的经营模式收入逐渐减少,而国外的银行已经开始大力开拓中间业务等非利息收入。目前我国商业银行利息收入所占的平均比重已由2010年的80%下降到2015年的70%,而国外发达国家的商业银行利息收入所占平均比重已经达到了40%。由此可见,加快经营模式和和收入结构的改变,已成为我国商业银行改革的方向之一。
一、数据来源及模型假设
本文选取16家上市银行为研究对象,对其2010到2015年年报进行整理分析,获得所需数据。为了便于解决和研究问题,提出以下几条假设:⑴假设16家上市银行的年报真实可信;⑵假设上市银行在编制年报时使用会计记账方式等一致;⑶假设设置的变量取值都有实际意义且数据记录准确规范。
二、根据收入结构对商业银行的分类
(一)研究思路
首先运用主成分分析将多个指标浓缩为少量几个指标,消除各个指标间的多重共线性,然后根据主成分得分对其用二阶聚类法进行聚类分析,最后根据实际情况确定最终聚类结果。
(二)数据处理
1.主成分分析。将我们整理的2015年16家上市银行收入结构的各项指标用SPSS对其进行主成分分析,在方差累计贡献率大于85%的情况下,得出F1、F2、F3、F4主成分得分函数:
F1=-0.379X1+0.316X2+0.023X3-0.28X4+0.3X5+0.075X6
F2=-0.163X1+0.325X2+0.439X3+0.156X4-0.354X5-0.332X6
F3=-0.244X1-0.143X2+0.431X3+0.322X4-0.09X5+0.796X6
F4=-0.293X1+0.416X2-0.684X3+0.851X4+0.032X5+0.013X6
将各指标值分别代入4个得分函数中,就可以得出每个商业银行的主成分得分,得分结果如表1所示。
2.聚类分析。根据表1,对其用二阶聚类法进行聚类分析,先分别聚成四类、五类和六类。
下图为三种聚类的“模型概要”和“聚类质量”图。
“聚类质量”通过不同的颜色来表示聚类质量的“差”、“良”、“好”和“较佳”三个等级。蓝色条带表聚类质量达到的等级。由上图可以观察到,三种聚类结果的聚类质量良好,说明聚类成三种方式都是合理的。
下表是将16家商业银行分别聚成四类、五类和六类的情况。
表2 不同聚类结果表
■
由表2可以看出,不论将这16家银行分为四类、五类还是六类,我们都可以发现:工商银行、建设银行、中国银行被分为一类,农业银行、交通银行、华夏银行、北京银行被分为一类,浦发银行和民生银行被分为一类。最终我们结合实际,将四类的结果作为本文的最终聚类结果。
(三)结果分析
第一类银行的利息收入平均为72.58%,低于其余13家银行2.3%。并且其他营业收入平均占总收入的4.93%,远远高于其余13家商业银行4.03%。这说明国有的三大商业银行比其他商业银行具有较优的收入结构,这也为工商、建设和中国银行成为全球顶尖银行提供了依据。
第二类商业银行是利息收入占比降低最快或营业额相对庞大的商业银行,这四家银行的收入结构虽然没有第一类好,但在优化收入结构的能力上存在比较大的潜力,相信其收入结构在以后几年会快速得到改善。
第三类商业银行是唯一在汇兑收益中亏损的一类商业银行,这类商业银行都是股份制银行,资产规模较小,但是最富创新力的银行。但就目前来说,其收入结构是16家商业银行中最差的一类银行,应该得到管理层的重视。
第四类商业银行处于四类银行收入结构的中间水平。其中,招商银行零售业务备受认可,平安银行依靠其母公司平安集团快速扩张,意图成为全能型模式银行。此类银行的利息占比收入是四类银行中最低的一类银行,甚至低于第一类国有控股银行2.5%。但资产规模较低,其他业务收入占比仅为0.15%,远远低于第一类商业银行其他营业收入平均占总收入的4.93%。
三、收入结构与资产规模和营业收入之间的联系
(一)研究思路
本文假设收入结构与资产规模和营养结构之间是确定的函数关系,进行回归分析,得出收入结构与资产规模和营业收入之间的函数表达式,通过对各参数的分析,可分别得到资产规模和营业收入之间对收入结构的影响。
(二)数据处理
1.回归分析。用资产规模和营业收入作为自变量,用利息净收入、手续费及佣金净收入、投资收益、公允价值变动收 、汇兑收益、其他业务收入作为因变量。由于6个自变量具有不同的重要性,假定收入结构可分为利息收入和非利息收入,因此先对这6个变量分别赋予权重0.5、0.1、0.1、0.1、0.1、0.1,然后再进行回归分析。此数据是截面数据,有可能存在异方差,所以直接采用加权最小二乘法进行回归,回归权数设置为残差平方和。用EVIEWS进行WLS回归。
①资产规模回归方程
回归结果如下:
Y1=-21.8235+43.817X1+195.5811X2+189.2389X3+363.1467X4 +394.9035X5+335.5921X6
T=(-1.7214)(1.6997)(1.6064)(1.6930)(1.8888)(2.8589)(1.7292)
R2=0.9999,DW=0.8,F=1094270
由回归结果可以看出R2=0.9999,这说明模型对样本拟合度很高;F=1094270,给定显著性水平α=0.05通过查F分布表可知,此回归程显著。
②业收入回归方程
回归结果如下:
Y2=-16.844+33.147X1+152.972X2+166.822X3+350.225X4 +334.845X5+265.7024X6
T=(-1.1819)(1.1438)(1.1177)(1.3276)(1.6204)(2.1563)(1.2179)
R2=0.9999,DW=0.7513,F=957327
由回归结果可以看出R2=0.9999,这说明模型对样本拟合度很高;F=957327,给定显著性水平α=0.05通过查F分布表可知,此回归程显著。
(三)结果分析
由资产规模回归方程中可以看出,6个自变量的系数都为正,说明6个变量与银行的资产规模呈正相关。又发现利息收入的系数最小,说明利息对银行资产规模的边际弹性低,无法通过增加利息收入而增加资产规模。
由营业收入回归中可以看出,6个自变量的系数都为正,说明6个变量与银行的资产规模亦呈正相关。和资产规模回归方程一样,利息收入的系数最小。因此建议商业银行应该增大非利息收入,这样可以优化自己的收入结构,更快的提高营业收入。
四、收入结构的预测
(一)研究思路
在前文分类的基础上,为了代表所有的上市银行和计算的方便性,我们挑选4类中一家银行的收入结构进行灰色预测。因为影响收入结构最主要的因素是利息占总收入的比重,我们选取这一项作为预测对象。
(二)数据处理
灰色预测
商业银行利息占总收入的比重近年来都呈现下降的趋势,因此我们选取GM(1,1)灰色预测模型。
1.工商银行。利用MATLAB软件求出模型参数a、b,即发展灰度和内生灰度的估计值:a=0.0132,b=0.7897。由此可求得一次累加原始数列拟合序列表达式:y=59.9381-59.1405E-0.0132t,以此计算而得的数列再进行累减还原即可得灰色预测后的拟合序列,最后进行模型误差的检验。
由表3可以看出,2016~2020年拟合数据与原始数据的残差均小于0.02,相对误差均小于2%,说明此模型可以用来预测工商银行利息收入占总收入的比重。
利用上述建立的模型,用MATLAB直接预测2016~2020年工商银行利息占总收入的比重数据,如下表4所示:
2.交通银行、浦发银行、平安银行。采用与工商银行相同的建模方式,对交通银行、浦发银行、平安银行的利息占总收入的比重进行灰色GM(1,1)预测,预测误差直接用图2展示。
图2 交通银行、浦发银行、平安银行误差与相对误差分布图.
由图2可以直观的观察到,2016~2020年拟合数据与原始数据的残差均小于0.02,相对误差均小于2%,说明此模型对交通银行、浦发银行和平安银行的利息收入占总收入的比重可以进行预测。
由此,我们用MATLAB求出其余三家商业银行利息占总收入的比重数据,如表5所示:
(三)结果分析
由表4和表5可以观察到,平安银行的利息收入在2020年占比最低为52%,远高于工商银行的68.75%,说明第四类银行,即最富有创新的商业银行未来的发展前景乐观。而第一类银行即目前具有相对最优收入结构的国有大型商业银行,其利息收入所占比重虽然在逐年降低,但其速度远远小于第四类股份制商业银行。
五、总结
本文首先聚类分析了国内16家上市银行收入结构的现状,我们发现国有大型商业银行现阶段凭借其强大的资产规模,构建了比其它商业银行更优的收入结构,以此成为全球顶尖银行。而第四类股份制商业银行虽然具有较强的创新能力,但其收入结构现状仍不及国有大型商业银行。然后回归分析了商业银行收入结构与资产规模和营业收入之间的关系,得到利息收入对银行资产规模和营业收入的边际弹性低,因此商业银行欲通过增加利息收入从而增加资产规模和营业收入已是不明智的选择。最后对4类银行中典型的4家银行的利息收入所占比重进行灰色预测,发现5年后富有创新的股份制商业银行的利息收入占比已经低于国有大型商业银行。
因此国有大型商业银行应该加强创新,重新定位经营业务结构,向股份制商业银行学习,与国际金融大环境接轨,效仿国际先进理念,把中间业务作为商业银行新效益增长点。股份制商业应该保持其创新能力,继续开展收入结构改革,扩大资产规模。国家应该逐步放松对金融的管制,让商业银行的业务范围不断扩大,逐渐形成混业经营模式,成为多功能、综合性的“金融百货公司”,以此达到优化收入结构的目的。
参考文献
[1]邢学艳.我国商业银行收入结构的实证分析[J].经济师,2011(9):181-183.
[2]黄国妍.商业银行收入结构与银行风险研究[D].华东师范大学,2014.
[3]黄宏运,吕石山,朱家明.空气污染的计量评估方法[J].阴山学刊(自然科学版),2016,04:1-5.
[4]杨桂元,朱家明.数学建模竞赛优秀论文评析[M].中国学技术大学出版社,2013.9.第一版.
[5]冯岩松.SPSS 22.统计分析应用[M].北京:清华大学出版社,2015.
[6]杨桂元.数学建模[M].上海:上海财经大学出版社,2015.
[7]孙亚静,辛雪娇,张彦红.中国上市商业银行经营绩效分析[J].产业与科技论坛,2013,13:26+226.
[8]张畅.我国股份制商业银行竞争力比较分析[J].现代商贸工业,2016,07:54-56.
关键词 葡萄酒评价 符号秩检验 灰色聚类分析
中图分类号:TS262.6 文献标识码:A DOI:10.16400/ki.kjdkz.2015.12.066
Abstract This paper established a signed rank test and gray clustering model wine evaluation. In order to get each group wine-tasting each wine sample an objective evaluation score for each group of wine-tasting wine samples for the evaluation scores do mean to give the wine sample overall score, and then the evaluation results of the two groups for wine-tasting poor, made the difference to get the data signed rank test, and finally the use of SAS software to calculate the signed-rank test = 0.0085, and less than the significance level = 0.05, it does not accept the original hypothesis that the evaluation results of two wine-tasting are significant differences; For the question of confidence, and we each wine-tasting wine samples ratings for variance analysis, were calculated first and second set of score results of variance and were 1409.3,821.1, easy to know and much larger than the first group variance The second group, so the evaluation results of the second group is more stable and more reliable. The second group of wine-tasting red wine for the evaluation of the results will be classification, then using gray cluster analysis of the samples were graded red grapes, combined with its wine is quality, both in the grape samples wines level, to determine the level of the wine.
Key words wine evaluation; signed rank test; grey cluster analysis
1 问题重述
1.1 研究课题背景
针对主观性评价问题和多目标问题,由于其繁琐性和主观性,对我们来说,很难透过现象看本质,虽然层次分析法在PHP中可以通过得分函数构成。但就其缺点而言,我们认为对这类模糊性问题采取多目标分层次的解决方式,而利用统计分析里的方差分析和灰色关联度分析能够合理处理此类问题。对于未来预测性和多目标问题可以得到很好的预见性效果。同时也为多领域多目标问题中提供一个较好的模型。
本文的模型也可适当地对研究人事、招聘及高校评选的处理方法有所帮助和提高。
2 问题分析
因为两组品酒员对酒样的评分是成对比较,且对评分并不要求成对数据之差服从正态分布,只要求对称分布,故我们采用统计学中Wilcoxon符号秩检验来解释两组品酒员对葡萄酒的评价有无显著性差异。
假设两组品酒员对葡萄酒的评价有显著性差异,就需要确定哪组品酒员的评价更可信,为此对品酒员评价数据做置信度分析――方差分析,由于葡萄酒评价数据无法进行复测,就要利用matlab软件的信度分析功能,分别对第一组和第二.组的评分进行可信度分析,最后通过图形直观的反映结果。
3 模型建立
3.1 符号秩检验模型的建立
将两组评酒员分别看作两个整体、,对每个红葡萄酒样品进行评价,对每个红葡萄酒样品的评价结果通过组内每一位品酒员的评分的均值 = 来刻画,同样对每个红葡萄酒样品的评价结果用均值 = 来刻画,从而得到两组评酒员对每种样品酒的评价结果,建立两组评酒员对红葡萄酒的评价。
对同一酒样品得到一对数据。可知两对数据之间差异是由各种因素,如葡萄酒的外观、香气、口感、材料成分等因素引起的。由于各酒样品的特性有广泛的差异,就不能将第一组评酒员对27 种红葡萄酒的评价结果看成是同分布随机变量的观测值。因而表1中第一行不能看成是一个样本的样本值,同样第二组的数据也不能看成是同一个样本的样本值,而同一对中两个数据是同分布随机变量的观测值,他们的差异是由于两组品酒员的水平引起的。为鉴定他们的评价结果有无显著性差异,可使用基于成对数据的逐对比较法。以红葡萄酒样品为例,有27对相互独立的评价结果:(,),(,),…,(,),令 = , = ,…, = ,则,,…,相互独立,所以我们对,,…,进行单因素的符号秩检验。
再对和中的元素分别求和得到方差和,用方差和对比得到对于同一批红葡萄酒两组的不同评价水平。方差和小的稳定性好,相对来说比另一组的评价结果更可信。
3.3 灰色聚类分析模型的建立
在附件2中我们可以得到,对于红葡萄酒,有对应的30个一级指标,为了使结果更具有客观性,我们将葡萄酒的质量也作为一级指标。对于这31个一级指标,其中多酚氧化酶活力、褐变度、总酚、固酸比、出汁率这5个指标与葡萄酒质量呈负相关,其余26个指标都与葡萄酒质量呈正相关。
4 模型求解
4.1 符号秩检验模型的求解
对于该模型,我们首先作出同一酒样品分别由两组品酒员,得到的评价结果之差,列于表1的第三行。根据建立模型的需要假设
: = 0,:≠0
我们取 = 0.05,并采用SAS软件编程处理,具体程序见附录程序1。
在SAS中运行的结果如图1:
结果显示符号秩检验对应的P为0.0085,小于显著性水平0.05,故不接受原假设,即认为这两组品酒员分别对红葡萄酒的评分有显著性差异。
4.2 方差分析模型的求解
运用MATLAB软件编程求解,得到,。
对于红葡萄酒而言:元素的和为1409.3,元素的和为821.1。由此可以得出,第一组的方差和远远大于第二组。
4.3 灰色聚类分析模型的求
我们先对红葡萄酒质量的评价结果按评分从小到大排列得到表1:
根据等级分级标准:高级葡萄酒:9、23、20;上等葡萄酒:3、17、2、26、14、19、5、21、4、24、27、22;中等葡萄酒:16、10、13、1、12、25、6、15、7、8;下等葡萄酒:18、11。
对于每类葡萄中的元素,结合该葡萄样本所酿造的葡萄酒的级别,来确定该葡萄的级别。然后再根据每类葡萄中葡萄样本级别的比例来确定该类葡萄的级别。对应葡萄酒的等级分类,我们根据葡萄的聚类分析也将葡萄分成高级、上级、中级、下级。
红葡萄的分类结果:高级红葡萄:9、23、4、20;上级红葡萄:3、17、12、15、18、24、5、19、13、21、2、26;中级红葡萄:10、16、27、1、14、25、6、7、22、8;下级红葡萄:11。
参考文献
关键词数据挖掘 教学模式 合作式教学
中图分类号:G642文献标识码:A
数据是无处不在的。当飞速增长的数据给我们带来方便和便捷的同时,也将我们推入浩瀚的数据海洋。广泛用于商业和科学领域中的自动数据收集设备每小时能够产生几TB规模的数据,人们面临的问题已经不再是没有充分的信息可选择,而是如何有效利用如此庞大的数据,并且找到蕴含于这些信息之中的有价值的知识。由于数据分析师的匮乏,导致了很多领域出现了“数据丰富而知识匮乏”的现象,因而在信息计算科学、统计学等本科专业中开设数据分析课程是非常有必要的。
数据分析就是分析和处理数据的理论和方法,从数据中获得有用的信息,其内容丰富,方法众多,最大的特点就是“让数据说话”。该课程设计的分析方法众多,如:方差分析、非参数统计、多元统计分析、判别聚类分析、时间序列分析等。由于计算机编程的复杂及数据的难以采集,这些分析方法在课程中大多处于理论教学,使得本科阶段的学生很难接受。随着计算机及统计软件(如SAS,SPSS)的普及,大大的减少了对程序能力的要求,随着大量数据被数据采集者开放(如金融数据库),使学生有可研究的对象,从而使得我们在大学本科阶段开设数据分析课程成为可能,但需要合适的教学模式以适应本科阶段的教学。
由于数据分析的方法众多,对不同学科的数据又会有其特殊的分析模型,在一门课中介绍全部是不可能的,透彻的介绍每种方法的原理更是不可能的。基于学生的数学和计算机基础,从实际问题出发,介绍了常用的方差分析,回归分析,主成份分析、判别和聚类分析等方法,以方法综合应用为主,理论为辅,运用SAS软件来实现。在教学过程中采用了以下几个模式,并达到了较好的教学效果。
1 选用SAS软件为课程配套工具软件
在数据分析课程的教学中,算法实现对于本科生来说难度太大,该阶段的学生只学过C语言,很多分析方法如果用C语言来编程完成,难度将无法想象。我们要培养数据分析师,而不是高级程序员。随着统计软件在全球的流行,我们选取了SAS软件作为工具,结合数据分析课程的教学。通过简单的编程即可实现所有数据分析方法,并且应用多样化,功能强大。但由于SAS入手较难,为了不影响数据挖掘可能的教学时间,我们为该专业学生准备了两周实践课程,专门进行SAS的教学,取得了很好的效果。在数据分析课程中,每一种方法只需介绍基本思想,简单原理,计算步骤及SAS系统中对应的模块和程序说明。例如在介绍方差分析时,同时介绍SAS系统中ANOVA和GLM过程,利用SAS软件可迅速得到各种统计量,学生只需通过结果做相关的分析结论,简化繁琐计算,节省课时,提高了学生的学习兴趣。
2 引入合作式教学,加入讨论课模式
数据分析课程当中,理论知识的传授和应用能力的培养归根结底是为了解决实际问题。各种分析算法,软件都是帮助解决问题的一个工具。如何让学生去面临实际问题,并通过收集数据,建立模型,求解模型从而解决问题,这才是我们希望学生真正得到的能力。所以,我们引入的合作式教学模式。每次讨论课给定特定的专题,学生以组为单位收集相关资料数据,并进行问题分析,选定数据分析方法并建模求解,对得到的结果进行相关的解释,最后进行合理性分析。如对某产品在各个超市的销售量的分析,判断地区是否对销售量有影响。整个过程从灌输式的教学模式转变为引导式的教学模式,学生在讨论课当中占据主导地位。在分析问题得到结论后,以小组为单位进行总结汇报,由组外同学进行点评讨论,教师只做启发,指导工作。这种教学模式,不仅大大提高了学生的主动性,调动的学生思维,提高解决问题的实际能力,表达、沟通及团队合作能力,而且课堂气氛活跃,参与面广,讨论中相互发现问题,纠正错误。
3 适当介绍方法产生的背景、原理、重点介绍方法的综合应用
适当介绍方法产生背景和原理,可加深学生对分析方法的理解,深入了解方法的适用领域,所能解决的问题,与实际相结合,从而提高学生的学习兴趣。但我们更应该把分析方法综合应用作为首要教授的方面,即如何让学生把所学的数据方法正确的应用到实际问题当中。我们应该从以下几个方面入手:
(1)介绍分析方法的基本背景和原理,讲清应用范围。教学中,我们可简单介绍分析方法的基本思想和计算方法,但其具体能解决何种问题必须讲清。如:聚类分析和判别分析两类问题,都是用于事物的分类,但两者的本质是完全不一样的。判别分析中的类别是已知的,并且类别的属性或已知,或间接的给出(通过一组已经分类的样本),根据已知的知识对现有未知的样本进行分类。而聚类分析则体现的是“物以类聚”的思想,将相似性强的样本归为一类,其中类别的特点,数量在聚类完成前是完全不知道的。如医生看病判断病情属于分类问题,而对新的疫情进行类别区别则是属于聚类问题。利用实例使学生区分两种方法所能解决的问题以及两种方法所处理的数据的区别。
(2)融入数学建模思想,加强分析方法的应用。每个分析方法从理论到实际应用都需要一个过程。如果将一个实际问题转变为一个数学能解决的问题,就需要运用数学建模的思想,建立数学模型解决实际的问题。如:一个城市的安全程度往往可以通过这个城市的犯罪率来体现,但是犯罪种类之多使得我们无法通过某种犯罪次数来得出结论。这就使得我们要建立主成分分析模型,运用主成份分析方法,将现有的多种犯罪数据进行线性组合,得到几个主要的犯罪指标――总体犯罪率,重度犯罪比例等等。利用少量的指标去体现原来多个指标所体现的大部分信息,达到反应总体状况的效果。通过简单的、学生感兴趣的例子,引入主成份模型的原理,介绍分析方法,使其感受到主成份分析的重要性和必要性。通过各个主成分依次求出,其反应出的总体信息不断加大,还可引入贡献率和累计贡献率得概念,使学生明确如何合理选择主成分。比如当前m个主成份的累计贡献率达到85%的时候,就可认为这m个主成份能够反应总体的绝大部分信息。重点介绍各个统计量在当前模型中的含义,作用及对应关系,使得学生能够使用分析方法在实际中加以应用。
(3)加强介绍方法的步骤、软件实现及结果解释。建立模型后如何利用软件解决模型是学生必须掌握的技术。任何数据分析算法,都不太可能利用人工计算完成。由于我们选取了SAS作为分析软件,所以在课堂中,介绍完原理和数学模型后,都会给出相关实现的步骤。SAS编程相对简单,分析过程大多是PROC步完成,其针对每种分析方法都会有相关的过程函数,并且会有与算法对应的输入参数。学生只要模仿调用相关过程,并对结果进行相关解释即可实现相应分析方法的应用。比如利用SAS程序进行回归分析简单例子:
proc regdata= study.bclass;
modelweight = height /r clm cli dw;
run;
其中,模型参数r表示要输出残差分析,包括因变量的观察值、由输入数据和估计模型来计算的预测值、残差值、标准误差、学生化残差、COOKD统计量等。通过计算可得到各个相关统计量的值,学生无需涉及计算过程,只需知道计算得到的各个统计量所代表的含义,并会对结果进行解释。只有学会对结果的解释分析,才能解决真正的实际问题。
通过教学实践,我认为将统计软件作为配套工具和数据分析方法结合教学,可以起到相辅相成的作用,加入合作式教学模式,开展讨论课不仅学生综合能力得到了提高,而且学生团队合作意识得到了加强。同时,教师必须担任好自己的角色,要精心设计教学中的每个细节,如分析方法原理的引入,讨论专题的选择等,这样才能起到良好的教学效果。
注释
纪希禹. 数据挖掘技术应用实例[M]. 机械工业出版社,2009.
关键词:聚类分析;资产管理;独立学院
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)03-0443-03
固定资产管理是高校管理系统中的重要组成部分。高校资产管理部门参与了固定资产申报、采购、验收、维修、报废等整个生命周期。高校资产管理部门既能影响学院层面的决策,又直接参与系部层面的管理。在全面贯彻落实《国家中长期教育改革和发展规划纲要(2010-2020年)》精神和充分发挥教育统计对宏观决策的服务作用的大形势下,在高校学院等一级组织机构层面的管理,有国家的各项指标参数作为办学管理依据,如《普通高等学校基本办学条件指标》、《中国教育评价与监测统计指标体系》等。但资产管理部门在对教学系部等院校内部二级组织机构进行管理决策时,却缺少较为成熟的辅助决策模型或指标体系。我们资产管理部门在管理决策的过程中多以经验为主导。在高校多年的改革探索运行的进程里,资产管理部门积累了大量的数据,如果能从已有的相关统计数据里挖掘出更多有用的知识,我们管理决策工作就多了一层科学性的保障,甚至能发现工作里部分潜在的异常,防范资产管理工作中的一些常见问题。比如实验室维修经费的管理、设备申购的审批,从局部来看,每次报告申请都有其内在原因和必要性。但如果纵横对比来看,申购物品是否和普遍的投资规律相符,是否和同类型部门的运行规律相符?本文尝试通过对某学院2012-2013学年度各系部资产管理的相关指标参数进行聚类分析挖掘出一些有用的知识,实现同类系部间管理经验的借鉴。
1 管理对象指标的选取
我们的指标选取参考了教学状态评估、独立学院评估的参数和实际工作经验。针对一个部门,我们选择六个参数包括设备数量、学生数、教职员工数、耗材费维修费、大型精密仪器设备总额、实验人时数。
该分类问题原始数据矩阵为:
2 数据标准化处理
当[m]个特征变量(指标)观测值具有不同的数量级和不同的测量单位时,常需对数据进行预处理。标准化后的数据为[x′ik=xik-xkSk],[i=1,2…n,k=1,2…m],其中[xk=1ni=1nxik]([xk]表示变量[xk]的样本均值),[Sk=1n-1i=1n(xik-xk)212]([Sk]表示变量[xk]的样本标准差)。
3 基于Ward法的系统聚类
用[G]表示类,设[G]中有[k]个样本元素,这些元素用[i,j]表示。
定义 [T]为一给定的阈值,如果对任意的[i,j∈G,]有[dij≤T]([dij]为[i,j]的距离),则称[G]为一个类。
本文系统聚类法(hierarchical clustering method)的实施包含下列步骤:
①对系部相关数据进行变换处理;
②构造9个类,每个类[Gt]只包含一个样本[i];
③计算9个样本[dij]两两间的距离 ;
④合并距离最近的两类为一新类[Gp];
⑤计算新类与当前各类的距离,若类的个数等于1,转到⑥;否则回④;
⑥生成树状聚类图;
⑦根据设定的阈值[T]判断类的个数,得出分类结果。
在算法第⑤步需要计算类与类之间的距离,常用的有最短距离法、类平均距离法、重心距离法等。我们采用的是起源于方差分析的Ward法(也称离差平方和)。较好的分类可以达到样品间离差平方和较小,类与类之间的离差平方和较大。设将[n]个样品分成[k]类;
[G1,G2,…,Gk]用[xit]表示类[Gt]中第i个样品,[nt]表示类[Gt]中样品个数,[xt]是类[Gt]的重心,则整个类[Gt]中的离差平方和是[L=t=1ki=1nt(xit-xt)′(xit-xt)]。
我们用统计分析软件SPSS 19.0,平方欧氏距离作为相似性测度,类间距用Ward法定义。生成的聚类图表如表3,图2。
由以图2分类结果可以看出,分为4~5类较为合适,同类系部之间如计算机系与金融贸易系的资产管理策略可以相互借鉴,同类系部的资产管理问题,也应该引起共同的关注并引以为戒。我们的工作实践表明,该分类模型可以帮助我们防范同类系部可能遇到的部分相似问题,减少了资产管理工作中的盲目性,为管理决策提供了科学性的参考。
4 结束语
聚类分析作为无监督学习的一种重要形式,具有广泛的应用前景。高校系部等二级机构的资产管理决策目前较多依赖以往经验,基于系统聚类法的资产管理决策,让我们独立学院“摸着石头过河”的探索多一些科学的依据。但我们的模型还有很多不足和待解决问题,比如样本指标的合理性,模型能否推广到行政机构、后勤部门等非教学二级机构。另外针对同一高校探讨还可以从同一时间段不同学院系部的情况聚类,和同一学院系部不同时间段聚类分析,需要我们进一步深度收集整理相关数据。
参考文献:
[1] 何晓群.多元统计分析[M].3版.北京:中国人民大学出版社,2012.
[2] 王宏洲,李学文.数学建模方法进阶[M].北京:清华大学,2013.
关键词:化学计量学;中药学;选修课程
中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2012)12-0193-02
中药学专业主要开设中药学、中药鉴定学、中药资源学、中药药理学、中药药剂学、中药化学、中药制剂分析等必修课程,培养具备中药学基础理论、基本知识、基本技能以及与其相关的中医学、药学等方面的知识和能力,能在中药生产、检验、流通、使用和研究与开发领域从事中药鉴定、设计、制剂及临床合理用药等方面工作的高级科学技术人才[1]。然而,中药在现代化研究过程中,具有药效物质不明、作用机理不请、质量可控性差等问题,随着先进仪器和技术的引入和发展,给中药研究带来了有利的手段,但同时也造就了复杂的数据信息需要处理的问题。化学计量学方法非常适合于中药复杂体系研究中大量数据有效信息的提取,将化学计量学引入中药复杂体系研究可以发挥重要作用,也为中药的进一步研究提供了新的思路、方法和手段。笔者认为,既然现时化学计量学方法在中药研究中已得到了广泛应用,那么中药学专业的人才培养就应该切合实际需要,适时地为本科生特别是研究生开设《化学计量学》选修课程。
一、化学计量学的学科内涵
国际化学计量学学会(ICS)定义了化学计量学(Chemometrics)的学科内涵:“化学计量学是一门通过统计学或数学方法将对化学体系的测量值与体系的状态之间建立联系的学科”。它应用数学、统计学和其他方法及手段(包括计算机技术),选择最优试验设计和测量方法,并通过对测量数据的处理和解析,最大限度地获取有关物质系统的成分、结构与其他相关信息[2]。化学计量学在上世纪80年代开始有了较大的发展,各种新的算法层出不穷,基础及应用研究取得了长足进展,迅速成为化学与分析化学发展的重要前沿领域。
二、化学计量学在中药研究中的应用
中药是十分复杂的化学量测体系,具有化学成分众多、药效物质不明等特点,随着先进量测仪器与技术的应用,中药复杂化学体系得以逐渐阐明,但随之而来的是获得的海量量测数据亟需整理挖掘。此时,要从错综复杂的海量数据中更加有效地提取出有用信息,必须借助于化学计量学的方法与技术,将化学计量学引入中药复杂体系研究,必然可以发挥重要作用,也为中药的进一步研究提供了新的思路、方法和手段。下文简述了几种化学计量学方法在中药研究领域中的一些典型应用。
1.主成分分析法(PCA)。PCA旨在运用降维思想,把给定的一组相关变量通过线性变换,转化成另一组彼此正交的低维变量。PCA被广泛用于光谱、色谱及其联用指纹图谱的模式识别,如徐永群等[3]测量了黄芩的红外光谱数据,在此基础上应用PCA法进行聚类分析,将来自15个产地的黄芩样品分为6个产区,相同产区内样品的化学成分相似,以此提出了黄芩药材质量评价的方法。
2.聚类分析法(CA)。CA是对一组尚无明确分类的样本按相似程度的大小加以归类,属于无监督学习方法,其目标是在模式空间中找到客观存在的类别。张铭光等[4]通过测定广藿香裂解色谱指纹图谱,应用算术平均最小法对13张指纹图谱进行了聚类分析,总结出样品间相关系数与产地的关系,此方法不以广藿香醇、广藿香酮等有限成分的含量作为主要指标,可作为中药广藿香的质量控制方法。
3.判别分析法(DA)。DA则属于一种有监督学习方法,它利用一组已知样本为训练集,经训练后得到一个判别模型,从而对未知样本进行分类。DA法可分为参数法和非参数法。张亮等[5]采用RP-HPLC法测定了六味地黄丸缺味药模拟方的浸出物,借助Bayes判别建模,取得了满意的识别效果。苏薇薇等[6]分析了不同产地、不同部位的化橘红样品的HPLC量测数据,借助DA法可快速、准确地对样品进行分类。
4.人工神经网络(ANN)。ANN是一种通过模仿人中枢神经系统神经元之间相互联系的方式来进行计算的信息处理技术。它借鉴人脑神经系统处理信息的过程,以数学网络拓扑结构为理论基础。其结构和算法已有多种,包括BP(反向误差传播)、ART(自适应神经网络)、MDL(自适应线性机)、FANN(模糊神经网络)等,其中以BP网络在中药质量评价中应用得最为广泛,如乔延江等[7]借助ANN法建立了中药蟾蜍的质量评价方法。
5.支持向量机(SVM)。SVM是建立在统计学学习理论和结构风险最小化原理基础上的一种新型机器学习算法,具有小样本学习和泛化能力强的优点。其基本原理是把训练集数据从输入空间非线性地映射到一个高维特征空间,然后在此高维空间中求解凸优化问题,得到唯一的全局最优解。张录达等[8]测定了中药大黄样品的近红外光谱数据,结合SVM法建立了大黄样品真伪识别模型,对训练集与测试集的检验精度分别达到了100%和96.77%。
本文简要综述了化学计量学方法在中药研究中的一些典型应用,而且随着化学计量学理论和方法的不断深入发展,其在中药研究中的应用必将越来越广泛。因此笔者相信,在中药学专业本科生尤其是研究生的教学中,开设《化学计量学》选修课程,拓宽学生的知识面,加强培养他们的数据解析能力,具有重要的实践意义和教学价值。
参考文献:
[1]梁生旺.中药制剂分析(第二版)[M].北京:中国中医药出版社,2007.
[2]梁逸曾,俞汝勤.化学计量学[M].北京:高等教育出版社,2003.
[3]徐永群,孙素琴,冯学峰,等.黄芩产区红外指纹图谱和聚类分析法的快速鉴别研究[J].光谱学与光谱分析,2003,23(3):505-505.
[4]张铭光,袁敏,袁鹏,等.广藿香裂解色谱指纹图谱及其聚类分析[J].中草药,2003,34(8):749-752.
[5]张亮,刘展鹏.六味地黄丸缺味药的Bayes法和PRIMA法定性识别研究[J].中国中药杂志,2000,(1):29-32.
[6]苏薇薇,林海丹,方铁铮,等.中药化橘红的模式识别——计算机辨识研究J].中药材,2002,25(8):554-561.
[7]乔延江,吴刚,王玺,等.中药蟾蜍质量的人工神经网络化学模式识别研究[J].分析化学,1995,23(6):630-634.
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。
二、数据挖掘的方法
1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。
2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。
3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。
4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。
5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。
6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。
7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。
8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。
事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。
三、结束语
目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。
参考文献:
苏新宁杨建林邓三鸿等:数据挖掘理论与技术[M].北京:科学技术文献出版社,2003
DM是数据库知识发现(knowledgediscoveryindatabase,KDD)不可缺少的一部分,而KDD是将未加工的数据转换为有用信息的整个过程(图1),包括一系列转换步骤,从数据的预处理到DM的后处理[1]。其最早是在1989年举行的第11届美国人工智能协会(americanassociationforartificialintelli-gence,AAAI)学术会议上提出的,是近年来随着人工智能和数据库技术的发展而出现的一门新兴技术[4],其开发与研究应用是建立在先进的计算机技术、超大规模数据库的出现、对巨大量数据的快速访问、对这些数据应用精深的统计方法计算的能力这4个必要条件基础上的,以数据库、人工智能和数理统计三大技术为支柱[5]。
2DM的基本模式及在临床医学中的应用
DM的任务通常有两大类:预测任务和描述任务。预测任务主要是根据其他属性的值,预测特定属性的值,主要有分类(classificaion)和回归(regression)2种模式。描述任务的目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常),主要有关联分析、聚类分析、异常检测3种模式[1]。
2.1预测建模(predictivemodeling)
涉及以说明变量函数的方式为目标变量建立模型。有2种模式:分类和回归。分类是用于预测离散的目标变量。在临床医学中,疾病的诊断和鉴别诊断就是典型的分类过程。Melgani和Bazi[6]以美国麻省理工学院的心律失常数据库的心电图为原始数据,采用不同分类模型,对心电图的5种异常波形和正常波形进行分类。回归是用于预测连续的目标变量。回归可广泛应用于医学研究中如医疗诊断与预后的判别、多因素疾病的病因研究等。Burke等[7]采用各种回归模式对影响乳腺癌患者预后的因素进行回归分析。
2.2关联分析(associationanalysis)
用来描述数据中强关联特征的模式,用于发现隐藏在大型数据集中的令人感兴趣的联系。所发现的模式通常用蕴函规则或特征子集的形式表示。关联分析主要应用于DNA序列间相似搜索与比较、识别同时出现的基因序列、在患者生理参数分析中的应用、疾病相关因素分析等[5]。有学者对37000例肾病患者进行了追踪观察,监测肾小球过滤率、尿蛋白水平和贫血状况,结果发现以上3种生理指标中的任何一项异常都伴随着心脏病发病率的上升,这种肾病与心脏病“关联”的现象可发生在肾病的早期阶段[8]。
2.3聚类分析(clusteranalysis)
旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。聚类分析在医学领域中主要用于DNA分析、医学影像数据自动分析以及多种生理参数监护数据分析、中医诊断和方剂研究、疾病危险因素等方面[5]。罗礼溥和郭宪国[9]利用聚类分析对云南省25县(市)现有的112种医学革螨的动物地理区划进行分析,发现云南省医学革螨的分布明显地受到自然地理区位和特定的自然景观所制约。
2.4异常检测(anomalydetection)
用来识别其特征明显不同于其他数据的观测值。这样的观测值称为异常点(anomaly)或离群点(outlier)。异常检测的目标是发现真正的异常点,避免错误地将正常对象标注为异常点。换言之,一个好的异常检测器必须具有高检测率和低误报率,其主要应用于检测欺诈、网络攻击、疾病的不寻常模式等[2]。
3DM的方法及研究趋势
在DM算法的理论基础上,DM常用方法:(1)生物学方法包括人工神经网络、遗传算法等;(2)信息论方法包括决策树等;(3)集合论方法包括粗糙集理论、近邻算法等:(4)统计学方法;(5)可视化技术等方法。DM经过十几年的蓬勃发展,很多基本算法已较为成熟,在其基础上进行更加高效的改进和算法提高显得比较困难,如传统的频繁模式和关联规则挖掘在近几年的国际著名会议和期刊上已不再作为重要的研究主题[10]。近年来众多国内外知名学者相继探讨DM的最新方向。Yang和Wu[11]汇总形成了DM领域十大挑战性问题报告;Agrawa等[12]探讨了DM的现状并展望了未来的发展方向,Piatetsky-shapiro等[13]讨论了DM新的挑战性问题,并主要探讨在生物信息学(bioinformatics)、多媒体挖掘(multimediamining)、链接挖掘(1inkmining)、文本挖掘(textmining)和网络挖掘(webmining)等领域所遇到的挑战。与国外相比,DM在国内的研究和应用始于20世纪90年代初,主要是对DM方法的介绍和推广,20世纪90年代后期和21世纪初进入蓬勃发展阶段,当前DM已成为大型企业进行经营决策时所必须采用的方法,证券和金融部门已将DM作为今后重点应用的技术之一。有学者以HIS和LIS数据库信息为数据源,人工神经网络为工具,概率论为依据,对常规检验结果和质谱指纹图数据进行DM并应用于临床实践[14-16]。
4临床医学DM的特点
DM作用于医学数据库跟挖掘其他类型的数据库相比较,具有其自己的特点。以电子病历、医学影像、病历参数、化验结果等临床数据为基础建立的医学数据库是一个复杂类型数据库,这些临床信息具有隐私性、多样性、不完整性、冗余性、异质性和缺乏数学性质等自身的特殊性和复杂性,使得医学DM与常规DM之间存在较大差异。医学DM方法包括统计方法、机器学习方法、神经网络方法和数据库方法等。将这些不同的挖掘方法应用到疾病的诊断、治疗和预后分析以及医疗管理等各个领域,从疾病的诊治、医疗质量管理、医院管理、卫生政策研究与医疗资源利用评价等方面去获取诸如概念、规律、模式等相关知识;用于对疾病进行分类、分级、筛选危险因素、决定治疗方案和开药数量等[5]。
关键字:电力系统;人工神经网络;信号处理
1 引言
基于电力变压器故障诊断方法对提高电力系统运行的安全性和可靠性具有重要意义,同时也具有重要的理论价值和广阔的工程应用.基于智能信息处理方法的关键技术研究在研究分析智能信息处理理论关键技术的基础上,提出了以智能信息技术处理理论为主线的电力变压器故障智能诊断技术方案来实现基于云模型白化权函数的灰聚类分析和改进的加权灰靶理论相结合的电力变压器状态评估模型,通过先验知识和实验分析共同优化云模型参数结构,提高电力变压器故障评估的实用性与科学性.
2 基于云模型综合应用研究
基于云模型是指一种描述非确定性不确定性数学方法应用在模糊数学和统计学的基础与模糊性和随机性相结合共同构成定性描述和定量描述的相互映射关系,其中,模糊隶属函数是模糊理论的基石,是一个重要的概念,但是在工程实践中如何确定模糊隶属度函数却没有公认的方法与不确定性问题的随机性和模糊性来弥补模糊理论的不彻底性缺陷,因此提出了隶属云平台、云技术与云模型等概念和理论体系结构.
2.1 基于电力变压器故障云模型研究
基于电力变压器故障云模型数字运算期望值、熵和超熵表示.期望值Ex是所有云滴电力故障所在数域的重心位置,反映了这个定性概念的量在数域上的坐标.熵En是表示定性概念亦此亦彼性的变量,反映了数域中可被语言值接受的数据范围,同时还反映了在数域中的云滴电力故障能够代表这个语言值的概率.超熵He反映每个数值代表这个语言值确定性的凝聚性和云滴的凝聚程度.
对于电力变压器控制系统故障存在双边约束的指标,电力变压器故障云模型的期望值根据公式⑴计算=⑴
根据正态分布的原则, 电力变压器故障云模型的熵En按公式(2)计算:
⑵
超熵He是一个常数,可根据具体指标的不确定性和随机性进行调整.
3 基于灰色系统理论应用在智能信息电力变压器故障研究
3.1 灰色系统理论介绍
基于灰色系统理论是指以GM(1,1)模型为基础的预测,灰色系统模型是一阶微分方程动态模型.而智能信息电力变压器故障不确定性因素与不确定性全因素多传感器数据信息融合处理关键技术方法,应用于时间序列预测数据.
3.2 基于灰色智能信息电力变压器故障模型建模算法研究
3.2.1 设所要智能信息电力变压器故障预测系统的某项指标的原始数据列为
3.2.2对原始数据列做一次累加,先生成(1-AGO),再生成(3.2.1)新数据列,即
3.2.3 对生成的数据列’建立相应的微分方程式中.为发展系数,为内生控制系数.
3.2.4解步骤3.2.3)中方程式,可得其相应的时间响应模型为:
3.2.5 设方程的参数的向量:式中B为累加生成矩阵,为向量,二者的构造分别为:
,
式中为第年的原始数据;为第年的一次累加.
3.2.6 令t=1,2,…,n-1,由4)中式可得的值.其中是一次累加量,还需求出还原值,即
3.2.7 求出原始智能信息电力变压器故障数据的还原预测值与实际数据值之间的残差值和相对误差q(t),进行残差检验
3.2.8 进行关联度R检验;后验差C检验和小误差概率P检验.
3.2.9 如果残差检验、关联度检验和后验差都能通过,则可以用所建立的智能信息电力变压器故障模型进行预测.
3.4 基于灰色神经网络智能信息电力变压器故障模型研究
⑴ 灰色理论模型.灰色系统建模使用最多的是GM(1,1)模型,它是对经过一次累加生成的数列建立的模型,其灰微分方程为(,为待定参数).⑶
⑵ 白化GNNM(1,1)灰色神经网络模型.设参数已经确定,对式⑶求解可得到其时间响应函数:⑷
白化微分方程⑶的参数的思路是:将方程⑶的时间响应函数⑷映射到一个智能信息电力变压器故障BP网络中,对这个BP网络进行训练,从训练后的BP网络中提取出相应的方程系数,从而得到一个白化的微分方程,进而利用此白化的微分方程,对系统进行深层次的研究,或对此微分方程求解.要将⑷式映射到BP网络中,对其做如下变换,对等式两边同除以1+exp(-ak),可得
=
= ⑸
经过变换后可将⑸映射到BP网络中,其结构如图1所示.
相应的BP网络权值可进行如下赋值(令
(6)
的阈值设为,由⑸得,多层神经元激活函数为Sigmoid型函数: ⑺
该函数是S型函数,存在一个高增益区,能确保网络达到稳定态,其它层激活函数取线性的.经过⑹式赋值及BP网络激活函数确定为⑺式后,可对网络中各个结点计算为:
⑻
LD层仅1个节点,其作用只是对进行y1放大,使之与式⑶相符.考虑到灰色BP网络与式①的对应关系,因此在设计灰色BP网络学习算法时要注意以下几点:1)学习算法采用标准BP算法,由于有一些神经元所用的激活函数为线性的,因此计算误差时要利用线性函数的求导.2)由,故在BP网络训练过程中,权值始终保持不变.3)直接由输入与、得到,并且连接只是将误差前向传递到第3层,其本身不修改.精度比较可知,用神经网络辅助的灰色建模要远远优于传统的灰色模型方法.
4 基于人工神经免疫系统应用研究
在人工免疫系统应用是生物必须防御机制与免疫功能的器官、组织、细胞和免疫效应分子及其基因组成通过分布在全身的各类淋巴细胞识别和清除侵入生物体的抗原性异物,可以保护机体抵御病原体、有害的异物以及癌细胞等致病因子的侵害.基于生物的免疫系统是一种高级的智能信息处理控制系统数据[2].而人工免疫系统是模仿免疫系统的一种智能方法,提供噪声忍耐、自组织神经网络结构学习、自组织与记忆神经网络等学习系统,结合分类器、神经网络和机器推理等系统的优点,具有分布式并行处理、自学习、自适应和强鲁棒性和集中式分散处理与分析电力变压器智能诊断故障等优点服务.
5 结束语
基于智能信息与处理电力变压器故障诊断方法来应用电力变压器故障云模型处理、灰色系统理论模型、人工免疫系统等内容的理念和方法.以提高智能信息电力变压器故障诊断方法与灰色神经网络模型预测的应用体系结构,实践证明,基于智能信息处理关键技术在电力变压器故障诊断方法能够有效的排除故障.
参考文献: