前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的数学建模聚类算法主题范文,仅供参考,欢迎阅读并收藏。
关键词:数据挖掘;供应商画像;信用风险
0引言
在供应商信用风险管理过程中,充分利用好大数据是企业占领市场、获取利润的捷径。将供应商数据化,即构建供应商画像是企业对供应商信用进行有效管理的重要手段,其目的是供应商信用的全数据描述,根据价值细分供应商,了解供应商信用情况,制定精准的供应商管理方案,为供应商信用管理提供支持。本文基于对供应商的评价分析管理,通过对供应商信息风险管理中大数据的挖掘、分析,提出供应商画像的概念,并以此为依据实现不同供应商信用分级管理,同时提出业务和系统的改进策略,以优化供应商之间及供应商与电网企业之间的关系。在保证服务质量的前提下,降低供应链运行成本,帮助电网企业建立竞争优势,获得更多的客户满意度。
1国内外数据挖掘技术的研究现状
数据挖掘技术是一种对电力企业信用管理决策提供支持的技术,它主要是基于机器学习、人工智能、统计学等技术对大量的数据进行处理,从而做出归纳性的推理,挖掘出数据中的潜在模式,并对供应商的信用风险进行预测,从而帮助企业的决策者们及时调整市场策略以减少可能存在的风险,做出尽可能少的错误决策。从商业层面上来说,数据挖掘还可以描述为:按照企业既定的业务目标,对海量的业务数据进行探索和分析,从而揭示隐藏的、未知的或者验证已知的数据的规律性,并进一步将其模型化,用户兴趣模型也就应运而生。根据已有的数据对用户信用风险进行建模,并进行规则抽取与提炼,得到用户的画像。国内将数据挖掘的技术应用在电信领域的成果案例也不少。比如李军利用数据挖掘的算法对电信行业的客户流失模型进行建立与分析,针对不同种类的客户分别进行了不同模型的流失分析;段云峰、吴唯宁、李剑威等在数据仓库及电信领域的应用中,运用数据仓库的方法对电信行业的服务客户进行存储管理;吴爱华在数据挖掘在客户关系管理中的应用研究中,应用了数据挖掘的相关知识来研究数据挖掘算法在用户关系管理中的应用;叶松云在我国电信行业客户流失管理的建模分析及应用研究中,通过对电信行业的流失客户进行模型建构,通过管理这个流失模型来有效控制客户的流失。目前南方电网企业和供应商的信息交换处在一种繁杂的状态,电网企业可以对单个供应商信用情况进行信息的查询,反馈,但很难通过获得的信息对多个供应商信用进行有序、有效的管理。供应商的管理缺乏直观、可视化的手段和方法。通过建立供应商模型可以将纷乱的数据进行清洗和建模,提供进一步的分析决策。
2基于大数据分析的电力企业供应商信用风险管理
根据以上分析,在电力企业供应商信用风险管理过程中,需要对收集到的供应商数据进行处理,进行行为建模,以抽象出供应商的标签,这个阶段注重的是大概率事件,通过数学算法模型来排除供应商的偶然行为,故需要运用机器对供应商的行为、偏好进行猜测,根据供应商的关注点或投标意向、投标历史、中标情况等因素来判断供应商的忠诚度、履约能力、信用等级等,并对供应商行为进行建模。简单来说,供应商画像就是通过算法计算等方式,用统一的标准衡量供应商的表现,并对未来发展进行预测,这是一种把单个分析集成化,把平面分析立体化的过程。可见,在供应商信用风险管理过程中,应结合供应商属性、行为、评价标签体系,充分研究数学算法模型,并应用Python、R等工具建模推演,构建供应商评价模型,全面刻画供应商画像。
2.1画像构建与数据分析
供应商画像模型旨在帮助管理供应商、优化投标决策,因此画像构建的关键过程在于结合实际业务情况定性地选取投标决策关心的供应商评价指标,定量化评价指标,最后选取合适的评价维度给供应商贴上标签,通过不同维度的标签还原供应商的“画像”。因此,数据处理和分析建模的过程应该基于上述关键过程的指标数据特征以及业务分析逻辑。现在针对供应商画像的研究还不算特别多,我们以流行的“用户画像”分析进行对比,从而可以发现供应商画像和用户画像有何异同,从用户画像当中又能寻找到什么可行的分析思路。图1是用户画像的一般流程。可以发现供应商画像与用户画像的建模过程本质上都是数据收集-建模-画像成型的过程,区别只是在于:首先,画像构建的目的不同,用户画像的目的是进行精准营销,而精准营销的建模工作是要对用户分类后对不同类别用户的消费行为进行预测。而供应商画像的目的是为了精准管理、精准招标,建模工作是要对供应商分类后对不同类别的供应商进行评级。其次,画像的标签维度不同,标签维度的构建同样是从画像构建的目的出发,用户画像关心的是用户的购买能力、行为特征、社交网络等,供应商画像关心的是供应商的商务状况、产品质量、信用状况。(1)数据收集。通过访谈和调研搜集数据,确定供应商指标的打分逻辑和统计口径。(2)数据预处理。对收集到的数据进行清洗,目前收集到的数据量非常小,且需要进行整合、预处理,包括缺失值和异常值的处理、数据数量级的统一、后续分析所要进行的标准化处理。在构建供应商画像的现有数据中,资格评审涉及的商务与技术两大维度的数据已经根据权重进行了打分,分数的数量级为10以内,因此部分数据只需要剔除不满足资格评审的数据(表现为所有维度都为0值)以及数值超出权重的分值。履约评价的数据有物资合同签订及时率(0-100%)、一次性试验通过率(0-100%)、到货及时率(0-100%)和不良行为记录(分值范围0.1-12)。对于这部分数据需要根据权值进行标准化,由于权值需要根据评价标准进一步确定,因此目前只需要将不良行为记录的量化数值压缩到与0-100%相同的范围。(3)数据降维。目前的供应商信用风险评级指标过多,不能满足供应商画像的特征提取与分类要求,需要进行降维处理。拟采用关联性分析和主成分分析降低指标维度,同时最大化保留原有数据的信息。在资格评审中,商务基本面信息的数据涉及15个指标,技术能力更是高达10余个,这些指标反映的意义具有较强的关联性(共线性)且在有限的数据量的情况下变量过多将会大大降低模型的自由度从而影响精确度,因此为了满足后续的分类和拟合要求,必须要剔除冗余变量,对指标进行降维处理。(4)特征分类。结合业务理解初步确定分类个数(供应商不同特征维度的级别个数),利用聚类分析算法对供应商不同特征维度进行分类,后续根据分类情况和数据特征适当调整分类个数。在构建标签之前,需要对供应商进行分类,由于目前的数据是不具有分类结果标签(y值),因此这是一个无监督的分类问题,无法采用决策树、神经网络等学习类模型;又因为目前数据集的数据量非常少,需要大量训练数据的无监督深度学习模型也不适用,因此,针对无监督和小样本的特点,选用聚类分析解决分类问题。聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”。通过这样的划分,每个簇可能对应一些潜在的概念(类别),如“财务状况良好”、“技术能力强”等。不过,这些概念对于聚类算法而言事先是未知的,聚类过程仅仅能自动形成簇结构,簇对应的概念语义需要结合业务来把握和命名。常用的聚类算法有K均值算法、层次聚类算法等非常多,而针对现有的数据,K-means算法适用的情景是:簇数确定(同维度标签评级个数确定)且较少、数据量较大;而Hierarchicalclustering适用簇数不确定(可能有一定范围)、数据量相对大的情况。具体采用哪一种分类算法要根据数据情况以及业务分类要求和可视化要求而定。(5)分类结果检验。通过计算该特征维度不同类别的供应商的加权总分对分类后不同簇的供应商的总分进行统计上的显著性检验。(6)构建画像标签。结合对供应商管理评级的业务理解,从数据层面分析该特征维度下不同簇的供应商的区别,并增加语义内容。
2.2设计供应商画像
根据行业经验及领先实践,通过对南网供应商各类行为数据及外部数据进行数据采集、数据挖掘,结合公司战略、未来发展愿景还有指标构建的一般原则,将供应商的综合画像构建为六大一级指标,分别为供应商资质评价、供应商履约运行评价、企业风险信用评价、社会行为与责任、供应商生态与供应商创新。其中最重要的企业风险信用评价指标包括企业基本风险(如企业人员变更频率)、司法风险(开庭公告次数、法律诉讼次数)、经营风险(税务评级等级、股权质押比率、动产抵押比率、司法拍卖事件次数、欠税信息次数、行政处罚次数、抽检检查合格比率)。
关键字:计量地理学;教学改革;用型人才培养
中图分类号:G640文献标识码:A文章编号:1003-2851(2010)10-0105-02
一、引言
计量地理学又称又称数量地理学,应用数学方法研究地理学方法论的学科。是地理学中发展较快的新学科。它运用统计推理、数学分析、数学程序和数学模拟等数学工具,凭计算机技术,分析自然地理和人文地理的各种要素,以获得有关地理现象的科学结论,在地理学的自然与人文的传统领域,不断取得开拓性研究结果。60年代末至70年代中期,多元统计方法和随机过程引进地理学研究领域。70年代末期引进数据处理技术,开始研究大系统理论在地理环境分析中的应用,并与数据库和信息系统技术相结合,深入研究地区自然、社会、经济、人口等过程的各种数学模型,阐明地域现象的空间分布结构规律与模式,进行有关地理结构和地理组织的演绎。由于兼容并蓄了系统论、控制论、信息论、决策论等学科的内容和方法,从而丰富和加强了计量地理学的理论基础。计量地理学的诞生和发展,标志着传统地理学的革新[1]。
广西北部湾经济区的功能定位是:立足北部湾、服务“三南”(西南、华南和中南)、沟通东中西、面向东南亚,充分发挥连接多区域的重要通道、交流桥梁和合作平台作用,以开放合作促开发建设,努力建成中国-东盟开放合作的物流基地、商贸基地、加工制造基地和信息交流中心,成为带动、支撑西部大开发的战略高地和开放度高、辐射力强、经济繁荣、社会和谐、生态良好的重要国际区域经济合作区。按照《广西北部湾经济区发展规划》[2]所确定的产业发展目标,《人才发展规划》重点确定了石化、林浆纸、能源、钢铁和铝加工、粮油食品加工、海洋产业、高技术、物流和现代服务业等九大重点发展产业的人才需求。 现代服务业,包括旅游、会展、金融等服务业,2010年,旅游业人才总量约为9.85万人,会展业人才总量约为1.4万人,金融业人才总量约为2.7万人。到2015年,旅游人才总量发展到12.32万人,会展业人才总量约为2.3万-2.8万人,金融业人才总量约为2.98万-3.13万人。由此可见北部湾应用型人才培养破在眉睫。
二、计量地理学原有的教学理念与方法
(一)《计量地理学》课程简介。《计量地理学》被国家教学指导委员会列为我国综合性大学和高等师范院校地理学专业本科生的必修课。《计量地理学》课程类别专业必修课,先修课程是线性代数、概率与数理统计。是地理科学、地理信息系统、资源环境与城乡规划管理等专业学生的专业必修课程。通过本课程的学习,首先使学生掌握在地学研究中常用的几种定量分析方法,如相关分析、回归分析、时间序列分析、空间统计分析、聚类分析、主成分分析、线性规划、层次分析法、投入产出等方法的基本原理;其次,培养学生分析问题和解决实际问题的能力,使学生能够运用有关建模技术和多种定量分析方法对资源利用、环境保护、区域发展等地理问题进行空间统计和决策分析。本课程所采用的配套实验教材是由徐建华教授等编写的《〈计量地理学〉配套实习指导》[3]。此教材分类列出了19 个实习内容,每个实习内容均以教材中例题和练习题为线索,主要使用SPSS软件和Matlab软件方法,并附有部分自编的Matlab6.5应用程序,供学生上机实习参考。本教材教学目标明确,可操作性强,对于学生进行实际操作起到了积极的指导作用,更有助于学生理论与实际的结合,从而切实掌握计量地理学的基本方法。本课程以院系的计算机机房作为实习基地,实验室环境好,软硬件设备齐全、先进,专门供学生课内外使用,从而提高学生们参与研究的积极性和主动性。
(二)日前该课程注重几个方面的改革
(1) 教学观念的改革。理论跟实践相结合,解决地理问题,提高他们对软件的应用能力、实际操作能力。培养大学生以数学方法为手段,注重思考,提高逻辑分析、多种方法综合应用的能力。
(2) 教学方法的改革。课堂多媒体教学与传统教学相结合,改善呆板的多媒体教学模式。
(3) 考核方式的改革。传统的闭卷试卷模式已经束缚学生学习这个课的学习思想,要向作业、实践课、课堂考多角度转换。
(三)各大高校对《计量地理学》的改革现状与西部教学对比。
(1) 华东师范大学的该门课程是已经申请了精品课程,实验条件教学条件好,西部地区无法比。
(2) 有的高校采用了双语教学有利于提高学生应用外语的能力[6],同时也引进了外国最先进的理论来支持。西部地区是教学条件相对落后的地区,可以有这样的尝试,但是还是实实在在的理论教学和动手操作操作教学对学生的就业能力有帮助。
(3) 我国计量地理学研究取得了丰硕成果.学者从不同区域、不同视角展开讨论.本文在国内关于计量地理学发展研究的基础上,对其发展、评价及存在问题等做了探索。西部地区地理环境数据的搜集整理都比较的困难,但是很多学者都是突破困难去收集数据,但是这些有用的数据往往没有好的方法即使处理都是学者带回自己的实验室完成,这样的完成回来验证的时候结果滞后很久了,不能及时发现地理现象的更变。
三、为了适应北部湾应用型人才培养,针对《计量
地理学教学》的教学改革的做如下尝试
高等教育大众化理论是应用型人才培养模式改革的理论基础,建立起与社会接轨的良性机制,建立课程类型多样化和学习自由的原则[4],建立能实际操作的人才原则,要求我们改革势在必行。多数教学的三大宝,课本、多媒体课件、实验仪器或者实验环境。课本是根基,重中重。多媒体课件是围绕课本的一个良好的辅助教学工具。实验仪器或者实验环境则是对课本的具体的应用。大部分的课本离不开实验环境。《计量地理学》这个门课就是理论和实践想结合的教学科目,地理学是综合性、应用性、多科学、多领域的复杂学科。一般是按照内容的设置,案例推理教学[5],多种教学方法相结合,必须合理巧妙地运用数学工具。
第一、.开发一个跟计量地理学理论匹配的软件,包括理论过程的变化演示。
为了满足学生对实验数据收集到得出结论的整个过程的演示,加深对计量地理学每一个算法和理论结论的理解和使用。应用型人才的培养就是要培养可操作性的人才,有了软件就能更好的解释地理变化规律的现象。大学英语这样的课程靠听、说、读、写来完成,计量学必须有软件支持,软件包括如下理论:
1.数据预处理算法包括:平均值(非分组和分组)、众数(非分组和分组),中位数(非分组和分组),极差,离差,标准差、变异系数,绝对值距离、欧式距离、些方差等。
2.数据分析算法包括回归算法,聚类算法、时间序列算法、马尔可夫预测算法、散点图、G统计,线性规划算法等。
3.算法的分析和改进算法聚类算法的改进、最短网络路径算法的改进等。
本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文
4.最后制图的图、表、曲面分析图包括散点转成直线图、聚类谱系图、趋势面变化图、AHP决策分析图、最短路径演化图等。
第二、软件的开发与设计,注重参数设计环节,好的参数设置,更能有好的地理解释。
这门课有几个重要的地理参数设置,往往很多学生不懂什么叫参数的设定,到底设定有什么好处,我们在开发软件就是应该想到有这个设定,让他们完全体会自己操作的一种实在感。
第三、数学建模的知识有所缺乏,应加强数学建模的思想与理念。
地理知识的积累与消化的过程是一个数据收集、数据整理、预处理、数学建模、计算机编程演算,程序验证、数据检验程序,得到结论一个数据体系的反复验证的过程,这个过程里数学建模是相当关键,不懂建模知识,得不到想要的结果与理论,所以多引入初级数学建模的知识,达到脑、手、眼三合一,并提高学生的反应能力。
第四、多元性、交叉性这些概念太抽象,应简化理论。采用动态演算具体步骤的方法。
本科学生的特点是学习基础,得到基础知识,学会动手操作,不要太多抽象到教师的理解、表达也困难的理论,我们将实在的理论传授给他们,通过步步演示,步步推算,深入了解计算的过程,才能激发大家对这门课的兴趣,激发对数学演变过程的兴趣。
第五、案例教学好,好的案例,好学生实践做榜样,才是完美的教学过程。
教学的案例分析是十分重要的,没有案例的理论是空洞的理论,尤其是地理学这样的综合性、应用性很强的学科。对象越具体,空间数据收集越广,教师在课堂中演示一种方法,学生在试验的过程中演示另一种方法的尝试,这样有自己的体验结果,比较算法的优缺点,同时体验到数学建模的优缺点,算法直观、易懂,更大的促进了学生的发散性思维,综合思维得到跳跃。
第六、事物的演练过程需要记忆,有了软件记忆效果更加明确。
不同时间的数据,通过软件演示几组数据的对比,减少同学们的抽象记忆,加深实际记忆,这样教学效果更加立体凸显。
总之,对于西部地区教学实验条件缺乏的高校,拟采取这样的教学措施,便于教师与学生之间交流、提高学生对知识的理解、运用、传播。以上的教学结构模式见图1。
图1 教学模式结构图图2 软件设计的树状图
四、软件设计方法
开发工具:vc++,数据库采用电子表格导入形式;开发界面分为几大模块:预处理、各个章节的方法,后期数据几个检验。学生可以在机房实验也可以将软件存放自己的计算机自学用,在以后的工作中使用。软件设计的树状图见图2。
五、结束语
多媒体教学课件目前存在的弊端是教师花长时间做课件,学生看不过来,记笔记也记不过了,对知识的思考与理解都不能同步进行,教师辛苦,学生学不了知识。本文用理论、多媒体教学、多知识模块软件和学生理论与实践同步的教学模式极大的解决了学生对知识掌握和使用的能力。对已经学习过该门课程毕业班的三个班级和非毕业班两个班级的学生用新的教学模式:理论、多媒体教学、多知识模块软件和学生理论与实践同步的教学模式,让学生体检软件的实际演算操作,重新学习课程2个章节,课后展开问卷调查,210人问卷中有效票188,中性票13,无效票9, 167票非常感兴趣占90%,164票能独立解决一些问题87%,其中141人既感兴趣有能独立解决问题占76%。该教学方法将继续应用于下一批次的教学中,为日后的应用型人才培养打好基础。
参考文献
[1] 徐建华,计量地理学,高等教学出版社,普通高等教育“十一五”国家级规划教材。
[2]《广西北部湾经济区2008-2015年人才发展规划》。
[3] jpkc.ecnu.省略/0802/kechengjs.htm(华东师范大学精品课程网站)。
[4] 杨新军、王宝平,大学生地理学思维方式的培养与计量地理学课程教学的思考,高等理科教育,2007,第三期:119-122。
[5] 陈彦光,刘继生,地理学的主要任务与研究方法---从整个科学体系的视角看地理科学的发展[j],地理科学,2004,24(3):257-263。
1软测量建模方法解析
典型的软测量模型结构如图1所示[3].与传统仪表检测技术相比,软测量技术具有通用性和灵活性强,易实现且成本低等优点[1]。影响热工过程参数软测量精度的主要因素为数据的预处理方法、辅助变量的选择、模型的算法和结构等[4G5].由于现场采集的数据存在一定的误差以及仪表测量误差等,因此在建立软测量模型时需要对建模数据进行预处理,以消除误差.此外,还需对算法中间及输出结果进行有效性检测,以避免输出不合理的数据.另外,辅助变量需要通过机理分析进行初步确定,并且对其的选取需要考虑变量的类型、数量和测点位置等,同时需要注意辅助变量对系统运行经济性、可靠性和可维护性等的影响,从而简化软测量模型和提高软测量精度.辅助变量选取的最佳数量与测量噪声、过程自由度及模型不确定性等有关,其下限值是待测主导变量的数量.所选辅助变量应与主导变量密切相关,且为与动态特性相似的可测参数,具有较强的鲁棒性和抗过程输出或不可测扰动的能力,易于在线获取,能够满足软测量的精确度要求.由于某些热工测量对象的辅助变量类型和数量很多,且各变量之间存在耦合关系,因此为了提高软测模型性能和精度,需对输入辅助变量进行降维处理.由于在工业过程中通常采用同时确定辅助变量的测定位置和数量方法,因此对测点位置的选择原则同于变量数量的选择原则.在构建软测量机理模型过程中,要求具有足够多能够反映工况变化的过程参数,并运用化学反应动力学、质量平衡、能量平衡等各种平衡方程,确定主导变量与一些可测辅助变量的关系.但是,经若干过程简化后的软测量机理模型难以保证测量精度,且有很多热工过程机理尚不明确,因此难以对软测量进行机理建模.针对复杂的非线性热工过程,辨识建模方法通过现场数据、试验测试或流程模拟,获得工况变化过程中的输入(辅助变量)和输出(主导变量)数据,根据两者的数学关系建立软测量模型.该方法主要有基于统计分析的主元分析(PCA)法和偏最小二乘(PLA)法、基于人工智能的神经网络(ANN)法、基于统计学习理论的支持向量机(SVM)法、模糊理论法等[6].
1.1主元分析方法
PCA法通过映射或变换对原数据空间进行降维处理,将高维空间中的问题转化为低维空间中的问题,新映射空间的变量由各原变量的线性组合生成[7].降维后数据空间在包含最少变量的同时,尽量保持原数据集的多元结构特征,以提高模型精度.通常,采用该方法对现场采集的系统输入输出变量数据进行相关性分析,以优选辅助变量集,并利用对应的输入输出变量建立预测模型.但是,该方法受样本噪声影响较大,建立的模型较难理解.PCA法基于线性相关和高斯统计的假设,而核主元分析(KPCA)法对非线性系统具有更好的特征抽取能力,因而针对飞灰含碳量等呈非线性特征的变量,基于KPCA法建立其软测量模型,效果较好[8].
1.2偏最小二乘法PLA法
通过计算最小化误差的平方和,匹配出数据变量的最优函数组合,是一种数学优化方法.该方法用最简化的方法求出某些难以计算的数值,通常被用于曲线拟合.偏最小二乘回归(PLSR)法建立在PCA原理上,主要根据多因变量对多自变量的回归建模,在解决样本个数少于变量个数问题时,特别是当各变量的线性关联度较高时采用PLSR法建立其软测量模型更为有效.
1.3人工神经网络
ANN法在理论上可在不具备对象先验知识的条件下,构造足够的样本,建立辅助变量与主导变量的映射关系,从而通过网络学习获得ANN模型.ANN由许多节点(神经元)相互连接构成,每个节点代表一个特定的输出函数(激励函数),2个节点间的连接代表通过该连接信号的权重(ANN的记忆).选取ANN运算模型的辅助变量和主导变量后,为使待测的主导变量近似于实际测量变量,还可利用最小二乘法、遗传算法、聚类法等神经网络算法训练己知结构网络,通过不断调整结构的连接权值和阈值训练出拟合度最优的ANN模型.ANN模型采用分布式并行信息处理算法,具有自学习、自适应、联想存储(通过反馈网络实现)、高速寻找优化解、较强在线校正能力、非线性逼近等特性,其在解决较强非线性和不确定性系统的拟合问题具有较大优势[9],因此成为应用最广泛的一种热工过程参数软测量建模方法.但是,神经网络系统受训练样本质量、空间分布和训练算法等因素影响较大,外推能力较差,受黑箱式表达方式限制,模型的可解释性较差.当实际样本空间超出训练样本空间区域时,模型输出误差较大.因此,实际工业过程中需定时对该方法的参数进行校正.ANN还包括反向传播神经网络(BP)和径向基神经网络(RBF).BP模型将样本输入输出问题变为非线性优化问题,采用最优梯度下降算法优化并迭代求得最优值.RBF包含输入层、隐含层(隐层)和输出层,为3层结构,隐层一般选取基函数作为传递函数(激励函数),输出层对隐层的输出进行线性加权组合,因此其节点为线性组合器.相比BP模型,RBF模型训练速度快,分类能力强,具有全局逼近能力等.
1.4支持向量机法SVM法
以结构风险最小化为原则,是一种新型针对小样本情况的机器统计学习方法.其需要满足特定训练样本学习精度的要求和具备准确识别任意样本的能力.该方法根据有限的训练样本信息尽可能寻求模型复杂性和学习能力间的最优关系,从而有效解决了基于经验风险最小化的神经网络建模方法的欠学习或过学习问题[10G11],且泛化能力强,能够保证较小的泛化误差,对样品依赖程度低,可以较好地对非线性系统进行建模和预测,是对小样本情况分类及回归等问题极优的解决方法.但是,当样本数据较大时,传统训练算法复杂的二次规划问题会导致SVM法计算速度较慢,不易于工程应用,抗噪声能力较差等,且参数选择不当会使模型性能变差.目前,对SVM法还没有成熟的指导方法,基于经验数据建模,则对模型精度的影响较大.对于工业过程对象,许多在SVM法基础上进行改进的算法和混合算法被用于软测量建模,并已取得了良好的试验效果.如基于最小二乘支持向量机(LSGSVM)法的建模方法将最小二乘线性系统的误差平方和作为损失函数代替二次规划方法,利用等式约束替代SVM法中的不等式约束.由于LSGSVM法只需求解1组线性等式方程组,因此显著提高了计算速度和模型的泛化能力[12G13].与传统SVM法相比,其训练时间更短,结果更具确定性,更适合工业过程的在线建模.1.5模糊理论法模糊理论法根据模糊逻辑和模糊语言规则求解新的模糊结果[14].由专家构造模糊逻辑语言信息,并转化为控制策略,从而解决模型未知或模型不确定性的复杂工业问题,尤其适合被测对象不确定,难以用数学方式定量描述的软测量建模[15G16].模糊理论法不需要被测对象的精确数学模型,但模糊系统本身不具有学习功能,如果能够将其与人工神经网络等人工智能方法相结合,则可提高软测量的性能.
2软测量技术研究现状
目前,软测量的机理、偏最小二乘、人工神经网络、支持向量机、模糊建模等方法均属于全局建模方法,而这些方法均存在待定参数过多、在线和离线参数难以同时用于建模、模型结构较难确定等问题.因此,20世纪60年代末,Bates等[17]提出了将几个模型相加的方法,该方法可以有效提高模型的鲁棒性和预测精度.该方法将系统首先拆分为多个子系统,然后分别对每个子系统建模并相加.全局模型被视为各子模型的组合,从而不仅可提高模型对热工过程参数的描述性能,而且较单一模型具有更高的精度.通常,在多模型建模时,首先通过机理分析建立带参数的机理模型,并利用输入输出数据对模型待测参数进行辨识.而对机理尚不清楚的部分,则采用数据建模,即根据输入输出数据构建补偿器进行误差补偿.基于此,本文以主要热工过程参数为对象,综述软测量技术的研究现状.
2.1钢球磨煤机负荷、风量和出口温度
钢球磨煤机(球磨机)制粉系统的用电量在电站厂用电中占比可高达15%.目前对球磨机煤量的测量方法有差压法、电流法、噪音法、物位法、振动法等[18],但这些方法都难以精确地测量球磨机煤量,从而导致制粉系统自动控制品质欠佳,使电耗量增加.建立球磨机负荷与相关辅助变量的关系,可实现球磨机负荷、煤量的软测量.辅助变量可选为给煤量、热风量、再循环风量、球磨机出口温度及出入口压差、球磨机电流等[19].王东风和宋之平[20]采用前向复合型人工神经网络建立了基于分工况学习的变结构式负荷模型,以测量球磨机负荷,其正常运行工况下采用延时神经网络法负荷模型,球磨机出口煤量较小(趋于堵煤)时采用回归神经网络法负荷模型,并通过仿真试验和实测数据证明了该建模方法的可行性和有效性,对运行指导也取得了较好的效果.司刚全等[21]提出了基于复合式神经网络的球磨机负荷软测量方法,选取球磨机噪音及出入口压差、出口温度、球磨机电流等作为辅助变量,获得了球磨机负荷变化规律.赵宇红等[22]基于神经网络和混沌信息技术建立了球磨机出力软测量模型,仿真结果表明该模型能够预测稳态和动态过程中的球磨机出力.汤健等[23]则提出了基于多源数据特征融合的软测量方法,其采用核主元分析提取各频段的非线性特征,建立了基于最小二乘支持向量机的模型,该算法运算精度较高.张炎欣[24]在即时学习策略建模框架下,首先通过灰色关联分析方法确定主要的辅助变量,随后采用混合优化算法进行支持向量机模型计算,发现其结果相比标准支持向量机模型和BP神经网络模型具有更好的预测性能.磨煤机一次风量的准确测量是确定合理风煤比,提高锅炉燃烧效率的重要因素.因此,杨耀权等[25G26]基于BP神经网络选取42个辅助变量建立了磨煤机一次风量的软测量模型,通过对某电厂数据的测试,验证了该方法较现场流量测量仪表输出值更准确,同时基于支持向量机回归方法建立的风量模型也较流量测量仪表的精度高,且能够适应机组变化.此外,梁秀满和孙文来[27]基于热平衡原理进行了机理建模,实现了球磨机出口温度的软测量.
2.2煤质
电站锅炉入炉煤质对机组安全、经济运行影响较大.对此,刘福国等[28G29]利用烟气成分、磨煤机运行状态、煤灰分和煤元素成分等建立了入炉煤软测量机理模型,实现了入炉煤质元素成分和发热量的在线监测.董实现和徐向东[30]利用模糊神经网络构建辨识模型,并进行了锅炉煤种低位发热量模型参数的辨识,其辨识误差在2%以内.马萌萌[31]利用BP神经网络法进行建模,研究了煤质元素分析,并利用遗传算法对BP神经网络各层连接值进行了提前寻优,结果表明经遗传算法优化后的模型较单纯BP神经网络模型误差更小.巨林仓等[32]采用遗传算法与BP网络联合的建模方式,分析了煤粉从制粉系统到完全燃烧的过程,结果表明煤质在线软测量模型能够有效预测煤种挥发分、固定碳含量和低温发热量.
2.3风煤比
电站锅炉各燃烧器出口的风煤比不能相差太大,否则可能造成锅炉中心火焰偏移、燃烧不稳定、结焦等问题.对此:金林等[33]基于气固两相流理论进行了机理建模,根据乏气送粉方式下风粉混合前后的压力差计算了风煤比,通过理论推导和仿真试验发现,风煤比计算值与混合压差呈良好的对应关系;陈小刚和金秀章[34]通过对风煤比机理模型的研究,发现一次风与煤粉混合后管道内压差呈明显的线性关系;刘颖[35]将给粉机转速、风粉混合前后动压、风粉温度等作为辅助变量,采用机理建模与支持向量机相结合的方法,进行风煤比软测量建模,仿真结果显示所建模型性能优于RBF神经网络模型.
2.4烟气含氧量
目前主要使用热磁式传感器和氧化锆传感器等测量锅炉烟气含氧量,其存在测量误差大、反应速度慢、成本高、使用寿命短等问题.对此,采用软测量方法测量烟气含氧量.锅炉烟气含氧量主要受煤质、煤粉未完全燃尽、炉膛漏风等因素影响,因此选取总燃料量、风机风量和电流、再热蒸汽温度、汽包压力、炉膛出口烟温、锅炉给水流量等参数作为辅助变量.韩璞等[36]构建了电站锅炉烟气含氧量的复合型神经网络软测量模型,并在不同机组负荷下通过实测方法验证了该模型的有效性.卢勇和徐向东[37]提出了基于统计分析和神经网络的偏最小二乘(NNPLS)法建立锅炉烟气含氧量软测量模型的方法,并进行了稳态和动态建模,结果表明所建模型具有很强的泛化能力.陈敏[38]引入主元分析理论和偏最小二乘法进行了辅助变量的优化选取,并采用BP神经网络算法实现了对烟气含氧量的预测分析.熊志化[39]进行了基于支持向量机的烟气含氧量软测量,通过8个辅助变量进行训练,并得出优于传统氧量分析仪和RBF神经网络模型的结论,尤其是在小样本情况下.张倩和杨耀权[40]采用了类似的支持向量机回归模型取得了良好的仿真结果.章云锋[41]提出了基于最小二乘支持向量机的烟气含氧量软测量模型.张炎欣等[24,42]采用基于即时学习策略的改进型支持向量机建立了烟气含氧量软测量模型,得到了与球磨机负荷相似的结论.王宏志等[43]构建最小二乘支持向量机模型时应用粒子群算法解决了多参数优化的问题,并将其应用于烟气含氧量建模中后,获得了较好的效果.赵征[44]等采用机理分析与统计分析相结合的建模方法,建立了一系列局部变量的软计算模型,较好地反映烟气含氧量的变化.
2.5飞灰含碳量
燃烧失重法是测试飞灰含碳量的传统分析方法.该方法测试时间长、所得结果无法实时反映飞灰含碳量,而反射法、微波吸收法,由于缺乏在线测量技术或成本较高,难以大规模应用于在线测量[45].煤质和锅炉运行参数是影响飞灰含碳量的主要参数,因此燃煤收到基低位发热量、挥发分、灰分、水分,以及锅炉负荷、磨煤机给煤量、省煤器出口烟气含氧量、燃烧器摆动角度、炉膛风量和风压等参数可被选为辅助变量.对灰含碳量的软测量难以采用机理建模方法.而BP神经网络因其强大的非线性拟合能力和学习简单的规则等优点被广泛用灰含碳量的软测量.周昊等[46]采用BP神经网络算法建立了电站锅炉的飞灰含碳量模型,该模型输出结果与试验实测结果基本吻合.李智等[47]采用BP神经网络进行了飞灰含碳量的建模和分析,得到了良好的预测结果.赵新木等[48]选取11个辅助变量进行了改进BP神经网络的计算和预测,并探讨了燃烧器摆动角度、锅炉燃料特性、煤粉细度、过量空气系数等单变量对飞灰含碳量的影响.王春林等[49]和刘长良等[50]分别采用基于支持向量机回归算法和最小二乘支持向量机算法进行建模,结果显示支持向量机法相比BP神经网络法等建模方法具有学习速度快、泛化能力强、对样本依赖低等优点.陈敏生和刘定平[8]利用最小二乘支持向量机建立了飞灰含碳量软测量模型,并采用KPCA法提取变量特征数据处理非线性数据,通过在四角切圆燃烧锅炉上的仿真试验验证了所建模型的有效性和优越性.
2.6燃烧优化
高效低污染是电站锅炉燃烧优化的目标.顾燕萍等[51]基于最小二乘支持向量机算法建立了锅炉燃烧模型,进行了排烟温度、飞灰含碳量、NOx排放量等参数的软测量研究,随后采用遗传算法对锅炉运行工况进行寻优,得到了燃烧优化方案,研究结果表明该算法比BP神经网络算法性能更优越.王春林[11]建立了基于支持向量机,并以锅炉主要燃烧试验数据为辅助变量的软测量模型,其将遗传算法与支持向量机模型相结合,使得对飞灰含碳量、排烟温度、NOx排放量的软测量取得了良好的优化效果.高芳等[52]以锅炉热效率和NOx排放量为输入参数,建立了最小二乘支持向量机模型,试验结果表明模型输出误差很小,良好的参数组合可为锅炉优化运行提供指导.
2.7其他热工参数
对于主蒸汽温度、汽包水位、省煤器积灰、烟气污染物排放量等参数,学者们也进行了软测量研究.熊志化等[53]对主蒸汽流量进行了软测量,以给水温度等为辅助变量的历史数据仿真结果表明,支持向量机算法较RBF神经网络算法具有明显优势.何丽娜[54]提出了基于现场数据的神经网络建模,与传统神经网络建模相比,无需数学表达式和传递函数,只需要现场数据,以主蒸汽温度系统为建模对象,采用主元分析法对建模数据进行预处理,降维后,通过分析过热器运行机理确定了辅助变量,并合理预测了主蒸汽温度.梅华[16]提出了基于模糊辨识的自适应预测控制算法,并应用于发电厂主蒸汽温度控制中,仿真结果表明该算法具有良好的负荷适应性.李涛永等[55]以给煤量设定值为输入,主蒸汽压力为输出,利用聚类分析方法将热工过程的非线性问题分解并转化为若干个工况点的线性问题,得出了辨识模型及其拟合曲线.张小桃等[56]根据机组运行机理,利用主元分析法、多变量统计监测理论等确定不同机组运行过程中影响汽包水位变化的主导因素.王少华[57]建立了基于机理分析与数据统计分析方法相结合的锅炉汽包水位软测量模型,试验结果表明该模型可较好地反映锅炉参数在典型扰动工况下的汽包水位动态特性.王建国等[58]采用机理分析建模,以省煤器进出口烟气温度、省煤器管壁温度、烟气流速等为辅助变量,对在线监测锅炉省煤器积灰的软测量进行了分析.杨志[59G62]选取经遗传算法优化后的BP神经网络模型对SO2排放量进行了预测研究,其选取了硫分、负荷、给煤量、过量空气系数、排烟温度等参数作为模型输入变量,SO2排放量作为输出变量,试验结果表明该方法能够满足在线监测SO2排放量的要求.
3结语
[关键词]数据挖掘;时间序列;数据库
[DOI]10.13939/ki.zgsc.2016.03.038
在数据库技术迅猛发展和数据库管理系统日臻完善的今天,数据库的规模与日俱增,数量不断增多,并且这些激增的数据中包含着非常重要的信息,所以传统的数据库存储和查询方法已经无法满足人们对数据中隐含知识的渴求。而时间序列数据挖掘技术则可以有效地解决上述问题,并且可以在确保数据挖掘可靠性和准确性的基础上大大降低运行成本。因此,对于时间序列数据挖掘在实践应用中的关键问题进行分析和探究具有非常重要的意义。
1 时间序列数据挖掘概述
1.1 时间序列数据挖掘的含义
通常而言,各个数据单元均可以由一个数据变量和时间变量所组成的二元组来加以表示,比如股票价格和商品的销售金额等,所以可以将这些数据按照时间的顺序加以排列,这样就构成了所谓的时间序列数据库。在这些时间序列数据中包含着许多未知的有用信息,具有很高的挖掘价值。而时间序列数据挖掘就是从这些大型的时间序列数据库中找到人们所需要的各种有用数据。
1.2 时间序列数据挖掘的内容
在对当前国内外就时间序列数据挖掘方面的研究进行分析,可以将其归纳为时间序列数据变换、时间序列数据可视化、时间序列数据库相似搜索、时间序列聚类分类分析、时间序列预测以及时间序列分割与模式发现等几个主要的组成部分。其中的时间序列数据变换实际上就是将原始状态下所对应的时间序列在某个特征空间下的映像时间序列来对最初的原始时间序列进行描述,其可以有效地减少计算所花费的成本,并且实际的数据压缩率更高;时间序列数据可视化则是将那些繁杂的时间序列在数据挖掘技术、虚拟现实技术以及图形图像技术等先进技术的应用下而变得直观化、形象化,以便于人们更好地理解;时间序列聚类和分类分析则是根据时间粒度和模式长度的不同而将待处理的序列数据进行适当的分割和聚类处理,以便于更好地进行分析;时间序列数据库相似搜索则是遵循相应的搜索算法来对于那些相似性时间序列数据库进行搜索,以避免出现漏报问题;时间序列分割与模式发现主要用于时间序列的分割算法应用中以及系统模型变化的检测中,其已经成为当前我国在时间序列数据挖掘研究中的重要课题,具有很高的研究价值。
2 时间序列数据挖掘中若干关键问题的分析
2.1 传统时间序列数据挖掘的过程和分类分析
首先,从数据挖掘的过程来讲,传统时间序列数据挖掘过程可以主要分成以下几个步骤:数据准备、数据挖掘、结果分析和知识同化。其次,从数据挖掘的分类来讲,时间序列数据挖掘的主要任务就是从庞大的数据库中找寻到用户所需的数据。根据数据挖掘作用模式的不同,可以将其分成分类模式、偏差分析和序列模式等预测性模式和关联模式、聚类模式等描述型模式,并且描述型模式一般不能直接应用于预测。而就具体的时间序列数据挖掘的分类而言,其主要包括分类模式、关联规则、聚类模式偏差分析、序列模式和回归模式等几个部分,下面就这几个部分的主要内容进行详细的阐述。
第一,序列模式。序列模式是数据挖掘中一个非常重要的研究课题,其已经广泛应用于各行各业中,比如疾病诊断、DNA序列分析、自然灾害预测、Web访问模式的预测等,并且该种模式与管理规则之间比较类似,其也是重点把握数据间的联系。但是为了发现序列模式,相关人员必须要确定事件有无发生以及事件发生的时间。比如,在购买彩色电视的人群中,有50%的人群会选择在半年内购买影碟机。
第二,关联规则。关联规则又被称为管理模式,其实际上就是形如XY的逻辑关系式,并且其中的X和Y分别代表数据库中属性取值的判断。在当前的管理规则算法中,常用的关联规则算法策略是将其分解成两个主要的子任务,即频繁项集的产生和规则的产生。
第三,分类模式。分类的概念实际上就是在已有训练集或者数据集的基础上来构造一个分类模型或者分类函数,并将其应用于实际的数据预测中来确保数据的挖掘的质量。
第四,回归模式。与分类模式类似,回归模式的函数定义也是借助相应的数学集合模型来表示,但是其预测值是连续的,这点与分类模式预测值的离散性是相互区别的。
第五,偏差分析。在时间序列数据库中不可避免地会出现一些异常的记录,找出这些异常记录在确保数据挖掘质量方面具有重要的意义。偏差包含许多潜在的知识,比如分类中不规则的特例、反常实例或者偏差预测值过大的模型等。
第六,聚类模式。所谓的聚类实际上就是将一组时间序列数据按照差异性和相似性规程来进行合适的分类,以尽可能地减小同类别数据间的差异性,增强他们之间的相似性,提高数据挖掘的质量。
2.2 传统时间序列数据挖掘的方法分析
理论上来讲,传统时间序列数据挖掘方法主要包括决策树方法、神经网络方法、粗集方法、遗传算法、模糊集方法、统计分析方法、概念树方法、可视化技术和贝叶斯网络等几种常用的数据挖掘方法。比如其中的神经网络方法具有自适应性、自组织性和鲁棒性好的优势,非常适合用于解决数据挖掘中存在的各种问题,是近些年人们关注度比较大的一种方式,并且其更加适合于当前我国市场数据库的建模与分析;概念树方法则是对时间序列数据库中记录的属性字段按照归类的方法进行抽象所得到的层次结构,这点与我国所指定的省市县地区结构分布类似;可视化技术则大大拓宽了我国传统图表所具有的功能,可以使人们更加清楚地剖析时间序列数据,同时也可以更好地归纳数据中存在的规律性;粗集方法则是一种研究不确定、不精确数学知识的工具,其具有操作简便、算法简单等优点,所以是当前常用的一种方法。
2.3 传统时间序列数据挖掘的局限性
通常而言,建模是时间序列数据挖掘的前提和基础,但是所建模型大都局限于常参数、平稳的单变量CARMA模型或ARMA模型,所以实际的数据挖掘过程中可能存在一定的误差,准确性和可靠性无法得以保证。另外,其局限性还表现为以下几个方面:建模方法所采用的非线性最小二乘法或者最大似然法的计算量非常大,并且计算的可靠性比较低;没有考虑到噪声污染所对应的时间序列,即数据的滤波问题没有得到有效地估计处理;实际所用的分析方法主要为谱分析法(或频域方法)等,所以为了确保结果的可靠性和准确性,就必须要对这些局限性问题进行切实解决。而现代时间序列数据挖掘方式则可以有效地突破上述传统时间序列数据挖掘中存在的种种局限点,不仅可以简化建模及其计算的方法,也可以用新型的新息方法和状态空间方法来取代传统时间序列,还可以有效地应用自校正和自适应预测原理来分析现代时间序列,同时也可以有效地提升时间序列挖掘的质量。因此,在实际的应用中,相关人员必须要不断发展、改造和创新时间序列的分析方式和手段。
总之,随着数据收集技术和存储技术的快速发展以及数据库管理系统的日臻完善,人们所积累的数据也越来越多,同时这些与日俱增的数据背后也涵盖了大量的重要数据信息,但是传统的时间序列数据挖掘手段却无法深入分析这些数据。因此,相关人员必须要采用现代时间序列数据挖掘手段,同时要不断完善和创造新的方法,从而更好地使用当前与日增的时间序列数据。
参考文献:
[1]刘劲松.数据挖掘中的现代时间序列分析方法[J].信息技术,2014,11(7):100-102.
关键词:R语言;数据挖掘;C4.5;Cart
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)28-0016-03
随着互联网社交网站的繁荣和各种网络应用的不断深入,社交网站已成为互联网上的重要平台应用。伴随社交网络的发展,不同地域、性格和特质的用户群展现出了差异化的需求,面对这些群体和用户需求,如何细分市场识别并提供差异化的服务,以帮助企业在激烈的竞争中保持老用户,发展新用户。本文围绕社交网络理论和客户细分理论的研究,运用数据挖掘工具中的决策树算法,对社交网络客户细分进行了深入的探讨并最终得出可指导时间的社交网络客户细分规则。
1.1 R语言
R是一种在数据统计领域广泛使用的语言,R语言是一种开源语言,该语言的前身是S语言,也可以说R语言是S语言的一种实现,R在语法上类似C语言。R是一个统计分析软件,既可以进行统计分析,又可以进行图形显示。R能进行复杂的数据存储和数据处理,利用数据、向量、矩阵的数学方法进行各种统计分析,并将统计分析结果以图形方式展示出来,因此R也是一种统计制图软件。R内嵌丰富的数学统计函数,从而使使用者能灵活的进行统计分析。它可以运行于UNIX,Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统。
R是一种功能强大的编程语言,就像传统的编程语言C和JAVA一样,R也可以利用条件、循环等编程方法实现对数据的各种处理,从而实现数据统计目的。R作为一种开源的软件,被越来越多的用来代替SAS等软件进行数据统计分析。
R作为一个统计系统来使用,其中集成了用于经典和现代统计分析的各种算法和函数,这些算法和函数是以包的形式提供的。R内含了8个包,如果需要其他的包,可在官网上进行下载安装。
1.2 数据挖掘
数据挖掘(Data mining),顾名思义就是从海量的数据中运用数据挖掘算法从中提取出隐含的、有用的信息。数据挖掘涉及统计学、人工智能和数据库等多种学科。近年来,随着计算机的发展,各个领域积累了海量的数据,这些数据如何变废为宝,这就需要数据挖掘的帮助。因此数据挖掘在信息产业界广泛应用,比如市场决策和分析、科学研究、智能探索、商务管理等。
数据挖掘是一个多学科的交叉领域,统计学、人工智能和数据库等多种学科为数据挖掘提供丰富的理论基础。包括统计学的概率分析、相关性、参数估计、聚类分析和假设检验等,以及机器学习、神经网络、模式识别、信息检索、知识库、并行计算、图形学、数据库等。同时数据挖掘也为这些领域提供了新的挑战和机遇。例如,数据挖掘提升了源于高性能(并行)计算的技术在处理海量数据集方面性能。随着数据挖掘的蓬勃发展,近几年分布式技术在处理海量数据方面也变得越来越重要,尤其是Hadoop的发展极大的提高了数据挖掘的并行处理效率。
数据挖掘也同时促进了数据挖掘算法的发展,数据挖掘算法是根据数据创建数据挖掘模型的方法和计算方法,算法将首先分析数据源提供的数据,根据数据的特点和需求建立特定的数学模型。
根据数据挖掘模型的特点,可以选择相应的算法。在选择算法是,可根据实际情况选择划分聚类的算法,或选择决策树的算法。选择算法的不同可能对挖掘结果有一定的影响。
数据挖掘的步骤是首先确立挖掘目标,提出一个初步计划,估计用到的工具和技术;第二步是数据理解,即收集原始数据,并对数据进行描述和初步探索,检查这些数据的质量;第三步是数据准备,包括数据选择、清洗、合并和格式化;第四步是建立数据模型,包括选择建模技术、测试方案设计、模型训练;第五步是模型评估,根据评估结果得出结论,确定是否部署该模型;第六步是模型部署;第七步是选择算法;最后是得出结论。
1.3 C4.5算法
C4.5是一种机器学习的方法,在数据挖掘分类中应用广泛,它的目标是监督学习。C4.5是在ID3的基础上衍生出来的。ID3是一种决策树算法。ID3衍生出C4.5和CART两种算法。
C4.5的算法思路是,在给定的数据集中,每一个元祖都是互斥的,每一个元组都能用一组属性值来描述,每一个元组都属于某一类别。C4.5的目标是通过学习,建立一个从属性值到类别的映射关系,并且这个映射能够指导对新的类别进行分类。
C4.5是一种决策树算法,决策树是一种树结构,其中每个非叶节点表示在一个属性上的测试,每个分枝代表一个测试输出,而每个叶节点给定一个类标记。决策树建立起来之后,对于一个未给定类标记的元组,学习一条有根节点到叶节点的路径,该叶节点的标记就是该元组的预测。决策树的优势在于适合于探测性的知识发现。
图1就是一棵典型的C4.5算法对数据集产生的决策树。
表1所示,它表示的是天气情况与去不去打高尔夫球之间的关系。
1.4 Cart算法
CART(Classification And Regression Tree),即分类回归树算法,该算法是一种决策树算法,并且生成的是一棵二叉树。Cart有两种关键思想,一种是将训练样本进行二分递归分割建树,即给定一个训练集,用二分算法将该训练集分成两个子训练集,不断递归乡下分割,这样每个非叶子节点都有两个分支,所以对于第一棵子树的叶子节点数比非叶子节点数多1,最终形成一颗二叉树;另一种是用验证数据进行剪枝。
递归划分法,用类别集Y表示因变量,用X1,X2,…,XP表示自变量,通过递归分割的方式把关于X的P维空间分割成不重叠的矩形。
CART算法是怎样进行样本划分的呢?首先,一个自变量被选择,例如Xi的一个值Si,若选择Si把P维空间分为两个部分,一部分包含的元素都满足XiSi。其次把上述分割的两部分递归分割,直到把X空间划分的每个小矩形都尽可能的是同构的。
CART过程中第二个关键的思想是用独立的验证数据集对根据训练集生长的树进行剪枝。CART剪枝的目的是生成一个具有最小错误的树,因为一方面在树生成过程中可能存在不能提高分类纯度划分节点,如果使用这些异常数据进行分类,分类的准确性就会受到很大的影响。剪去这些异常数据的过程,被称为树剪枝。通过剪枝,可以去除这些孤立点和杂音,提高树独立于训练数据正确分类的能力。另一方面分类回归树的递归建树过程存在过拟合训练数据。
CART用成本复杂性标准来剪枝。CART用的成本复杂性标准是分类树的简单误分(基于验证数据的)加上一个对树的大小的惩罚因素。成本复杂性标准对于一个数来说是Err(T)+a|L(T)|,其中a表示每个节点的惩罚,Err(T)是验证数据被树误分部分,L(T)是树T的叶节点树,其中a是一个变动的数字。从这个序列的树中选择一个在验证数据集上具有最小误分的树称为最小错误树。
2 基于R语言数据挖掘算法的客户分类
2.1 数据准备
本研究采用的社交网络数据均来自于某论坛,本文采用LoalaSam爬虫程序,LoalaSam是一个由c/c++开发,运行在Windows平台上的一个多线程的网络爬虫程序,它甚至每一个工作线程可以遍历一个域名。LoalaSam能快速的获取信息,图片,音频,视频等资源。
通过LoalaSam对某论坛进行爬去,采用LoalaSam模仿用户登录,跳过验证码,不断地向服务器发出请求,进入用户界面后,并通过网页中的超链接,以该用户为根节点抓取和此用户相关联的所有用户,并递归的不断纵深抓取,最终形成实验用的数据源。并将这些数据保存到Oracle数据库中。
通过Oracle数据库存取采集到的数据,数据库一共使用两张表,一张关系表friend,一个实体表user,每次抓取到的客户信息全部存入user表中,并同时为所有好友关系在user表中进行关联。
本文采用基于R语言的数据挖掘技术实现社交网络的客户细分。本文在聚类算法实现的时候创新性的提出一种新的聚类策略即首先通过分层聚类算法计算样本抽样并得出可聚类的簇数。然后将簇数传递给划分聚类算法,在所有实验样本上进行更为精确和高效的重定位。基于此聚类结果,我们将同时采用Cart算法和C4.5算法来进行决策树规则探索。
2.2 数据预处理
本文研究数据的预处理,从数据的抓取结果来看很多属性类型为字符型,无论是采用数据库系统还是转换为其他形式的文件形式来存储,挖掘算法处理起来其速度、资源消耗都不是乐观的。因此对部分属性就行了数字离散化处理。
2.3 PAM分类算法实证
本文在进行聚类研究的时候,采取了折中的办法。首先利用分层方法对样本进行聚类,得出可划分的簇数目;进而将分层所得的簇数目以参数形式回传划分算法,进行迭代和重新定位。即采用DIANA算法划分抽样样本,得出可划分的簇数目K,进而将K交予PAM,以对样本进行重新划分定位。两种方法协同作用,共同确立最后的划分。
PAM算法将整个样本划分为4部分,在excel里利用透视表对相应type进行汇总,分别计算各个类别的平均来访输(Account),平均分享相册数(Album),平均贡献日志数(Diary),平均拥有的好友数(Frinum);Count列代表每种类别的客户数。
PAM算法产生的四种类别:
观察可知,绝大部分客户集中在群组1,这个群组来访人数和好友数较多,相册数和日志数也处于中上游水平,在拥有相当社会资本的同时具备一定的成长潜力,是论坛的中间力量,为Diamond用户。群组2位居第二,这群组各项指标均位于末端,也是所谓的消极客户,称之为Copper。群组4除日志数和好友数率高于Copper组外,其余观察均垫底,表明这部分客户的成长潜力和积极性都未表现出来,有可能是新加入客户,称之为Silver。群组3客户人数位居最末,其余各项指标均位居第一,表明这个群组在社交网中最受欢迎,称之为Gold。
由于只将客户的社会属性提取作为类别命名的依据,四个类别背后隐含其他信息均未在上述讨论中,但是实际影响类别的分属,如果研究具体挖掘各个因素对于客户细分类别的影响,还应该通过决策树和相应的决策规则方法。
2.4 CART策树算法实证
CART算法采用二分递归分割的技术,利用GINI系数为属性找到最佳划分,能够考虑每个节点都成为叶子的可能,对每个节点都分配类别。CART可以生成结构简洁的二叉树,但精度和效率较C$.5差。
首先进行CART算法分析,需要下载tree程序包。R语言的实现过程如下:
>library(tree) #加载程序包
>newint=read.csv(“interval.csv”) #interval为合并过类别的新表
>nt=tree(type~,new int) #调用算法对原始数据进行建树
>summary(nt) #输出Cart决策树的概要
Classification tree:
Tree(formula = type ~,data = int)
我们发现Cart算法能清晰地描述出规则,并输出一颗简洁明了的二叉树。上述决策树规则中,行末标注“*”号的为最终输出的决策树规则。可以发现,此模型中叶节点为每一分支中y值概率最高的类别决定,最终生成了深度为5,叶节点数为15的一颗二叉树。
第一分支是以来访人数Account作为测试属性的,分成Account=2.5两枝:在Account=2.5这一枝则判断好友数Frinum的数量。依此类推,最终得到15个叶节点和规则,节点的样本量分布依次为1056,117,883,1107,396,845,353, 650,462,591,919,1046,451,264,370。从分类结果看,最终的错分率(Misclassification error rate)为24%,,划分效果上表现中规中矩。
用CART算法建立的模型结果简单易懂,很容易被人理解,它以一种简洁的方式解释了为什么数据进行这样或那样的分类,所以当分析商业问题时,这种方法会给决策者提供简洁的if-then规则,远比一些复杂的方程更让决策者接受。
2.5 C4.5决策树算法实证
接着我们尝试用C4.5算法得到一颗完备的决策树。在R语言中实现C4.5算法需要用到RWeKa数据包。WeKa全名为怀卡托智能分析环境(Waikato Environment for knowledge Analisys),是一个基于Java,用于数据挖掘用于数据挖掘和知识发现的开源项目。其开发者是来自新西兰怀卡托大学的两名学者lanH.Witten和Eibe Frank。经过十多年年的发展历程,WeKa是现今最完备的数据挖掘工具之一,而且被公认为是数据挖掘开源项目中最著名的一个。RWeKa为Weka的R语言扩展包,成功加载RWe卡包后就可以在R语言环境中实现Weka的数据挖掘功能。RWeka的数据挖掘功能。RWeka的安装同样需要一定的数据包支持,都成功导入后,程序才能正常调用。WeKa里的J48决策树模型是对Quinlan的C4.5决策树算法的实现,并加入了合理的剪枝过程,有非常好的精度。
以下为算法的R语言实现过程:
>library(RWeka) #加载RWeka程序包
>library(party) #加载party程序包
>inj
>summary(inj) #输出C4.5决策树的概要
对结果观察发现,C4.5的决策树效果相当好,正确分类的样本数为10231个,准确率达到98%。聚类结果中Diamond中只有26个被错误预测为Gold,1个被错误预测为Silver,还有1个被错误预测为Copper。但是由于决策树过于完备,节点和叶子都较多。实际操作的时候可视具体情况需要结合Cart和C4.5的特点进行取舍。
3 结论
随着社交网络的蓬勃发展,本文围绕社交网络理论和客户细分理论研究,运用数据挖掘工具中的PAM聚类算法和Cart和C4.5决策树算法,对社交网络的客户细分进行了深入的探讨并最终得出可指导实践的社交网络客户细分规则。
本文分析决策树的过程将同时采用两种决策树算法,利用CART算法提供可视化的二叉树,利用C4.5提供完备的决策树规则。
C4.5和Cart是决策树中比较常见的算法,C4.5具有思想简单,构造的树深度小、分类速度快、学习能力强、构造结果可靠等优点,但当节点数较多时,其在决策树规则的可视化和可理解程度方面较差。
Cart算法采用二分递归分割的技术,利用Gini系数为属性找到最佳划分,能够考虑每个节点都成为叶子的可能,对每个节点都分配类别。Cart可以生成结构简洁的二叉树,但精度和效率较差。前者生成可理解的简单的树图,但在划分精度还有所欠缺;后者在划分上产生的叶节点和规则较多,但错分率低至2%。在实际的操作过程中,需视实际需要进行取舍。
参考文献:
[1] 薛薇,陈立萍.统计建模与R软件[M].北京:清华大学出版社,2007.
[2] Heather Green, Making Social Networks Profitable.BussinessWeek, Sep 2008
关键词:PEMFC系统;结构;建模
中图分类号:TP183
PEMFC系统是一种具有多输入、多相流循环的复杂化学、电化学反应系统,具有强非线性。从上个世纪80年代起,国外研究人员对PEMFC的数学模型进行了广泛而深入的研究,建立了各种静态或动态解析模型,对分析和提高PEMFC的性能起到了重要的作用。然而解析建模不得不作大量的简化和假设,其结果模型精度极为有限,表达式过于复杂,很难用于控制系统的设计,特别是满足在线控制的设计需要。模糊辨识是一种简单灵活有效的建模方法。它首先把被控对象系统连续的输入输出变量空间采用模糊聚类方法划分成若干相互交叠的子空间,然后将这些子空间用模糊规则联系起来,形成一个完整的系统模型,被控系统的先验知识很容易添加到这个模型中,从而避开被控对象的内部复杂性。本文提出了一种基于模糊神经网络的PEMFC系统辨识方法对PEMFC电堆的氢气输入压力、空气输入压力和输出电压的关系进行建模。
1 燃料电池电堆的描述和分析
图1 燃料电池工作示意图
燃料电池的工作过程实际是电解水的逆过程。一个典型的质子交换膜燃料电池是由阴极、阳极、催化剂层、电解质隔板构成的,电池的工作原理如图1所示。氢气通过导气板到达阳极,在阳极催化剂作用下,氢分子分解为带正电的氢离子(即质子),并释放出带负电的电子。氢离子穿过电解质(质子交换膜)到达阴极,电子则通过外电路到达阴极。电子在外电路形成电流,通过连接向负载输出电能。在电池的另一端,氧气或空气涌过导气板到达阴极,在阴极催化剂作用下,氧与氢离子及电子发生反应生成水。
在控制过程中,氢气和空气的输入压力过大,会使得氢气和空气的流速过快,会使反应不完全并过多地带走热量,降低电池的工作温度,从而使电池的电性能变差;而压力过小会使得流速过慢则将无法满足负载要求,膜温度升高,甚至导致干膜,影响电池寿命。
2 辨识的结构与算法
利用T-S模糊模型描述复杂、病态、非线性系统动态特性,是一种十分有效的方法。T-S模糊模型以系统局部线性化为基础,通过模糊推理实现全局的非线性,可以克服模型的高维问题,结构简单、逼近能力强,是模糊辨识中常用模型。设计出如图2所示的模糊神经网络结构。由图2可见,该网络由前件网络和后件网络两部分组成,前件网络用来匹配模糊规则的前件,后件网络用来产生模糊规则的后件。
(1)前件网络。前件网络由4层组成。第一层为输入层。它的每个节点直接与输入向量的各分量xi连接,它起着将输入值x=[x1 x2…xn]T传送到下一层的作用。该层的节点数N1=n。
第二层每个节点代表一个语言变量值,如NM、PS等。它的作用是计算各输入分量属于各语言变量值模糊集合的隶属度后函数μij,即 式中,i=1,2,…n,j=1,2,…,mi;n是输入量的维数;mi是xi的模糊分割数。例如,若隶属函数采用高斯函数表示的铃型函数,则 式中,cij和σij分别表示隶属函数的中心和宽度。该层的节点总数 。
图2 基于T-S模型的模糊神经网络结构图
第三层的每个节点代表一条模糊规则,它的作用是用来匹配模糊规则的前件,计算出每条规则的适应度,即 或
式中,i1∈{1,2,…,m1},i2∈{1,2,…,m2},…,in∈{1,2,…,mn},j=1,2,…m, 。
该层的节点总数N3=m。对于给定的输入,只有在输入点附近的语言变量值才有较大的隶属度值,远离输入点的语言变量值的隶属度或者很小(高斯型隶属度函数),或者为0(三角型隶属度函数)。当隶属度函数很小(如小于0.05)时,近似取为0。因此,在αj中只有少数节点输出非0,而多数节点的输出为0,这一点类似于局部逼近网络。
第四层的节点数与第三层相同,N4=N3=m,它所实现的是归一化计算,即 ,其中i=1,2,…m。
(2)后件网络。后件网络由r个结构相同的并列子网络所组成,每一个子网络产生一个输出量。子网络的第一层是输入层,它将输入变量传送到第二层。输入层中第0个节点的输入值x0=1,它的作用是提供模糊规则后件中的常数项。
3 将T-S模糊神经网络应用于PEMFC(质子交换膜燃料电池)的拟合
模糊建模方法简单方便,只要获得输入输出变量的实验数据或专家经验即可,无需确定机理模型中有关PEMFC材料、结构等特性的系数,通常这些系数的确定比较复杂。PEMFC是多输入多输出系统,模糊建模方法能够更方便建立多变量模型,可方便地应用于PEMFC的自动控制系统中。
4 结束语
本文提出了基于T-S模糊神经网络对PEMFC电堆进行建模。采用模糊网络的方法进行模糊辨识,同时,引入了经验模糊规则,通过样本训练,从而建立了T-S模糊模型,可以快速准确地跟踪系统动态。避开了系统内部的复杂性,得到了合理结果,证明了方法的有效性当然,PEMFC的T-S模型也存在不足,它不同于机理模型,缺乏明确的物理意义,无法反映PEMFC的内部工作特征,还需进一步完善,以建立影响因素比较全面的性能模型。
参考文献:
[1]J.Larminie and A.Dicks.Fuel Cell Systems Explained[M].New York:Wiley,2000.
[2]K.Kordesch and G.Simader.Fuel Cells and Their Applications[M].New York:VCH,1996.
[关键词]联通业务 客户关系 数据挖掘
中图分类号:TN 文献标识码:A 文章编号:1009-914X(2015)23-0208-01
一 概述
客户决定企业命运。企业关注重点从产品逐步转换到客户,逐渐形成客户为中心的客户关系管理理念。客户关系管理是信息技术和商业发展过程中得出的理论体系,客户管理需要客户的支持。客户关系管理是企业利用信息技术和企业生产销售相结的产物。客户关系管理核心价值就是实现客户价值。客户关系管理利用计算机技术,实现市场信息化、销售自动化过程、对客户分析的全过程。客户关系管理可以使企业及时了解客户实际情况,增强客户对企业归属感和信任感。它是一种全新的管理客户模式。数据挖掘在客户关系管理研究与实践,大大促进客户价值实现。数据挖掘对客户挖掘结果会给企业带来指导意见,决定企业未来发展方向。
联通的客户关系管理系统是基于客户战略的,它为企业传递的是一种新的客户服务理念,是联通客户需求的风向标,它直接影响联通如何认识客户以及如何对待客户, 也直接影响联通公司的客户服务形象。通过数据挖掘系统与客户管理系统的结合,可以有效的实现对客户消费模式和客户市场推广的分析,实现对客户的动态防欺诈、流失分析及竞争对手分析。正确有效的运用数据挖掘意义重大。
二 数据挖掘的步骤
1.理解数据和数据的来源,进行数据收集
大量全面丰富的数据是数据挖掘的前提,没有数据,数据挖掘也就无从做起。数据挖掘牵涉了大量的准备工作与规划工作,事实上许多专家都认为整套数据挖掘的过程中,有80%的时间和精力是花费在数据预处理阶段,其中包括数据的净化、数据格式转换、变量整合,以及数据表的链接。可见,在进行数据挖掘技术的分析之前,还有许多准备工作要完成。数据收集是数据挖掘的首要步骤。
2.整合与检查数据
收集到的数据必须是有用的,避免可能存在自身的不一致性,或者有缺失数据的存在等,因此数据的整理是必须的。同时,通过数据整理,可以对数据做简单的泛化处理,从而在原始数据的基础上得到更为丰富的数据信息,进而便于下一步数据挖掘的顺利进行。
3.利建立模型和假设
主要采用时序算法、聚类算法、关联算法等,根据采集数据建立模型。
4.模型评估
模型建立完毕后,需要验证模型的正确性,并进行调整。应该利用未参与建模的数据对模型进行检验。这样做的原因是按照使用建模的数据进行检验,由于模型就是按照这些数据建立的,检验结果自然会很好。但是一旦运用到实际数据中,就会产生很大的偏差。检验的方法是对已知客户状态的数据利用模型进行预测,并将所得到的模型预测值,和实际的客户状态相比较,预测正确值最多的模型就是最优模型。不断重复进行数据挖掘一评估过程,多次的循环反复,以达到预期的效果。
5.决策分析
数据挖掘的最终目的是辅助决策。决策者可以根据数据挖掘的结果,结合实际情况,调整竞争策略等。
三.数据挖掘在联通客户管理业务中的作用
1 数据总结
数据总结目的是对大量的数据进行浓缩,将数据库中的有关数据从较低的个体层次抽象总结到较高的总体层次上,从而实现对原始基本数据的总体把握。是数据挖掘的基本作用。用统计学中的方法计算出数据库的各个数据项的总和、平均、方差、最大值、最小值等基本描述统计量,或者通过利用统计图形工具,对数据制作直方图、饼状图等,是最简单的数据总结方法。另一种广泛使用的数据总结方法是联机分析处理,是对用户当前及历史数据进行分析、辅助领导决策,主要通过多维数据的查询、旋转、钻取和切片等关键技术对数据进行分析和报表。
2 关联分析
数据库中的数据一般都存在着关联关系,也就是说,两个或多个变量的取值之间存在某种规律性。
3 分类
分析数据的各种属性,一个分类函数或分类模型(也常常称作分类器),该模型能够根据数据的属性将数据分派到不同的组中,并预测新数据将属于哪一个组。
4 聚类
聚类分析是按照某种相近程度度量方法,将用户数据分成一系列有意义的子集合。每一个集合中的数据性质相近,不同集合之间的数据性质相差较大。
四.数据挖掘技术在联通客户管理管理方面的应用
1.客户市场推广分析
通过优惠策略预测仿真的方法,利用数据挖掘技术实现优惠策略的仿真。根据数据挖掘模型,进行模拟计费和模拟出账,其仿真结果可以揭示优惠策略中存在的问题,并进行相应的调整优化,以达到优惠促销活动的收益最大化。
2.客户消费模式分析
客户分类是客户数据分析基础,数据挖据对客户分类使用聚类和分类。通过分类可以发现不同客户群体的习惯和规律,找到客户价值点,准确预测客户消费方向。客户分类让市场营销活动更有目的性,提高市场营销效率,企业合理配置企业资源。客户分类结果实现客户利益最大化。如固话及移动话费行为分析,是对客户历年来长话、市话、信息台的大量详单数据以及客户档案资料等相关数据进行关联分析,增值业务话费分析,结合客户的分类,可以从消费能力、消费习惯、消费周期等诸方面对客户的话费行为进行分析和预测,从而为联通全业务运营商的相关经营决策提供依据。
3.客户流失分析
这是根据已有的客户流失数据,建立客户属性、服务属性、客户消费情况等数据与客户流失概率相关联的数学模型,找出这些数据之间的关系,给出明确的数学公式,并根据此模型来监控客户流失的可能性。如果客户流失的可能性过高,可通过促销等手段来提高客户忠诚
度,防止客户流失的发生,这就彻底改变了以往电信运营商在成功获得客户以后无法监控客户流失、无法有效实现客户关怀等状况。
4.对客户欠费进行分析和动态防欺诈
通过数据挖掘,总结现存的各种骗费及其欠费行为的内在规律,并建立一套防欺诈和防欠费行为的规则库,当客户的话费行为与该库中规则吻合时,系统可以提示运营商相关部门采取措施,从而降低运营商的损失风险。
5.竞争对手分析
准确定位通信群体的属,预测对手市场政策和活动规律,提前做好市场竞争准备。 通过对竞争对手的客户消费行为研究与分析,搭建竞争对手模型。通过模型研究市场,利用对竞争对手的客户群体数量和增长情况,推出竞争对手的客户群体。
[关键词] 数据挖掘 数据挖掘方法
随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(Data Mining)技术由此应运而生。
一、数据挖掘的定义
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。
二、数据挖掘的方法
1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。
2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。
3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。
4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。
5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。
6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。
7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。
8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。
事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。
三、结束语
目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。
数据挖掘技术是当前数据库和人工智能领域研究的热点课题, 本文首先对数据挖掘技术的国内外总体研究情况进行概略介绍,包括数据挖掘技术产生背景、应用领域、分类;然后详细阐述了数据挖掘的各种技术方法,并对数据挖掘的应用领域做了相关介绍。
【关键词】数据挖掘 决策支持 关联规则 模式
1 前言
数据挖掘含义是指从大量、模糊、随机的实际应用数据中,提取隐藏在其内部中、人
们原先不知晓的、却潜在有用的信息和知识的过程。我们把提取出的信息和知识表示为规律、概念、模式、规则等形式。数据挖掘被认为是一门跨多知识领域和学科的新兴课题,它为我们使用数据从简单查询将变为在数据里挖掘与发现知识从而产生对决策行为提供支持。为了能够满足人们从大量数据里发现知识的需求,来自不同领域的专家学者,都致力于研究这个热点课题――数据挖掘,不断研究和产生出新的研究成果。自从加拿大蒙特利尔在1995年召开了首届KDD&Data Mining国际学术会议,此后每年举办一次。通过数年努力, 数据挖掘技术研究取得了丰硕的成果,不少数据挖掘的软件产品,已在欧洲、北美等国家得到广泛的应用。目前,应用广泛的数据挖掘系统有:IBM公司的Intelligent Miner、SGI公司的SetMiner、SPSS公司的Clementine、SAS公司的Enterprise Miner、Sybase公司的Warehouse Studio、RuleQuest Research公司的See5、还有CoverStory、EXPLORA、Knowledge Discovery Workbench、DBMiner、Quest等。在我国,数据挖掘技术的研究也取得了相当客观的成果。
2 数据挖掘的技术方法
通常情况下,我们把数据挖掘方法分为两大方面,一是统计类型,有概率分析、相
关性、聚类分析和判别分析等常用技术;二是人工智能领域中的机器学习型,通过训练和学量的样品集获得需要的模式或参数。
2.1 遗传算法
遗传算法是基于生物进化过程组合优化方法,它是和计算机科学与生物学结合的产物,由美国密西根大学教授D.J.Holland和他的同事们在1975年首次提出。人们总结的遗传算法基本思想分为两点:第一,将物种进化理论用于求解问题,物种进化又分为变异和遗传两个方面;第二,只有最能适应环境的物种才能生存下来,所以需要反复求解后才可以获得最佳解。遗传算法按照规则产生经过基因编码最初群体,然后从代表问题可能潜在答案的初始群体出发,选择适应度强的个体进行交换和变异,目的是发现适应度更佳的个体,这样一代代地演化,得到最优个体,解码,该最佳个体编码就是对应的问题最佳解或近似最佳解。在遗传算法的使用上,它的优点是对问题要求信息较少,比较高效性和灵活性。在数据挖掘中,经常用于估测其它算法的适合度,同时遗传算法擅长于数据聚类,通过和空间上类比和时间上类比,能够使大量复杂数据系统化、条理化,从而找出他们之间的内在联系,获得有用概念和模式。
2.2 关联分析
在大型数据库中,关联规则挖掘是最常见的数据挖掘任务之一。关联规则挖掘就是从大量数据中发现项集之间的相关联系。最著名的关联规则挖掘算法是由Agrawal等于1994年提出的 Apriori算法,其基本思想是:第一找出所有频繁1-项集集合Ll,使用L1查找频繁2-项集集合L2,继而用L2用于L3,反复迭代,一直到不能找到频繁k-项集。并利用事先设定好的最小支持度阈值进行筛选,将小于最小支持度的候选项集删除,再进行下一次的合并生成该层的频繁项集。经过筛选可减少候选项集数,从而加快关联规则挖掘的速度。
2.3 决策树
决策树算法之所以在数据分析挖掘应用中如此流行,主要原因在于决策树的构造不需要任何领域的知识,很适合探索式的知识发掘,并且可以处理高维度的数据。在众多的数据挖掘、统计分析算法中,决策树最大的优点在于它所产生的一系列从树根到树枝(或树叶)的规则,可以很容易地被分析师和业务人员理解,而且这些典型的规则甚至不用整理(或稍加整理),就是现成的可以应用的业务优化策略和业务优化路径。另外,决策树技术对数据的分布甚至缺失非常宽容,不容易受到极值的影响。
国际上最有影响的决策树方法是由Quinlan 研制的ID3方法。ID3(Iterative Dichotomiser)算法其最大的特点在于自变量的挑选标准是:基于信息增益的度量选择具有最高信息增益的属性作为结点的分裂(分割)属性,其结果就是对分割后的结点进行分类所需的信息量最小,这也是一种划分纯度的思想。
决策树技术在数据化运营中的主要用途体现在:作为分类、预测问题的典型支持技术,它在用户划分、行为预测、规则梳理等方面具有广泛的应用前景,决策树甚至可以作为其他建模技术前期进行变量筛选的一种方法,即通过决策树的分割来筛选有效地输入自变量。
2.4 粗糙集方法
粗糙集理论定位为一种刻划不确定性和不完整性的数学工具,可以有效地分析和处理不一致、不精确、不完整等信息,以从中发现隐藏的不为所知的知识,揭示潜在的规律。该理论是由波兰学者Z.Pawlak教授在1982年提出的,从1992年至今,每年召开以RS为主题的国际会议,推动了RS理论的拓展和应用。
粗糙集是处理模糊数据的有力工具,而要达到这样的目的需要有两个重要的步骤来进行处理―属性约简和值约简,属性约简是对粗糙集合(那些不能区分的集合)进行纵向的简化,把不必要的属性去掉,即去掉这些属性也不会影响对象的区分能力,这样便于以后进一步的简约处理
由于粗糙集理论创建的目的和研究的出发点就是直接对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律,因此是一种天然的数据挖掘或者知识发现手段,与基于证据理论的数据挖掘方法、基于模糊理论的数据挖掘方法、基于概率论的数据挖掘方法等其他处理不确定性问题理论的方法相比较,最显著的区别是它不需要提供问题所需处理的数据集合之外的任何先验知识,而且与处理其他不确定性问题的理论有很强的互补性。
2.5 神经网络
人工神经网络(Artificial Neural Networks)是指能够模仿人脑神经元联接结构特征并且进行分布式并行信息处理的数学模型。根据人脑的神经元的原理所产生的人工神经网络能够通过不断修正其内部的节点间相互连接的关系达到处理信息的目的。BP(Back Propagation)网络,也称为误差反向传播算法,是目前使用较多也比较成熟的神经网络算法, 1985 年Rumelhart 等人提出,它的实质是通过误差反向传播算法训练数据的多层前馈神经网络,是目前应用最为广泛的神经网络模型。BP 神经网络能够学习和存储大量输入-输出模式映射关系,而且还并不需要预先揭示表现此种映射关系数学模型。它采用的学习规则是最速下降法,主要利用反向传播不断修订网络的权值和阈值,达到建立的神经网络误差的平方和最小。在数据挖掘中,神经网络主要用于获取分类模式。BP 神经网络能够用来聚类、分类和预测等,通常只需要一定历史数据,即把训练样本作设为输入,便能够对训练样本训练,通过学习与存储该数据样本中隐含的知识信息后,能够为后面的数据分析提供必要有用的知识。但是神经网络分类方法获得的模式常常隐藏在网络结构中,不能够显示地表达成为一定的规则,所以不容易被人们理解和解释;而且还需要多次扫描训练数据,网络需要的训练时间较长。所以与其他数据挖掘方法相比较,神经网络用于数据挖掘,要解决好两个关键点:降低不必要的训练时间,增强挖掘结果的可理解性。
2.6 模糊技术
模糊数据挖掘技术是通过利用原有数据挖掘技术同时,与模糊理论相结合,以期从大量数据中发现更为广泛的内容,其挖掘结果将会使用户更容易理解。由于现实生活中,数据之间的关系往往表现为模糊性,因此将模糊理论与数据挖掘技术结合从海量的、不完全的、随机的、含噪声的模糊数据中提取潜在的、未知即通过模糊集合理论对问题模糊评判、模糊决策、模糊模式识别和模糊聚类分析。因为模糊性是客观存在,而且系的复杂性越高,模糊性就越强,通常模糊集合理论是用隶属度来描述模糊事物,所以它为数据挖掘提供了概念和知识的表达、定性定量的转换、概念综合和分解方法。
2.7 可视化技术
可视化技术是指采用计算机图形学和图像处理技术,把数据转换成图形或图像并且在屏幕上显示出来,从而进行交互处理技术。它将信息的模式、数据关联和趋势展示给决策者,决策者能够通过可视化的技术来交互分析数据之间的关系。可视化技术实现过程由四个步骤组成:数据预处理、映射、绘制和显示。数据预处理阶段,针对各不相同的可视化方法和内容,要求对最初数据进行变换处理,设置数据格式和标准,并且要数据压缩和解压缩;在映射阶段,针对不同类型的应用数据,使用不同的映射技术把数值数据转换成几何数据;在绘制阶段将几何数据绘制成目标图像;在显示阶段,将图像数据按用户要求进行输出。在整个过程中,映射功能完成数据的建模功能,是核心。模型可视化的具体方法则与数据挖掘采用算法相关联,如,决策树算法用树形表示;过程可视化可以用数据流图来描述知识发现过程。
3 数据挖掘应用
数据挖掘技术是面向应用的。数据挖掘的研究有利地促进了数据挖掘技术应用的发展与推广。随着研究的深入,数据挖掘技术的应用越来越广泛。主要集中在以下几方面:
3.1 金融业
数据挖掘技术用于银行行业的存/贷款趋势预测,优化存/贷款策略和投资组合。
3.2 生物信息
在基因工程中的染色体、基因序列的识别分析、基因表达路径分析、基因表达相似性分析、以及制药、生物信息和科学研究等。
3.3 零售业
数据挖掘技术被用来进行分析购物篮来协助货架设置,安排促销商品组合和促销时间商业活动。
3.4 客户关系管理
数据挖掘技术被用于分析客户的行为,分类客户,以此进一步针对客户流失、客户利润、客户响应等方面进行分析,最终改善客户关系管理。
3.5 电子商务
数据挖掘技术被用于在线交互式营销系统的经营模式、市场策略、Web广告效果分析以及在线购物的消费者行为分析,从而优化网站结构,改善网页推荐和商品推荐内容等。
4 结语
综上, 数据挖掘涵盖多种理论和技术,有着广泛应用前景。深入分析研究数据挖掘,应用数据挖掘技术将是我们未来努力的方向。
参考文献
[1]Fayyad U M,Piatet sky- shapiro G,Smyth P.Advances in knowledge discovery and data mining.California:AAAI/ MITPress, 1996.
[2]Chen Lei-da et al.Date mining methods,applications,tools[J].Information Systems Management, 2000;17(1):65-70.
[3]H Mannila,H Toivonen et al.Efficient algorithms for discovering as sociation rules[C].In :Knowledge Discovery in Databases(KDD’94),AAAI Press,1994:181-192.
[4]陆汝钤.人工智能.北京:科学出版社, 1996:823-844.
[5]曾黄麟.粗集理论及其应用[M].重庆:重庆大学出版社,1996.
[6]Michie D,Spiegelhalter D J.Machine Learning,Neural an Stastical Classification.London:Ellis Horwood Press,1994.
[7]何新贵.数据采掘中的模糊技术[J].计算机科学,1998,25(专刊):129-131.
[8]万家华,刘冰,江早.知识发现中的可视化技术[J].计算机科学,2000,27(增刊):131-134.
作者简介
王雅轩(1969-),女,研究生学历。现为大连外国语大学教授。主要研究方向为软件理论与应用。
顼聪(1977-)男,研究生学历。现为大连外国语大学讲师。主要研究方向为智能软件。