前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的数据挖掘技术论文主题范文,仅供参考,欢迎阅读并收藏。
1.较高的有效性新兴起来的数据挖掘技术的应用时间并不是很长,但是其在经济统计领域的应用受到了良好的效果,其稳定的工作性能,不仅能够对经济统计数据进行分析整理,更能深层次地开发出更多的有用信息,在实际的应用中展现出较高的有效性。
2.综合应用性强数据挖掘技术已经被广泛地应用在统计工作中的多个领域,并且发挥着重要的作用。数据挖掘技术不仅是一种综合应用性强的技术手段,同时又能满足统计数据使用者的特定数据需要。因此,数据挖掘技术能够对经济统计数据进行定向的整理和开发,为数据使用者提供更好的服务。
3.宏观型的数据库有利于数据挖掘技术的应用当前,我国的经济统计大多还是采用传统的经济统计方法,统计收集的数据信息不能形成有机整体,在对数据进行管理过程中,出现了很多问题。因此。经济统计工作需要能够提供数据整理开发的新技术。宏观经济统计数据库,为数据挖掘技术的开展提供了平台。数据管理系统的经济统计信息要正确无误,然后经过数据挖掘技术的整合,就能得到更丰富的数据资源。
二、数据挖掘技术的运用
数据挖掘技术的特性决定了其对经济统计数据整理的重要性,经济统计所得到的数据信息要求必须有实用性和真实性,数据挖掘技术的特性正好满足了经济统计工作的需要。数据挖掘的过程主要包括以下四种方法:
1.预处理方法首先,要对统计数据进行预处理。由于经济统计信息在收集过程中存在一些问题,导致收集到的数据存在缺失和模糊现象,这种有缺憾的数据信息不能作为数据挖掘的基础,因此一定要对数据挖掘对象进行事先的处理。其中包括对基础数据中不正确、不真实、不准确和偏差较大的数据进行甄别。
2.集成化处理方法其次,要对统计数据进行集成化处理。经济统计过程中,会出现对多个数据源进行重叠统计的现象,这就要求对数据进行挖掘之前,要有一个统一整理的过程,即数据的集成化处理。数据集成在统计中被广泛的使用。经过数据集成处理的统计信息更加全面,更加真实,可以作为数据挖掘基础信息。
3.转换方法再有,要对统计数据根据需要进行转换。经济统计数据的描述形式比较单一,为了满足数据信息使用者的需要,就要对数据进行转换,使其的表现形式具有泛化或是更加规范。这里所说的泛化指的是利用更深层次和更加抽象的定义来代替原有的低层数据。
4.决策树方法除却上述四种处理方法外,还有决策树方法,指的是对庞杂的经济数据进行分类,把有利用价值的统计数据提炼出来,这种数据挖掘形式能够对分析对象进行体现,并能快速的对信息进行分类处理,能够解决在经济统计过程中出现的各种问题。
三、结语
1.1较高的有效性数据挖掘技术作为一种数据的深加工技术,其本身是带有鲜明的目的性的,在实际应用活动中能够对长时间积累下来的经济统计数据进行基于数据使用者要求的深入加工。在实践应用活动中主要有两种重要的应用形式,一种是对积累经济统计数据的管理高效化处理,一种是对现有经济数据的目的性分析。其中第一种分析方式是从经济数据管理的角度出发的,在应用中主要是以固有数据信息的统计、分类为基础,将原本混乱的数据库信息进行科学、系统的归类,保证统计数据管理的高效性和使用的便利性。另一种工作方式是一种经济数据的再加工过程,以鲜明的数据统计、分析目标为指引对原有数据的呈现形式、组成内容和关联形式进行重新加工,以保证经济统计数据能够最大限度地服务于管理者的需求。
1.2综合应用性强如前文所述,数据挖掘技术是一个工具系统而不是单一的工具,能够实现使用主体的各种信息需求,随着现代社会经济的快速发展,当前我国经济管理的各个部门都需要大量的经济统计信息来作为经济管理决策的基础。但是因为各个管理部门经济管理的领域不同、经济管理的方式不同、经济的管理权限不同,所以相应的经济统计数据呈现形式的需求就不同。这就为经济数据统计系统提出了更高的要求,其不仅要对符合各个经济管理部门需求的数据内容进行统计,同时要将统计完成的数据换算成各种不同的呈现形式,并根据统计信息的来源和统计信息的计算方式对其可靠性进行评估[2]。最终这些数据信息的输出格式还应该符合所服务的经济管理部门管理系统的格式要求,保证统计数据能够在管理部门的管理系统中正常录入、应用,数据挖掘技术很好地满足了上述的复杂经济数据管理要求,其功能的综合性促进了其应用深度的提高和范围的扩大。
1.3宏观数据库有利于数据挖掘技术的应用当前因为经济管理部门的职权较为分散,各个经济管理部门的经济统计数据需求不尽相同。所以我国的经济统计活动绝大多数还采用传统的经济统计方法,统计收集的经济信息存在一定的局限性,不能够服务于经济管理活动的整体,或者造成一些数据统计工作的重复,对经济数据统计工作造成了一系列的质量和效率上的影响。经济数据统计活动急需一个能够整合各个统计系统,实现统计数据信息融合的新技术。宏观经济统计数据库为数据挖掘技术的开展提供了平台,数据管理系统的经济统计信息要正确无误,然后经过数据挖掘技术的整合,就能得到更加丰富的数据资源[3]。
2数据挖掘技术的应用
在社会经济管理活动中,管理主体对经济统计数据的要求主要有两个。一个是统计数据的真实性、一个是数据统计信息的实用性。单就这两个经济统计数据要求而言,数据挖掘技术能够很好地满足经济统计工作的需求,是适用性极强的一种经济数据统计技术,其在具体的经济数据统计活动中主要有以下三种应用方法。
2.1预处理方法在经济数据统计活动中,最为基础的一种处理方式就是经济数据的预处理方法,因为数据挖掘本身是一种基于提供基础信息的智能分析技术。其本身是受基础经济信息限制的,不可能无中生有代替经济数据收集系统的功能。所以所有作为数据挖掘系统数据基础的经济统计数据信息都应该进行预处理,处理的内容主要包括对这些数据中不正确、不真实、不准确,以及不同经济统计数据信息之间差距较大的现象。对这些基础数据存在的问题进行处理的过程被称为数据清理,当前数据清理主要采用的方法有均值法、平滑法和预测法。其中均值法是现代分析技术中模糊理念的一种应用形式,当基础数据中的一个数据点是空值或者噪声数据的时候,可以采用均值法进行处理,即用数据库中所有该属性已知的属性均值来填补空缺。保证数据挖掘系统对基础数据的分析和整理能够正常进行,得出相对而言准确度较高的统计分析数据。其中Ci表示当前数据点的取值,Cj表示当前数据点前后不为空的数据点,K表示当前数据点进行计算所取的参考数据点数量[4]。平滑法依然是对基础数据中空值和噪声数据的计算方法,其与均值法的区别是用加权平均数代替了平均数,考虑了计算过程中提取的每一个数据对数据结果的影响权重,所以计算出的结果往往更加接近真实的数值。其中Ci表示当前数据点的取值,Cj表示当前数据点前后不为空的数据点,K表示为对当前数据点进行计算所取的数据点数量。WJ表示Cj数据点的权值。
2.2集成化处理方法在数据挖掘技术的应用活动中,因为相同地区的数据统计主体不同,或者在不同地区对相同经济数据的统计标准不统一,会产生一系列的数据集成问题,如何对这些调查方向不同或者是呈现方式不同的数据进行有效集成而不影响经济数据统计的准确性,是数据挖掘技术的重要任务。在具体的数据集成过程中主要考虑以下几个方面的问题[5]。
2.2.1模式集成当前因为社会经济活动中经济数据的统计内容过于广泛,很多经济数据统计并不是来自于官方的统计局而是来自一些民间统计组织,或者是由一线社会经济主体直接提供的经济数据,在数据挖掘过程中将这些来自多个数据源存在多种数据呈现模式的经济数据信息进行集成就涉及实体识别的问题。例如在数据挖掘过程中如何确定一个数据库中“std-id”与另一个数据库中的“std-no”是否表示同一实体,当前一般使用数据库与数据库之间的含元数据对比来保证实体识别高效率和高质量[6]。
2.2.2冗余问题数据挖掘本身是对经济统计数据的一种深加工技术,经过其加工的经济统计技术应该在本质上达到最简状态。在数据挖掘过程中要将与其他数据呈现某种正相关关系的数据项目进行精简,以保证数据库中数据量维持在一个较低的水平,为数据管理和应用提供便利。在经济数据挖掘活动中人均国民生产总值就是典型的冗余属性,因为其数值是可以通过国内生产总值和总人口属性计算出来的,所以类似人均国民生产总值这种冗余属性在数据挖掘过程中就应该精简,应用的时候在利用国民生产总值和人口属性计算得出[7]。对冗余属性的判断主要通过相关度对比来实现。其中n表示元组的个数,分别是属性A和属性B的平均值,分别是属性A和属性B的标准方差,在这一公式中如果则表示A、B两个属性是正相关,也就是说A越大B就越大,值越高二者的正相关关系就越密切;如果则表示属性A、B之间没有直接关系,是相互独立的;如果则表示A、B两个属性呈负相关,属性B会随着属性A的减小而增大,的绝对值越大,二者的负相关关联关系就越密切。
2.3决策树方法在数据挖掘技术应用过程中,经过系统的分析和总结以后,分析数据的输出是一个关键的环节,其输出的数据形式会对使用者的经济管理决策产生直接的影响。决策树是一种较为常见的、直观的快速分类方法。其应用的关键是决策树的构建,具体而言主要分为两步:第一步是利用训练集建立并精简一棵决策树,建立输出分析的模型;第二步是利用构建完毕的决策树进行输入数据的分类,这一分类是一个递归的过程,从决策树的根部开始进入到树干、枝丫,直到输入数据的分类满足了某种条件而停止。在具体的应用中停止分割的条件有两个:一个是当一个节点上的所有数据都属于同一个类别的时候;另一个是没有分类属性可以对输入数据进行再分割[8]。在决策树构建完成后,还要根据使用者的具体要求对决策树进行“剪枝”,剪枝的主要目的是要降低因为使用训练集而对决策树本身数据输出产生的起伏影响。
3结语
在熔炼机组优化运行的过程中,机组的运行性能指标与人员的操作水平、负荷及运行参数之间有着复杂的相互关系,这种关系在大量的生产历史数据中与机组各数据项之间关联,因此可以通过数据挖掘的方式把其中的关联关系定量的反映出来,最终反馈到实际运行中。本文结合工厂的实际情况,分析由工厂的DCS系统采集的实时运行数据,来得到用户期望的相关参数间定量的关联规则。
2交互式关联规则挖掘算法
关联规则挖掘算法在数据库的记录或对象中抽取关联性,展示了数据间位置依赖关系,其目的是寻找在大量的数据项中隐藏着的联系或相关性。其优越性在于能将用户的定制信息整合到挖掘过程中,以一种友好的方式引入约束,使挖掘出更加符合用户需要的信息,并且提高了挖掘的效率和有效性。
2.1目标数据库的确定
数据挖掘应熟悉对象的背景知识,明确挖掘的目标,根据目标确定相关数据,以此作为目标数据库,来完成对数据的预处理、挖掘和规则评价。
2.2交互式关联规则挖掘算法
表示A成立则B成立,其中给出了可信度C和支持度S。可信度C是对关联规则准确度的衡量,即在出现A的情况下出现B的概率;支持度S是对关联规则重要性的衡量,即A和B同时出现的概率。
3熔炼机组数据挖掘的实现
本文采用的是冀某工厂于2013年5月运行的数据,采样频率为2~3秒/次,采样模式为实时监测值,得到7595组数据。在分析阶段,对影响机组的主要可控参数进行了提取及预处理,参数主要包括:转速、有功功率、主蒸汽压力、调节级压力、中压缸排汽压力。以机组转速设计值为3600r/min为例来分析。对各个可控参数数据进行曲线化处理,作为分析它们之间的关联规则的数据表。上述关联规则表示,在三种负荷工况下,工厂熔炼机组有功功率与主蒸汽压力、调节级压力、中压缸排汽压力三者之间最优变化区间的关联。经分析,在机组中应用关联规则的数据挖掘技术与传统方法相比,优点是其可以对不同的可测参数进行挖掘,方法简单有效、可操作性强;运用关联规则进行挖掘,对过程能够较灵活控制,处理后的目标值直观,便于操作指导和提高运行效率。
4结论
[参考文献]
[1]董西明.客户关系管理及其应用[J].学术交流,2004(8)
[2]王光玲.CRM—企业管理理念新发展[J].经济论坛,2003(9)
[3]崔京波,陈颖.论CRM及应用[J].科学与管理,2005(6)
[4]田丹.浅析供应链环境下的客户关系管理(CRM)[J].商情(教育经济研究),2008(3)
[5]左臻.浅谈客户关系管理[J].科技情报开发与经济,2005(5)
[6]徐辉.浅析客户关系管理[J].商业经济,2008(10)
[7]姚德全,于冬梅.客户关系管理在企业发展中的重要性[J].科技创新与应用,2013(8)
参考文献
[1]郭愈强,樊玮.数据挖掘技术在民航CRM中的应用[J],计算机工程,2005(31):169-171.
[2]刘彬,白万民.浅析数据挖掘技术在CRM中的应用[J].电子世界,2014,01(17):16-17.
[3]杨虎猛,朱汝岳.金融业分型CRM系统探索与应用[J].计算机应用与软件,2013,07(30):259-261.
[4]徐国庆,段春梅.数据挖掘技术在CRM中的应用研究[J].网络安全技术与应用,2012,02(12):38-40.
[5]王一鸿.体检中心CRM构建及数据挖掘的应用研究[D].华东理工大学,2011.
[6]潘光强.基于数据挖掘的CRM设计与应用研究[D].安徽工业大学,2011.
参考文献:
[1]廖雯.基于客户生命周期的CRM策略研究[J].商,2015(17):15-15.
[2]陈杭.电子商务的营销资源在CRM策略中有效分配探讨[J].现代商业,2015(11):42-43.
[3]金子琦.纷享销客中国式CRM商业逻辑大复盘[J].创业邦,2015(10):90-91.
[关键词]数据挖掘 风险评估 集装箱
一、引言
随着我国对外贸易的快速发展,进境箱量显著增长。“十一五”期间,检出携带疫情及有毒有害物质箱数呈持续增长趋势。仅2010年度,共受理进境集装箱申报3699.06万箱,同比增长14.04%,检出携带疫情或有毒有害物质的43.66万箱,比去年同期提高了28.20%。进境检出疫情箱数占查验箱数的比例(即查验检出率)为3.26%,同比提高0.43个百分点。这反映出进境集装箱携带疫情及有毒有害物质情况十分普遍,进境集装箱检疫面临形势十分严峻。
目前,在进境集装箱检疫工作中主要采用以人工判断为主的经验式方法,效率比较低,工作量繁重,经验知识传承性差。但是在多年来的实践过程中,我们已经积累了大量的经验和数据。通过数据挖掘技术在已有的数据中发现未知的模式和知识可以为入境集装箱风险进行评估,并为检疫业务决策提供辅助支持。
二、数据挖掘技术
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。简而言之,数据挖掘其实是一类深层次的数据分析方法。数据挖掘已广泛应用于生物医学、金融、零售业、电信业、海关监管等领域,并产生了巨大的效益。数据挖掘技术同样能够将大量的检疫数据提炼、转化为可以理解和应用的模式和知识来指导检疫业务。
数据分类(DataClassification)是数据挖掘技术的一个重要分支。从根本上说,数据分类就是通过对源数据的特点进行归纳和描述。要进行数据分类,必须使用特定的分类工具,方法主要包括:ID3算法、C4.5算法、SPRINT算法、SLIQ算法、EM算法、AQ算法、CN2算法等。数据分类是数据挖掘的基本功能、重要功能,目前在商业、工业、军事、生活、海关监管上应用最多,具有非常高的使用价值。
三、数据概念模型
根据从进境集装箱中检出疫情及有毒有害物质情况的不同,将检出问题分为7类,分别是:①人类传染病和动物传染病病原体;②植物危性病、虫、杂草以及其它有害生物;③啮齿动物、蚊、蝇、蟑螂等病媒生物;④土壤、动物尸体等禁止进境物;⑤动植物残留物;⑥生活垃圾及其他有毒有害物质;⑦其他问题——7类问题,对应每一类问题需要建立一个可用于数据挖掘的数据概念模型,其主要包括:
(1)7大类问题集装箱同诸如:①来源地;②箱主公司;③承运人;④货运方式等特征数据存在哪些未知的、潜在有用的模式和知识,明确对每类问题集装箱产生影响的特征数据,建立一套对应各类问题集装箱的风险数据字典;
(2)CIQ数据库中并不包含所有的特征数据,一些重要的特征数据需要通过与场站、货运公司的比对才能获得。同时,要对数据进行采集、清洗、转换等步骤,建立可以用于数据挖掘的数据概念模型。
四、风险评估模型
对进境集装箱进行风险评估主要用到数据挖掘中的重要分支——分类技术,建立和完善风险评估模型关系到风险评估系统研究的成败,主要研究内容如下:
(1)分类技术有ID3算法、C4.5算法、SPRINT算法、SLIQ算法等,结合检疫工作实际选择合适的算法进行数据挖掘,并在实践中对模型进行修正和完善;
(2)选择和使用SAS公司提供的SAS/BASE、SAS/STAT、SAS/LAB等模块化分析工具对7类问题集装箱进行逐类数据挖掘、建模。
五、典型系统应用开发
基于上述的研究成果,设计实现一个基于数据挖掘技术的进境集装箱风险评估管理系统,重点关注下面系统,如图1所示:
(1)面向检疫查验人员设计并实现一个基于Web技术的软件系统,通过此软件,检疫管理人员可以将已有风险评估模型软件化,系统接收进境集装箱特征数据,自动对风险进行预评估。同时,将用于风险评估的数据独立于CIQ数据库存在,为以后进一步完善风险评估模型提供数据库支持。
(2)面向检疫查验人员设计并实现一个软件终端,考虑到检疫查验一线人员工作环境分散、移动的特点,重点面向主流嵌入式系统(Apple、Angel、Symban、Windows-Mobile等)和移动终端(如手机、PDA、iPOD等)展开研发。
图 基于数据挖掘技术的风险评估系统
六、结论
针对出入境检验检疫部门在对进境集装箱检疫查验中盲目性大、工作效率低等客观实际,研究一个基于数据挖掘技术的进境集装箱风险评估模型,并将其软件化、实用化,通过软件自动对进境集装箱进行风险等级评估,指导日常检疫查验工作,降低检验查验的盲目性,提升检疫查验人员的工作效率,提高把关成效。
参考文献:
[1]舒军生.数据挖掘技术在企业信用分类管理系统中的应用.安徽:安徽大学硕士论文.2010
[2]高燕. 基于数据挖掘技术的海关执法评估系统的研究与开发.武汉:武汉理工大学硕士论文.2002
论文摘要:随着数据库技术和人工智能技术的不断进步,数据挖掘技术逐步发展起来,作为当前计算机信息技术中的一项较为新兴的技术,综合运用了数理统计、模式识别、计算智能、人工智能等多项先进技术,主要是从大量的数据中来发现和挖掘一些隐含的有价值的知识,从大型的数据库数据中挖掘一些人们比较感兴趣的知识,本文主要讲了数据挖掘技术的概念、数据挖掘技术在保护设备故障信息中的实现方法以及数据挖掘技术保护设备故障信息管理的基本功能等问题。
数据挖掘技术作为当前计算机信息技术中的一项较为新兴的技术,综合运用了数理统计、模式识别、计算智能、人工智能等多项先进技术,主要是从大量的数据中来发现和挖掘一些隐含的有价值的知识,也就是从大型的数据库数据中挖掘一些人们比较感兴趣的知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,数据挖掘技术也是现在智能理论系统的重要研究内容,已经开始被应用于行政管理、医学、金融、商业、工业等不同的领域当中,在保护设备故障信息管理方面发挥出了积极的作用。
一、数据挖掘技术的概念
随着数据库技术和人工智能技术的不断进步,数据挖掘技术逐步发展起来,主要是指从大量的数据中发现和挖掘一些隐含的有价值的有用信息和知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,当前数据挖掘技术已经逐渐被应用于了医药业、保险业、制造业、电信业、银行业、市场营销等不同的领域,随着计算技术、网络技术以及信息技术的不断进步,在故障诊断过程中所采集到的数据可以被广泛地存储在不同的数据库当中,如果依然采用传统的数据处理方法来对这些海量的信息数据进行分析处理,不仅会浪费大量的实践而且也很难挖掘到有效的信息数据,同时,尽管智能诊断以及专家系统等方式在故障的诊断过程中已经被得到了广泛的应用,但是这些方法却仍然存在着很多推理困难、知识瓶颈等一些尚未完全被解决的问题,采用数据挖掘技术就可以比较有效地来解决这些难题,在故障诊断的过程中发挥其独特的优势。从不同的角度进行分析,数据挖掘技术可以分为不同的方法,就目前的发展现状来看,常用的数据挖掘技术方法主要有遗传算法、粗集方法、神经网络方法以及决策树方法等。
二、数据挖掘技术在保护设备故障信息中的实现方法
1.基本原理。在设备出现故障时采用数据挖掘技术对设备进行一系列的故障诊断,也就是说根据这一设备的运行记录,对其运行的趋势进行预测,并对其可能存在的运行状态进行分类,故障诊断的实质就是一种模式识别方式,对机器设备的故障进行诊断的过程也就是该模式匹配和获取的过程。
2.对故障诊断的数据挖掘方法建模。针对机械故障的诊断来说,首先就应当获取一些关于本机组的一些运行参数,既要包括机器在正常运行以及平稳工作时的信息数据,也应当包括机器在出现故障时的一些信息数据,在现场的监控系统中往往就会存在着相应的正常工作状态下以及出现故障时的不同运行参数,而数据挖掘的任务就是从这些杂乱无章的信息样本库中找出其中所隐藏着的内在规律,并且从中提取各自故障的不同特征,在对故障的模式进行划分时,我们通常可以借助概率统计的方式,在对故障模式进行识别时可以采用较为成熟的关联规则理论,实现变量之间的关联关系,并最终得到分类所需要用到的一些规则,从而最终达到分类的目的,依据这些规则,就可以对一些新来的数据进行判断,而且可以准确地对故障进行分类,找出故障所产生的原因和解决故障的正确方法。
三、数据挖掘技术保护设备故障信息管理的基本功能
1.数据传输功能。数据挖掘技术保护设备故障信息管理与分析系统的主要数据来源就是故障信息的分站系统,而分站系统中的数据是各个子站的一个数据汇总,而保护设备故障信息管理与分析系统所采用的获取数据的主要方式就是一些专门的通信程序构建起系统与分站之间的联系,将分站上的一些汇总数据传输到故障信息系统的数据库中,分析系统所具有的数据传输功能,在进行数据的处理时又能做到不影响原先分站数据库的正常运行,并且具备抗干扰能力强、计算效率高的优点。
2.数据的分析功能。系统在正常运行时,会从故障信息子站或者是分站采集相关的数据并且对这些采集到的数据进行分析整理,最终得到有用的数据信息,利用数据挖掘技术对庞大的故障数据进行分析、分类以及整理,能够有效地找出有用的信息,归并一些冗余的信息,对信息进行有效地存储和分类。另外,数据挖掘技术还具有信息查询的功能,可以进行不同条件下的查询,例如按时间段、报告类型、设备型号以及单位等进行查询,实现查询后的备份转存等,根据故障信息系统所提供高的数据信息以及本系统库中所保存的一些整定阻抗值,可以通过逻辑判断生产继电保护动作的分析报告,主要包括对故障过程的简述、故障切除情况以及保护动作情况等,可以便于继电保护人员直观的对保护装置的动作情况进行分析。
四、结语
随着企业自动化程度的不断提高以及数据库技术的迅速发展,很多企业在一些重要的设备方面都安装了监测系统,对设备运行过程中的一些重要参数和数据进行采集,采用数据挖掘技术可以有效地解决设备故障诊断中的一些知识获取瓶颈,将数据挖掘系统充分应用到监控系统中,有效解决故障诊断中的一些困难,事实证明,将数据挖掘技术应用到故障诊断中是非常有效的,也是值得研究和学习的新型技术手段。
参考文献:
[1]李勋,龚庆武,杨群瑛,罗思需,李社勇.基于数据挖掘技术的保护设备故障信息管理与分析系统[j].电力自动化设备,2011,9
[2]李建业,刘志远,蔡乾,赵洪波.基于web的故障信息系统[j].电力信息化,2007,s1
>> 基于网络数据挖掘的个性化电子商务推荐系统研究 基于大数据的社团个性化推荐系统 基于swarm平台和社交网络的电子商务个性化推荐系统仿真模型的理论构建 网络数据挖掘在图书馆个性化推荐中的应用研究 基于个性化推荐的网络营销 基于数据挖掘的电子政务个性化推荐服务框架研究 基于数据挖掘的个性化智能推荐系统应用研究 基于社交网络的个性化知识服务模型研究 基于免疫进化的网络教学资源个性化推荐系统研究 移动社会网络中基于位置的个性化餐馆推荐建模研究 基于IPTV的个性化推荐技术的研究 个性化好友推荐系统在社交网站上的应用研究 基于社交网络的社会化推荐算法研究 基于个性化混合推荐算法的网络推荐系统 基于数据挖掘的个性化推荐在SNS中的应用 基于Web使用数据挖掘的个性化推荐系统设计 基于小数据的高校图书馆个性化推荐 基于个性化推荐学习的网络培训教学课程平台的设计与实现 基于网络学习行为的个性化评价研究 社会化标签系统中基于本体的个性化推荐方法研究 常见问题解答 当前所在位置:l
[2]张婷婷. 社会化网络中人际关系与人际传播研究[D].长沙:湖南大学,硕士学位论文,2012
[3]王萍. 社会化网络的信息扩散研究[J]. 情报杂志,2009,28(10):39-42
南京大学的周志华教授曾专门撰文论述了数据挖掘和机器学习以及数据库之间的关系,他提出:数据挖掘可以视为机器学习和数据库的交叉,主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据。
组成数据挖掘的三大支柱包括统计学、机器学习和数据库领域内的研究成果,其他还包含了可视化、信息科学等内容。不同的教材从不同的方面结合其基础学科知识讲述数据挖掘技术,不同专业和技术背景的学生或数据挖掘研究人员和应用人员可以根据自身的专业方向选择不同的数据挖掘切入点。下面简单归纳目前比较主流的数据挖掘和机器学习方面的教材。
数据挖掘:概念与技术
原书名:Data Mining:Concepts and techniques
作者:Jiawei Han
本书主要从数据库的角度(数据管理和数据计算的角度)讲解数据挖掘,作者Jiawei Han现任UIUC CS Dept.教授。本书第2版在丰富和全面的第1版基础上进行了更新和改进,并增添了新的重要课题,例如挖掘流数据、挖掘社会网络和挖掘空间、多媒体和其他复杂数据。本书对数据挖掘基本概念、算法及其相关技术有比较全面的阐述,是国内大多数高校指定教材,它不要求太高的数学基础,非常适合数学功底一般的学生使用。
数据挖掘:实用机器学习技术(原书第2版)
原书名:Data Mining: Practical Machine Learning Tools and Techniques
作者:Ian H. Witten, Eibe Frank
本书主要从机器学习的角度,也有称从数据挖掘的应用实现角度来讲解数据挖掘,描述了各种算法、模型及其Java实现,重点是以应用的观点利用案例来说明数据挖掘的算法模型,对于具体算法的原理介绍不是非常详细。它对数据挖掘的Java软件包Weka有比较深的介绍。该书作者都是Weka项目组主要成员。图灵奖获得者Jim Gray如此评价:假如你需要对数据进行分析和应用,本书以及相关的Weka工具包是一个绝佳的起步。
数据挖掘原理
原书名:Principles of Data Mining
作者:David J. Hand
很多学科都面临着一个普遍问题,即如何存储、访问异常庞大的数据集,并用模型来描述和理解它们。这些问题使得人们对数据挖掘技术的兴趣不断增强。长期以来,很多相互独立的不同学科分别致力于数据挖掘的各个方面。本书把信息科学、计算科学和统计学在数据挖掘方面的应用融合在一起,是第一本真正跨学科的教材。主要从统计学的角度来解析数据挖掘以及其与统计的关系。其中如建模、测量、评分函数、模型等术语都是从统计者的角度出发。书中并没有具体说明KDD与DM之间的关系,比较适于统计系和数学系的学生采用。
机器学习
原书名:Machine Learning
作者:Tom Mitchell
本书是CMU等许多国际知名大学机器学习课程的教材。目前发表的各种机器学习专著或论文基本都会引用这本书的内容。作者Tom Mitchell是CMU的教授,美国人工智能协会的主席,《机器学习》杂志和“国际机器学习”年度会议的创始人,他在ML领域久负盛名。本书也是最经典和采用率最高的机器学习教材。本书需要的数学基础也很少,但对必要的背景介绍相当丰富,非常适合初学者。
模式分类(原书第2版)
原书名:Pattern classification
关键词:数据挖掘;图书采购;策略;SPSS
Data mining technology in book purchase application
Xu Yi
Dalian vocational & technical college, Dalian, 116037, China
Abstract: Data mining technology is a kind of technology which can be hidden in the multitudinous data information of which the useful information to rules, concepts, rules and models and other forms were extracted. The application of data mining technology to the book procurement strategy development work in mining, computer management system of library potential while well improve the management level and the level of reader service.
Key words: data mining; book purchases; tactic; SPSS
在信息高速传播、知识飞速更新的今天,图书馆只有正确合理地进行图书采购,才能够更好地实现其“在最恰当的时机,将最合适的图书,提供给最需要的读者”的目标。采用目前流行的数据挖掘技术,可以很好地对图书馆读者实际借阅情况进行分析,从而得出能够正确指导图书采购策略制定的信息,以保证图书馆能够更好地为读者服务。
1 数据挖掘简介
数据挖掘是一门涉及人工智能、数理统计、数据库、可视化、并行计算等多领域的交叉性新兴学科。数据挖掘就是将隐藏在大量数据信息中的那些对用户有用的信息提取出来的过程,这些信息通常会以:规则、概念、规律以及模式等形式展现出来,而提取的过程往往要采用一些特殊手段的非平凡过程,即数据挖掘技术。提取出来的信息可以帮助决策者分析历史的和当前的数据,发现隐藏在其中的联系和规律,从而对未来可能发生的情况进行合理地判断和预测[1]。
2 基于数据挖掘的图书采购策略
描述式数据挖掘和预测式数据挖掘是数据挖掘技术的两种形式。描述式数据挖掘又称概念描述,是数据挖掘的最基本形式,以简明扼要的形式来描述给定的数据集,体现了数据的特征。我们使用特征化描述方式的数据挖掘方法,根据读者借书的历史记录,发现并描述读者的真正需求。实现特征化描述主要有准备数据、相关分析、归纳特征属性、表示和使用挖掘结果几个基本阶段[2]。
图1 流程图
2.1 准备数据
获得有关数据、对数据进行初步处理和准备。具体步骤如下:
(1)获取主要字段:读者类型、专业、书名、主题、编著者、出版社、出版时间、价格、索书号、条码等。
(2)整合数据归纳成库,保证相同字段的数据在类型格式上一致。
(3)拆分“主题”字段,限制1本书最多包含3个主题词,即3个主题字段,其他忽略。
(4)拆分合并后的数据库,按学科不同分成各学科的子库(这在数据挖掘过程中称为数据分组),对各个子库分别进行处理。
2.2 相关分析
对待挖掘数据库中的字段进行分析,剔除掉那些相关性不足的字段。具体步骤如下:
(1)选用恰当的方法对属性字段进行分析;
(2)将待挖掘数据库中的相关性不足字段剔除掉;
(3)整理保留的字段,主要有:读者类型、主题1、主题2、主题3、编著者、出版社。
2.3 归纳特征属性
根据实际情况,只进行单因素分析,即只计算比较单一属性值域读者需求的关联程度。
2.4 表示和使用结果
使用条形图、曲线图以及饼分图等图表形式将分析结果表现出来。用图书借阅次数来表示图书的人气系数,人气系数越高表明该类型的图书越受读者欢迎,计算公式为:
式中P为任一主题总的人气系数,m为主题在挖掘数据库中出现的次数,rj为主题的权系数,rj∈{3,2,1},Ki为借阅频率系数[3]。
3 数据挖掘在图书采购中的应用
这里笔者以所在学院的图书馆为研究对象进行研究。
3.1 统计数据
为了能够较真实地反应学院师生对图书借阅的情况,笔者设计了一份调查问卷,对学院电气系和汽车系的图书借阅者进行访问。该调查问卷包括单选题和多选题,内容涵盖了职业、系别、图书种类等(见表1)。
表1 借阅者借阅图书类别调查问卷
3.2 定义变量
对数据的定义笔者采用多项选择的二分法(Multiple dichotomy method),即将所有因素都设成一个变量,每个变量只有“1”和“0”两个水平值,代表“是”和“否”。例如用1来代表教师,0代表学生;专业方面用1表示电气系,0表示汽车系;图书类别中用1表示“经常借阅”,0表示“不经常借阅”。
3.3 分析数据
在这里选用SPSS统计分析软件对数据进行分析。
3.3.1 多重反应频数分析(见表2和表3)
3.3.2 多重反应列联表分析(见表4~7)
根据这些分析结果,图书采购人员就能够很好地制定出恰当适用的图书采购计划[4]。
4 结束语
以数据挖掘技术为基础,对实际图书馆中读者的借阅情况进行问卷调查,再利用SPSS软件对所调查问卷进行系统分析,虽然问卷数目较少,但对图书馆分析读者借阅需求指导图书采购提高服务能力有一定的帮助。
参考文献
[1] JiaweiHan, MichelineKamber.数据挖掘:概念与技术[M].北京:机械工业出版社,2007.
[2] 吴奕宽.浅论信息在教材图书采购中的应用[J].情报科学,2002,20(1):28-30.