公务员期刊网 精选范文 数据挖掘技术分析论文范文

数据挖掘技术分析论文精选(九篇)

前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的数据挖掘技术分析论文主题范文,仅供参考,欢迎阅读并收藏。

数据挖掘技术分析论文

第1篇:数据挖掘技术分析论文范文

[关键词] 专利情报 数据挖掘 企业决策 竞争优势

一、专利情报分析在企业战略决策中的地位和作用

随着当代世界经济的全球化、贸易的自由化,国内外企业间的竞争日益激烈。在科学技术迅猛发展的今天,企业间的竞争已转化为科学技术的竞争、技术创新能力的竞争,并集中体现为自主知识产权,特别是专利数量及质量的竞争。因此,专利情报在企业发展中的战略地位正逐步得到增强。企业只有站在战略的高度来认识和处理专利工作,强化专利发明的创造及专利管理,并在经营活动中有效地实施专利战略去开拓市场,才能有效地遏止竞争对手,以较少的投入获得较大的市场竞争份额,不断提高企业自身的竞争能力,取得市场竞争优势和经济效益。

专利情报技术价值只有通过分析才能充分体现出来。在各国企业纷纷开展的专利战略研究中,最核心的部分就是专利情报分析。企业从研发项目选题决策到研发项目实施过程,专利情报分析都可以有效地支持企业的研发活动,为企业制定技术开发战略提供科学准确的决策依据。专利情报分析可以让企业决策者和研发人员准确了解到:其一,现有技术所处的成长阶段;其二,新技术的发展动态和可能应用的领域;其三,本行业的技术发展动态;其四,竞争热点技术领域;其五,竞争对手的研发动态;其六,新产品的可能寿命、潜在市场和经济价值。

总之,专利情报分析不仅是企业争夺专利的前提,更能为企业发展提供技术策略,评估竞争对手的情报,认清自己的相对专利地位和技术领域的发展趋势,在技术开发、合作和贸易中有效地保护自身权益,制定出正确的技术开发战略、最佳的研发计划。

二、数据挖掘是目前最先进的专利情报分析方法

1.数据挖掘的定义

数据挖掘是一种利用各种分析工具建构数据分析模型,从而在大型的数据库(或数据仓库)中提取人们感兴趣的知识的过程。这些知识是隐含的、事先未知的、潜在有用的信息,提取的知识一般可以表达为概念、规则、规律、模式、约束、可视化等形式。这些表达形式蕴含了数据库中一组对象之间的特定关系,揭示出一些有用的信息,为科学研究、经营决策、市场策划、经济预测、工业控制等提供依据。

2.数据挖掘技术产生的背景

伴随数据库技术的广泛应用,企业管理中积累了大量的有用数据,包括市场、客户、供货商、竞争对手,以及未来趋势等重要信息,企业管理对数据处理技术要求不断提高。但是信息超载与非结构化,使得企业决策组织无法有效利用现存的信息,甚至使决策行为产生混乱与误用。基于总体假定进行推断和检验的传统的统计分析方法对这些海量、异构、分散数据的处理已显得无能为力, 显露出很大的局限性。因此,如何从这些复杂的专利文献数据中以智能化的操作方式深入分析其中隐含的规律, 如何发现、提取这些知识并加以利用就成了当务之急。

计算机技术的快速发展为专利情报分析提供了极大的便利条件,产生了数据挖掘等当今信息科学的前沿技术和管理方法,促使专利情报分析方法向自动化、智能化、可视化的方向发展。

3.专利情报数据挖掘的优势和发展现状

与传统的基于统计的专利情报分析法(如:查询、报表、联机应用分析等)相比,专利情报数据挖掘方法具有明显的优势。

(1)方法优势。数据挖掘与传统的统计分析方法的本质区别在于统计是根据随机性的观测样本数据以及问题的条件和假定,对未知事务做出以概率形式表述的推断;而数据挖掘则是在没有明确假设的前提下去挖掘信息、发现知识。与统计相比,数据挖掘工具处理大量的实际数据更有优势,无须专业的统计背景也能使用数据挖掘的工具,而且,数据挖掘从大型数据库提取所需数据,利用专属计算机软件进行分析,更能满足企业的需求。此外,从理论的角度来看,数据挖掘与统计也不同,其目的在于方便企业的末端使用者应用,而非为统计学家提供检验工具。

(2)成果优势。数据挖掘技术同统计分析方法相比较, 挖掘算法的研究成果无论从数量上还是实用性上都具有巨大优势。例如根据挖掘任务,数据挖掘算法包括分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等。近几年来,自然语言理解、语义关联分析、词频分布统计、语料学研究等可以用于进行情报分析的技术方法和工具,已经成为数据挖掘算法的重要研究方向。因此,无论从体系结构上,还是从具体方法上,数据挖掘算法都能够很好地融合到专利情报分析系统中去。

(3)发展现状。目前,大多数国内学者对专利情报的分析仍停留在对数量特征的统计分析上,并且对于专利数据中的各种偏差性影响几乎都没有考虑,而国外学者则多利用数据挖掘的理论和数据可视化手段,正在研究专利信息的自动分析方法。总之,对于专利信息的利用,国内目前基本上仍处于定性分析和信息的统计计算管理水平上,尚不能从内容上自动挖掘专利数据中的知识规律。

三、专利情报数据挖掘的方法与流程

数据挖掘的产生并不是为了替代传统的统计分析技术,相反,对于统计分析方法,数据挖掘主要体现在利用统计和人工智能技术进行高级多元统计方法的应用上,是对这些方法的拓展和深化。因此,本文提出以数据挖掘为主、以数理统计为辅的两者结合的专利情报数据挖掘方法。专利情报数据挖掘的任务就是从专利数据中发现模式。数据挖掘的模式主要有关联规则、分类、聚类、序列模式等。与之对应的分析方法包括关联分析、分类分析、聚类分析、模式识别、可视化方法、人工神经网络等等。其中,关联分析是本文专利情报数据挖掘方法研究的重点。

在现有研究的基础上,根据实际需要,可将专利情报数据挖掘流程划分为以下四大模块:数据获取与数据预处理、数据挖掘与监测、数据可视化以及情报分析与整合。其中,后三项统称为数据挖掘分析。

(1)数据获取与数据预处理:根据专利情报分析工作的目的,确定解决问题的性质和数据挖掘的目标,明确科技监测的需求,初步选取监测对象。利用Spider技术,对下载服务器下达获取指令,服务器将相关数据进行获取,形成本地化数据库;对于获取的数据,采用数据预处理技术从目标数据集中剔除错误数据和冗余数据,去除噪声及无关数据,进行有效数据提取,经数据集成后,形成特定领域的情报监测数据集,为监测分析做准备。

(2)数据挖掘与监测:结合监测需求,运用技术预测、自然语言处理、信息萃取、知识发现等工具,依据特定的数据挖掘算法(如关联分析、模糊聚类、技术组(群)自动识别、关键技术识别、自然语言处理等),在数据库中提取数据模式。

(3)数据可视化:运用一定的方法将提取出的数据模式表达成某种易于理解的、直观的知识或模式(图,表等),对监测数据集和所拥有的本地化数据库进行初步分析,形成监测分析结果报告,提交给情报分析人员。

(4)情报分析与整合:情报人员结合自己的专业知识,对监测分析结果进行系统、深层次地分析,在相关持续性投入技术、破坏性技术和新的研究方向等领域形成情报信息的监测分析报告,提交给该领域相关方面的专家。由专家凭借自己的知识和经验,对分析报告进行评估,再将评估意见反馈给情报人员,对监测报告进行修订,形成最终报告。由专家的专业知识来保证情报分析的有效性和可靠性。

四、专利情报数据挖掘方法的实证研究

依据上述方法和步骤,以通信技术领域的中国专利数据为例,对专利情报数据挖掘方法进行实证研究。我们对该领域进行了管理层面和技术层面的深入分析,并以可视化图表的形式展现分析结果。以下是其中对高产申请人进行专利情报数据挖掘的全过程。

1.数据获取与数据预处理

本文所采用的数据来自国家知识产权局专利数据库(sipo.省略),在该数据库中我们选择所有专利类型,包括发明专利、实用新型专利和外观设计专利作为数据源。数据获取的具体过程如下:

(1)根据通信领域的特点结合专家意见确定我国通信技术领域的关键技术名词。

(2)以上述技术名词为关键词,在中国专利数据库的摘要和题目字段中进行检索,形成我国通信技术领域原始数据库。

对该原始数据库中的数据进行数据抽取、数据清洗和数据转换等一系列数据预处理工作,获得我国通信技术领域最终的专利数据库,有效专利总数为4339条,数据覆盖的时间范围是1985年至2007年9月。

2.高产主IPC挖掘分析

(1)数据挖掘方法。采取分类分析与OLAP分析相结合的挖掘方法,对我国通信技术领域专利主IPC(专利分类号)排名前十位的技术及其年度分布状况进行深入细致的分析。首先,采取K近邻规则分类法,对高产主IPC的分布状况进行分类,制成可视化图表,并根据分类结果得出分析结论;然后,在此基础上,对这些技术的年度分布状况作进一步的剖析,挖掘出该技术的发展趋势,运用OLAP技术形象地展现出分析结果,并由此得出更深层次的专利情报。

(2)分类分析。K近邻规则分类法是指从测试样本点开始生成,不断扩大区域,直到包含进K个训练样本点为止,并且把测试样本点的类别归为这最近的K个训练样本点出现频率最大的类别。表中展示了利用此分类法分析出的通信技术领域中国专利主IPC(专利分类号)数量在100以上的分布情况,此处的IPC分类仅划分到小类(取前四位)。从表中可以看出,通信领域的专利主要集中在H04L(数字信息的传输)小类,例如电报通信等,共有专利945件,即21.8%的专利都与其相关。其次是H04B(传输,包括载有信息信号的传输,其传输与信息的特性无关)、H04Q(选择),分别有892件、543件,这些都是与通信领域的相关处理技术密切关联的。

表 我国通信技术高产主IPC分布情况

(3)OLAP分析。根据上述分类分析结果,采用OLAP技术,进一步挖掘IPC排名前十位的技术年度分布状况。由挖掘可知,通讯领域的技术申请专利最早出现在1986年,分布在H04L(数字信息的传输)、HO4B(传输,包括载有信息信号的传输,其传输与信息的特性无关)和H04J(多路复用通讯)3个部类。在以后的年度,各类IPC技术不断发展,申请专利数量逐渐增多,并且都在2005年达到了最大值。

图中,我们可以更清楚地看到IPC排名前十的技术发展趋势。很明显地,排名前三的IPC 发展速度相对更快。其中信息传输技术(H04B)一直持续发展,专利数量逐年增长,尤其在2001年之后增长迅速,成为通讯领域的主要发展技术。数字信息的传输技术(H04L),虽然出现的时间很早,但在随后的几年里中断了发展,直到近几年,数字信息传输技术才成为发展的热点,并在2004年首次超过了H04B技术,其后发展突飞猛进,成为通讯领域专利数量最多的技术。

图 IPC排名前十的技术发展趋势分布

(4)挖掘结果综述。对排名前十位的主IPC技术及其年度发展趋势分布的挖掘可以反映出专利申请人的经济利益趋向和市场开拓方向。由上述表和图可以看出,通信技术的研发主要集中在H04B(传输)和H04L(数字信息的传输,例如电报通信)上。与调制解调器、服务器和路由器等相关的技术是该领域的关键技术和研发重点。据此,企业可以比较国内外技术发展水平,识别技术空白点,避免同一科技领域的重复研究,节约资源,减少投资风险和策划的不确定性,选择和确定科研项目,确定有价值的专利、产品领域或替代品,更好地关注有市场前景的技术,改良发明创新思路,调整自身的研发方向,增加专利的回报,以获取更大的经济效益。

五、结论与展望

本文对专利情报数据挖掘方法进行了全面深入的探讨,并依据挖掘流程对其进行了针对性的实证研究。结果表明,通过数据挖掘技术,能够使企业从以往的海量资料库中整理与收集、有效快速地获取信息,转换数据表达形式,揭示数据背后隐藏的规律,挖掘出不同的信息与知识,充分发挥信息再利用的作用,以满足企业战略决策的需要,扩大产品和市场,提高企业的竞争优势和经济效益;获取大量的与专利技术的经济市场及技术本身的价值有关的重要情报:专利技术的经济市场范围、发明创造的技术价值等等,从而为企业的战略决策提供强有力的技术支持。数据挖掘技术成功地参与企业科学管理的例子已经为国外很多知名企业所公认。

然而,我国目前的大部分企业还没能够将企业的经营和专利战略很好地结合起来,相信随着企业专利战略意识的不断加强,随着数据挖掘技术的不断发展和专利情报数据挖掘方法辅助企业寻找和提高盈利增长点的事例越来越多,专利情报数据挖掘方法一定会在我国各个领域和众多企业中得到广泛应用和发展。

参考文献:

[1]张明龙:我国专利发展现状与趋势分析[J].发展, 2008, 1

[2]曹雷:面向专利战略的专利信息分析研究[J].科技管理研究, 2005, 3

[3]唐炜刘细文:专利分析法及其在企业竞争对手分析中的应用[J].现代情报, 2005, 9

[4]赵岩赵慧娟:数据挖掘理论与技术[J].福建电脑,2006,2

[5]樊冬梅:统计与数据挖掘的关系探讨[J].会计实务,2006.9

[6]魏瑜陆静:数据挖掘与统计学的关系浅析[J].沿海企业与科技, 2005,9

[7]胡永刚:数据挖掘中可视化技术综述[J].计算机与现代化, 2004,10

[8]周奕辛:数据清洗算法的研究与应用[D].2005,7

[9]夏火松:数据仓库与数据挖掘技术[M].北京:科学出版社, 2004,3

第2篇:数据挖掘技术分析论文范文

关键词 技术情报分析;数据挖掘

中图分类号TP392 文献标识码A 文章编号 1674-6708(2013)92-0211-02

1 概述

在面对海量的情报信息资源时,如何高效、准确的开展分析工作,为管理决策人员提供支持,已成为当今科技工作的重要组成部分。可以说,情报分析方法和相关工具的合理使用决定了情报获取的准确性和有效性,并将直接影响制定战略决策的有效性和科学性。

技术情报分析系统主要进行与技术相关科技论文、专利、互联网情报数据的分析,实现分析方法、算法、分析结果的表现形式以及分析报告自动生成等技术。该情报分析系统除了基本的维度统计分析外,更多的侧重于利用知识发现、数据挖掘等技术进行情报数据的深度处理与分析。通过情报分析系统开发设计,结合数据挖掘等技术的合理使用,使得系统使用者能够快速、有效、全面地获取技术的情报信息。

2 系统的设计与功能描述

2.3 数据挖掘技术设计

2.3.1数据文本特征表示

在进行文本挖掘时,对文本特征进行处理,实现对非结构化的文本向结构化转换。情报分析系统采用向量空间模型(Vector Space Model,VSM)进行文本的表示,并利用倒排文档频率TFIDF进行专利文本的特征提取,以此作为论文、专利文本挖掘的基础。

2.3.2关联算法

在挖掘论文专利作者之间、机构之间、国家之间的研究内容关联性上,采用了基于文本挖掘的关联算法。通过对技术关键词的共生关系(Terms Co-occurrences)计算来识别、确定一组文献内部所包含的技术组(群)。

2.3.3 层次结构可视化算法

情报分析系统中关于论文和专利的引证分析、专利同族分析采用了层次结构可视化算法Hyperbolic Tree,即双曲树算法。其主要原理是将树结构在双曲空间进行布局,然后映射到欧式空间的庞莱卡圆盘进行显示。欧式空间中两个相同大小的区域离庞莱卡圆盘中心越近,在双曲空间中所占用的空间越小;反之,双曲空间中两个大小相同的区域离原点越近在庞莱卡圆盘中所占用的空间越大。

4 结论

本文提出运用数据挖掘方法实现对大量数据的分析和判断,可有效帮助科技情报机构和人员提高综合情报分析能力和决策的质量。同时,该方法可按照不同需要进行功能拓展,实现向更多的技术情报领域延伸。

参考文献

[1]Dongpeng Yang. Application of Data Mining in the Evaluation of Credibility, 第十一届亚太地区知识发现与数据挖掘国际会议(PAKDD),IOS Press出版, 2007.

[2]乐明扬.公安情报分析中的数据挖掘应用研究.信息与电脑.2012(8).

[3]蒲群莹.基于数据挖掘的竞争情报系统模型[J].情报杂志.2005,1.

第3篇:数据挖掘技术分析论文范文

[关键词]大数据数据挖掘 设备管理

中图分类号:TP311 文献标识码:A 文章编号:1009-914X(2015)05-0265-01

近些年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。

数据挖掘利用了来自如下一些领域的思想:(1)来自统计学的抽样、估计和假设检验;(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。在一些其他领域也起到重要的支撑作用,特别是需要数据库系统提供有效的存储、索引和查询处理支持,源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。

1 数据挖掘技术简介

数据挖掘(Data Mining,DM),又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程[1]。因此,可以说数据挖掘是一个从数据到知识的过程。

数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。

2 数据挖掘运用的理论与技术

随着信息科技超乎想象的进展,许多新的计算机分析工具问世,例如关系型数据库、模糊计算理论、基因算法则以及类神经网络等,使得从数据中发掘宝藏成为一种系统性且可实行的程序。

数据挖掘的技术有很多种,按照不同的分类有不同的分类法。数据挖掘中常用的一些技术:统计技术,关联规则,基于历史的分析,遗传算法,聚集检测,连接分析,决策树,神经网络,粗糙集,模糊集,回归分析,差别分析,概念描述等十三种常用的数据挖掘的技术[2]。下面,作者将就关联规则做以介绍。

3.关联规则概念

关联规则(Association Rules)挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。一个关联规则[3]是形如的蕴含式,这里A、B为项集,AR,BR,并且AB=Φ。

关联规则挖掘的目的就是从事务数据库中挖掘出满足最小支持度(min_sup)和最小置信度(min_conf)的关联规则,挖掘一般分为以下2个过程:1.在事务数据库中找出所有大于最小支持度(min_sup)的频繁项集。2.由第一步找出的频繁项集产生期望的关联规则,即所产生的每条关联规则的置信度必须不小于最小置信度Apifori算法。

4.数据挖掘技术在设备管理中的应用

本文将利用关联规则算法对某公司售后服务部门所使用的设备管理数据进行挖掘。

结合一年来该公司现场执法取证类设备在使用过程中暴露出现的故障问题及设备维护保障等情况的统计数据,应用数据挖掘技术进行分析。原始数据集由该公司设备维护管理系统中的设备名称、使用单位、维护记录、更换部件、故障排查方法等有关数据字段抽取并汇总。

根据实际情况,假设支持度为0.2,采用Apriofi算法,产生的最大频繁项目集见表3。由试验结果可以看出,D:电容失效;F:数据端出错;G:调频键失效;J:电压过载;K:插脚脱焊。发生故障的概率比较高(在20组数据中,发生故障的概率达到20%以上)。

依据产生的频繁项生成关联规则,结果见表4。如果设定最小信任度为0.6,那么从表4可以得出3条关联规则,分别为:D-->F;D-->G;F-->G。

对应到该取证设备故障为:电容失效-->数据端出错;电容失效-->调频键失效;数据端出错-->调频键失效。

2014年7月,该单位要执行一项任务,按公司领导要求调用该现场取证执法仪类设备12套。为证明上述结论的有效性,将这12套设备分为2组,每组6套,分别为A组和B组。其中A组在投入使用前,根据结论对相关的部位进行预防性维护,而对B组则按常规维护,不做任何维护。经过1天24小时不间断使用,结果发现,A组中6套设备全部正常运行,且状态良好;而B组中则有2套设备出现调频键失效故障,1套设备相继出现电容失效、数据端出错故障,影响了取证的工作。由此得出,应用关联规则对设备的系统数据进行挖掘,对于优化设备的性能,提高设备在实战中的稳定性,确保任务顺利完成具有重大意义。

5.结语

数据挖掘现在越来越为更多的人们所关注,被认为是未来最有发展前景和广阔市场潜力的新兴学科之一。随着信息技术和数据库技术的不断发展,各行各业的人们掌握了大量的数据,在竞争日益激烈的现今社会里,如何迅速有效的获得隐藏在数据之后的有用的知识信息,成为众多企业决策者和管理者的当务之急。

数据挖掘是一门综合性的学科,其中用到了数据仓库、数理统计[4]。计算机技术等很多知识,不同的主题需要选择不同的方法进行分析,经过十多年的研究,每一种方法都踊跃出大量的算法,这些算法中也各有利弊,在不同的问题上要选择不同的算法,才能最大限度的发挥数据挖掘的潜能。

此外,数据挖掘除了发展和完善自己的理论和方法,也要充分借鉴和汲取数据挖掘和知识发现、数据库、机器学习、人工智能、数理统计、医疗、分子生物学等学科领域的成熟的理论和方法。

参考文献

[1] 韩家炜,堪博著,范明,孟小峰译数据挖掘概念与技术(第2版)[M]北京:机械工业出版社,2007.

[2] 苏新宁杨建林邓三鸿等,数据挖掘理论与技术[M]北京:科学技术文献出版社,2003.

第4篇:数据挖掘技术分析论文范文

论文摘要:随着数据库技术和人工智能技术的不断进步,数据挖掘技术逐步发展起来,作为当前计算机信息技术中的一项较为新兴的技术,综合运用了数理统计、模式识别、计算智能、人工智能等多项先进技术,主要是从大量的数据中来发现和挖掘一些隐含的有价值的知识,从大型的数据库数据中挖掘一些人们比较感兴趣的知识,本文主要讲了数据挖掘技术的概念、数据挖掘技术在保护设备故障信息中的实现方法以及数据挖掘技术保护设备故障信息管理的基本功能等问题。

数据挖掘技术作为当前计算机信息技术中的一项较为新兴的技术,综合运用了数理统计、模式识别、计算智能、人工智能等多项先进技术,主要是从大量的数据中来发现和挖掘一些隐含的有价值的知识,也就是从大型的数据库数据中挖掘一些人们比较感兴趣的知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,数据挖掘技术也是现在智能理论系统的重要研究内容,已经开始被应用于行政管理、医学、金融、商业、工业等不同的领域当中,在保护设备故障信息管理方面发挥出了积极的作用。

一、数据挖掘技术的概念

随着数据库技术和人工智能技术的不断进步,数据挖掘技术逐步发展起来,主要是指从大量的数据中发现和挖掘一些隐含的有价值的有用信息和知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,当前数据挖掘技术已经逐渐被应用于了医药业、保险业、制造业、电信业、银行业、市场营销等不同的领域,随着计算技术、网络技术以及信息技术的不断进步,在故障诊断过程中所采集到的数据可以被广泛地存储在不同的数据库当中,如果依然采用传统的数据处理方法来对这些海量的信息数据进行分析处理,不仅会浪费大量的实践而且也很难挖掘到有效的信息数据,同时,尽管智能诊断以及专家系统等方式在故障的诊断过程中已经被得到了广泛的应用,但是这些方法却仍然存在着很多推理困难、知识瓶颈等一些尚未完全被解决的问题,采用数据挖掘技术就可以比较有效地来解决这些难题,在故障诊断的过程中发挥其独特的优势。从不同的角度进行分析,数据挖掘技术可以分为不同的方法,就目前的发展现状来看,常用的数据挖掘技术方法主要有遗传算法、粗集方法、神经网络方法以及决策树方法等。

二、数据挖掘技术在保护设备故障信息中的实现方法

1.基本原理。在设备出现故障时采用数据挖掘技术对设备进行一系列的故障诊断,也就是说根据这一设备的运行记录,对其运行的趋势进行预测,并对其可能存在的运行状态进行分类,故障诊断的实质就是一种模式识别方式,对机器设备的故障进行诊断的过程也就是该模式匹配和获取的过程。

2.对故障诊断的数据挖掘方法建模。针对机械故障的诊断来说,首先就应当获取一些关于本机组的一些运行参数,既要包括机器在正常运行以及平稳工作时的信息数据,也应当包括机器在出现故障时的一些信息数据,在现场的监控系统中往往就会存在着相应的正常工作状态下以及出现故障时的不同运行参数,而数据挖掘的任务就是从这些杂乱无章的信息样本库中找出其中所隐藏着的内在规律,并且从中提取各自故障的不同特征,在对故障的模式进行划分时,我们通常可以借助概率统计的方式,在对故障模式进行识别时可以采用较为成熟的关联规则理论,实现变量之间的关联关系,并最终得到分类所需要用到的一些规则,从而最终达到分类的目的,依据这些规则,就可以对一些新来的数据进行判断,而且可以准确地对故障进行分类,找出故障所产生的原因和解决故障的正确方法。

三、数据挖掘技术保护设备故障信息管理的基本功能

1.数据传输功能。数据挖掘技术保护设备故障信息管理与分析系统的主要数据来源就是故障信息的分站系统,而分站系统中的数据是各个子站的一个数据汇总,而保护设备故障信息管理与分析系统所采用的获取数据的主要方式就是一些专门的通信程序构建起系统与分站之间的联系,将分站上的一些汇总数据传输到故障信息系统的数据库中,分析系统所具有的数据传输功能,在进行数据的处理时又能做到不影响原先分站数据库的正常运行,并且具备抗干扰能力强、计算效率高的优点。

2.数据的分析功能。系统在正常运行时,会从故障信息子站或者是分站采集相关的数据并且对这些采集到的数据进行分析整理,最终得到有用的数据信息,利用数据挖掘技术对庞大的故障数据进行分析、分类以及整理,能够有效地找出有用的信息,归并一些冗余的信息,对信息进行有效地存储和分类。另外,数据挖掘技术还具有信息查询的功能,可以进行不同条件下的查询,例如按时间段、报告类型、设备型号以及单位等进行查询,实现查询后的备份转存等,根据故障信息系统所提供高的数据信息以及本系统库中所保存的一些整定阻抗值,可以通过逻辑判断生产继电保护动作的分析报告,主要包括对故障过程的简述、故障切除情况以及保护动作情况等,可以便于继电保护人员直观的对保护装置的动作情况进行分析。

四、结语

随着企业自动化程度的不断提高以及数据库技术的迅速发展,很多企业在一些重要的设备方面都安装了监测系统,对设备运行过程中的一些重要参数和数据进行采集,采用数据挖掘技术可以有效地解决设备故障诊断中的一些知识获取瓶颈,将数据挖掘系统充分应用到监控系统中,有效解决故障诊断中的一些困难,事实证明,将数据挖掘技术应用到故障诊断中是非常有效的,也是值得研究和学习的新型技术手段。

参考文献:

[1]李勋,龚庆武,杨群瑛,罗思需,李社勇.基于数据挖掘技术的保护设备故障信息管理与分析系统[j].电力自动化设备,2011,9

[2]李建业,刘志远,蔡乾,赵洪波.基于web的故障信息发布系统[j].电力信息化,2007,s1

第5篇:数据挖掘技术分析论文范文

关键词:审计;数据挖掘;计算机审计;技术;应用

中图分类号:F239 文献标识码:A 文章编号:1009-3044(2013)15-3445-02

随着网络的发展,我国的审计事业步入了计算机审计时代,这样以来大大提高了审计工作的效率。在实际审计过程中,审计人员还要改变自身的审计分析思路,要打破传统的审计模式,能够运用系统论的思维,以全局的观点、联系的观点,把握事物的总体和各部分之间的联系,从而发现其中的规律。可以借助于一种数据分析工具——数据挖掘技术,它能够帮助审计人员从海量数据当中,发现数据背后潜在的联系和规律。

1 数据挖掘的定义和常用技术

数据挖掘(DM),就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取出隐含在其中的、人们事先不知道的、但又是潜在的、有用的信息和知识的一种过程。

通过数据挖掘,不但可以来完善、丰富数据库,也为用户决策提供数据支持。常用的技术有以下几种:

1.1关联分析

关联分析的目的是为了找出数据库中隐含的关联规则。

1.2分类

分类对数据概念的描述建立模型,再用这个模型来进行分类,生成一系列的分类规则,用于对其他的数据进行分类,从而更好地理解数据库中的内容。

1.3预测

预测就是找出历史数据之间的变化规律,建立相应的模型,可以获得当前数据的未来变化趋势,所具有的属性值的范围、种类和特征等。常用的方法是回归分析法。

1.4聚类分析

聚类是一个将数据集划分为若干组或类的过程,类似于人们常说的“物以类聚”。

1.5偏差检测

数据库中的数据之间存在着很多异常的情况,称为偏差。这些偏差包括很多潜在且有用的知识,如分类中的反常实例、模式的特例等。

1.6时序模式分析

通过时间序列搜索出重复发生概率比较高的模式。

在实际审计过程中,选择合适的挖掘技术能给审计工作带来很大的帮助,而且不同的挖掘技术应用的对象也不同。

2 数据挖掘的应用价值

从审计角度来看,数据挖掘就是根据事先明确的审计目标,对被审计单位的大量业务数据进行分析,揭示其中潜在的逻辑关系和规律,并进而形成明确且有效的审计思路的过程。

数据挖掘技术在审计中的应用价值,主要体现在可以依据其发现的知识来构建审计分析模型,将其运用到实际的审计业务中,可以大大提高审计工作的效率。比如,通过对银行信用卡恶意透支的历史数据进行数据挖掘,可以发现“信用卡恶意透支与信用卡客户的收入状况、平均消费额、职业、年龄等客户属性之间的联系”这类知识,以此为基础构建出相应的审计分析模型并运用到被审计银行的当前信用卡业务数据中,审计人员就可以快速确定审计重点。

3 数据挖掘技术在计算机审计中的应用操作步骤

一般来说,数据挖掘技术在计算机审计中的操作步骤主要有以下几步:

3.1审计业务问题的定义

指的是要明确审计时需要发现什么信息、解决什么问题。这个定义驱动了整个数据挖掘的过程,是整个挖掘过程的基础,也是检验最后结果的依据。

3.2数据准备

这个环节包括数据采集、数据清理和数据预处理三项内容。

数据采集要尽可能地采集所有与需要解决的审计业务问题密切相关的数据。

数据清理将采集到的数据经过数据清理形成审计中间表,这些审计中间表就成为数据挖掘模型的实例数据集。

数据预处理工作首先进行数据集成,整合来自不同数据源中的数据,然后从集成的数据库中选择性地提取用与挖掘的数据,最后再对选择的数据进行投影、归一化变换等处理,方便进行下一步的数据挖掘。

3.3建立模型,挖掘数据

设计人员(包括经验丰富的审计人员)对预处理好的数据进行分析,选用合适的数据挖掘技术和方法,生成适合挖掘的数据模型。模型建立的好坏关系到数据挖掘结果的正确与否,可以说是整个挖掘过程的核心。模型不是一成不变的,需要经过反复的修改调整,最后才能成为适合当前的审计任务要求的挖掘模型。

利用建立好的模型,进行数据挖掘,输入相关审计数据,会得到具体的结果,或者数据间的规律。审计业务人员要根据这些结果,对模型以及模型的输入参数值进行多次的修正和完善,以利于得出正确的挖掘结果。

3.4分析评价结果

将挖掘模型最后得到的正确的结果,提供给审计人员。审计人员根据审计任务要求和被审计对象的特征来分析得到到的挖掘结果,得到明确有效的审计思路,从而得出正确的审计结论。有些结果可能会为发现审计问题提供线索,审计人员可以根据这些线索进一步地追查相关的资料,发现问题所在。

以上几个步骤在实际的审计过程中,往往不是一次完成,中间的某些步骤可能需要反复进行,这要根据当前阶段和将要实施阶段的审计任务要求来定。

4 结论

虽然数据挖掘技术在计算机审计应用,还处于初级阶段,还需要进一步的研究,不断地探索和完善。但是我们也看到了它在计算机审计领域的优势。在教育、金融、企业、经济责任等各行业的审计工作中,面对庞大的、复杂的数据库,使用数据挖掘技术,可以让审计人员在审计过程中迅速把握总体,从海量数据中根据需要找出有用的知识信息以及数据间潜在的规律和联系,进一步提高审计工作的效率,并为领导的正确决策提供数据支持。

参考文献:

[1] 牛丽敏.Apriori算法分析与改进综述[J].桂林电子科技大学学报,2007,27(4): 25-29.

[2] 韩家炜.数据挖掘概念与技术[M].北京:机械工业出版社,2000.

[3] (美)Mehmed Kantardzic.数据挖掘-概念、模型、方法和算法[M].北京:清华大学出版社,2003.

[4] 胡俊俊,孙静.一种新型的计算机审计模型[J].计算机应用研究,2008.

第6篇:数据挖掘技术分析论文范文

关键词:  中医学术流派 数据挖掘 银屑病

自古以来,中医学术流派林立,既互相争鸣,又互相渗透、取长补短。它们的发展和研究促使中医药基础理论逐渐得到了拓展和深化,促使中医药临床实践技术逐渐得到了进步和提升。可以说,中医学术流派的发展和研究促进了中医药事业的发展[1]。

中医学术流派研究的前提是要对其进行科学划分并确定研究内容。随着科学技术进步和中医学术研究的日益广泛深入,中医学术流派的划分方法不断进步、完善。徐江雁等[2]提出的核心分类模式既涵纳纵向的学术思想传承,又兼容横向的学术思想渗透,有一定的先进性,值得借鉴。我们在“中医皮肤科赵炳南学术流派及其传承研究”的课题中,从以下两方面划分学派和确定研究内容:其一,以创新的学术思想为核心:通过对中医皮肤科赵炳南学术流派学术渊源、基础理论、特色经验、技术方法等的系统研究,确立中医皮肤科赵炳南学术流派学术思想体系;其二,以开放的医家群及其著述为核质:不论是赵炳南门户师承所得,还是博采众家之说,也不论是公开发表的论文、论著、会议交流的文字材料,科研成果、发明、专利,还是口述史料, 只要是中医皮肤科赵炳南学术流派有关方面的内容,皆囊括在其核质之中。

针对上述研究内容,按照以往的研究方法,可以以人、以疾病、以方药或以思维方法为线索进行文献整理、分析和总结,或者以临床流行病学的方法进行临床观察和总结[3~7]。这些方法在一定程度上能总结规律,指导临床实践,但存在以下不足之处:①对学术思想和诊疗经验缺乏系统地有机关联研究和比较研究;②难以反映疾病诊疗过程中中医辨证的多维时空和非线性特征;③缺乏符合中医特点的多因素信息处理技术,可能致使研究结果产生混乱和差错;④难以真正反映中医学术流派的内涵和精髓。鉴于以往研究存在的问题,我们引进了数据挖掘技术进行中医学术流派研究。

1  数据挖掘及其在中医药领域的应用

1.1  数据挖掘概述数据挖掘(DM:DataMining)就是从大量的、不完全的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程[8]。它是一门交叉学科,汇聚了数据库、人工智能、统计学、可视化,并行计算等不同学科和领域。其中的人工智能能模仿人类对非线性、不完全、不精确和不确定信息的智能处理,具有良好的容错性、鲁棒性和高精度等综合技术优势[9,10]。人工智能方法主要包括人工神经网络、模糊系统、进化计算、粗糙集理论、支持向量机(SVM)等。针对不同的挖掘目标,往往要将几种方法综合起来应用,以发挥各自的技术优势。此外,将人工智能和其他数据挖掘方法如聚类分析、决策树、关联规则等优化组合应用,更能发挥数据挖掘技术解决复杂问题的能力。

1.2  数据挖掘在中医药领域的应用数据挖掘技术能针对医学数据多态性、不完整性、时间性和冗余性的特征实施合理的数据处理和知识提取[11]。它应用于中医药领域主要表现在以下几方面[12~16]:

1.2.1  新药开发研究以一种新的、建立在充分利用几千年积累下来的丰富经验及现代科学技术所提供的信息基础上的模式进行研究。

1.2.2  复方配伍规律和方证相应研究数据挖掘技术可以在一定程度上发现和认识临床病症与复立组方关系、复方药物的配伍关系、药味之间的相互作用关系等。

1.2.3  中医药信息化研究对以古语言和纯文本为主的中医药理论和实践进行结构化解析是中医药信息化研究的重要内容,其中的某些内容可以通过对文本的数据挖掘来实现。

1.2.4  中医药专家系统研究对中医药专家“只可意会,不可言传”的把握诊治疾病规律的定性描述、模糊概念,采用数据挖掘技术进行多层面智能分析,在一定程度上可将它们以可理解的规则或模式表达出来,从而大大丰富专家系统的知识库。

1.2.5  中医药文献研究数据挖掘技术应用于文献研究可以提高文献研究的水平,提高文献利用的效率,进而能提高中医药科研工作的效率。

2  数据挖掘在中医学术流派研究中的应用

以“中医皮肤科赵炳南学术流派及其传承研究”中的银屑病数据挖掘为例,简要说明挖掘的步骤和挖掘的工具及算法。

2.1  实施数据挖掘的步骤

根据全球首个数据挖掘行业通用的模型标准(CRISP-DM),银屑病数据挖掘过程可分成6个阶段。

2.1.1  理解问题明确和细化研究目标。

2.1.2  理解数据熟悉所采集的有关银屑病数据的类型和存在形式,在此基础上初步进行数据质量鉴定,并建立数据库。

2.1.3  准备数据有关银屑病的数据中存在着大量不完整的、冗余的和不一致的数据。在进行数据挖掘时,首先要对其进行处理。处理过程包括数据抽取、清洗、转换和加载。

2.1.4  建立模型针对研究目标,利用已知的数据和知识建立分析模型,并将该模型有效地应用到未知的数据或相似情况中测试并修正模型,如此反复进行以得到最优模型。

2.1.5  方案评估在模型最后付诸实施以前,彻底地对模型进行评估,再回顾构造该模型的步骤,以确定该模型真正能够达到预定的挖掘目标。

2.1.6  方案实施基于以上5方面的工作,采用相应的数据挖掘工具和算法进行多次反复、多次调整、不断修订完善的数据挖掘。

2.2  数据挖掘的工具和算法

第7篇:数据挖掘技术分析论文范文

【关键词】软件工程 数据挖掘 软件测试

数据挖掘又称为数据采矿或资料勘探,是数据库知识发现(KDD)中的重要组成部分,具体是指利用相关算法搜索隐藏于大量数据中信息的具体过程。近年来,随着科技和经济的不断发展,一种基于软件工程的数据挖掘技术得到了广泛应用。本文通过对比软件工程数据挖掘与传统数据挖掘的区别,并结合软件工程数据挖掘的相关概念,为将软件工程数据挖掘应用到计算机软件测试中提出了合理的意见和建议。

1 软件工程数据挖掘简述

所谓软件工程数据是指软件在开发和测试过程中所存储的各种数据的总和,主要包括软件需求分析文档、软件可行性运行分析文档、软件的设计文档、使用说明以及测试用例、测试结果和用户意见等诸多方面的数据。近年来,随着计算机和信息技术的不断发展,软件工程数据挖掘技术已被广泛应用到计算机软件开发和测试的各项工作中,并促进着信息产业的发展。

2 软件工程数据挖掘与传统数据挖掘的区别

2.1 数据的复杂性

与传统的数据挖掘技术相比,由软件工程数据挖掘技术进行系统分析而得到的数据更具复杂性。软件工程数据除了包含软件版本以及软件报告等方面的信息外,还包含了系统中的代码与注释等非结构化的数据,虽然这两种数据不能以统一的方法进行计算,但在两种数据之间却存在着密切的联系,这就使得通过软件工程数据挖掘技术而得到的系统数据更具复杂性。

2.2 挖掘结果的特殊性

在传统的数据挖掘技术应用到软件测试工作后,其测试结果通常经由报表子系统的处理后,以图形或表格的形式呈现出来。但就软件工程数据挖掘技术而言,其所需要具备的功能不单是为用户提供相关测试结果,其更需要为用户提供符合或结果的相关实例或软件缺陷定位方面的信息。

2.3 挖掘结果的多元化评价

数据信息挖掘结果具有多元化的评价或者相关测试、开发结果的评价难以统一是软件工程数据挖掘区别于传统数据挖掘的另一特点。对于传统的数据挖掘技术而言,对挖掘结果的评价已基本形成了统一的意见和评价标准,但就软件工程数据挖掘而言,由于软件的开发人员和测试人员对数据信息的要求较为具体和严格,数据结果也具有较强的复杂性。因此,挖掘结果的评价方法也较为复杂。

综上所述,如何将软件测试的结果和对测试阶段数据预处理方面的结果进行有效表述已成为当前软件工程数据挖掘技术应用的难点。所以,下文则着重从软件工程数据挖掘在软件测试阶段的应用方法展开了详细分析。

3 软件工程数据挖掘在软件测试阶段应用的研究

3.1 缺陷分派

所谓缺陷分派是指在进行软件测试的过程当中,如发现软件在安装或运行过程中出现缺陷,则将修复缺陷的工作分配给软件维护人员进行维修处理。在进行软件的缺陷分派工作时,软件测试人员需要连同开发人员一起分析使软件产生缺陷的原因,进而对相关缺陷的性质和特征信息进行获取,而缺陷信息报告的数量通常是庞大大,这就增加了缺陷分派工作的难度。此外,由于缺陷报告的撰写工作通常是由非专业人员负责的,其对软件缺陷的描述较为模糊,这又严重增加了缺陷分派工作的不确定性。软件工程数据挖掘在缺陷分派中的应用主要体现在对软件缺陷的自动分派上,其对软件缺陷进行自动分派的核心思想是:以软件编程的相关理论为基础,将缺陷分派看作编程中的一个分类问题,将需要分派的缺陷看作具体类,并将已撰写好的缺陷报告看作是分类文本(分类依据),这便将缺陷分派问题转移到了软件工程中的文本分类问题中。利用软件工程数据挖掘解决缺陷分排问题的具体步骤为:(1)利用可扩展标记语言工具(XML)从缺陷类中获取相关的缺陷报告文本,并从报告文本中选取一部分文本作为训练集,以软件缺陷报告中的文本内容作为具体的训练依据,被制定进行缺陷分派处理的测试人员作为报告文本的分类标签,进而开展相关的缺陷分类工作;(2)充分发挥训练集的作用,并以此为依据训练朴素贝叶斯分类器(基于贝叶斯定理的简单概率分类器);(3)以训练好的分类器作为依据,将无分类标记的缺陷报告进行分类。通过软件工程数据挖掘对软件缺陷分类的一系列处理措施可知,软件工程数据挖掘的应用在指明缺陷类别的同时,也有效提高了缺陷分派的工作效率。

3.2 缺陷重述

软件测试过程中缺陷分派工作的有效开展需要以相关的缺陷信息作为数据保障,而缺陷信息的自动获取工作则需以缺陷重述作为其理论和实践的双重依据。在缺陷报告的改进方面,软件工程数据挖掘可以利用Ccured(记忆型系统翻译程序)对应用程序进行预设。通过在缺陷的每一个逻辑语句和缺陷语句前加一句判定,进而将此次赋值进行记录并判断其是否为零。如果将软件的完整缺陷报告发送给测试者,由于软件和报告的规模较大,则很容易导致缺陷分类具有较强的模糊性。因此,软件工程数据挖掘要求对缺陷记录点依照概率p进行取样,通过这种方法,即便缺陷报告不存在其主体,测试结果也可以显示出相关缺陷的信息,从而为缺陷分派工作的进行打下良好的基础。

4 结论

本文通过对软件工程数据挖掘技术的定义进行阐述,并结合就软件数据挖掘技术的相关特点,对将其应用到软件测试过程中缺陷分派和缺陷重述的方法展开了详细分析。可见,未来加强软件工程数据挖掘在软件测试方面的应用,对于提高软件性能、促进电子计算机产业的发展具有重要的历史作用和现实意义。

参考文献

[1]鄢萌.基于概率潜在语义分析的软件变更分类研究[D].重庆大学,2013.

[2]雷蕾.关于数据挖掘技术在软件工程中的应用综述[J].电子测试,2014,02(12):128-129.

[3]罗韬,罗峰.数据挖掘在软件工程领域中的应用浅析[J].电子技术与软件工程,2014,01(09):222.

第8篇:数据挖掘技术分析论文范文

[关键词]数据挖掘技术;软件工程;数据预处理

[引言]随着我国信息技术的进步,数据挖掘技术得到广泛应用,在软件工程中需要对数据信息进行搜集、分类与整理,通过数据挖掘技术的应用可以有效提高工作效率,推动软件工程的有序发展。我国对数据挖掘技术的应用与研究虽然处于初级阶段,但通过不断的经验积累也能够发挥技术的更多价值。

1数据挖掘技术概述

数据挖掘技术指的是在信息技术发展背景下,对信息数据展开处理的技术。与过去的信息处理技术相比,数据挖掘技术功能更加强大,可以应用在各个领域,无论是数据处理、数据转换还是数据分析,都能够完成相互之间的联系,并对数据进行最终评估。将数据挖掘技术应用在软件工程中,能够提高企业处理信息数据的效率,避免操作失误,保护企业数据准确[1]。

2数据挖掘技术在软件工程中的重要性分析

2.1高效整合多样化信息数据

由于数据挖掘技术的功能比较多,其中包含了传统处理技术的功能,实现多样化信息的收集与分类,并将数据按照类别存储与整理。数据挖掘技术可以在多样化数据中实现数据的系统化管理,为人们进行数据查阅工作带来方便。在软件工程中应用该技术,方便信息数据的高效整合,帮助企业全方位了解信息与数据[2]。

2.2保证信息数据的准确率

数据挖掘技术拥有强大数据运算功能,以往的数据信息系统运算数据时需要耗费大量时间与成本。如果信息数据体系庞大,系统运算时会面临瘫痪问题。在软件工程中,一旦系统发生瘫痪,系统将无法正常使用,数据也会受到破坏。应用数据挖掘技术之后可以有效解决以上问题,实现系统的优化,使系统可以在最短时间内处理数据,防止信息数据发生丢失现象,提高数据处理的时效性。面对大量的信息数据,有的数据得不到利用,但长期处于系统中会影响系统运行效率,应用数据挖掘技术可以将无价值的数据剔除,留下有用的信息数据,保证系统的运行效率和数据质量。

2.3缩短信息数据处理时间

在软件工程中应用数据挖掘技术可以分类处理杂乱无章的数据,实现数据的转换与调用。对数据进行深入挖掘处理时也可以应用数据挖掘技术进行数据的分类,并对模糊数据及时清理,提高系统内现存数据的实用价值。人们获取到的信息数据需要进行反复核对,以此保证数据真实性,通过数据挖掘技术的应用减少时间浪费,提高数据核对效率。

3数据挖掘技术在软件工程中的应用分析

3.1系统结构

数据挖掘技术应用流程主要分为三个阶段:数据预处理、数据挖掘、模式评估与知识表示。在数据预处理阶段中,高效得到原始数据的根本原因在于确定任务处理对象,得到符合软件工程需求的数据。通过数据清洗弥补原始数据存在的缺陷,确保数据的完整性。数据抽取需要从数据库中选择与软件工程任务相符合的信息。数据转换需要将数据格式加以转化,实现数据的适用性。在数据挖掘中需要制定一定的挖掘任务,通过对数据的分类与评价总结,合理应用运算方法进行数据推敲。在模式评估与知识表示中,其实际用途在于挖掘成功的表达,将兴趣度作为衡量标准,提高数据表达的识别能力。

针对软件工程中数据挖掘技术的优化应用,可以从系统结构方面入手,具体如下:(1)检测软件工程中的克隆代码。以软件工程为标准,将一部分代码复制,结合实际情况更改一部分代码,并对这些代码进行检测,代码检测与更改可以同时进行,能有效提高检测效率,实现系统的维护工作。当前应用数据挖掘技术进行克隆代码检测的方式一共有四种,具体为比较标识符、对比文本、检测系统程序结构与度量圈。在实际操作中,要求人们结合实际情况选择相应的克隆代码检测方法。(2)数据信息挖掘法。这是以横切关注点为主的挖掘方法,在软件工程中应用该方法可以改造系统,对数据信息达到良好的处理效果[3]。

3.2软件管理

为了让数据挖掘技术更好地应用在软件工程中,需要从软件管理角度入手,采用以下两方面举措。一方面,深入挖掘数据的组织关系,另一方面,挖掘版本控制信息。软件工程系统比较繁琐,挖掘组织关系时较为困难,人们需要合理调配各项信息,以此作为挖掘的依据。如果以软件工程管理流程作为主题,对电子邮件与共享文件展开组织关系挖掘,可以有效避免系统流程发生混乱,保护软件管理的秩序。当信息数据发生变化时,应用数据挖掘技术进行软件管理,将版本控制作为重要依据,将数据挖掘技术与版本控制相联系,降低系统运行成本,并达到警示的效果,提高软件工程的管理水平。

3.3软件开发

在软件工程初期阶段,人们将数据挖掘技术看成数据库,随着技术的发展,软件工程发展到现实应用,系统和现实共同发展。软件工程将各项指标与要求紧密结合,研发出最新产品,以往的软件工程中软件开发十分困难,而如今应用数据挖掘技术,可以将其与数据库相融合,发挥数据库内信息的最大价值,有效推动软件开发的进步。不仅如此,软件工程可以对信息进行更深层次的挖掘,充分发挥软件工程的价值,利用数据挖掘技术实现数据的更新,保证软件开发质量,优化软件操作流程。在技术的支持下,人们可以合理划分软件内部,方便及时发现问题,并展开积极有效的问题处理。利用数据挖掘技术可以进行网站设计,对网站内容进行挖掘,特别是对文本内容的挖掘,随后整合网站信息,通过自动归类技术实现信息的层次性组织。在软件或网站管理中,应用数据挖掘技术可以根据用户对网站的访问记录,进行记录信息挖掘,从中了解用户对该网站内容的兴趣,进而对用户提供信息推送服务和定制服务,以此吸引更多用户访问该网站。

在软件开发阶段,可以使用DataAnalytics轻量级业务数据可视化分析平台,这是数据挖掘技术的一项成果。该平台能够实现异构数据源的高效整合,可以兼容各种数据源类型,支持海量数据。可接入Excel/CSV等数据文件、企业各种业务系统、第三方互联网数据、公共数据服务平台等来源,轻松整合所有相关业务数据,帮助企业消灭数据孤岛。企业利用该平台可以完成数据的深度交互分析,DataAnalytics基于探索式分析,支持智能推荐图形与图表,二者可以协同过滤,帮助用户快速定位,通过数据挖掘找出问题,以拖拽式操作方法解决问题。

3.4聚类

在数据挖掘技术中聚类指的是对各个环节数据加以分析,结合软件工程的具体要求实现数据细化,以类型细化作为基础,为原始数据类型做出保障。通过聚类可以让同种类型数据具有相似性特点,在存在相似性的同时,也存在一定的差异,突出各自的特点。应用数据挖掘技术实现聚类划分时,面对的对象无法预测,与其他算法相比,聚类拥有更加广泛的应用范围,进行数据分析时更加独特,挖掘信息数据时可以确保检测结果的有效性与真实性。

4结论

总而言之,随着信息技术的深入发展,人们已经步入信息时代,数据挖掘技术也成为对信息数据展开处理和存储的有效方式。在软件工程中应用数据挖掘技术,有利于提高软件开发效率,提升软件管理质量,加强数据挖掘力度,使数据挖掘技术发挥巨大效果,人们可以应用数据挖掘技术完成数据的聚类和网站设计,为人们的生活带来便利。

[软件工程硕士论文参考文献]

[1]张立鉴.数据挖掘技术在软件工程中的应用研究[J].网络安全技术与应用,2019(6):47-48.

[2]王祥顺.数据挖掘技术在软件工程中的实践与探索[J].电脑编程技巧与维护,2019(4):82-83+100.

第9篇:数据挖掘技术分析论文范文

[关键词]财务数据;非财务数据;数据挖掘技术;瓶颈

[DOI]10.13939/ki.zgsc.2016.05.112

1 引 言

随着经济和社会的发展,传统的财务已经不能满足当今管理的需要。财务会计和财务管理等分支应需求而生,财务包含的内容增加的同时,财务信息内容划分标准依据也在改变。掌控全部信息对时间和精力有限的决策者来说是不可能的,主要看重的是及时有效地根据尽可能简洁的财务信息作出决策,提高经济效益。计算机具备储存容量大,计算功能强大的特点,结束了会计手工记账的年代。在如今,计算机几乎被用在所有的领域,财务也包括在其中,并且也起到了不小的功用。数据挖能从大量的数据中挖掘隐藏的信息,有力地支持管理者的决策,还可以建立企业财务风险预警模型,时时监测企业的财务状况,避免危机发生造成巨大损失,这一技术出现能否全面地解决上述的问题?对于其他方面,相关的研究就比较少,本文就是针对这些未涉及或研究尚浅的领域进行研究,完善这些方面的研究。

2 数据挖掘技术运用的意义

数据挖掘是指一种从大型数据库或数据仓库中提取隐藏的预测性信息的新技术,基本的技术有大类:分类和预测、聚类,还有其他由之组合而成的模型。在金融行业、保险行业等方面运用非常广泛,但目前对于财务领域涉入的并不多。大数据的时代背景下,对于生成和使用财务信息的不同人群,数据挖掘技术都有一定的意义。比如,运用XBRL等技术可以大幅缩短一般财务人员处理众多且繁杂的信息录入的时间;数据挖掘技术的运用结果多样化呈现出来,让使用者一目了然;相对要获得同样多和同质量的信息,数据挖掘技术的成本更低,速度和效率也是和传统的人工作业模式所不能比较的。数据挖掘得越深,越能帮助企业认识存在的问题,调整企业的战略,使企业能够进一步实现可持续发展的目标。

3 数据挖掘技术的运用

财务信息来源广,形式多样,数据量巨大。文章将所有信息以数据为口径,划分为财务数据和非财务数据,依据数据集中程度地方的不同,最终定位为表内和表外数据,表内数据多限制在报表的范围。表外数据信息的形式复杂,主要紧紧围绕价值运动和增值过程中的方面进行阐述。

3.1 表内数据挖掘

3.1.1 财务报表分析

表内数据的时期一般较短,大多只能反映一个时点或一段时间的数据,深入分析才能得出微小的战略方案,大多都是显示财务活动、投资活动、经营活动和分配活动。传统的财务分析方法仅仅对于少量的财务数据进行分析,且不具有直接可比性。无法反映企业潜在的、深层次的信息。这一类的数据挖掘通常都带有目的性,借助财务报表分析演示数据挖掘大体的过程,以下的其他挖掘技术运用也都是在此基础上得以进行的。

(1)数据的获取。数据虽然大量,但却不一定都是所需要的,也做不到分析全部的数据。在数据的获取阶段要获取数据子集,最重要的是切勿大海捞针,根据企业进行此次分析所想达到的目的来挑选数据。尽量做到数据具有代表性和逻辑性。

(2)数据的筛选。获取的数据很可能会有特别数据,这些数据的存在对结果分析产生噪声,影响整体性,不能立刻投入分析之中。在这个阶段,通常采用OLAP(联机分析处理)技术通过切块功能、运用传统的财务分析建立数据库,运用偏差检测将异常数据剔除。

(3)建立分析模型。在建立好数据库的基础上,利用数据挖掘中的聚类、关联规则、决策树方法层层深入来分析企业的财务状况。侧重领域不同,数据挖掘的方法也不同,不存在适用于所有方面的方法,也没有一种方法是最好和最全面的。很多时候分析涉及多种方法共同使用。稳妥的做法是选用变量时,选择与被分析目标最相关的变量,范围尽量广或选择显著性最高的数值。

(4)分析结果。运用专业的知识将结果与预定的目标相对应,两者一致则大体上达预期,稍许调整一致后,即可制定具体的实施方案。若不一致则重新来过,先要重新检查数据和模型是否有误,在确保正确的情况下才能对实际进行调整。

3.1.2 挖掘潜在的信息

上述分析都是针对已有或是确定目标的信息进行常规挖掘,此外还可以透过表面进行更深层的潜在信息分析,主要运用体现在财务预警上。财务预警分析方法的创新并没有跟上时代的万千变化,最主要的方法还是数据挖掘技术。早前的财务危机预警判别模型主要是利用单个财务指标来判别,接着步入多元线性判别模型,后来统计学方法也运用进来。在提高预测准确性方面可以运用神经网络处理,相较传统的方法,数据的质量要求可以相对较低且准确性提高。遗传算法、决策树理论、专家系统、粗集理论决策理论多元化的运用构建财务风险预警模型。

3.2 表外数据挖掘

非财务数据是经济活动过程中价值运动和增值过程非货币记录的信息。随着竞争加剧,表外信息越来越被人们关注。其涉及的内容繁杂,无法进行准确的计量,会计准则也没有强行要求披露。因为非财务数据侧重研究对决策的作用,而管理会计的使用者也多为管理层,故非财务数据多借用管理会计中的内容。文章选取四个方面结合数据挖掘进行分析。

3.2.1 作业成本和预测分析

作业成本法对所有作业活动进行追踪地动态反应,成本实施精确计算,来使资源得到充分利用。因其优势引起了人们的极大兴趣,但要建立动态的检查体系,复杂的操作问题让管理者可望而不可即。作业成本法是根据资源的耗用关系进行成本的分配,新的成本观下,不同的目的决定了不同的产品成本内容。利用数据挖掘中的回归分析、分类分析等方法确定成本动因,精确成本。利用关联方法划分增值作业和非增值作业,重点关注那些增值业务,非增值业务选择性关注,改进和优化价值链,促进企业的增值。

预测分析的作用处理用来预测生产数量外,还可以用来检测预测方法是否正确。当预测量和实际销量相差不多时,说明预测方法准确。反之,则要历史数据,检查预测方法出现的问题并加以改进。

3.2.2 产品和市场分析

充分了解产品的周期和市场的状况,有助于企业做出相应的决策。产品生命周期要经历四个时期:导入期、成长期、成熟期和衰退期。这四个时期的变化是有迹可循的,各个时期的特征明显。采用的战略也不一样。在市场方面,企业也要了解一种产品是如何影响另一种产品的销量。两类产品之间的替代品还是互补品,在销售时如何搭配才可以产生最大的效益。

3.2.3 员工满意度分析

每一个企业运作的核心都是人,人是企业价值的创造者,对环境能感觉、感知。反过来,环境也会影响人的心性,从而影响到工作的效率,进而反映到企业的价值上。在企业环境中如何使用数据挖掘技术让多员工满意环境,更加努力工作是很值得探究的。数据挖掘可以根据企业的不同设计不同的积分卡,辅助重要性不同的权数(因此不同层面的员工关注点不一致),在会议上或者宣传栏员工进行满意调查。对得分低的内容进行逐一分解,找到真正的原因所在,制定相关的措施,提高员工的满意度,进而营造良好的氛围甚至是形成企业文化。

3.2.4 顾客关系管理

“顾客就是上帝”,是企业创造利润的来源。管理好与顾客关系有利于企业竞争。一方面,可以对消费者的购买行为进行记录和分类。通过数据仓库的分类和聚类分析,对顾客进行分组并给予不同程度的关注;另一方面,根据验证,获得一位新顾客的成本是维持一位老顾客的三倍。将消费者的消费金额进行管理,把消费数额高的和有潜力进行消费的顾客挖掘出来。对顾客进行全面系统的跟踪,为顾客制定不同的销售组合和提供良好的售后服务。利用时间序列分析模型和联机分析处理技术分析顾客的信用等级,对于信用等级低的顾客进行一定的放弃。

4 可能遇到的瓶颈

4.1 数据的来源

数据的所有分析都是基于数据来进行的,数据可以说是最重要的要素了。许多问题不是技术没有跟上,而是无法获得准确的信息。财务数据因大多在企业内部流通,获得和差错检查都较好进行。非财务数据的获得就困难了,企业自身可能存在收集不齐全或是数据量不够大的问题。企业外部的非财务数据获取就难上加难,遇到警惕性较高的企业,很可能会故意放出虚假的信息,依照这样的数据进行分析出来的结果肯定是会让企业蒙受损失。

4.2 数据样本的选择

进行全样本分析的花费大,耗时长。且分析的目的单一,不需要进行全样本的分析。非财务数据的获取有时也是涉及过广,还会有特殊个别样本,这就是数据样本的选择问题。

4.3 技术和需求的发展

数据挖掘技术是技术发展到一定时期的产物,必须是技术发展成熟后使用,其对象是真实的大型数据库或数据仓库。这就要求数据必须是真实、可靠的,是实际意义上的发现。数据挖掘非常清晰地界定了它所能解决问题,如果企业的需求已不仅限制在这个范围,数据挖掘技术可能会实施不下去。并且如今的中国信息化没有达到较高的水平,企业对决策分析的迫切性不强,数据挖掘技术如何调整自身跟上企业的需求不可逃避。

5 结 论

财务报表内外涉及的范围广,虚假信息的存在一直阻碍着财务发挥决策应有的作用。数据挖掘技术针对数据的特征为企业信息的技术运用搭建了平台,在财务数据部分,财务报表结合数据挖掘技术的过程进行分析。对报表造假的原因进行剖析,引入挖掘技术。对现有的数据进行分析。针对未来投资者关注的风险问题建立财务预警模式,为企业安全再添助力。作业成本和预测分析、产品和市场分析、员工满意度分析和顾客关系管理等非财务数据追踪综合分析和积分卡中各种挖掘技术做保障。但数据挖掘技术的发展并不发达,企业警惕性提高,决策中数据挖掘技术的成果比例不大,这些问题的提出使数据挖掘技术难于实现突破。

参考文献: