前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的数据挖掘总结主题范文,仅供参考,欢迎阅读并收藏。
数据挖掘技术在商品销售领域得到了越来越广泛的应用。商品销售者不仅明白搜集顾客数据的重要性,而且意识到真正的目的在于能够针对顾客提出科学的、前瞻性的商品销售方案。数据挖掘技术能有效地帮助商品销售工作者透过表面上无关联的顾客层数据,发现数据之间的内在有意义的联系,从而不仅能对顾客需求做出及时反应,还能对顾客需求进行有效的预测。
一、数据挖掘的基本原理
数据挖掘就是利用数学模型、统计和人工智能技术等方法,把一些高深、复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,因而可专注于自己所要解决的问题。数据挖掘按其功能可分为:描述性数据挖掘方法和预测性数据挖掘方法。
1描述性数据挖掘
在取得大量的数据之后,首先要对数据进行总结,也即数据的泛化;在泛化的基础上再对数据进行高层次的处理,包括数据的聚集、关联分析等。
(1)数据总结:数据总结的目的是对数据进行浓缩,给出它们的紧凑描述。数据泛化是一种将数据库中的有关数据从低层次抽象到高层次的过程。
(2)聚集:聚集的目的是要尽量缩小属于同一类别的个体之间的距离,而尽可能扩大不同类别个体间的距离。层次法、密度法、网格法、神经元网络和K-均值是比较常用的聚集算法。
(3)关联分析:关联分析是寻找数据的相关性。关联规则是寻找在同一个事件中出现的不同项的相关性,其核心是使用Apriori算法,找出事物的相应支持度和置信度,最后找到相应的关联规则。
2预测型数据挖掘
在预言模型中,把我们要预测的值或所属类别称为响应变量、依赖变量或目标变量;用于预测的输入变量是预测变量或独立变量。主要通过分类、回归分析、时间序列来建立预测模型。
二、商品销售领域数据挖掘的依据
在商品销售领域采用数据挖掘是商品销售发展到一定阶段的必然要求,它有助于提高商品销售效率,降低商品销售成本。其理论依据有消费者消费行为、细分市场理论、顾客关系、顾客数据库和直接商品销售。
在制定商品销售计划之前,商品销售者需要研究消费者市场和消费者行为。在分析消费者市场时,公司需要了解市场情况,购买对象,购买目的等因素。通过搜集顾客消费数据,采用数据挖掘技术,可以简洁、明了地得到这些信息。
三、商品销售中的数据挖掘过程
1商品销售目标理解
在进行数据挖掘之前,必须从商品销售角度去分析要达到的目标和需求,也即要分析什么商品销售问题,达到什么商品销售目标。首先对商品销售现状进行分析,找出存在的问题,并确定需要实现的营销目标,再将商品销售目标转换成数据挖掘目标,然后将这种知识转换成一种数据挖掘的问题定义,并设计一个达到目标的初步计划。
2数据理解
先搜集初步的数据,然后进行熟悉数据的各种活动,包括识别数据的质量问题,找到对数据的基本观察,或假设隐含的信息来检测感兴趣的数据子集。
3数据准备
首先进行数据抽样,从大量数据中筛选出一些相关的样板数据子集。通过对数据样本的精选,不仅能减少数据处理量,节省系统资源,使数据更加具有规律性。然后,进行数据探索,通常是所进行的对数据深入调查的过程,从样本数据集中找出规律和趋势,用聚类分析法区分类别,最终要达到的目的就是搞清多因素相互影响的复杂关系,发现因素之间的相关性。最后,需要对数据进行调整,通过上述两个步骤的操作,对数据的状态和趋势有了进一步的了解,这时要尽可能对解决问题的要求进行明确化和进一步的量化。
4建模
这一步是数据挖掘的核心环节。在建模阶段,可以选择和应用各种建模技术,并将其参数校正到优化值。通常,对同一个数据挖掘问题类型有几种可选用的技术。
本课的教学对象为七年级学生,这个年龄段的学生自主和独立意识较强,具备一定的信息搜集、处理、表达能力,喜欢在学习的过程中体验和理解事物,但分析思考问题缺乏深度。在日常学习、生活中,学生经常要对数据做搜集、整理、运算、统计和分析工作,但他们的认知大多只停留在表层,仅学会了数据加工的一些基本操作,缺乏从数据挖掘角度分析数据的意识,更不会运用统计学方法寻找蕴藏在数据之中的规律,借助它解决学习和生活中的实际问题。
学习内容分析
本课是苏科版七年级初中信息技术第三章第3节的内容,主要包括“数据挖掘的作用”和“数据挖掘的过程”两个部分,可深入细分为“什么是数据挖掘”“数据准备”“数据挖掘”“规律表示”四个内容。教学中,为了让学生深刻体会数据挖掘的意义和价值,教师应鼓励他们对数据进行多角度加工与分析,找到规律或有用的信息,用恰当的方式直观地表达出来,学会搜集、分析身边的数据,用数据说话,让数据挖掘更好地服务于生活与学习。
教学目标
知识与技能目标:理解数据挖掘的概念,体会数据挖掘的作用。
过程与方法目标:尝试进行数据挖掘,经历数据挖掘的一般过程。
情感态度与价值观目标:树立用数据说话、用数据指导生活的思想意识。
教学重难点
重点:数据挖掘的概念及数据挖掘的一般过程。
难点:数据准备及挖掘的过程。
教学策略
数据挖掘是一种强大的分析数据的方法,因涉及到专业软件和统计学术语、数学模型等,会让学生难以理解。而日常使用的WPS表格,作为数据挖掘的有效工具,可以让学生在分析具体数据的过程中,掌握数据挖掘的方法。因此,本节课教学应让学生从已有经验出发,运用WPS表格中的简单工具,学习数据挖掘的一般方法。
“数据挖掘”对学生而言,是一个全新的概念,概念的建构需要一步步地不断累积,从表层到内涵,逐步深化。学生只有在了解了“数据挖掘”的基本含义,并尝试挖掘的基础上,才能体会其作用和意义。所以,笔者设计了层层递进的学习活动(情境再现,感受数据挖掘―案例研习,认识数据挖掘―比较空气质量,尝试数据挖掘―同比空气质量,再探数据挖掘―畅想未来,展望数据挖掘),并且在活动中适时搭建学习所需的“支架”,来帮助学生完成知识的建构。笔者通过一系列的活动,让学生在做中学,在学中思,在思中用,在情境化的技术活动中,归纳出数据挖掘的方法,从而树立用数据说话、用数据指导生活的思想意识。
教学过程
1.情境再现,感受数据挖掘
活动1:情境再现,感受数据挖掘。
①猜一猜:不同的人群浏览同一个网页时,所看到的内容是否一致。
②观察凤凰网的广告区域截图,在组内交流(如下页图1,不同人群浏览的同一网页,推送的广告不同)。
③京东为什么能够根据个人喜好推送商品?
小结:京东在挖掘和分析用户浏览行为的基础上,进行定向产品推广。
设计意图:思维总是由问题开始的,激发问题,能让学生积极主动地参与到学习活动中。以京东广告推送功能来设置情境,把两种不同的浏览行为对照比较,设置悬念,第一时间抓住学生,激发学生学习新知识、新技术的渴望。
2.案例研习,认识数据挖掘
活动2:学生观看视频,并思考、总结。
①安保为什么使用热力图(如图2)?(对百度的定位数据、搜索数据进行挖掘,把握人群密集点动态趋势,帮助警方提前疏导、化解安全风险)
②百度大数据对旅游有什么作用(如图3)?(对用户搜索数据深入挖掘,预测热门旅游景点)
③导航是如何规划路径的(如图4)?(对道路环境、天气情况、特征日等数据进行挖掘和分析,得出每条道路在不同环境或不同时间的路况规律,确定最优的交通路线)
师生对数据进行分析、总结(如表1)。
小结:数据挖掘是指从大量数据中寻找其规律的技术。数据挖掘的目的主要有三个:把握趋势、预测和求最优解。
设计意图:选取日常生活中运用数据挖掘的三个典型事例视频――热力图、旅游预测、导航,借助半成品表格作为输出支架,归纳出数据挖掘的概念和数据挖掘的三个目的。体会挖掘数据价值性的同时,认识数据加工的重要性,为数据挖掘的学习做好铺垫。
3.比较空气质量,尝试数据挖掘
师:图5中空气质量预报实现了数据挖掘的哪一种目标?(把握趋势)盐城市空气质量如何?借助熟悉的WPS表格工具,尝试挖掘空气质量状况。
活动3:比较盐城、秦州、淮安等周边城市空气质量状况。
①登录中国空气质量在线监测分析平台(http:///historydata/),建立盐城周边三市空气质量状况工作表(如图6)。
影响空气质量的因素很多,AQI指数是衡量空气质量的重要指标。
教师演示:浏览数据,提取数据,组成工作表(如图7)。
②计算各市4月份空气质量指数AQI的平均数。(提示:AVERAGE公式使用方法以及自动填充柄的使用)
③比较4月份空气质量状况。(结论:质量指数平均值大小依次是盐城、秦州、淮安)
师:根据质量指数,利用函数工具计算平均数,得出空气质量状况,其实就是数据的挖掘。数据挖掘的一般过程如图8所示。
设计意图:从全国空气质量在线监测分析平台搜集数据,选择WPS函数工具挖掘数据,并对挖掘结果加以解释,来建构数据挖掘的一般过程。在尝试数据挖掘的过程中,学会运用计算思维解决问题,借助流程图总结挖掘过程,有助于学生从整体上把握知识,进一步促进认知体系的构建。
4.同比空气质量,再探数据挖掘
师:通过挖掘比较,我们得出盐城市4月份空气质量在周边城市当中最好,各市以前的空气质量状况如何?
活动4:比较各市2014年、2015年空气质量数据,说明哪一年空气质量更好(如图9)。
①在选定城市后,思考如何同比质量。
②选取函数或图表工具,完成挖掘。
③规律表示。
④从“我的数据分析报告”中的各组中任选城市,从“2014年数据、2015年数据”工作表中,选取数据到“同比空气质量”进行分析(如下页表2)。
小组汇报挖掘过程和得出的结论,形成对数据挖掘的新认识。
小结:用平均数比较,各市两年的数据基本相同,但是合格月份数不一定相同,同比AQI低的月份数也不相同。学生同比之后发现,2015年空气质量好于2014年。
设计意图:学生借助分析报告,以分组合作的形式,再次经历挖掘数据的过程,找到规律或有用的信息,加深对挖掘过程的理解。鼓励学生对数据进行多角度的加工与分析,选择合适的工具进行挖掘,体现了多元化的思想。
5.畅想未来,展望数据挖掘
观看视频(如上页图10,图10中左图为京东慧眼的视频截图,右图为基因测序的视频截图),想象:数据挖掘技术的广泛应用,对生活会产生怎样的影响?
如今,数据挖掘改变了传统的生活模式,未来将会产生更加深远的影响。因此,我们应学会搜集、分析身边的数据,用数据说话,挖掘数据创造出更智慧的生活方式。
设计意图:通过视频播放,让学生深度感受“数据挖掘”与生活息息相关,挖掘数据将给人们生活带来的改变,培养学生搜集、分析身边的数据,用数据说话的意识。
点 评
如今,数据挖掘已被广泛应用在各个领域。什么是数据挖掘?顾名思义就是从庞大的数据中挖掘宝藏(信息、知识、见解等)的方法和过程。显然,对于初学者而言,这是一个全新的概念,仅靠上述说明难以理解它的含义。在传统教学中,教师往往让学生背诵记忆这些内容,学生并没有形成概念的深层理解。为此,董老师从理解数据挖掘出发,选取数据挖掘的三个典型事例――热力图、旅游预测、导航,精心组织学习活动,在半成品表格的引导下,归纳出数据挖掘的三个目的――把握趋势、预测和求最优解,体会挖掘数据的价值,进而概括出数据挖掘的概念。
关键词:云计算概述;数据挖掘;平台架构
中图分类号:TP311.13
随着经济的发展和科技的进步,手机、电脑在中国随处可见,互联网甚至是移动互联网融入了人们的日常生活,互联网中无法估量的大量数据不断增长,愈演愈烈,面对着海一般的数据信息,人们不能准确的找到自己想要的数据,像手机APP,手游等移动互联网产品,每天都承载着非常多的数据,对运营商而言,如何进行数据分析以及数据挖掘成为一个亟待解决的难题。
较于传统数据处理系统,云计算系统的出现让人眼前一亮,基于云的数据挖掘平台的建构为数据挖掘开辟了一条新路,云计算提供一个虚拟的平台,用户可以在任何地区运用任何终端选择自己想要的数据,而大规模的数据本身就存在一些问题,数据挖掘存在难度,本文就云计算的数据挖掘进行具体的分析如下:
1 云计算概述
一直以来云计算都没有一个统一明确的定义,根据多数人对云计算的定义,总结出以下两方面:(1)云计算通俗一点说就是一个资源盘,其拥有数以万计的可用虚拟资源,有些虚拟资源拥有不同的负载量,云计算的优势就是可用将这些负载量不同的资源进行新的合理分配;(2)就用户而言云计算的服务是方便简单的,且透明化,用户的最终目的是在云计算中获取想要的数据和服务,用户不用在意云计算本身的运行机制,然而云计算的系统也是存在隐患的,如果一个规模庞大的计算机群在运作的过程中仍然不间断的增加计算机的数量,那么云计算系统可能会出错甚至系统崩溃,可见单纯依靠硬件设施是不可取的,此时需要可靠的软件发挥作用,需使用冗余和分布式存储的方式,云计算系统另一个优势就是拥有自我检测系统模式,该模式在不影响正常运行的情况下,可以检测出无效节点并进行删除,总之,云计算系统数据多、存储能力强、计算能力快且准确率高,给用户带来高效、优质的服务。
经过一直以来对云计算的研究总结其特点有五个方面,分别是虚拟化、通用性、扩展性强且规模大、可靠性高、经济性好等特点,具体来说就是云计算不是个实物,是个虚拟的拥有海量数据的平台,用户可以在世界的任何位置通过任何终端获取想要的数据信息和服务;云计算没有局限性,在云计算下可以构建出不同的应用,而且这些应用可同时运行;在不影响用户正常使用的情况下,云计算是可以扩展的,而且是动态扩展,现今最多可扩展几十万台电脑,整个扩展过程用户是可以看到的,是对外的;为了保证服务的质量和可靠性,云计算运用了多种方法如多副本容错和多计算节点同构可互换等;云计算由于自身的优势运用大量廉价节点构成云,采用自动化集中式管理机制,解决企业高昂的数据中心成本,较于传统系统云计算系统成本较低。
2 数据挖掘的方式
数据挖掘是一个循环反复、不断调整和修改的过程,这个过程漫长且复杂。从数据预处理到数据挖掘再到评估和表示这是数据挖掘的整个过程,数据挖掘的过程中方法很多,归纳如下:(1)广义知识挖掘,广义知识被挖掘出来后,与可视化技术相结合,用户可以直观的通过图表形式来了解;(2)关联知识挖掘;(3)类知识挖掘,分分类和聚类两种。决策树、神经网络、贝叶斯分类、支持向量机、遗传算法与进化理论、粗糙集、关联分类、类比学习、模糊集等为分类法。聚类法包括五种,分别是基于划分、密度、层次、模型及网格的不同方法;(4)预测型知识挖掘,包括一些方法和技术,方法有经典的统计方法,技术包括神经网络和机器学习技术;(5)特异型知识挖掘,所谓特异型指特殊的背离常规的异常规律。包括三个类别,分别是孤立点分析、序列异常分析和特异规则发现;(6)自定义数据挖掘算法。
数据挖掘的过程以及方法可以通过图1直观的了解。
3 基于云的数据挖掘平台架构
针对传统数据挖掘平台而言,云计算的产生对其影响很大,云计算的分布式存储和计算使数据挖掘开始变革,数据挖掘云服务只有基于云计算平台才能得以实现,其设计思想是分层设计,思路是面向组件设计,整个平台自下向上分为三层,最下面一层也是最基础的一层是云计算支撑平台层,再往上一层是数据挖掘能力层,最顶层是数据挖掘云服务层。
云计算支撑平台层的功能主要是提供数据的分布式存储和计算,最底层构建可以以企业自主研发的云计算平台为基础 ,也可以以第三方提供的云计算平台为基础。
数据挖掘能力层的能力有算法服务管理、调度引起、数据并行处理框架等,这些都是基础能力,数据挖掘能力层支撑着它的上一层(数据挖掘云服务层)。这层不但支持内部数据挖掘算法和推荐算法库,对于外在的第三方数据挖掘算数法也可以接入。
最顶层数据挖掘云服务层的主要功能是为外在企业和个人提供数据挖掘云服务,其涵盖多种多样的服务能力封装的接口形式,例如针对于简单对象的访问协议简称SOAP的XML等,本地应用程序编程接口也是其形式之一,基于结构化查询语言语句的访问在数据挖掘云服务层也是支持的,同时此层还提供解析引擎和自动调用云服务。
总之,基于云计算的数据挖掘平台从很多方面是优于传统数据挖掘平台的,如大规模数据处理能力、数据动态扩展能力以及低廉的云服务和成本等。
4 云计算关键技术
如今大量数据挖掘最直接有效的方法是分布式计算方法,这个方法包括两部分一部分是分布式数据存储,一部分是分布式并行计算,现在的云计算平台已经涵盖了这两部分的能力,这两部分是云计算数据挖掘平台的核心支撑能力,GFS、KFS、HDFS等三种分布式文件系统是目前比较受欢迎的分布式文件系统,Google公司的分布式文件系统理论是三者的理论基础,KFS、HDFS两种分布式文件系统多被用于商业和学术领域。
分布式并行计算框架在分布式计算方法中非常重要,其在计算过程中封装了一些技术细节,如任务调度、任务容错等,这样便捷了用户,用户只要把握好任务间的逻辑关系,不必注意这些技术细节,目前较为广泛应用的分布式计算框架有并行计算框架Mapreduce和迭代处理计算框架Pregel这两者都由谷歌公司提出,还有微软公司研发的Dryad。
5 结束语
随着互联网和移动互联网时代的到来,海量复杂的数据处理与数据挖掘困扰着各大运营商,与传统数据系统相比,云计算优势明显,强大动态扩展能力、独特的分布式存储和计算方法、以及低廉的成本优势吸引了越来越多企业和个人,基于云的数据挖掘平台,企业和运行商都因此减少了数据挖掘方面的资金投入,对这些企业来说无疑是减小了生产成本。
参考文献:
[1]丁岩,杨庆平,钱煜明.基于云计算的数据挖掘平台架构及其关键技术研究[J].中兴通讯技术,2013(01).
关键词:烟草行业;质量管理;数据挖掘
烟草行业在我国市场经济发展中迅速壮大起来,同时行业间的竞争也越来越激烈,如何在激烈的竞争中占据主动是广大烟草企业领导者关心的问题。加强质量管理,提高烟草产品质量,在很大程度上能够提升企业竞争力。采用数据挖掘技术,利用大数据对行业发展规律进行分析,对质量管理过程进行有效地监测,提高企业质量管理的水平,促进烟草企业持续发展。
一、数据挖掘技术概述
所谓的数据挖掘技术,就是从大量模糊的数据中,将其隐含的具有价值的信息提炼出来,在一定程度上与数据库、数据融合等概念具有相似性。基于挖掘任务的视角出发,数据挖掘技术更加强调对相关数据的聚类以及关联性分析,同时对大量数据进行整理、归纳,以便做出准确的预测任务。现阶段,常用的数据挖掘技术包括遗传算法、统计分析法、神经网络法、模糊算法等等。在具体的使用过程中,首先应该根据业务的性质进行重新定义,明确任务目标,然后做好相关的准备工作,确保数据的完整性;随后进行数据挖掘以及数据分析,将收集的数据进行整理、分析,得到目标数据信息;最后,在业务处理工作中对这些数据信息进行妥善的应用。
二、烟草行业质量管理现状
现阶段,消费者对烟草行业质量的要求越来越严格,外部环境控烟要求也越来越紧迫,尽管在市场经济的良好环境下,烟草行业无论从规模、数量还是设备上都得到了显著的提升,但是在此过程中也形成了大量的数据信息。在企业质量管理过程中,主要缺陷体现在以下几个方面:第一,在质量管理过程中,采用传统的数据处理方式,导致质量管理部门工作量庞大,数据处理结果的准确性也不高;第二,烟草行业质量管理方式相对滞后,对数据的分析不够科学,导致采用不科学的数据结果对烟草质量进行评价,导致烟草企业质量管理整体质量受到影响。第三,质量管理中缺少反馈内容,使烟草行业无法及时发现其中存在的问题并做好相应对策以及改进与预防工作。第四,传统质量管理更侧重于某个生产环节,忽视全局管理,而烟草行业本身规模较大且在不同地域中都涉及较多的质量管理部门,很多质量信息需在较长时间内完成流通。对此,便需引入数据挖掘中的关联与聚类分析,其中的关联规则可将数据项关联关系充分挖掘出来,在质量管理中更集中体现在产品质量预期特性值的关系。
三、数据挖掘技术在烟草行业质量管理中的应用
加强对数据挖掘技术在烟草行业质量管理工作中应用的研究,对烟草企业质量管理工作具有重要意义,对烟草行业的发展也具有促进作用。在具体分析研究过程中,一般从供应商、适量反馈以及生产过程三个角度出发:
1.基于对供应商评价的角度
烟草产品生产过程中需要大量的原材料,并且原材料的种类相对较多,包括烟叶原材料以及一些辅助的材料。这些材料的质量在很大程度上决定了烟草产品的整体质量。供应商在某种意义上对原材料质量起着重要作用,烟草企业还需要与供应商建立良好的关系。烟草企业的相关部门需要将供应商提供的原材料信息进行有效地统计、储存,同时将原材料的合格率作为主要的评价依据。根据数据挖掘技术中的关联规则,将一种原材料对应所有的原材料供应商,收集并分析所有供应商提供的数据信息中该原材料的合格率,从而选择最佳的原材料供应商,为烟草质量提供保障。
2.基于质量反馈的角度
质量反馈就是客户对一件产品质量使用后的总结性评价,通过有效地质量反馈,烟草企业能够对烟草生产过程、生产工艺、服务水平等进行整改。根据相关研究资料显示:在能够创造同样价值的基础上,新客户发展涉及的成本往往是维持与老客户关系涉及的成本的五倍,但若由老客户将企业口碑向新客户传递将获得更大的竞争优势,所以企业发展中维持老客户的关键在于使顾客满意度得以提高。利用数据挖掘技术,对顾客反馈的信息进行科学化的分析与管理,总结客户对产品质量的意见,同时分析出造成这个质量问题产生的原因,以便企业能够提出针对性的措施,帮助企业质量管理水平的提升,也能够为烟草企业迎来更大的经济利润,让烟草企业在激烈竞争中立于不败之地。
3.烟草生产过程中数据挖掘技术的应用
在卷烟生产过程中,烟丝质量是备受关注的问题,烟丝质量不仅会受到化学成分的影响,在生产过程中的一些工艺、操作也会对其质量造成影响。在烟丝制作过程中需要经过多重工序,同时涉及配方、含杂量等诸多因素,这一过程就会产生大量的数据。因此,需要利用数据挖掘技术,对烟草生产过程产生的数据进行存储、分析,利用神经网络技术分析导致烟丝质量问题的原因,不断地优化生产工艺参数,同时利用聚类分析手段,对加工过程与烟丝质量的关系进行分析,促进烟草产品质量的提升。
四、总结
通过上述分析可知,烟草行业在市场经济发展中迅速发展起来,已经逐渐成为我国支柱型产业。然而在烟草行业质量管理过程中,由于对海量数据处理技术滞后,给烟草企业重大决策以及烟草产品质量都造成重大影响。数据挖掘技术的应用,不仅能够帮助企业选择最佳合适的原材料供应商,还能够及时地发现产品质量问题,以便对产品生产工艺进行优化,提高烟草产品质量,促进烟草行业健康发展。
作者:焦丽静 单位:河北中烟工业有限责任公司
参考文献
[1]张丽荣.数据挖掘在烟草行业质量管理中的应用[J].科技创新与应用,2012,25(8):124-125.
[2]李卓.试析数据挖掘技术在烟草行业中的应用[J].旅游总览,2014,26(2):99-100.
关键词:档案信息管理系统 计算机 数据挖掘技术 应用
中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2015)11-0000-00
为了探知计算机数据挖掘技术在档案信息管理系统中的运用情况,本文从三个方面进行了分析,首先是对数据挖掘技术进行了初步概述,然后介绍了在实际运用当中所取得的成效。
1 数据挖掘技术的含义与实际应用
(1)计算机数据挖掘技术的含义。数据挖掘技术是一种全新的数据处理技术,是从数据库中大量模糊记忆的随机数据中选取其中所包含的符合人们需求的过程。数据挖掘过程是一个不断循环的过程,当一个目标节点没有达到其预期效果,信息处理系统自动返回上一个目标节点重新设置选取条件并执行。通过不断细化的目标将达到人们工作、学习需求的信息不断选取、再集中,并最终完成任务。(2)计算机数据挖掘技术运用的技术。在人们进行计算机数据挖掘的过程中,大多数情况下都是运用数学方法,在一些特定条件下也会采用非数学方法。数学方法就是运用数学专业语言表达事物的状态、关系和过程,是一种具有高度概括性和抽象性的方法,它具有严密的逻辑性和可操作性。同时,在运用计算机数据挖掘技术的过程中,还会使用到演绎法和归纳法进行数据收集。在运用计算机数据挖掘技术的过程中,通过对数据库挖掘,收集符合要求的数据信息,并进行整合分析得出一定的结果。而得出的结果在一定的条件下,是能够运用于信息管理等领域的。
2 数据挖掘技术的形式
数据挖掘通常分为两种形式,一种是通过对数据中的包含的规则进行描述,找出其中具有很强的普遍性的知识,并对其进行初步的总结描述出这一类别事物的共同特征,我们把它称之为描述型。另一种是通过分析已有的数据信息,并推测某一类别事物的某项特征或是其形成的规律,我们把它称之为预测型。在进行数据挖掘技术的过程中,通常会采用分类、关联和粗糙集三种方法。
(1)分类。在进行计算机数据挖掘时,分类是最常见的形式。分类通过对数据库中庞大的信息量进行属性的辨别和分析,并划分为不同的种类,分类直接决定着所收集到的数据的优劣。在进行种类划分的实际操作过程当中,依据所选数据形成的训练集,对一部分数据进行集中处理和划分。再对剩下的数据部分进行测试,当测试达到预定指标以后,再根据相应的规则对剩下的数据部分进行分类。在分类的进行过程中,比较重要的几个环节是明确其所涵盖的范围,辨别和分析目标具有的属性特征,选取相应的算法进行计算并将计算结果明示,设定测试集,验证并得出分类规则。(2)相关规则。在运用计算机数据挖掘技术的过程中,关联分析法里最简便、最具实用性的规则就是相关规则。相关规则能够对数据进行科学严谨的分析,并将数据的信息精准地正确地描述出来。在相关规则的具体实践方面,主要是对实际存在的事物进行描写,将其中具有相同属性的进行集中,分析总结出其模式。(3)粗糙集。在运用计算机数据挖掘技术的过程中,粗糙集是用来专门研究不具有稳定性的知识的一种数学工具。其优势在于无需知晓额外信息,运用的算法简洁有效、可操作性强。
3 计算机数据挖掘技术在档案信息管理系统中的应用意义
(1)数据挖掘技术为档案实体与内容的安全性提供了保障。档案信息是对过去的信息进行记录所形成的,档案信息一般都是很珍贵的,许多档案信息其实体更是宝贵的。一方面,这类信息由于其珍贵性,人们总是希望能将这些档案信息尽可能的保存长久,然而在事实上,人们对这些档案的重复使用度往往很高的,这也必定会造成档案信息的使用寿命大大降低。另一方面,档案信息的实际内容经常带有密级,如果对档案信息的使用监督不到位也会造成泄密,产生不良后果。而如果在档案信息管理系统中引入数据挖掘技术,通过对档案信息的借阅行为进行统计和分析,找出不恰当的借阅行为,就可以防止恶性利用档案和泄密等情况的出现,也就对档案实体和档案信息的安全性提供了保障。(2)数据挖掘技术可以提升档案信息的使用效率。档案信息大都是带有一定的密级的,其借阅范围都有相对明确的规定。随着时代的进步,虽然国家放宽了借阅档案的限制,但由于人们对于档案的认知水平存在滞后性,许多档案管理部门对于档案的借阅还是被动式的,有人提出借阅申请,工作人员就根据规章制度适当地提供档案信息,主动性很低。但是,如果在档案信息管理系统中引入数据挖掘技术,通过与档案借阅者的沟通,发现相关的有需求用户以及利用方向,建立专门的档案提供渠道。这样有针对性地提供档案信息,既提高了档案的使用效率,提升了档案管理部门的服务水平,又能帮助借阅者解决难题,促成其研究成果的产生。(3)数据挖掘技术为档案鉴定工作提供了便利。档案的鉴定工作一直以来都是档案工作整体流程中难度系数最高、重要性最高的一个部分。在过去,这一工作进展的良好与否完全凭借的是档案管理从业人员的个人的能力强弱,随人员的主观因素变动幅度大,这就可能造成存在价值的档案未被保存下来而无价值的档案却被大量保存下来诸如此类情况的发生,不仅损失了有用的档案信息而且还浪费了资源。但是,如果在档案信息管理系统引入数据挖掘技术,对档案的使用情况和保存情况进行系统分析,发现各个档案管理管理部门其档案形成的规律和使用范围,判定出信息的重要性,为档案鉴定工作的进行提供鉴定依据。
4结语
随着社会的进步和科技的发展,计算机技术应用面越来越广泛。在档案信息管理系统的应用方面,数据挖掘技术为档案信息的实体和内容提供了安全保障,为档案鉴定工作提供了便利,并提升了档案信息的使用效率。
参考文献
[1]黄世矗吴震.论数据挖掘技术在电子文件管理中应用的必要性与可行性[J].档案与建设,2011,11:8-10.
数据挖掘 聚类分析 K均值
一、引言数据挖掘是计算机行业发展最快的领域之一。以前数据挖掘只是结合了计算机科学和统计学而产生的一个让人感兴趣的小领域,如今,它已经迅速扩大成为一个独立的领域。数据挖掘的结果对于医生临床诊断有很重要的意义。实验表明患心脏病病人的某些属性特征和患心脏病风险的大小有较大关系。数据挖掘有两种策略:有指导和无指导学习。本文用心脏病数据集范例来解释有指导学习的过程。1.有指导学习和无指导聚类对于使用无指导聚类来说,不存在预定义的类。取而代之的是,数据实例根据聚类模型定义的相似度机制来分组。而大部分数据挖掘是有指导的,在使用有指导学习时,数据挖掘工具可使用类别已知的实例来建立表示数据的普遍的模型。然后利用所创建的模型确定新的、以前未分类实例的类别。2.用于有指导学习的方法在一个装有iData分析器的Excel中,用一种数据挖掘工具ESX建立有指导的学习模型,其方法如下:首先,将要挖掘的数据输入一个Excel电子表格并选择一个输出属性。然后执行一个数据挖掘会话,再阅读并解释汇总结果、检验集结果和各个类的结果,最后生成可视化并解释类规则。
二、聚类分析数据挖掘技术从传统意义上说是指数据的统计分析技术,采用的传统数据分析技术主要包含线性分析和非线性分析、回归分析、逻辑回归分析、时间序列分析、最近邻算法和聚类分析等。K-Means算法是划分聚类中较流行的一种算法,它是一种迭代的聚类算法,迭代过程中不断移动簇集中的对象,直至得到理想的簇集为止,每个簇用该簇中对象的平均值来表示。算法的主要步骤为:(1)从n个数据对象随机选取k个对象作为初始簇中心;(2)计算每个簇的平均值,并用该平均值代表相应的簇;(3)根据每个对象与各个簇中心的距离,分配给最近的簇;(4)转第二步,重新计算每个簇的平均值。这个过程不断重复直到满足某个准则函数不再明显变化或者聚类的对象不再变化才停止。K-Means算法对于大型数据库是相对可伸缩的和高效的,算法的时间复杂度为O(n*k*t),其中t为迭代次数。一般情况下结束于局部最优解。
三、具体实例说明1. 心脏病风险评价中的数据挖掘问题在世界卫生组织与世界心脏病协会等权威机构的另一项关于预防心脏病的指南中指出,引起心脏病的危险因素有两种,即“行为因素”和“生理问题”。最主要的四种行为因素是:吸烟、饮酒、不健康的饮食、缺乏体力活动。这些不良的行为日益累积会使机体发生生理改变。医学数据库的信息量非常庞大,其数据又具有自身的独特性。要想充分利用丰富而宝贵的医学资源,必须选择适合医学数据类型的数据挖掘工具及挖掘技术,尽可能大地发挥数据挖掘技术在医学信息获取中的价值。2. 数据准备(1)数据选择及预处理。运用有指导学习的方法对心脏病人数据集进行数据挖掘,此数据集是由位于加州Long Beach的VA医疗中心的Detrano博士搜集的。该数据集包含分类和数值数据的混合表,数据包含了303个实例组成,其中165个包含了未患心脏病的患者,剩余的138个实例包含了患过心脏病的患者。(2)建立数据挖掘库。我们将试图发现年龄等因素与是否患过心脏病之间的关联,从而证实患过心脏疾病与它产生的可能因素之间的规则。具体实施步骤如下:将文件加载到一个新的Excel电子表格中,其中我们将下列属性设置为输入属性:age(年龄)、sex (性别)、chest pain type(胸痛类型)、blood pressure(血压)、cholesterol(胆固醇)、fasting blood sugar
4.总结研究表明心脏病的高发人群为:年龄大于45岁的男性、大于55岁的女性;吸烟者;高血压患者;糖尿病患者;高胆固醇血症患者;肥胖者。虽然年龄、性别、家族遗传病史等危险因素难以改变,但是如果有效控制其余危险因素,就能有效预防某些心脏病。在日常生活中学会自我管理,建立良好的健康的生活方式,对心脏病患者而言,至关重要。
参考文献:
[1]崔园.有指导的数据挖掘在风险评价中的应用
[J].四川师范大学出版社,2006.1.
[2]孙微微,刘才兴.数据仓库与数据挖掘
[J].农业网络信息,2005,(1).
[3]郑新奇,刘晓丽.基于Clenmentine决策树的空间数据挖掘方法探讨
[J].中国科协年会论文集.2006.
[4]Richard J.Roiger,and Mchael W.Geatz Data mining:a tutorial based primer
[M].Pearson Education,Inc.2003.
[5]汤效琴,戴汝源.数据挖掘中聚类分析的技术方法
[J].微计算机信息,2003,(1).
关键词:数字图书馆;计算机技术;应用模块;数据挖掘;网格技术
1数字图书馆概述
“数字化”的生活模式伴随着科技的发展应运而生,人们也越来越适应并习惯了这种生活模式,数字图书馆的出现使得人们对它的需求越来越高,同时它也直接关系着当代图书馆的生存与发展。而数字图书馆的概念是由美国的一位学者在研究图书馆的时效性时提出来的,它就是一个信息化的平台,拥有着全球性的知识资源和媒体内容,一方面能够使用户及时的了解到全球的讯息,另一方面用户使用搜索功能可以搜索到一些多样化的信息。而其中关键性技术的应用与研究成为了当今国内外IT界和图书馆界研究的热门技术。而评价一个国家信息基础设施好坏的标志之一就是数字图书馆的建设。数字图书馆作为一种高新技术的产物,涉及到了以下技术:数字化处理技术、超大规模数据库技术、网络技术、多媒体信息处理技术、信息压缩与传送技术、安全保密技术、自然语言理解技术等。本文主要介绍了网络技术、数据挖掘技术、Agent技术。
2数据挖掘技术的应用研究
2.1数据挖掘的基本概念
数据挖掘也可以叫作数据库中的知识发现,它是指从大量的数据中通过算法搜索隐藏于其中信息的过程。其一般与计算机科学有关,可以通过统计、在线分析处理、情报检索、机器学习、专家系统及模式识别等多种方法来实现所要达到的目标。数字图书馆的数据挖掘对象是挖掘出其中的大型数据库、数据仓库以及大量的网络信息空间,通过对这些数据的统计分析和总结,可以找到数据间内在的关系,进而可以预测到未来发展的趋势。数据挖掘涉及到了很多前沿的学科,比如数据库、数理统计、人工智能、神经网络等,这是当今国际上最高端的技术研究之一了。
2.2数据挖掘技术的方法
2.2.1数据挖掘数据挖掘是一种面向数值数据的方法,它是用人工智能、机器学习、统计学、数据库的交叉方法在一个较大的数据集中发现模式的计算过程,是一门跨学科的计算机科学分支。它的目标是从一个数据集中提取信息,然后将其转换成可理解的结构,以此进一步使用。数字图书馆的建设基础就是数据挖掘,利用多种数据挖掘算法,通过数字处理和研究数字模型的变化,以此来进行总结得到数据的变化情况。
2.2.2基于Web的数据挖掘Web数据挖掘是数据挖掘在Web上的应用,它是利用数据挖掘技术抽取出与Web有关的一些感兴趣的、有用的资源信息、行为及模式,涉及到了多个研究领域的技术,在挖掘内容的过程中,我们一般从以下两个角度进行着手分析:一是对文本文档进行挖掘,二是挖掘多媒体文档。在调整数字图书馆的网页时一般都用追踪和个性化使用记录的全面追踪这两种模式来保证给用户提供个性化的服务。
2.2.3文本数据挖掘文本数据挖掘是指从文本中挖掘出有一定价值的信息和知识的计算机处理技术,挖掘的对象的数据类型全是由文本类型组成的,在对巨量文本信息进行自动化信息分析与处理所使用的方法是利用数据挖掘算法和信息检索算法来实现的。文本挖掘方法主要包含以下几种:文本分类、文本聚类、信息抽取、摘要、压缩。为了能够更加更好的丰富图书馆的信息量,处理好文本的摘要和数据,提高数据挖掘的精确度,可以利用文本数据的挖掘和传输来实现。
2.3利用数据挖掘实现数字图书馆的个性化服务
实现数字图书馆的个性化服务是通过把挖掘技术应用到数字图书馆建设中,一方面可以通过提高数字图书馆的建设标准来增强各方面的服务质量,另一方面还可以有效的巩固信息资源的建设力度。在信息用户掌握信息使用的行为、习惯、偏好等时,个性化的服务可以为用户提供满足其所需要的一些相关服务,主要是两个方面:一是个性化,二是主动服务。其原理是根据不同的用户不同的需求使用不同的服务办法来进行针对性的服务,系统不需要用户去做什么就可以给用户提供相对应的服务,通过简化用户的操作来达到个性化服务。个性化服务主要表现在以下几个方面:数据挖掘服务、个人书架、个性化检索、信息分类定制及推送、虚拟咨询服务等。
3网格技术的应用
3.1网格技术在数字图书馆中的应用
在数字图书馆的建设中,网格技术是一种不可或缺的技术,为了确保数字图书馆的完整性和较好的服务性,就要利用网络来调节因数字的变化而造成的改变,而数字图书馆建设拥有良好基础的前提就是在网格技术应用过程中要结合信息资源建设网络基础设施,并在后期结合相关的Web技术方法,以图书馆的基础架构作为基础,搭建一个良好的可以实现资源信息共享的信息技术平台,整合网络各方面的资源,在统一管理的基础上实现良好的信息服务。
关键词 ;数据挖掘; web;挖掘;网络技术
中图分类号:G642文献标识码:A文章编号:1003-2851(2009)12-0174-01
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。数据挖掘是面向发现的数据分析技术,通过对大型的数据集进行探查。可以发现有用的知识,从而为决策支持提供有力的依据。
一、 Web数据挖掘定义及分类
Web数据挖掘(Web Date Mining),简称Web挖掘,是数据挖掘技术在Web环境下的应用,是从数据挖掘、计算机技术、信息科学等多个领域进行的一项技术。
Web 数据挖掘的分类根据数据挖掘对象的不同可以将Web数据挖掘分为Web 内容挖掘、Web 结构挖掘和Web 访问信息挖掘三类(见图1)。Web 内容挖掘就是指从Web 的文档中发现提取有用信息; Web 结构挖掘是指对html 页面间的链接结构进行挖掘; Web 访问信息挖掘是从网络访问者的交谈或活动中提取信息。
二、 Web数据挖掘的过程
数据挖掘的过程可以分为6个步骤:
(一)理解业务:从商业的角度理解项目目标和需求,将其转换成一种数据挖掘的问题定义,设计出达到目标的一个初步计划。
(二)理解数据:收集初步的数据,进行各种熟悉数据的活动。包括数据描述,数据探索和数据质量验证等。
(三)准备数据:将最初的原始数据构造成最终适合建模工具处理的数据集。包括表、记录和属性的选择,数据转换和数据清理等。
(四)建模:选择和应用各种建模技术,并对其参数进行优化。
(五)模型评估:对模型进行较为彻底的评价,并检查构建模型的每个步骤,确认其是否真正实现了预定的商业目的。
三、Web 数据挖掘的常用工具
Web 数据挖掘工具如果按用途分, 可分为: Web 文本信息挖掘工具、用户访问模式挖掘工具或用户导航行为挖掘工具和综合性的web分析工具。Web 文本信息挖掘工具主要完成两方面的功能: 信息检索和对文本的分析。IBM 公司的产品Intelligent Miner 中的web 挖掘工具Intelligent Miner for Text 就是比较好的文本信息挖掘工具。用户模式挖掘工具通常实现的方法是对Sever Logs、Error Logs 和Cookie Logs 等日志文件分析挖掘出用户访问行为、频度和内容等信息, 从而找出一定的模式和规则。由Sstphen Tumer 博士编制的免费个人软件Analog 是一个用来分析Server Logs 的工具。
四、数据挖掘的应用现状
数据挖掘是一个新兴的边缘学科,它汇集了来自机器学习、模式识别、数据库、统计学、人工智能以及管理信息系统等各学科的成果。多学科的相互交融和相互促进,使得这一新学科得以蓬勃发展,而且已初具规模。在美国国家科学基金会(NSF)的数据库研究项目中,KDD被列为90年代最有价值的研究项目。人工智能研究领域的科学家也普遍认为,下一个人工智能应用的重要课题之一,将是以机器学习算法为主要工具的大规模的数据库知识发现。尽管数据挖掘还是一个很新的研究课题,但它所固有的为企业创造巨大经济效益的潜力,已使其很快有了许多成功的应用,具有代表性的应用领域有市场预测、投资、制造业、银行、通讯等。
美国钢铁公司和神户钢铁公司利用基于数据挖掘技术的ISPA系统,研究分析产品性能规律和进行质量控制,取得了显著效果。通用电器公司(GE)与法国飞机发动机制造公司(sNEcMA),利用数据挖掘技术研制了CASSIOP.EE质量控制系统,被三家欧洲航空公司用于诊断和预测渡音737的故障,带来了可观的经济效益。该系统于1996年获欧洲一等创造性应用奖。
中国的公安部门也在研究利用KDD技术总结各类案件的共性和发生规律,从而在宏观上制定最有效的社会治安综合治理的方案和措施;在微观上指出犯罪人的特点,划定罪犯的范围,为侦破工作提供方向。
关键词:数据挖掘技术;web挖掘;web的应用;个性化服务
中图分类号:TP399-C1 文献标识码:A 文章编号:1007-9599 (2012) 15-0000-02
1 数据挖掘技术
1.1 数据挖掘技术的概念
数据挖掘技术主要是指寻找隐藏在数据库中有价值的信息,从而为决策支持 提供有力的依据的过程。数据挖掘的目标主要包括特征、趋势以及相关性等多个方面的信息。随着计算机的普及,信息时代的到来,网络中信息量迅速增加,传统的知识发现(KDD:Knowledge Discovery in Databases)技术和方法已经不能满足人们从Web中获取信息的需要,并且现实也要求对互联网上的信息进行深层次实时的分析[1]。所以Web的数据挖掘技术油然而生,这种技术将传统的数据挖掘和web相互结合起来,能够从大量的信息数据选取有价值的隐含信息。下图1为Web数据挖掘原理流程:
1.2 Web数据挖掘的分类
根据数据挖掘的对象不同,Web数据挖掘技术可以分为Web结构挖掘、Web内容挖掘、Web 使用挖掘三类,Web数据挖掘分类如下图2所示:
1.3 Web数据挖掘的特点
传统的数据挖掘主要是以数据库为基础,对结构化的数据进行信息分析、加工以及模式挖掘,传统的数据挖掘技术能够直接或者间接的应用到Web数据挖掘中,但是因为Web技术自身的特点,从而使Web中的数据挖掘技术和传统的数据挖掘具有很大的不同。
(1)数据量巨大。网络能够将分布在世界不同位置的电脑连接在一起,并且每一个电脑都存在丰富的数据,又因为连接在网络上电脑的数量非常巨大,所以Web数据挖掘技术能够处理的数据也非常大。
(2)半结构化的数据结构。传统的数据库中的数据结构具有一定的模型,可以根据数据模型进行对网络中的数据进行描述,与传统的数据结构相比,在Web站点中的数据没有统一的模型,并且各个站点之间都是独自设计的,所以Web站点中对数据的处理是不断变化的[2]。
(3)异构数据库环境。在数据库环境中每一个Web站点都可以看作是一个数据源, 由于Web站点是相互独立的,因此站点之间除了能够相互访问之外没有其他的关系,所以Web站点之间的信息都是不同的,从而构成一个巨大的异构数据库环境。
2 数据挖掘技术在Web中应用
随着信息时代的到来,网络技术的发展,目前数据挖掘技术已经广泛应用到远程通信业、制造业、金融业、零售业、政府管理机构以及体育等各个行业中,而数据挖掘技术在Web中应用目前已经成为全球学术界研究的热点,并应用到各个行业中。
2.1 Web中数据挖掘技术在搜索引擎中的应用
在Web数据挖掘技术中,搜索引擎是最为典型的应用,采用Web数据挖掘技术不仅能够提高搜索引擎的查询速度、网页的权重、关键词匹配的相关度以及改善搜索结果等,并且Web数据挖掘技术也应用在文本的自动分类、自动摘要的形成、个性化的搜索引擎以及检搜结果的聚类等具有重要的作用。
2.2 在电子商务中的应用
Web数据挖掘技术在电子商务中应用也是比较典型的应用,Web数据挖掘技术能够通过对客户访问日志数据采用模型化算法、神经元网络以及其他的信息处理技术进行分析,从而商家能够对个体或者特定消费群体进行定向营销的决策。并且采用Web数据挖掘技术还可以对日志进行定量分析,从而能够揭示出频繁访问的页面、访问途径以及客户的类属关系、网页的类属关系等,从而能够为Web站点的优化提供有力的参考是数据。Web数据挖掘技术在电子商务中应用主要体现在客户的驻留、客户获取以及客户的聚类和分类三个重要的方面。下图3为Web数据挖掘的简单商务网站模型:
2.3 Web数据挖掘技术应用于股票系统
Web数据技术采用Web-Dms系统可以构建一个基于Web 的挖掘的股票教育和交易环境,并且还能够充分利用站点上积累的信息,从而更好地服务于企业和客户。在股票系统中采用Web 数据挖掘技术不仅能够通过了解查找者的动态行为 选择最佳的电子商务精英方式,而且还能够得知查找者的爱好[3]。应用Web数据技术Web设计人员不在依靠专家的定性的指导进行设计网站,而是可以根据查找者的信息进行设计网站的机构和外观,从而能够为客户提供个性化的服务。
3 总结
Web中的数据挖掘技术是一种新型的技术,由于Web自身的特点,从而使Web数据挖掘技术具有很多特点,并且其应用也是非常广泛,不仅能够提取页面的信息,进行分析设计站点,而且在电子商务方面也具有非常广阔的应用前景。
参考文献:
[1]DiPasquo D,Using HTML forlnation to aid in natural languageprocessing on the World Wide Web[M].Canegie-Mellon University.Sehool of Computer Science,1998.