前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的数据挖掘技术主题范文,仅供参考,欢迎阅读并收藏。
关键词:Web数据挖掘;分类;流程
中图分类号:TP311文献标识码:A 文章编号:1009-3044(2009)26-7335-01
WebData Mining Technology
SONG Yu
(Wuhan Institute of Shipbuilding Technology, Wuhan 430050, China)
Abstract: In this paper, Webdata mining technology, the basic idea was introduced to describe the content, structure, excavation of the use of three main types of Webdata mining, and a typical Webdata mining process are described.
Key words: Webdata mining; classification; process
所谓数据挖掘Data Mining 就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中提取隐含在其中的、事先未知的、但又是潜在有用的信息和知识的过程 。
1 什么是Web的数据挖掘
Web挖掘是从Web资源上抽取信息或知识的过程,它是将传统的数据挖掘的思想和方法应用于Web,从Web文档和Web活动中抽取感兴趣的、潜在的、有用的模式和隐藏信息。Web挖掘可在多方面发挥作用,如搜索引擎结构的挖掘,搜索引擎的开发,改进和提高搜索引擎的质量和效率,确定权威页面。Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。特别是电子商务领域,通过对用户特征的理解和分析,如对用户访问行为、频度、内容等的分析,提取出用户的特征,从而为用户定制个性化的界面,有助于开展有针对性的电子商务活动。
2 Web数据挖掘的分类
根据挖掘的对象不同我们可以把基于Web的数据挖掘分为三大类:
1) Web内容的挖掘(WebContent Mining)
所谓Web内容的挖掘实际上就是从Web文档及其描述中获取知识, Web文档文件挖掘以及基于概念索引或Agent 技术的资源搜索也应该归于此类。Web信息资源类型众多,目前WWW 信息资源已经成为网络信息资源的主体,然而除了大量的人们可以直接从网上抓取、建立索引、实现查询服务的资源之外,相当一部分信息是隐藏着的数据(如由用户的提问而动态生成的结果,存在于数据库系统中的数据,或是某些私人数据)无法被索引,从而无法提供对它们有效的检索方式,这就迫使我们把这些内容挖掘出来。若从信息资源的表现形式来看,Web信息内容是由文本、图像、音频、视频、元数据等种种形式的数据组成的,因而我们所说的Web内容的挖掘也是一种针对多媒体数据的挖掘。
2) Web结构的挖掘(WebStructure Mining)
这一类型的挖掘是从万维网的整体结构和网页上的相互链接中发现知识的过程,它主要挖掘Web潜在的链接结构模式。这种思想源于引文分析,即通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。这种模式可以用于网页归类并且可以由此获得有关不同网页间相似度及关联度的信息。Web结构挖掘有助于用户找到相关主题的权威站点,而且对网络资源检索结果的排序有很大意义。
3) Web使用的挖掘(WebUsage Mining)
Web使用的挖掘,也称为Web日志挖掘(WebLog Mining)。与前两种挖掘方式以网上的原始数据为挖掘对象不同,基于Web使用的挖掘面对的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括:网络服务器访问记录、服务器日志记录、用户注册信息以及用户访问网站时的行为动作等等。Web使用挖掘将这些数据一一纪录到日志文件中,然后对积累起来的日志文件进行挖掘,从而了解用户的网络行为数据所具有的意义。我们前面所举的例子正属于这一种类型。
3 Web挖掘技术的流程
Web挖掘指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习 和神经网络等。Web挖掘可以在很多方面发挥作用,如对搜索引擎的结构进行挖掘,确定权威页面,Web文档分类,Weblog挖掘,智能查询,建立MetaWeb数据仓库等。
典型Web数据挖掘的处理流程如下:
3.1 查找资源
任务是从目标Web文档中得到数据,值得注意的是有时信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组,或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。
3.2 信息选择和预处理
任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。
1) 模式发现
自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。
2) 模式分析
验证、解释上一步骤产生的模式。可以是机器自动完成,也可以是与分析人员进行交互来完成。
4 结束语
Web数据挖掘还有待进一步的研究,尤其是近来对Web内容挖掘方面集中在信息集成,如建立基于Web的知识库或基于Web的数据仓库的研究上。
参考文献:
[1] 范明,孟小峰.数据挖掘概念与技术[M].北京:机械工业出版社,2007.
[关键词] 数据挖掘 数据挖掘方法
随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(Data Mining)技术由此应运而生。
一、数据挖掘的定义
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。
二、数据挖掘的方法
1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。
2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。
3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。
4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。
5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。
6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。
7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。
8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。
事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。
三、结束语
目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。
关键词:数据挖掘;聚类算法;关联规则;决策树;遗传算法
中图分类号:TP301文献标识码:A文章编号:1009-3044(2009)13-3331-02
1 引言
数据挖掘是一个多学科的交叉领域,这些学科包括数据库技术、机器学习、统计学、模式识别、信息检索、神经网络、基于知识的系统、人工智能、高性能计算和数据可视化等[1]。目前,对于数据挖掘方面的研究已经取得了很大的进展,开发出了许多新的数据挖掘算法、系统和应用。本文将先对数据挖掘的概念及实施步骤进行说明,然后将分类归纳数据挖掘中的各种常见算法,最后对数据挖掘目前的研究方向进行预测。
2 数据挖掘的概念及流程
2.1 数据挖掘的概念
简单地说,数据挖掘就是从大量的数据中“挖掘”知识,即从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道、但又是潜在有用的信息和知识的过程。它是一种决策支持过程,可以从企业数据库的大量数据中,挖掘出潜在的模式,预测客户的行为,帮助企业的决策者做出正确的判断,从而减少投资的风险,获得更大的利润。
2.2 数据挖掘的流程
一般来讲,数据挖掘的整个过程由五个步骤组成:
1) 数据挖掘的最后结果是不可预测的,但是要探索的问题应该是有预见的,为了数据挖掘而进行数据挖掘,是不可取的。因此,清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的第一步,也是很重要的一步。
2) 数据准备[2],数据准备又可以分成数据选择,数据预处理,数据转化三个步骤。数据选择,是从大量与业务对象有关的数据中选择出适合进行数据挖掘的数据;数据预处理,包括进行数据清洗,数据推测,数据转换等。数据清洗,指的是清除掉一些明显的噪声数据,提高数据的质量;数据推测,是因为在前面两步中,也许会出现数据不全的情形,所以进行适当的推算,补齐所需的数据;数据转换,是将数据转换成一个分析模型,这个分析模型是针对数据挖掘算法建立的,建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键;数据转化,则是在做完前面的步骤以后,适当的缩减即将进行分析的数据库规模,以上这些工作会直接影响到数据挖掘时的效率和准确性,同样很重要。
3) 数据挖掘,这是整个数据挖掘过程中最重要的一步,即使用适当的数据挖掘算法对刚才处理出的数据进行分析,进而得到可能的模式模型。根据不同数据的特点以及用户不同的需求,对同样的任务,可以选用不同的算法,目前常见的算法包括聚类算法、关联分析、分类算法、遗传算法等。
4) 结果评价,通过上述步骤得到的模式模型,并不一定是真实有效的,甚至可能会是和实际情况完全相反的,所以还需要对得到的结果进行评价。这一步使用的方法包括用数据代入进行验证,也可以根据常规的经验进行一些判断,一般由数据挖掘具体操作而定。如果没有得到合适的模式模型,就需要重新选择数据,甚至需要选用其他的数据挖掘算法,因此,数据挖掘的过程往往都是一个不断反复的过程。
5) 知识同化,完成上述步骤后,如果得到了可以接受的模式模型,就需要进一步把得出的模型形象化,运用到所需的信息系统中去。
3 数据挖掘的常见算法
数据挖掘常用的分析方法包括聚类算法(Cluster Algorithm)、关联规则(Association Rules)、决策树算法(Decision Tree Algorithm)、遗传算法(Genetic Algorithm)等。
3.1 聚类算法
聚类是一种常见的数据分析工具,其目的是把大量数据点的集合分成若干类,使得每个类中的数据之间最大程度的相似,而不同类中的数据最大程度的不同。常见的聚类算法主要包括层次聚类算法(Hierarchical Clustering Method)、分割聚类算法 (Partitioning Clustering Method)、基于密度的方法(Density-Based Methods)、基于网格的方法(Grid-Based Methods)等[3]。
1) 层次聚类算法,是通过将给定的数据集组织成若干组数据,并形成一个相应的树状图,进行层次式的分解,直到某种条件满足为止,具体又可分为“自底向上”和“自顶向下”两种算法[4]。这两种算法的思路正好相反,前者是将每个对象都作为一个原子聚类,再进行聚合,最后得到相应的结果,而后者是将所有对象看成一个聚类,再进行分解。CURE算法、CHAMELEON算法、BIRCH算法等是比较常用的层次聚类算法。
2) 分割聚类算法,是先将数据集分成k个分组,每一个分组就代表一个聚类,然后从这k个初始分组开始,然后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,最终使同一分组中的记录越来越近,不同分组中的记录原来越远,从而得到最优解。使用这一思想的主要算法有K-means算法、K-medoids算法、CLARANS算法等。
3) 基于密度的方法与其它方法的最要区别在于:它不基于各种距离,而是从数据对象的分布密度出发,将密度足够大的相邻区域连接起来,从而可以发现具有任意形状的聚类,并能有效处理异常数据,它的代表算法有DBSCAN算法、OPTICS算法、DENCLUE算法等。
4) 基于网格的方法则是从对数据空间划分的角度出发,利用属性空间的多维网格数据结构,将数据空间划分为有限空间的单元,以构成一个可以进行聚类分析的网格结构。该方法的主要特点是处理时间与数据对象的数目无关,但与每维空间划分的单元数相关,而且,这种方法还与数据的输入顺序无关,可以处理任意类型的数据,但是聚类的质量和准确性降低了,它的代表算法有STING算法[5]和CLIQUE算法等。
3.2 关联规则
关联规则是数据挖掘研究的重要内容,它描述了数据库中一组对象与另一组对象之间存在的某种关联关系。从大量商业记录中挖掘有趣的关联关系,有助于许多商务决策的制定,如分类设计、交叉购物等。关联规则是形如A=>B的蕴涵式,表示形式如pen=>ruler [支持度=20%,置信度=60%],支持度和置信度分别反映规则的有用性和确定性,这条规则就意味着所有的顾客中有20%的人同时购买了钢笔和直尺,而买了钢笔的顾客的60%也买了直尺。在关联规则中,所有支持度大于最小支持度的项集称为频繁项集,简称频集。如果一条关联规则同时满足最小支持度阈值和最小置信度阈值,就认为它是有趣的,并称为强关联规则。
关联规则挖掘一般分为两步:1) 找出所有频繁项集,即满足最小支持度的项集;2) 从频繁项集中产生强关联规则。最为著名的关联规则挖掘算法就是R.Agrawal和R.Srikant于1994年提出的挖掘布尔关联规则中频繁项集的原创性算法Apriori。它使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描数据库,累积每个项的计数,并收集满足最小支持度的项,找出频繁1项集的集合。该集合记作L1。然后,L1用于找频繁2项集的集合L2,L2用于找L3,如此下去,直到不能找到频繁k项集。找每个Lk需要一次数据库全扫描。
但是,Apriori算法也有其不足之处:1) 可能产生大量的候选集;2) 生成每个Lk都需要重复扫描数据库。后来,陆续出现了一系列Apriori算法的改进算法,以及其他的关联规则挖掘算法,比如RIApriori算法、Apriori-improve算法、FP-growth算法等,这大大提高了关联规则挖掘的速度和准确性,也推动了关联规则挖掘理论的进一步发展。
3.3 决策树算法
决策树是一种类似于流程图的树结构,每个内部节点(非树叶节点)表示在一个属性上测试,每个分支代表一个测试输出,而每个树叶节点(或终节点)存放一个类标号。决策树算法主要围绕决策树的两个阶段展开:第一阶段,决策树的构建,通过递归的算法将训练集生成一棵决策树;第二阶段,由测试数据检验生成的决策树,消除由于统计噪声或数据波动对决策树的影响,来达到净化树的目的,得到一棵正确的决策树。常见的决策树算法主要有ID3算法[6]、C4.5算法、CART算法、SPRINT算法等。
3.4 遗传算法
遗传算法是基于进化理论,并采用遗传结合,遗传变异,自然选择等设计方法的一种进化计算算法的优化算法。进化计算算法的基础是生物进化,随着时间的流逝,进化出更好的或更适应的个体。在数据挖掘中,遗传算法可以用于评估聚类、关联规则等算法的适合度。在应用遗传算法解决问题时,最困难的一步应该是怎样将问题建模成一组个体的集合,然后在计算中,首先假设一个初始模型,然后对其反复进行杂交技术和变异技术的算法,最后用适应度函数确定初始集合中应该保留的那个最优个体。这个算法的优点在于容易并行化,但是对问题进行建模很困难,杂交变异过程以及适应度函数也很难确定。
4 结束语
随着数据量的积累和数据库种类的多样化,数据挖掘的应用前景非常的广阔,从上面对各种常见算法的归纳可以看出,每种算法都有局限性,很难采用单一的方法解决相应的问题,因此,多方法融合将成为数据挖掘未来的发展趋势。
参考文献:
[1] 韩家炜,堪博.数据挖掘:概念与技术[M].2版.范明,孟小峰,译.北京:机械工业出版社,2007.
[2] 曾莹,陈晓.数据挖掘及算法浅谈[J].中国科技信息,2005(14):75.
[3] 邹志文,朱金伟.数据挖掘算法研究与综述[J].计算机工程与设计,2005,26(9):2304-2307.
[4] 贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007(1):10-13.
[5] Wang W,Yang J,Muntz R.STING:A statistical information grid approach to spetial data mining[C].Twenty―third international conference on very large data bases,l997.
[6] Quinlan J R.Introduction of decision trees[J].Machine Leaming,1986(1):81-106.
关键词:Web数据挖掘;挖掘过程;挖掘技术
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2009)15-3852-02
The Summary of Web Mining Technology
PAN Zheng-gao1,2
(1.School of Information and Computer,Hefei University of Technology,Hefei 230009,China;2.the Lab of Artificial Intelligence and Data Mining,Suzhou University,Suzhou 234000,China)
Abstract:WWW contains abundant information,as a enormous,extensive and global service center of information.Web Mining can be assumed speedinessly and effectively the information what we needed.This text introduce the types,procession and technologys of Web Mining,except the foreground of it's application.Those work based on the basic concept and characteristic of Web Mining.
Key words:Web Mining; Mining Course; Mining Technology
1 引言
随着Internet的发展,Web信息迅速膨胀,如何从海量的Web信息中快速和准确地获取有用信息已经成为近几年数据挖掘领域研究的热点。Web上的数据与其他的数据相比较存在着明显的特点,这些特点使得Web挖掘在方法和技术方面与传统的数据挖掘有着显著的不同。
2 Web数据挖掘的概念
Web数据挖掘(Web Mining),简称Web挖掘,是由Oren Etzioni在1996年首先提出的[1]。它是数据挖掘技术和Internet应用研究相结合的研究领域。一般,对Web数据挖掘定义如下:Web数据挖掘是指Web从文档结构和使用的集合C中发现隐含的模式P。如果将C看作输入,P看作输出,则Web挖掘的过程就是从输入到输出的一个映射[2]。
Web挖掘是指从大量的Web数据中发现新颖的、潜在可用的及最终可以理解的知识(包括概念、模式、规则、规律、约束及可视化等形式)的非平凡过程。Web挖掘是数据挖掘技术和Internet应用研究相结合的产物,其涉及的技术覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、机器学习、神经网络等。
3 Web数据的特点[3]
1) 异构数据库环境。Web上的每一个站点就是一个数据源,每个数据源都是异构的,因而每一站点的信息和组织都不一样,这就构成了一个巨大的异构数据库。
2) 分布式数据源。Web页面散布在世界各地的Web服务器上,形成了分布式数据源。
3) 半结构化。半结构化是Web上数据的最大特点。Web上的数据非常复杂,没有特定的模型描述,是一种非完全结构化的数据,称之为半结构化数据。
4) 动态性强。Web是一个动态性极强的信息源,信息不断地快速更新,各站点的链接信息和访问记录的更新非常频繁。
5) 多样复杂性。Web包含了各种信息和资源,有文本数据、超文本数据、图表、图像、音频数据和视频数据等多种多媒体数据。
4 Web数据挖掘的分类
Web挖掘技术根据挖掘的方向一般分为三类:Web内容挖掘,Web结构挖掘和Web使用记录的挖掘。
4.1 Web内容挖掘(WCM,Web Content Mining)
Web内容挖掘是指从大量的Web数据中发现信息、抽取知识的过程。这些Web数据的形式有Web页面、Web页面上各种链接所指向的内容以及网络数据库里的数据等。从内容方面,Web内容挖掘可分为Web文本挖掘和Web多媒体挖掘,它们的不同在于提取的特征不同。从方法上,Web内容挖掘可分为数据库方法和信息抽取方法。
4.2 Web结构挖掘(WSM,Web Structure Mining)
Web结构挖掘是从Web的组织结构、Web文档结构与其链接关系中挖掘潜在的知识和模式。通过对Web结构的分析,可以发现页面结构和链接关系中所蕴涵的有用模式;也可以对页面及其链接进行分类和聚类,发现权威页面。有关这方面的算法研究成果有:Page-rank、HITS(Hyperlink-Induced Topic Search)及改进的HITS(将内容信息加入到链接结构中去)、Hub/authority(Kleinberg,1998)[4]。
4.3 Web使用挖掘(WUM,Web Usage Mining)
Web使用挖掘是应用数据挖掘技术从Web数据中发现用户访问模式的过程[5]。它可以帮助我们提高Internet信息服务的质量,改进Web服务器的系统性能和结构。
5 Web数据挖掘过程
Web数据挖掘过程是一个完整的KDD过程,但是与传统的数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型Web挖掘的处理流程如图1所示,包括如下四个过程:
1) 查找资源:根据挖掘目的,从Web资源中提取相关数据,构成目标数据集,Web数据挖掘主要从这些数据通信中进行数据提取。其任务是从目标Web数据(包括Web文档、电子邮件、电子文档、新闻组、网站日志、网络数据库中的数据等)中得到数据。
2) 数据预处理:在进行Web挖掘之前对“杂质”数据进行过滤,例如消除数据的不一致性;将多个数据源中的数据统一为一个数据存储等。预处理数据的效果直接影响到挖掘算法产生的规则和模式。数据预处理主要包括站点识别、数据选择、数据净化、用户识别和会话识别等。
3) 模式发现:利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的及最终可以理解的信息和知识。常用的模式发现技术包括:路径分析、关联规则挖掘、时序模式发现、聚类和分类等技术。
4) 模式分析:利用合适的工具和技术对挖掘出来的模式进行分析、解释、可视化,把发现的规则模式转换为知识。
6 常用的数据挖掘技术
6.1 路径分析技术
我们通常采用图的方法来分析Web页面之间的路径关系。G=(V,E),其中:V是页面的集合,E是页面之间的超链接集合,页面定义为图中的顶点,而页面间的超链接定义为图中的有向边。顶点v的入边表示对v的引用,出边表示v引用了其他的页面,这样形成网站的结构图,从图中可以确定最频繁的访问路径。路径分析技术常用于进行改进站点的结构。如70%的用户访问/company/product时,是从/company开始,经过/company/new/company/products/company/product。此时可以将路径放在比较显著的地方,方便了用户访问,也提高了该产品的点击率。
6.2 关联规则技术
关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则,就是要挖掘出用户在一个访问期限(Session),从服务器上访问的页面文件之间的联系,这些页面之间并不存在直接的参引(Reference)关系。使用关联规则可以发展很多相关信息或产品服务。例如:某信息A和B,同时被很多用户浏览,则说明A和B有可能相关。同时点击的用户越多,其相关度就可能越高。系统可以利用这种思想为用户推荐相关信息或产品服务。如当当电子书店就采用了这一模式用以推荐相关书目。当你选择某本图书时,系统会自动给你推荐信息,告知“很多读者在购买此书时还购买的其他书目”。ACM数字图书馆也采用了这一思想,推出信息推荐服务“Peer to Peer”。
6.3 序列模式挖掘技术
序列模式数据挖掘技术就是要挖掘出交易集之间的有时间序列关系的模式。它与关联挖掘技术都是从用户访问下的日志中寻找用户普遍访问的规律,关联挖掘技术注重事务内的关系,而序列模式技术则注重事务之间的关系。发现序列模式,便于预测用户的访问模式,有助于开展基于这种模式的有针对性的广告服务。依赖于发现的关联规则和序列模式,能够在服务器方动态地创立特定的有针对性的页面,以满足访问者的特定需求。
6.4 聚类分类技术
分类规则可挖掘出某些共同的特性,而这一特性可对新添加到数据库中的数据项进行分类。在Web数据挖掘中,分类技术可根据访问用户而得到个人信息、共同的访问模式以及访问某一服务器文件的用户特征。而聚类技术则是对符合某一访问规律特征的用户进行用户特征挖掘。发现分类规则可以识别一个特殊群体的公有属性的描述,这种描述可以用于分类新的检索。如政府机关的用户一般感兴趣的页面是/company/product。聚类可以从Web访问信息数据库中聚集出具有相似特性的用户群。在Web事务日记中聚类用户信息或数据项能够便于开发和执行未来的市场战略。这些事务信息可以用在:在找出用户共同兴趣后,进行合作式信息推荐,共同体的成员可以互相推荐新的滚动信息;自动给一个特定的用户聚类发送销售邮件,为用户聚类动态地改变一个特殊的站点等。
7 Web挖掘的研究热点[6]
在未来一段时间内,Web挖掘研究的焦点可能会集中到以下几个方面:
1) 高性能Web搜索引擎。尽管搜索引擎性能已有了较大提高,但搜索引擎的最终目标是“理解用户需求精确返回所需”,如何翻译用户的非专业搜索请求,实现自然语言处理,涉及兴趣爬虫、元搜索引擎、垂直搜索、移动搜索和多媒体搜索等方面的研究。
2) Web数据的特征描述与监控。如何表示Web文本内容的特征数据,如何表示和识别Web中的图像、flash等多媒体数据,进而进行网页分类、内容跟踪、过滤和报警等,对于不良网站的监控等有着积极意义。
3) Web数据的获取与集成。包括Web文本特征的提取和表示,如何用一种广泛兼容的半结构化数据模型表示网页;如何抽取动态网页中的数据;如何在分布的Web中获取信息;如何在指定网页中快速定位所需的数据区;如何利用数据库和数据仓库技术查询和存储Web内容等。
4) Web数据流挖掘。Web日志、cookie、点击流等流式数据量巨大,如何识别和过滤爬虫的访问信息;如何有效收集和处理日志以外的访问数据;如何有效标识用户、设置用户会话时间等。
5) 安全与非法访问检测。如何评价Web数据信息本身的可靠和安全性;如何对Web内容、邮件、各种日志和用户访问行为的分析,识别出威胁、欺诈、入侵、无用的数据和异常行为,从而构建安全的网络环境。
6) 个性化与安全隐患。如何跟踪、学习和表达多变的用户兴趣及行为模式,在个性化服务中过滤信息,实现商业应用,在提醒个性化服务时不侵犯用户隐私等都是亟待决的问题。
7) 基于Web的模式分析技术和工具。如何将Web挖掘的结果在浏览器中可视化地表达,包括统计、关联、聚类、分类等工具开发等。
8) Web挖掘的算法改进与质量评估。由于Web数据本身的特点,使得Web挖掘不能照搬数据挖掘的理论和技术,而需要对现有的算法等方面都进行改进。Web挖掘算法和挖掘系统的性能通常需要大量用户的反馈,实际运行测试,因而缺乏有效的评价模式。
9) Web挖掘在社会领域的应用。Web已经是人类社会活动的一面镜子,如何在Web中发现社会现象、问题和热点的规律,为社会学家、经济学家、教育学者提供有价值的知识。
此外,分布式Web挖掘、语义Web挖掘、无线网络下的Web挖掘、Web2.0时代的Web挖掘、多语言环境下的Web挖掘等是值得研究的方向。同时,Web挖掘技术应用于具体领域的研究将持续受到关注,例如,银行证券、企业ERP、医疗卫生、农业、电子商务、网络教学、BLOG等。
8结束语
Web挖掘技术是一个新兴的研究领域,对它的研究和应用正在成为一个热点。伴随着Internet的快速发展,Web挖掘技术的研究和发展将会迎来更好的契机。
参考文献:
[1]EtzioniO.The World Wide Web:Quagmire or goldmine[J]. Communication of the ACM, 1996, 39(11).
[2]王玉珍.Web数据挖掘的分析与探索[J].计算机发展与应用,2003;(4).
[3]张艺雪.Web上的数据挖掘及应用[J].信息科技,2007;(3)115-116.
[4]Wang K , Zhou S, Liew S C. Building hierarchical classifiers using class proximity [C]. In: proc of VLDB’97, Edinburgh, UK, 1999:363-374.
【关键词】数据仓库 数据挖掘 技术 应用
信息时代背景下,传统数据库主要是面向事务并存储在线交易的数据信息,但是无法为人们找到信息中隐藏的重要内容。因此社会发展新形势下,数据仓库与挖掘技术应运而生,并成为企业现代化发展的重要应用技术,不仅能够提高数据信息管理能力,还能够促进企业发展。因此加强对该课题的研究具有积极意义。
1 数据仓库及数据挖掘技术概念
所谓数据仓库技术设计灵感来自于传统数据库技术,其主要是在计算机中实现数据存储的一种技术。但是相比较传统数据库,二者存在本质上的差别。数据仓库的出现并未取代传统数据库,二者共存在信息时代,且发挥自身独特的优势。数据库主要存储在线交易数据,且尽量避免冗余,通常采取符合范式规则设计;而数据仓库在设计过程中有意引入冗余,采取反范式方式实现设计目标。
而数据挖掘技术是在数据集合基础之上,从中抽取隐藏在数据当中的有用信息的非平凡过程。这些信息表现形式呈现多样化,如概念、规则等。它在具体应用过程中,不仅能够帮助决策者分析历史与当前数据信息,还具有预见作用。就本质上来看,数据挖掘过程也是知识发现的过程。数据挖掘技术是多个学科综合的结果,对此其融合了多项技术功能,如聚类、分类及预测等,且这些功能并非独立存在,而是存在相互依存关系。
2 数据仓库与挖掘技术的应用
2.1 数据仓库技术的应用
作为信息提供平台,其从业务处理系统中获得数据,并以星型与雪花模型实现对数据的有效组织。一般情况下,它具体应用主要表现在四个方面:
2.1.1 抽取数据信息
数据仓库具有独立性,在应用中需要从事务处理系统、外部数据源等介质当中获取数据,并设置定时抽取,但需要合理控制操作时间、顺序等,以提高数据信息有效性。
2.1.2 存储和管理数据
作为数据仓库的关键,数据存储及管理模式直接决定其自身特性。因此该方面工作需要从技术特点入手,并积极解决对各项业务并行处理、查询优化等问题。
2.1.3 表现数据
数据表现作为数据仓库的开端,集中在多位分析、数理统计等多个方面。其中多维分析是数据仓库的核心,也是具体表现形式,而通过数据统计能够帮助企业抓住机遇,实现经济效益最大化目标。
2.1.4 技术咨询
数据仓库的出现及应用并不简单,其是一个系统性的解决方案和工程。实施数据仓库时,技术咨询服务十分重要,是一个必不可少的部分,对此在应用中,应加强对技术咨询的关注力度。
2.2 数据挖掘技术在各领域中的应用
不同于传统时代,社会各领域在参与激烈的市场竞争过程中,充分认识到数据对自身长远发展战略实现的重要性。因此数据挖掘技术在当前各行业发展中随处可见。
2.2.1 应用于医学方面,提高诊断准确率
众所周知,人体奥秘无穷无尽,遗传密码、人类疾病等方面都蕴含了海量数据信息。而传统研究模式,单纯依靠人工无法真正探索真正的秘密。而利用数据挖掘技术能够有效解决这些问题,给医疗工作者带来了极大的便利。同时,医疗体制改革背景下,医院内部医疗器具的管理、病人档案资料整理等方面同样涉及数据,引进数据挖掘技术,能够深入分析疾病之间的联系及规律,帮助医生诊断和治疗,以达到诊断事半功倍的目标,且为保障人类健康等提供强大的技术支持。
2.2.2 应用于金融方面,提高工作有效性
银行及金融机构中涉及储蓄、信贷等大量数据信息。利用数据挖掘技术管理和应用这些数据信息,能够帮助金融机构更好地适应互联网金融时代的发展趋势。提高金融数据完整、可靠性,为金融决策提供科学依据。金融市场变幻莫测,要想在竞争中提升自身核心竞争力,需要对数据进行多维分析和研究。在应用中,特别是针对侦破洗黑钱等犯罪活动,可以采取孤立点分析等工具进行分析,为相关工作有序开展奠定坚实的基础。
2.2.3 应用于高校日常管理方面,实现高校信息化建设
当前,针对高校中存在的贫困大学生而言,受到自身家庭等因素的影响,他们学业与生活存在很多困难。而高校给予了贫困生很多帮助。对此将数据挖掘技术引入到贫困生管理工作中,能够将校内贫困生群体作为主要研究对象,采集和存储在校生生活、学习等多方面信息,然后构建贫困生认定模型,并将此作为基础进行查询和统计,为贫困生针对管理工作提供技术支持,从而提高高校学生管理实务效率,促进高校和谐、有序发展。
2.2.4 应用于电信方面,实现经济效益最大化目标
现代社会发展趋势下,电信产业已经不仅限于传统意义上的电话服务提供商、而将语言、电话等有机整合成为一项数据通信综合业务。电信网、因特网等网络融合已经成为必然趋势,并将成为未来发展的主要方向。在大融合影响下,数据挖掘技术应用能够帮助运营商业务运作,如利用多维分析电信数据;或者采取聚类等方法查找异常状态及盗用模式等,不断提高数据资源利用率,更为深入地了解用户行为,促进电信业务的推广及应用,从而实现经济效益最大化目标。
3 结论
根据上文所述,数据仓库与挖掘技术作为一项新型技术,在促进相关产业发展等方面占据十分重要的位置。因此在具体应用中,除了要积极明确数据仓库与传统数据库之间的差别之外,还应切实结合实际情况,积极引入数据挖掘技术,充分挖掘和探索数据信息中的重要内容,为制定科学决策提供支持,同时还应加大对技术的深度研究,不断提高技术应用水平,从而为用户带来更大的利益。
参考文献
[1]陈宏.浅谈数据仓库与数据挖掘技术及应用[J].科技广场,2011,09:90-93.
[2]崔愿星.浅析数据仓库与数据挖掘的应用[J].内江科技,2014,01:141-142.
[3]王慧.数据仓库和数据挖掘在医院信息系统中的应用[J].电脑开发与应用,2014,01:76-78.
[4]靳鑫.浅析数据仓库和数据挖掘[J].中国新通信,2012,11:29-31.
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。
二、数据挖掘的方法
1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。
2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。
3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。
4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。
5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。
6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。
7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。
8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。
事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。
三、结束语
目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。
参考文献:
苏新宁杨建林邓三鸿等:数据挖掘理论与技术[M].北京:科学技术文献出版社,2003
[关键词] 数据挖掘 商业决策 数据分析
一、应用数据挖掘技术支撑商业管理理念的实施
商业管理理论及理念的研究一直没有停歇,那面是“二八原则”,这面又是“蓝平长二”,无论是什么,其宗旨都是为使企业能在激烈的商业竞争中审时度势,迅速出击,知己知彼,百战不殆。任何好的商业决策都必须及时、准确,有真实可靠的事实与数据为依据。商业组织如果感觉不灵敏,很容易陷入“夜半临深池”的危险境地却不自知,有先进的管理理念也无济于事。面对日益复杂的竞争环境,数据挖掘技术应运而生。
数据挖掘技术基于人工智能、机器学习、统计学等技术,可高度自动化地从深层次上分析商业组织在运营过程中积累的海量业务数据,抽取重要信息,使商业组织大大提高认知其组织内外环境的能力,灵活应对突发事件,迅速制定合理决策,使先进的商业管理理念落到实处。
二、数据挖掘功能及其所能解决的典型商业问题
1.关联分析
关联分析是从大量的数据中发现项集之间相关关系或因果结构的数据分析方法。通过对大量销售数据的分析,可以发现两种或多种商品之间存在的关联关系,据此可改变商品的摆放位置,制定捆绑销售等策略。亚马逊及当当等购物网站在用户选择商品后及时给出的其他商品的推介就是利用关联分析得到的。
2.分类与预测
分类与预测是通过对当前数据集合的描述以识别未知数据的归属或预测未来数据的发展趋势。通过对大量销售数据的分析,可以确定特定客户的兴趣、消费习惯、消费倾向和消费需求,进而推断其下一步的消费行为,据此进行定向营销和推送服务,必将大大节省营销成本,获得良好的营销收益。
3.聚类分析
聚类就是按照事物的某些属性把事物聚集成类。聚类之前类的数量及类的特征都是未知的。应用聚类技术能发现不同客户群并刻画出客户群的特征,据此制定营销策略和客户服务策略,如超市根据客户聚集地中心点制定班车路线,制定商品宣传策略等。
4.孤立点分析
数据库中包含的与其他数据行为或模型不一致的数据对象称为孤立点,在数据库中查找识别孤立点的技术即为孤立点分析。在银行、电信等行业的业务数据中发现的孤立点可能预示着欺诈行为,尽早识别,可以为企业减少不必要的经济损失。另外可用于网络的入侵检测,生态系统的失调检测,特殊病种检测等。
5.时序演变分析
时序演变分析是建立事件或对象行为随时间变化的规律或趋势的模型。据此方法利用股市交易信息可分析股市的波动趋势,利用商业交易信息可分析出产品的销量变化趋势、目标市场发展趋势等,利用天气状况数据可分析天气的变化趋势等。
6.文本信息抽取
文本信息抽取是从非结构化的文本中提取重要信息的过程。利用该技术可获取竞争情报,可从新闻等文本中动态抽取日期、地点和人物等信息,并借助关联分析方法进一步识别出产品、企业、人、事件和地点之间的关系,使企业对竞争环境的感知更敏锐。
7.Web挖掘
Web挖掘是指从网络环境中提取有价值信息的过程。如搜索引擎的应用;如分析网站的参观者和购买者的高频率浏览路径,以确定用户对某产品的需求,发现用户的个人喜好,发现用户的去留倾向……据此可改变网页的设置,为用户提供个性化服务,改变受欢迎产品的经营和宣传策略等。
三、数据挖掘流程及所面对的问题
数据挖掘流程可描述为“数据选择数据预处理数据挖掘模式评估知识表示”。
数据挖掘首先根据分析目标从数据源中选取与业务相关的数据。数据源是存储业务数据的数据库或数据仓库。选取的数据通常会存在不完整、含噪声(错误数据)、不一致等问题,需要预处理数据使数据适合于挖掘。在这一过程中元数据起了非常重要的作用。
数据挖掘之前必须选定数据挖掘模型,即先做出某种假定,关联分析、聚类分析及分类与预测为不同的挖掘模型。分析商品销售数据时假定其中某些商品具有相关性,则选择关联分析模型,若挖掘的结果找到了产品A的购买带来产品B的购买则是具体的模式。最终需要评测这种模式是不是真实有效且对商业决策有指导意义(模型评估,利用兴趣度度量加人的识别),保留有意义的模型,并用一种用户容易理解的方式表达出来(知识表示)。
数据的选择和预处理会直接影响数据挖掘的结果。另外任何一种挖掘模型和挖掘算法都不是万能的,不同的商业问题需要用不同的方法去解决。对于特定的商业问题和特定数据可能有多种算法,需要评估以选取最佳算法。
四、总结
数据挖掘作为正在兴起并得到广泛应用的信息技术具有巨大的商业价值,特别是在银行、电信、保险、交通、网上商城、超市等商业领域都有很好的表现。数据挖掘技术可以组织并深层次分析企业积累的海量业务数据,预测客户行为,预测产品状况,预测市场走势,帮助决策者正确判断即将出现的机会,调整策略,减少风险。因此利用数据挖掘技术必将大大提高商业组织利用信息的能力,使得信息更好地为决策服务。
但数据挖掘不是万能的,在实际应用中还要受到许多限制。有足够的合适的数据,选择恰当的模型和算法,有决策者的支持等都是有效应用数据挖掘技术的必要条件。
参考文献:
[1]李佩钰等:蓝平长二 商业理论洛阳纸贵,biz.省略
[2]栾世武:数据挖掘给企业应用带来什么,省略ki.省略
[关键词]计算机;数据;挖掘技术
中图分类号:TP31 文献标识码:A 文章编号:1009-914X(2015)33-0244-01
计算机数据挖掘技术的产生是社会的一种进步,了解计算机数据挖掘对我们来说非常的重要,计算机数据挖掘技术对于庞大的数据有着整理分析的作用,这不仅仅对于企业的工作产生了巨大的作用,还对日常工作 生活等也提供重要的帮助。
1 计算机数据挖掘的概念及对象
1.1 计算机数据挖掘的概念
计算机数据挖掘是在社会的发展进入了网络信息时代之后产生的网络衍生产品,计算机数据挖掘主要是通过一定的手段对企业内部进行数据挖掘,然后通过一定的分析,对那些通过数据挖掘得到的数据进行整理,进而分析企业的市场以及企业的发展等等问题。计算机数据挖掘对处于网络信息时代之中的企业来说非常重要,它是处于网络信息时代之中的企业长远发展的助推器,作为处于信息时代的企业要抓住这个促进自己发展的大好契机。
1.2 计算机数据挖掘的对象
计算机数据挖掘具有一定的针对性,计算机数据挖掘的对象(目标数据)并不是所有的数据,它是具有选择性的,计算机数据挖掘的对象主要是指企业中能够揭示一些未发现的隐藏信息和企业中比较有意义和研究价值的数据,明确这一点非常的重要,计算机数据挖掘的对象的选择性是影响计算机数据挖掘效率的主要因素,对于一个没有充分认识计算机数据挖掘对象的选择性的企业来说,它的计算机数据挖掘的效率会比成熟的计算机数据挖掘的企业或者是充分认识到计算机数据挖掘的对象的选择性的企业要低得多。同时,明确目标数据的类型也非常重要,它直接决定了要使用的数据挖掘技术和方法,大体上数据类型分为三类:记录数据,给予图形的数据和有序的数据。
2 计算机数据挖掘的任务及过程
2.1 计算机数据挖掘的任务
计算机数据挖掘主要是对海量的数据进行挖掘和分析,必须经过计算机数据准备和计算机数据规律寻找的固定过程,在计算机数据挖掘的过程中,计算机数据准备和计算机数据规律的寻找一个都不能少,我们要做好计算机数据挖掘的每一步,计算机数据挖掘的任务主要有对计算机数据挖掘的结果与企业的市场现状进行一个具体的联系、对计算机数据挖掘的结果进行一定的分类,对计算机数据挖掘的结果进行一定的变异分析。在处理计算机数据挖掘的任务时,我们要完成计算机数据挖掘的每一个任务,首先,对计算机数据挖掘的结果与企业的市场现状进行一个具体的联系是计算机数据挖掘的根本任务,而对计算机数据挖掘的结果进行一定的分类是计算机数据挖掘的主要任务,最后对计算机数据挖掘的结果进行一定的变异分析是计算机数据挖掘的必要任务。
2.2 计算机数据挖掘的过程
计算机数据挖掘的过程具有一定的复杂性,计算机数据挖掘的基本过程:第一,对计算机数据的来源进行一定的分析。这一步非常的重要,一个完整的计算机数据挖掘的过程必须以这一步为基础,只有对计算机数据的来源进行一定的分析,我们才能够进行下一步的操作;第二,从计算机数据的来源的分析结果中获取一定的信息,然后我们要对计算机数据的来源的分析结果进行研究,在研究的过程中,我们要查阅相关的专业知识和专业的研究数据挖掘的技术,只有具备了相关的专业知识和专业的研究数据挖掘的技术,我们才能够更好地对计算机数据进行挖掘;第三,对计算机数据挖掘的信息进行一定的整合,检查出不太合理的相关信息;第四,数据挖掘的实施。根据挖掘具体任务选择相应的数据挖掘实施算法;第五,结果评估与整理。在完成实施阶段后,要对数据挖掘结果进行评估和整理,完成整个数据挖掘的过程。
3 计算机数据挖掘的技术应用挑战
计算机数据挖掘最大的应用领域就是商业领域,它能够为商业机构提供欺诈侦查和客户市场分类等数据。在这个高速发展的信息时代,网络是商业发展的主要推动因素,我们要使计算机数据挖掘在商业上的应用领域更广。
3.1 在金融企业的应用及重要作用
金融企业是具有一定风险的企业,其重要的就是要对投资的风险做出评估,这样,才能在我们金融企业进行投资时把风险降到最低。这时,金融企业就利用计算机数据挖掘技术对我们的投资项目进行评估预测。如:在企业收购股票时,就要根据这只股票历史走向的数据做,从而做出评估,在做出较为精准的判断和选择。在金融业涉及到借贷款的问题时,企业要根据贷款对象日常的诚信做出调查,然后再进行数据的挖掘统计,从而判断出贷款对象是属于低风险还是高风险。由此可见,计算机数据挖掘技术对金融企业的投资、贷款有着重要的作用。
3.2 电子商务企业的应用
电子商务企业最注重的便是网站的浏览量和点击率及与客户的成交单子的数量。企业如何提高网站的浏览量和点击率和用户的交易数量就成了问题的核心。电子商务企业可以根据用户在浏览网页时的收藏物品的情况、购物车的情况、成交记录的情况进行物品的推荐。这就需要应用技术数据挖掘技术对用户的一系列情况做出数据的整合。通过数据的分析推荐的商品,及时客户最终没有购买,也会增加该物品的浏览量,这也使得我们电子商务的浏览量得到提升,从而增加企业在该行业的竞争力。
3.3 企业竞争的应用
社会经济在不断的发展进步,随着而来的相同企业的数量也在不断的增加,如何在众多相同的企业里脱颖而出是所有企业思考的问题。一个企业除了要具有自己的特色之外,还要充分了解对手的情况,这时,就需要我们的企业利用计算机数据挖掘技术对竞争企业进行系统的分析调差,这样,才能做到充分了解对手。吸取竞争对手的长处,在看到企业的短处时,也要使自己的企业避免相似的问题出现。所以,计算机数据挖掘技术在企业相互竞争时起着不可忽视的重大作用。
3.4 计算机数据挖掘技术面临的挑战
数据挖掘技术面临的最大挑战就是隐私的保护和数据的安全性问题。当数据在不同的抽象级别视角去考察的时候,数据挖掘对隐私和数据安全就构成了威胁。它威胁到保持数据安全和防止干涉隐私的目标的实现。
4 结语
社会的科技在不断的发展进步,而计算机数据挖掘技术在我们的社会生活中的不同领域都发挥着其最大的作用。计算机数据挖掘技术将会在各个领域得到广泛的应用,并对人类的活动产生深远的影响。
参考文献
一、海量数据挖掘关键技术随时代而变化
所谓海量数据挖掘,是指应用一定的算法,从海量的数据中发现有用的信息和知识。海量数据挖掘关键技术主要包括海量数据存储、云计算、并行数据挖掘技术、面向数据挖掘的隐私保护技术和数据挖掘集成技术。
1.海量数据存储
海量存储系统的关键技术包括并行存储体系架构、高性能对象存储技术、并行I/O访问技术、海量存储系统高可用技术、嵌入式64位存储操作系统、数据保护与安全体系、绿色存储等。
海量数据存储系统为云计算、物联网等新一代高新技术产业提供核心的存储基础设施;为我国的一系列重大工程如平安工程等起到了核心支撑和保障作用;海量存储系统已经使用到石油、气象、金融、电信等国家重要行业与部门。发展具有自主知识产权、达到国际先进水平的海量数据存储系统不仅能够填补国内在高端数据存储系统领域的空白,而且可以满足国内许多重大行业快速增长的海量数据存储需要,并创造巨大的经济效益。
2.云计算
目前云计算的相关应用主要有云物联、云安全、云存储。云存储是在云计算(cloud computing)概念上延伸和发展出来的新概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。
当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。
3.并行数据挖掘技术
高效率的数据挖掘是人们所期望的,但当数据挖掘的对象是一个庞大的数据集或是许多广泛分布的数据源时,效率就成为数据挖掘的瓶颈。随着并行处理技术的快速发展,用并行处理的方法来提高数据挖掘效率的需求越来越大。
并行数据挖掘涉及到了一系列体系结构和算法方面的技术,如硬件平台的选择(共享内存的或者分布式的)、并行的策略(任务并行、数据并行或者任务并行与数据并行结合)、负载平衡的策略(静态负载平衡或者动态负载平衡)、数据划分的方式(横向的或者纵向的)等。处理并行数据挖掘的策略主要涉及三种算法:并行关联规则挖掘算法、并行聚类算法和并行分类算法。
4.面向数据挖掘的隐私保护技术
数据挖掘在产生财富的同时也随之出现了隐私泄露的问题。如何在防止隐私泄露的前提下进行数据挖掘,是信息化时代各行业现实迫切的需求。
基于隐私保护的数据挖掘是指采用数据扰乱、数据重构、密码学等技术手段,能够在保证足够精度和准确度的前提下,使数据挖掘者在不触及实际隐私数据的同时,仍能进行有效的挖掘工作。
受数据挖掘技术多样性的影响,隐私保护的数据挖掘方法呈现多样性。基于隐私保护的数据挖掘技术可从4个层面进行分类:从数据的分布情况,可以分为原始数据集中式和分布式两大类隐私保护技术;从原始数据的隐藏情况,可以分为对原始数据进行扰动、替换和匿名隐藏等隐私保护技术;从数据挖掘技术层面,可以分为针对分类挖掘、聚类挖掘、关联规则挖掘等隐私保护技术;从隐藏内容层面,可以分为原始数据隐藏、模式隐藏。
5.数据挖掘集成技术
数据挖掘体系框架由三部分组成:数据准备体系、建模与挖掘体系、结果解释与评价体系。其中最为核心的部分是建模与挖掘体系,它主要是根据挖掘主题和目标,通过挖掘算法和相关技术(如统计学、人工智能、数据库、相关软件技术等),对数据进行分析,挖掘出数据之间内在的联系和潜在的规律。大体上,数据挖掘应用集成可分为几类:数据挖掘算法的集成、数据挖掘与数据库的集成、数据挖掘与数据仓库的集成、数据挖掘与相关软件技术的集成、数据挖掘与人工智能技术的集成等。
二、海量数据挖掘应用广泛但深度不足
2011年中国数据挖掘软件市场规模达接近2亿元,2012-2014年还将快速增长。从数据挖掘应用行业上看,国内大多数的用户都来自电信、银行、保险、税务、政府等领域。应用主题主要包含:消费者行为分析、信用评分与风险管理、欺诈行为侦测、购物篮分析等方面。目前,国内数据挖掘应用仍停留在初级阶段,行业企业大规模的运用数据挖掘技术尚需时日。
1.国内数据挖掘应用可分为3个层次
从数据挖掘应用层次上看,大体可以分为三个层次:第一层次是把挖掘工具当作单独的工具来用,不用专门建设系统;第二层次则是把数据挖掘模块嵌入到系统中,成为部门级应用;第三层次是企业级应用,相当于把挖掘系统作为整个企业运营的中央处理器。目前,国内的数据挖掘应用的企业基本处于第一层次,偶尔某些企业用户能够做到第二层次。
2.国内有代表性的数据挖掘行业应用情况简评
(1)通信业:国内应用数据挖掘的企业还是以通信企业(移动、联通、电信)为首,应用的深度和广度都处于领先地位。
(2)互联网企业:随着电子商务的普及,各大商务网站已经大规模使用数据挖掘技术,并且迅速从中取得商业价值。例如,国内很多网上商城已经开始使用数据挖掘技术进行客户聚类或者商品关联推广。另外,搜索引擎企业使用数据挖掘技术的需求也非常迫切。
(3)政府部门:我国政府部门中使用数据挖掘技术比较领先的是税务系统。数据挖掘在电子政务中的应用,更多的涉及到报表填制、数据统计。
(4)国内金融行业:操作型数据挖掘应用在国内金融行业应用广泛,尤其是信贷评审领域。中小型银行数据挖掘需求将是未来金融行业数据挖掘市场的主要增长点。未来5年时间里,数据挖掘应用在金融行业仍将高速发展。