公务员期刊网 精选范文 数据挖掘技术研究范文

数据挖掘技术研究精选(九篇)

前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的数据挖掘技术研究主题范文,仅供参考,欢迎阅读并收藏。

数据挖掘技术研究

第1篇:数据挖掘技术研究范文

关键词:人工智能;数据挖掘;发展前景

当今社会已经进入了人工智能时代,人工智能的应用,大大改善了我们的生活。大数据时代已经来临,不论是从数据的使用,挖掘,处理等方面,都为人工智能的应用起到了基础和保障。

1人工智能

1.1人工智能的定义。人工智能(ArtificialIntelligence),简称AI。属于计算机学科下的分支,顾名思义,它是一门专门研究类人化的智能机器学科,即利用现阶段科学的研究方法和技术,研制出具有模仿、延伸和扩展人类智能的机器或智能系统,从而实现利用机器模仿人类智能的一切行为。1.2人工智能的研究背景。在1956年的达特矛斯会议上,“人工智能”这一术语正式由麦卡锡提议并采用了,随后人工智能的研究取得了许多引人注目的成就。在这之后,科研人员进行了许多的研究和开发,人工智能这个话题也取得了飞速的发展。人工智能是一门极具挑战性的科学,从事这项工作的人必须了解计算机知识、心理学和哲学理念。人工智能的研究包涵广泛的科学知识,以及其他领域的知识,如机器学习、计算机视觉等。一般来说,人工智能研究的主要目标是使机器能够做一些通常需要人工智能完成复杂工作的机器。1.3人工智能的研发历程。早期研究领域:人工智能专家系统,机器学习,模式识别,自然语言理解,自动定理证明,自动编程,机器人,游戏,人工神经网络等,现在涉及以下研究领域:数据挖掘,智能决策系统,知识工程,分布式人工智能等。数据挖掘的出现使得人工智能的研究在应用领域得到广泛的发展。以下简要介绍其中的几个重要部分:(1)专家系统。所谓专家系统就是控制计算的智能化程序系统,通过研发人员总结归纳了专业学科知识和日常经验,能够知道计算机完成某个领域内的专业性活动或者解决某些专业级别的问题。人工智能技术可以合理利用已知的经验体系在复杂环境中,解决和处理复杂问题。(2)机器系统。机器系统简单说就是机器人通过人造神经系统,借助于网络或者存储系统汲取系统的知识进行开发研究。(3)感知仿生。感知仿生系统通过模拟人类的感官,感知生物学特征,通过人工智能机器的感部件对外界外部环境进行感知,识别,判断,分析的能力。能够更好的适应环境,做出判断。(4)数据重组和发掘。是指通过人工智能系统,结合当前先进的理念,对大数据的总结归纳,识别存储,调取等应用。通过数据的加工处理,能够主动做出判断和分析。(5)人工智能模式。分布式人工智能是模式之一,该系统利用系统有效的规避和克服系统资源在某段时间内的局限性,并能有效地改善因资源造成的时间和空间不均衡问题。它具备,模式自动转换,并行处理,开放启发方式,冗余且容错纠错的能力。

2数据挖掘

2.1数据挖掘的定义。数据挖掘(DataMining,DM)是揭示数据中存在的模式和数据关系的学科,强调处理大型可观察数据库。数据挖掘的出现使得人工智能的研究在应用领域得到了广泛的发展。这里包括数据挖掘和智能信息提取过程,前者从大量复杂的现实世界数据中挖掘出未知和有价值的模式或规则,后者是知识的比较,选择和总结出来的原则和规则,形成一个智能系统。2.2数据挖掘的研究现状。当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。看似广泛,实际应用还远没有普及。而据Gartner的报告也指出,数据挖掘会成为未来10年内重要的技术之一。而数据挖掘,也已经开始成为一门独立的专业学科。2.3数据挖掘的研究发展。具体发展趋势和应用方向主要有:性能方面:数据挖掘设计的数据量会更大,处理的效率会更高,结果也会更精确。工具方面:挖掘工具越来越强大,算法收敛越来越多,预测算法将吸收新颖性算法(支持向量机(SVM),粗糙集,云模型,遗传算法等),并实现自动化的实现算法,选择和自动调谐参数。应用:数据挖掘的应用除了应用于大型专门问题外,还将走向嵌入式,更加智能化。例如进一步研究知识发现方法,对贝叶斯定理和Boosting方法的研究和改进,以及对商业工具软件不断的生成和改进,着重建立整体系统来解决问题,如Weka等软件。在先进理论的指导下,按照国内形态发展,至少需要20年的时间,才能改进数据挖掘的发展。

3数据挖掘与人工智能技术的联系

数据挖掘属于人工智能中独立系统。它于人工智能的存在关系属于,并存联系,且独立运行,互不从属。此设计体系一方面可以有效促进人工智能提升学习能力,增进分析能力,另一方面还对分析,统计,OLSP,以及决策支持系统模块等起到推动作用。在收挖掘应用领域,处理可以对WEB挖掘,还能够有效进行文本,数据库,知识库,不同领域不同学科的信息进行序列矩阵模式挖掘。基于数据本身的分类,辨识,关联规则,聚类算法更加博大精深。因此,独立于人工智能的数据挖掘,更加便于科研团体或者领域对数据的使用和分析。数据挖掘是人工智能领域的一部分。首先,高智能是数据挖掘和人工智能的最终目标,正是由于这个目标,人工智能和数据挖掘有很多关联。其次,数据挖掘和人工智能是各种技术的整合。数据挖掘和人工智能是许多学科的跨学科学科。最后,数据挖掘的出现逐渐发展壮大,加强了人工智能,因此可以说,它们两者是不可分割的。

4人工智能和数据挖掘技术的发展前景

在当前环境下,人工智能和数据挖掘技术具有以下发展前景:(1)在大数据互联网中的应用。将人工智能的技术应用于互联网中将会使网络技术带上智能的特性,可以为人们的生活提供智能化的帮助,给人们的生活带来便利。还可以提高网络运行效率、增加网络安全性等。(2)智能化服务的研究。人工智能和数据挖掘都很注重对智能化服务的研究,例如很多智能机器人便应运而生,它们已经能胜任许多简单的工作,可以为人们提供人性化的服务。高度的智能化是数据挖掘和人工智能研究最终追求的目标,也是二者最终合而为一的标志。(3)使知识产生经济化。在现阶段的知识经济时代,人工智能和数据挖掘势必受到经济的影响,这决定了人工智能和数据挖掘将具有经济特征。人工智能和数据挖掘技术作为无形资产可以直接带来经济效益,通过交流,教育,生产和创新的无形资产将成为知识经济时代的主要资本。可以预期未来的人工智能和数据挖掘技术将更加经济实用。(4)交叉学科的技术融合。各行各业的理论和方法都已经开始融入了人工智能和数据挖掘之中。未来的人工智能和数据挖掘技术必将是一个融合众多领的复合学科。当今,我们已经在逐渐使用人工智能与数据挖掘技术,去攻克更多难题,解决更多问题,造福人类,改善生活,近在眼前。

作者:喻正夫 单位:汉江师范学院

参考文献:

[1]万璞,王丽莎.数据挖掘与人工智能技术研究[J].无线互联科技,2016(10):113-114.

[2]王翔.试论如何利用大数据挖掘技术推动人工智能继续发展[J/OL].科技创新报,2017,14(01).

[3]秦益文.微博数据挖掘中人工智能推理引擎的应用[J].中小企业管理与科技(中旬刊),2017(02).

[4]蒲东齐.数据挖掘在人工智能上的应用[J].信息与电脑(理论版),2016(19).

[5]李丹丹.数据挖掘技术及其发展趋势[J].电脑应用技术,2007(02):38-40.

第2篇:数据挖掘技术研究范文

1.1对克隆代码的数据挖掘在软件工程领域中,对克隆代码的检查与测试是最为原始的数据挖掘需求之一,直到目前已经逐渐演变出了很多的方式,其主要可以分为以下几种:

1.1.1将文本对比作为基础的方式采用计算机软件系统中的对比程序代码中所包含的语句行展开进一步的判断过程,这种方法在进行后期的改进过程中针对的是对字符串的匹配效率进行提升,提升的办法有很多,最为主要的就是通过Hash函数技术进行匹配效率优化,在这个过程中最为常用的工具为Duploc。

1.1.2将标识符对比作为基础的方式将标识符对比作为基础的方式,最具代表性的方式是对由分词所组成的标识符序列构造前缀树,并将其作为依据然后进行对比,将标识符对比作为基础的方式的工具主要有CCFinder、Dup等[3]。

1.2计算机软件数据检索挖掘数据检索挖掘与克隆代码一样,同样是计算机软件工程中最为原始的数据挖掘需求之一,对于计算机软件数据检索挖掘来说其主要分为以下三步:第一步,为数据信息的录入。所谓的数据信息录入实际上指的是对于要检索的信息进行录入的过程,针对使用者的需求将使用者所需要的数据信息输入到检索信息录入框中进行数据的查找。第二步,为数据信息的查找过程。当客户所需要的信息进入到数据检索录入框中时,进行确认后数据挖掘系统将会根据数据信息中所涵盖的数据信息内容进行数据库中的查找,并且根据不同的分类,对查找信息的数据信息资料进行罗列[4]。第三步,为数据信息资料内容的导出和查看,在查找到相关的客户需要数据内容时,客户可以根据自己本身的实际需要,进行数据信息的导出或者是在线查看,在数据信息资料导出后,需要应用相关的数据信息查看软件进行查看。并且客户在导出数据信息时,会在中形成一定的历史记录,对客户及时查找的数据信息进行记录与保存,当客户想要再次进行查找时能够更为方便与快捷的找到其所需要的数据信息内容。

二、结语

第3篇:数据挖掘技术研究范文

关键词:XML;半结构化数据挖掘

中图分类号:TP311.13

随着因特网的发展,数据信息来源种类逐渐增多,相应的信息复杂性也在增加,传统的数据存储和处理方式已经不能很好的满足实际使用与研究的需求,XML作为一种半结构化数据标准,已经开始被越来越广泛的应用,而对于此类结构化数据的挖掘也为我们的日常研究提供了一个方向。

对于半结构化数据源的挖掘不同于传统的数据挖掘。传统的数据库中的数据类型工整,数据结构性很强,为完全的结构化数据,因此对于此类数据处理较为简单,只需要按照其规律进行分析即可。而对于半结构化的数据则因其表现形式的多样性,所以对其挖掘要比对于单个数据仓库的数据挖掘要复杂。

1半结构化数据

半结构化数据有两种,一种是指该数据在物理层面上缺少结构,另外一种是指该数据在逻辑层上缺少结构。在现有的Web环境中,有一些结构化的数据,为了用于网页页面显示而采用了与HTML语言标记符号嵌套的方式,因此就构成了第一种物理上的半结构化数据。另外网络中有众多的Web页面,页面上有着丰富的数据内容,这些数据大多都以HTML文件的方式存在,并没有严格的结构和类型定义,这样的数据都属于第二类的逻辑层的半结构化数据。网络页面上的数据与传统数据库中存储的数据不同,传统数据库内的数据都有一定的数据模型,每个特定的数据都可以根据模型来进行描述,而网络页面上的数据很复杂,并且不能按照特定的模型进行描述,每一个站点的数据都遵循其独立的设计规则,并且它的数据本身具有自我描述的特性和动态的可变性。因此网络页面上的数据具有一定的结构性,但是其因为具有自述层次的存在,因此属于一种非完全结构化的数据,也称为半结构化数据。

2半结构化数据的来源

(1)在Internet上因为对所存储的数据没有严格模式的限制而产生的半机构化数据,常见的有HTML、XML、SGML等类型的文件。

(2)在电子邮件、电子商务文件、文献资料等文件中,由于没有严格的格式要求,所以存在着大量结构与内容不固定的半结构化数据。

(3)在包含有异构信息源集成的情况下,由于信息源集成范围广泛,对于信息源的存取范围包括各类数据库、电子图书馆、知识库和文件系统等,因此也会产生半结构化数据。

3半结构化数据的几个特点

(1)包含有隐藏的模式信息。虽然说半结构化数据具有一定的结构,但是由于数据和结构混合在一起,所以并没有明显的模式定义。

(2)结构不规则。半结构化数据的一个数据集合可以由不同结构的元素组成,或者在某些情况下使用不同类型的数据来表示相同的信息。

(3)类型约束不严格。半结构化数据由于没有预先确定的表达模式,并且数据在结构上没有遵循相同的规则,因此会导致其缺乏对于数据的严格约束。

基于以上几个半结构化数据模型的特点可以看出半结构化数据缺乏严格、完整的数据结构,但是这类数据并非没有结构,但是它们的结构可能是隐藏的、并不完整的,并且可能是需要不断进行修改的。

半结构化数据的模式与以往的关系数据模式或者面向对象的数据模式最大的区别在于半结构化数据是现有数据然后再有模式。不对数据的结构进行强制性的约束,只需要描述出数据的结构信息,并且它只描述数据部分结构的非精确模式,在应用中随着数据对象的不断更新而动态修改其描述,据此分析半结构化数据的数据特点和它所产生的原因,半结构化数据源的挖掘是能够实现的。

半结构化数据源挖掘技术首先要解决的是数据远模型及其查询与集成的问题。要解决网页页面上的异构数据的集成与查询,就必须要有一个适当的模型来对这些数据进行清晰的描述,因此如何创建这个半结构化的数据模型就成为了解决问题的关键所在。首先我们需要定义一个半结构化数据模型,其次我们还需要一种适用于此模型的半结构化模型挖掘技术用来的从现有的数据中自动挖掘半结构化模型。对于网页页面数据的挖掘就必须以此半结构化数据模型和半结构化数据模型挖掘技术为手段来建立相应的数据库。

在针对多数据源的数据库进行半结构化数据提取、表示和查询的处理一般采用包装的方式来进行。首先把信息源的数据通过包装转换成为目标数据库所使用的格式和类型。同时处理过程中负责监视的部分将自动监测信息中的数据变化,如果发现数据有变化则将这些变化上报,这些变化经过分析发现有新的数据源连接仓库系统或者信息源发生变化时,那么系统就会把这些有变化的数据进行过滤、汇总,并把这些信息源进行汇总处理,并将收集到数据库中。

此系统对半结构化数据进行处理的过程中所面临的主要问题就是如何将其转化为更易于处理的结构化信息。但是对这些半结构化数据进行转换的目标是庞大的网页页面数据源,如果依靠人工手段针对每个数据源编写相应的转换方式的话工作量非常代价。因此,我们需要一种能够快速建造并且直至自动维护的转换工具。目前这类工具还不是很多,并且使用上并不十分完善。但是,随着近年来XML及其应用技术的发展为处理半结构化数据提供了很好的工具和方法。

4XML有如下几个特点

(1)XML语法具有严格的标记规定;

(2)XML对于各元素之间的顺序有着严格的先后顺序,是按照相应的解释模式来排列的;

(3)XML中的元素可以包含有多个属性值。基于以上几个特点,如今XML已经成为正式规范,开发人员已经开始使用XML格式的标记和交换数据。XML在网页数据挖掘中可以用于建立信息源层的数据集成,即构建数据仓库),也可以用于将信息处理结果以XML的形势发往数据仓库,也可以基于数据仓库将数据进行挖掘和分析处理,还可以将半结构化数据挖掘处理的结果送往应用层。

基于XML的网页页面信息提取一般包括页面捕获、页面预处理和半结构化数据提取等方面。其中页面捕获有多种方法,一种是直接利用OCX控件,根据提供的入口参数URL来获取页面超文本内容;另外一种是利用开发工具所提供的支持网页文本获取的功能接口来获取。

XML为基于Web的应用提供了强大的功能和广泛的灵活性,它能为开发者带来更多的好处,例如Web数据可以按照XML的格式进行唯一性的表示,因此可以进行更有意义的搜索。有了XML之后,搜索软件可以不必了解每个数据库都是如何构建的。在使用XML之前由于每个数据库描述数据的格式几乎都不相同并且数据来源广泛,所以针对不同来源数据进行搜索几乎是不可能的。但是XML语言能够将不同来源的半结构化数据进行结合,相关应用集成上可以使用中间层服务器对采集上来的半结构化数据进行挖掘,然后将处理后的数据发送到最终用户或者其他服务器做进一步的处理。

XML的丰富扩展性和灵活性使它能够描述不同类型应用中的数据,并且XML文档因为是对象模式,因此它允许使用脚本或者其它程语言进行数据处理,数据计算不需要返回到服务器就可以操作。在Web中XML可以被用来分离使用者浏览的数据页面,可以用简单灵活和开放的格式为Web创建功能强大的云应用,通过创建高效的云计算平台来为用户服务,而以前此类软件只能依靠高端数据库来构建。

5结束语

XML作为一种结构化数据的工作也标准,为广大组织、开发者、网站和终端使用者提供了有利的条件,随着XML作为WEB上进行数据交换的一种标准方式的逐步发展,基于XML的半结构化数据挖掘将会变得越来越轻松。

参考文献:

[1]李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002(5):526-533.

[2]宋中山,曾广平.基于XML的Web数据挖掘技术[J].中南民族大学学报,2005(1):64-67.

第4篇:数据挖掘技术研究范文

关键字:数据挖掘技术;计算机;网络;病毒防御技术

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2015)02-0001-02

Abstract: In the computer network virus prevention technology, with respect to the application of data mining technology can quickly within its geographical scope of the data collected classification, so as to provide a reference for computer virus-related information determination. In this paper, the analysis of data mining techniques in computer network virus defense techniques.

Key words: data mining technology; computers; networks; virus defense technology

随着社会的进步,计算机技术迅速发展革新,人们已经进入暂新的网络时代,但与此同时,伴随着计算机技术的发展,与计算机网络一直都存在密切关系的计算机网络病毒技术也保持着同步发展,甚至推进到更高水平,给计算机网络系统安全造成极大的威胁,同时给广大计算机网络用户带来很大损失,因此,计算机网络病毒防御技术一直是人们比较关注的问题。数据挖掘技术是一种新型计算机技术,用于计算机网络病毒的防御系统中可以有效的解决目前发展猖獗的蠕虫病毒,进一步保障计算机网络系统的安全。

1 计算机网络病毒特点

第一,计算机网络病毒种类的多样性。计算机网络病毒的设计和开发没有太大难度,简单的几个程序编写指令就可以开发设计出各种各样的网络病毒,尤其是对于一些技术水平比较高的程序编写员来讲,很容易就可以完成计算机网络病毒程序的编写和修改,而且网络病毒的种类增长和繁殖速度特别快[1]。

第二,计算机网络病毒传播形式的多样性。计算机网络系统的传播形式有很多种,网络病毒在网络系统漏洞中的传播就是常见的一种病毒传播方式,计算机网络病毒程序通过对Internet 远程主机系统的搜索和扫描,利用系统漏洞到达控制对方计算机的控制。同时也有一种病毒通过对文件夹的搜索扫描,进行病毒复制,以到达入侵网络系统的目的。

第三,计算机网络病毒的针对性。在计算机网络技术发展初期,计算机网络病毒主要目标就是干扰网络技术人员的程序编写,随着计算机技术的快速发展,计算机网络病毒的开发技术和功能作用也发生了很多变化,如今,计算机网络病毒的设计和开发已经开始商业化,针对性的对计算机网络系统实施破坏,如通过盗用网银账号和密码等方式已到达非法获取利益的目的。

2 数据挖掘技术的基本认识

数据挖掘技术是通过对所处一定范围之内的所有数据进行数据收集、数据分类以及数据归类,进而来判断是否存在某种潜在的关系和数据规律,主要环节有3个:第一个是准备数据;第二个是寻找数据存在的规律;第三个是表现数据规律。数据挖掘技术的基本应用结构如下图所示:

数据挖掘模式设置好之后,技术系统中的挖掘引擎就会以数据库中的要求为依据,对准备好的数据进行数据分析和数据归类,找出各个数据之间存在的关系和相应的数据规律,以便成为之后数据分析的有利依据,数据挖掘步技术是比较全面的挖掘技术和数据应用技术,工作过程比较繁杂,工作操作步骤较多,其中存在很大部分的准备环节和规划工作,数据挖掘技术的重点工作是对数据的预处理阶段,对数据的预处理阶段是数据挖掘技术的基础,是后期的进行数据分析的必要条件[2]。

3 数据挖掘技术下的计算机网络病毒防御技术

3.1 数据挖掘技术的构成分析

在计算机网络病毒进行传播的时候,为了给数据挖掘技术提供相应的数据依据,需要对有关数据进行扫描,可以对网络用户方面数据进行扫描,也可以对系统数据进行扫描。数据挖掘技术在计算机网络病毒防御中的应用过程比较复杂,步骤繁多,为了便于日常操作应用,掌握每个环节的基本特征,可以对预处理模块、决策模块、数据收集模块、数据挖掘模块以及规则库模块进行分模块分析研究。基于数据挖掘技术的计算机网络病毒防御流程如下图所示:

3.1.1 数据预处理模块分析

简化数据挖掘技术中数据挖掘和数据分析之间的处理操作可以通过数据预处理模块来实现,利用数据预处理模块可以整体上提高数据挖掘效果,提高数据辨识度和准确度。在完成数据收集后需要把数据导入到预处理模块,实现数据的分析归类和数据变换,通过这样额方式把数据转换成可以被系统识别和处理的数据内容。以目标 IP地址、源 IP地址、端口信息等这些据数据包当中所包括的信息内容为依据,实施数据集合、数据归纳、数据处理等流程等[3]。

3.1.2 决策模块分析

在数据挖掘技术中的决策功能模块中,通过对数据的挖掘对数据库进行构建,然后对数据进行匹配,同时数据库还要和规则库密切联系起来。如果数据库有与规则库存在高度联系的信息出现,证明在决策模块里有病毒特征存在,很可能会感染到计算机病毒。如果是结果数据库的数据信息和规则库的数据不能相互匹配,那也就是说该数据包中存在有带有新型特征病的毒带,也就是出现了新型的规则类,这样的情况下就需要把该带有新型特征的病毒导入到系统的规则库当中,规则库的一种较新型的规则类别也就形成了。

3.1.3 数据收集模块分析

实现数据挖掘的基本要求是提供充分的数据信息,只有通过数据收集才能实现数据收集模块的功能。数据收集模块通过对计算机网络中数据包的抓取和收集来实现数据信息,数据信息被收集后就会具有一定的数据结构和比较重要的功能信息。

3.1.4 数据挖掘模块分析

数据挖掘技术的一个最关键部分就是数据挖掘模块。数据挖掘模块中的事件库和数据挖掘算法是数据挖掘模块的关键部分。数据挖掘对相关数据的收集构成了事件库,通过对事件库中数据的分类和数据整理,进而可以获取较为准确的数据结构。

3.2 以数据挖掘技术为基础的网络病毒防御系统

3.2.1 数据挖掘技术中的关联规则分析

数据挖掘技术的关联规则就是指在同一类别的数据中有可以被发现的知识存在,通过对两个或者超过两个的变量进行取值,如果发现数据具体一定规律的话说明这些数据和数据之间存在着某种关联性。因果关联、及时序关联以及简单关联是存在数据挖掘技术中的几种主要关联关系。要找到数据库中的关联网,就需要进行关联分析,然后结合数据和数据之间的关联性进行数据挖掘,进而得到数据和数据存在的关联规则。

3.2.2 数据挖掘技术中的聚类分析

根据数据的不同特点和类别,对所获取的数据进行分解,把它们分成多个不同的组别,各组数据之间在特征上都存在不同程度的相似之处,而且每组数据同时又存在着各种不同特征。系统对所有数据进行聚类之后,就可以发现并识别出整个系统数据分布的疏密情况,这样不仅可以呈现出组与组之间数据存在的联系,同时也可以对全局的分布模式有所体现。

3.2.3 数据挖掘技术中的分类分析

对个体进行分类并归类到预先设定的类别当中就是分类分析。分类的目的就是通过对各种各样的机器学习方法和各种统计方法的利用,建立数据的分类模型,进而把数据库中存在的所有数据按照一定的规律划分成各个类别,然后依据这个分类规则结果实现对其他数据的分析和归类。

4 结束语

计算机网络已经很大程度上渗透入人们的生活和工作当中,彻底改变了人们的生活和工作方式,同时也促进了计算机网络技术的进一步发展,但面对无法彻底避免的计算机网络病毒,大家一定要提高网络系统安全意识,把这场抵制计算机网络病毒入侵的持久战坚持下去。

参考文献:

[1] 李智勇. 数据挖掘在计算机网络病毒防御中的应用探究[J]. 电子测试, 2014 (12): 46-48.

第5篇:数据挖掘技术研究范文

【关键词】WEB数据挖掘技术 网络营销 应用

网络营销是在电子商务发展下孕育而生的一种集市场营销和现代信息技术为一体的新型市场营销模式。网络营销主要是依托互联网和计算机信息技术,将营销者与客户之间的交易、交流行为实现信息化,而这其中则会产生大量的频繁数据交换,再加之这些数据的种类较为分散,如何能够有效的管理与应用这些数据便成为网络营销者必须关注的问题。在本文研究中,笔者首先阐述看关于网络营销及WEB挖掘的基本理论知识以及技术原理,并就网络营销中的Web挖掘应用技术及具体应用方法进行全面的探讨分析。

一、网络营销和WEB数据挖掘技术的概念及类型

(一)网络营销概述

网络营销是近几年来产生的一个新兴名词,其是指企业在市场营销过程中利用计算机技术和互联网实现有效信息的获取、处理与利用,在此基础上制定有效的市场营销策略,从而实现市场营销工作。

通过网络实施营销可让企业降低运营成本,提升企业的市场占有率,降低了市场壁垒,尤其对与中小企业而言可以利用低成本营销而平等的进入国内、国际市场。对于企业恶言,网络营销增加了企业与客户之间的双向互动交流频率,而对于消费者而言,通过互联网平台不仅扩大了商品选择的空间个获得更加低廉的价格,而且满足了更加便捷的购物需求。

(二)WEB挖掘概述

WEB挖掘属于是利用数据挖掘技术在获取WEB活动文档中的隐藏信息或者具有应用价值的潜在应用模式。WEB挖掘技术主要通过WWW资源、页面的超链接结构、Web页面内容以及用户访问信息等数据信息,利用归纳学习与统计分析方法获取数据对象间的内在特征。利用WEB挖掘可以发现更多的潜在的有趣应用模式或者其他隐藏信息资源,并在信息过滤技术的辅助下让客户获得更高层次的规律与知识。

根据相关技术原理,现将WEB挖掘技术分为以下三大类:

1.WEB结构挖掘。WEB挖掘中的结构挖掘是指利用Web组织结构之间的链接关系而计算出网页结构中的有用模式。在大量的Web超链接信息中为Web页面提供了相关联的结构与质量方面信息资源,其能够集中反映出文档之间的引用、从属及包含关系,另外通过分析Web文档之间的超链接结构,还可发现网页结构中的有用模式,从而有利于找到权威页面。在WEB结构挖掘领域,应用最多的算法是Page Rank和HITS算法,两者都是通过使用一定的计算方法而获得Web页面之间超链接的质量,例如:Google搜索引擎便是应用此类计算方法[1]。

2.WEB使用挖掘。WEB挖掘中的使用挖掘是对网页中的相应站点数据和日志文件实施挖掘,以此来追寻相应站点的访问者的行为模式。由于在网页资源中拥有大量的复杂、异质信息,而每一个信息资源在服务器上都存在一个结构化的Web访问日志,当网页资源访问者提出请求之后服务器将自动将行动数据记录在访问日志上。因此,分析不同的Web站点的访问日志,则有利人们掌握WEB结构以及客户的行为动态,这样有助于提升网站的工作效率。

3.WEB内容挖掘。WEB挖掘中的内容挖掘主要是收集有用的Web信息资源(如:数据、内容、文档等)。Web中含有不同在种类的信息资源,目前网络信息资源的来源基本上都是来自于WWW 信息资源之中,这其中除了部分人们可以直接搜索、抓取以及实现服务的资源以外,还有部分资源是无法被索引的隐藏数据,因此便需要应用WEB挖掘技术将其挖掘出来。

二、网络营销中的WEB挖掘技术分析

(一)路径分析技术

实施Web数据挖掘,其所需要的路径分析技术主要是通过对Web服务器的日志文件中访问频繁的路径等其他相关路径信息进行判定,利用这些信息再对网站及页面的设计结构进行不断的完善和改进。利用路径分析技术实现数据挖掘必须经过三个基本步骤[2],即:首先通过浏览过程中产生的站点所形成的序列来构成原始路径;其次是获取最大引用序列;最后是确定最大引用序列。

(二)聚类技术

对于Web数据挖掘中的聚类技术,其是将Web访问信息数据中一些具有相似特征的数据项、访问者信息等进行集合,然后运用隐式或显式等方式来对不同的类别资源进行描述。在实践操作中,聚类分析在对数据分布分析时可单独作为一个相对独立的工具来集中观察、分析每一个类型的特点,具体来说就是帮助企业通过分析客户数据库而发现一些不同的客户群,并通过运用消费模式来描述出这些不同客户群的基本特征,从而帮助企业能够更好的了解客户,保障自己的服务能够最大限度的满足客户需求。

(三)分类分析技术

在数据挖掘中利用分类分析技术可通过详细分析示例数据并准确描述不同类别或者建立分析模型,然后在利用这个分析模型对其他数据进行细化分类。分类分析技术在网络营销中是使用较多的应用技术之一,其能够利用分类自动推导而对相关数据进行相关的推广描述,以此来预测未来的数据发展趋势。

(四)关联规则挖掘技术

WEB挖掘技术中的关联分析主要是利用同一个事件中出现的不同项的相关性来挖掘其中所隐藏在数据之间的关联规则。在网络营销活动中,关联分析主要是用于找寻客户对网站中各种文件之间访问现象的相互联系,从而总结分析出客户购买行为的关联因素[3]。通过在Web上实施数据挖掘,以此来构建一个关联模型,这样我们便可以更换的优化组织站点,降低客户过滤信息频率,并根据客户的购买行为而为客户提供一定的推荐服务。

三、WEB数据挖掘技术在网络营销中的具体应用

(一)有利于确定网络营销目标

实施有效的市场营销活动前首要的工作是确定市场营销目标,而这需要经过三个既定步骤——细化目标市场、选定目标市场、定位目标市场。在网络营销活动中,企业确定目标市场前必须对于商品目标的应用、销售市场进行细分,也就是考察商品的市场吸引力、企业自身的商品营销经验及未来发展目标等等,通过上述细分之后确定商品目标市场,最后在此基础上定位目标市场。如果企业在网络营销中应用Web 挖掘技术确定市场营销目标,其可以迅速对客户数据进行综合分析,并自动对各个层次的市场实施细分,形成一个详细的目标市场分类数据资料库,从而为企业定位目标市场提供真实、有效的数据依据。

(二)构建市场营销情报系统

为了降低市场营销活动的风险,在此之前一般都需要收集大量的市场营销信息来对目标市场进行细致分析。网络营销主要是通过Internet来获取大量的相关联信息资源,利用WEB数据挖掘技术可收集大量有效的市场营销情报,例如:对企业营销中所需要的政策法规、行业技术、市场环境、竞争对手、国际行情等动态信息进行全面收集整理,并建立全面的营销情况系统,这样有助于企业及时掌握市场、行业等发展新情况,制定并执行具有针对性的营销策略,保证企业在市场营销中拥有绝对的主动权[4]。

(三)数据挖掘在客户关系管理中的应用

1.延长客户驻留时间。通过网络平台实施营销活动,消除了销售企业与客户之间存在的空间距离,在Internet平台上所有销售企业相对于客户而言都是一样的。商家为了能够让访问者尽量对在自己网站上驻留,都需要通过技术手段分析访问者的浏览行为,也就是掌握访问者的爱好或者需求,这样有助于商家及时根据访问者的行为动态调整页面设计和推荐商品信息,更新部分访问者敢兴趣的商品信息,一方面能够满足访问者的需求,更重要的是能够最大限度的延长访问者的驻留时间。

2.挖掘潜在客户。企业通过对Web日志记录中的访问规律进行分析,根据访问者的相关信息资源进行科学分类,并确定访问者分类的关键属性及相互之间的关联。如果有新的访问者,则可在Web分类中识别出与已分类访问者之间存在的一些公共描述,然后再对这些新访问者进行正确分类,最后从新访问者的分类判断中决定是否将其作为潜在客户来对待[5]。如果将其作为潜在客户对象,则可给予该客户提供一些个性化的特殊页面内容,从而吸引客户的注意力,激发客户的消费欲望。

(四)促进优化站点设计

在超市中我们经常会发现他们将有关联的物品放在一起,这样有助于提升商品的销售业绩,而在网络营销中的Web站点结构也是类似的,在浏览模式的设计过程中需要依据大部分访问者的浏览习惯来安排、链接页面内容;若部分页面访问频率较大时则可适当增加页面链接,这样方便访问者顺畅浏览页面;在访问较为频繁的页面上放置重要商品信息,吸引客户的注意力及商品的影响力,从而提升营销业绩。

四、结语

网络营销模式属于是现代市场营销进入数字化时代最有力的证明,随着电子商务体系不断成熟,网络营销必将成为未来社会营销领域中一种新的发展潮流与趋势。在网络营销活动中,Web数据挖掘技术有助于企业预测市场发展趋势、客户消费动态,进一步挖掘有价值的潜在商业信息资源,从而帮助企业制定具有前瞻性的营销策略,保障企业能够在激烈的竞争环境中把握有利发展机遇。目前,国内外学术界对Web挖掘技术展开了深入的研究,虽然尚未形成一个成熟的理论与应用体系,但是随着电子商务的不断发展,Web挖掘技术必将拥有广阔的发展空间。

参考文献

[1]李岩.基于Web挖掘的专题性智能信息搜索工具关键技术研究[D].北京:北京科技大学信息工程学院,2003.

[2]石磊,王伟华等.Web挖掘技术在电子商务中的应用[A].信息时代—科技情报研究学术论文集(第三辑)[C];2008.

[3]朱凌云,赵韩,高先圣.Web挖掘在网络营销中的应用研究[J].情报杂志,2006.1.

[4]蔺莉,潘浩.Web数据挖掘技术在电子商务中的应用[J].电脑知识与技术,2010,(4):816-818.

[5]付泉.电子商务中数据挖掘技术的研究与应用探讨[J].科技广场,2007(3):114-116.

第6篇:数据挖掘技术研究范文

关键词:工业大数据;关联规则;设备维护;BP神经网络

1 概述

目前工业设计、生产制造等环节中引入了自动化系统,系统运行积累了海量的数据资源,如何从海量数据中挖掘有价值、有用的信息,帮助工业生产作出正确的决策,已经成为许多学者研究的热点[1]。大数据挖掘分析可以从海量的、带有噪声数据的、不完全的数据记录中发现隐含的模式,可以为工业数据挖掘提供契机。大数据挖掘可以使用相关的算法寻找隐藏的数据知识,其功能主要包括关联分析、聚类分析、分类预测、偏差检测等[2]。

(1)关联分析。工业系统运行产生的大数据来源于设计、制造和生产等环节,涉及各类型软硬件设备,这些数据信息资源存在极大的关联关系,比如简单关联关系、时序关联关系、设备-软件关联关系、日志操作关联关系等。

(2)分类预测。应用工业大数据的过程中,许多信息数据保存得较为繁乱,比如设备种类和数量多,设备购置、维修、更换等运行记录保存日期、位置、版本较多,容易产生不一致。因此,分类预测可以根据工业企业管理人员的需求,引入贝叶斯理论等构件一个分类算法,挖掘数据中相同类别的信息,这些类别可以是维修记录、购置记录,也可以是时间内容等,并且可以利用预测管理功能,预测设备运行趋势。

(3)聚类分析。工业大数据多是设备运行自动产生的数据,相关子数据集缺乏详细的描述信息,此时可以采用聚类分析方法,将数据划分为多个簇,簇内保持高度的相似性、同构性,簇间保持较大的差别性,这就可以把相同类别的数据划分到一组,不同类别的数据划分到多个簇。

(4)偏差检测。数据挖掘发现数据集中的离群点或异常数据是一个重要的功能,比如工业生产网络安全监测,该功能被称为偏差检测。偏差检测主要包括分类中的反常实例、例外模式、观测结果对期望值存在的偏离以及量值可以随时间的变化而变化。偏差检测包括寻找观察结果、参照之间的有意义差别,偏差分析的一个非常重要的特征是可以有效地过滤掉大量不感兴趣的信息。

2 工业大数据挖掘分析技术及模式

工业生产引入自动化系统始于第二次工业革命,随着传感器、移动通信等技术的快速改进,工业生产正在向着密度更高、效率更高的综合信息化运行模式发展,引入了许多先进的计算机系统,这些系统运行产生了海量的数据信息资源,导致了人们不能够继续使用传统的生产模式,必须从多个方面和切入点进行有效研究和发展,引入大数据挖掘分析技术,一般实现工业生产科学管理,有效地控制生产设备,形成一个全过程生产模式[3]。目前,工业大数据挖掘分析技术包括多种技术,最常用的包括K均值、BP神经网络、遗传算法和贝叶斯理论等,可以从海量的流量数据中发掘潜在的有价值的信息,利用这些信息可以指导、创新工业生产管理模式,构建一个大数据挖掘系统[4]。

(1)基于K均值算法构建聚类分析模式。K均值是常用的主流聚类分析算法,使用工业数据之前,许多用户不知道期望的目标,并且无法获取更多的数据应用背景知识,因此可以利用K均值算法构建一个自动聚类分析的大数据模式,比如可以自动将工业设计数据划分为高中低等档次,可以把高档设计案例推荐给企业,提高企业工业设计能力。

(2)基于BP神经网络构建分类预测模型。BP神经网络是一种数据挖掘方法,其可以通过学习获取相关的风险关键特征,然后将待评估的工业设备运行状态数据输入到系统中,自动分析设备维护次数、更新次数、使用周期,这种工业设备运行管理模型速度快,评估结果具有较高的准确度。工业大数据分类预测可以采用BP神经网络算法构建一个分类预测系统,这样就可以准确地判断大数据的运行维护记录,判断设备日常运行趋势,能够提高工业设备的运行维护效率。

3 工业大数据挖掘作用及前景

随着自动化控制、多媒体通信等技术的快速发展,大数据挖掘技术可以在船舶设计制造、工业生产安全监测等领域得到应用,实现自动化制造和工业安全生产管理等,进一步实现工业生产过程的智能化。

3.1 智能制造

目前,随着工业4.0、互联网+等深入发展和应用,大数据挖掘技术可以有效地提升智能制造的相关产品设计、制造、生产和展示等阶段的性能,大数据挖掘在完善产品设计功能、优化产品性能、改进产品质量等方面具有重要的作用,可以大大提高工业产品的生产成功率和降低开发成本。比如在钢铁工业制造中,带钢生产工序较为复杂,涉及多个环节,每一个环节的工艺设置参数较多,造成带钢成品很容易产生各类型的缺陷,比如擦伤、边裂、划痕、辊印、结疤和氧化铁皮压入等,大数据挖掘可以构建一个集成多方面优势的构建一个带钢缺缺陷识别模型,能够利用图像处理技术分析带钢上的各种缺陷类型,及时发现不合格的产品。

3.2 安全监测

工业生产过程中,安全生产一直是生产监管的重要方面,大数据挖掘技术可以在工业安全生产中发挥重要的作用。比如电力工业生产可以利用大数据分析技术监控电网的运行状态,并且将其输入到虚拟仿真系统中,可以实时观察电网运行是否存在故障和漏洞。钢铁工业生产环境多处于高温、封闭状态,并且已经不利于人们的行动,可以利用传感器、视频摄像头采集钢铁生产作业环境的实时状况,并且构建一个钢铁工业生产现场监控系统,可以采集钢铁工业生产、加工的实时数据,将其输入到钢铁工业服务器中,能够实时的显示在监控终端,比如电视墙、大屏幕上,分析钢铁工业的生产设备、作业环境等信息,确保钢铁工业生产的安全性。

4 结束语

工业生产涉及环节较多,每一个环节都需要采用不同种类和数量的软件系统和硬件设备,这些软硬件资源在运行过程中产生了海量的数据,利用K均值、BP神经网络等构件大数据挖掘与分析系统,能够有效提升工业大数据分析和挖掘能力,从海量数据资源中发现潜在的有价值信息,提高工业生产决策的准确度,进一步改进工业生产效率。

参考文献

[1]陈良臣.大数据挖掘与分析的关键技术研究[J].数字技术与应用, 2015(11):93.

[2]郑茂宽,徐志涛,明新国,等.船舶工业大数据技术应用与发展前景分析[C]//长三角地区船舶工业发展论坛,2014.

第7篇:数据挖掘技术研究范文

[关键词] XML Web数据挖掘 电子商务系统

一、数据挖掘与XML

数据挖掘就是从大量随机的实际应用数据中,通过数据抽取、转换、分析和其他模型化处理,提取隐含在其中的有用信息和知识的过程。Web数据挖掘过程可粗略地分为数据准备、数据挖掘、结果的解释评估三个阶段,其中每一个阶段又包含若干个子阶段(参见图1)。

图1 数据挖掘过程的一般步骤

XML(eXtensible Markup Language)是一种跨平台可扩展的数据描述语言,它是标准通用标记语言SGML的一个简化子集,但克服了SGML的复杂性,将SGML的丰富功能与HTML的易用性结合起来,具有较强的描述数据和管理数据的能力,并凭借其良好的可扩展性和自描述性、形式与内容分离、对多语种支持等特点,给跨平台跨地域异构数据的集成带来方便。XML的这种特性为处理电子商务系统中大量的异构数据提供了可行性。

二、实施Web数据挖掘的关键问题及解决方法

1.异构数据的转换

电子商务系统服务器端的用户文件目前主要是XML、HTML和关系数据等数据类型。从数据处理角度来看,关系数据模型过于严谨,无法有效地表示半结构化和非结构化数据;HTML对文档的要求也过于完整,且不能定义数据的层次,没有提供编程接口解析它所携带的数据,无法真正实现各种应用程序、数据库及操作系统间的数据交互。XML与关系数据模型和HTML相比,可以表示更多样化的数据格式,能够使不同来源的结构化、非结构化数据很容易地进行合并。

采用XML集成多个不同数据源的信息,只需要把来自不同数据源的信息先转成XML文档,然后再处理经过解析器解析的数据流即可。任何应用程序只需要知道两种格式,即本身的和XML的,就可以通过XML为中介实现与其他应用程序的信息交换。

因此,在Web挖掘的数据预处理阶段,用XML作为中间数据模型来屏蔽Web数据源的异构性不仅是可行的,而且可以使异构数据源能有效地集成应用,从而较好地解决Web挖掘中的技术难题。

2.XML数据的查询

XML描述的Web数据所具有的半结构化特性对传统的数据管理方式提出了挑战,由于XML文档数据具有特殊的树型层次结构,使得已有的数据查询技术(如传统的基于关系数据库方式的信息查询、基于文本的信息检索)不能很好地应用于XML数据的查询处理。本文采用文献提出的基于结构特征编码模式的XML数据查询算法―MatchSearch,能够有效地对经过上述转换和数据抽取所得的半结构化数据进行多路径查询。

MatchSearch算法是基于传统信息检索技术中的字符串匹配算法提出的,其重点是对查询语句的分支进行判断、处理。实际应用中借鉴MatchSearch算法的基本思想,采用三元编码模式,将XML文档中的每个数据成分(元素、属性、原子值)都用(name, path, branch)形式表示。其中,name表示数据成分的名称或值,path以压缩编码的形式表示从文档根节点到当前数据节点的父节点的路径,branch表示当前数据节点的子节点数。这种三元编码形式不仅可以表示数据的内容(由name表示),还可以有效地表示XML数据的结构(由path和 branch表示),因此可以将XML文档数据转换为等价的以三元编码模式表示的字符串形式。同理,基于路径的XML数据查询也可以表示成三元编码形式的字符串。这样,XML的数据查询问题就转化为三元编码形式的字符串匹配问题。

此外,借鉴MatchSearch算法的基本思想,还可以利用三元编码模式设计一种双层的B+树索引结构,将路径索引和数值索引合为一体,能够进一步提高索引的查询速度。通过与有代表性的查询优化方法的对比实验,表明该方法能够有效地提高针对半结构化数据的多路径查询速度。

三、面向电子商务XML文档的Web挖掘应用

电子商务网站上的异构数据经过转换为XML格式处理后,就可选用相应的Web挖掘技术对数据集实施挖掘分析。

1.基于XML的Web挖掘集成应用模型

由于Web上的电子商务信息多而杂,并且大多是非结构化或半结构化的,这就使得Web挖掘对数据的预处理过程要比普通的数据挖掘更为复杂,工作难度也更大。为此,笔者提出了一个基于XML的Web数据挖掘集成应用模型(如图1所示)。

图2基于XML的Web数据挖掘应用模型

该模型给出了基于电子商务服务器端数据实施Web数据挖掘集成应用的基本思想和一般流程:将实现HTML文档、关系数据向XML格式转换的工具封装为XML转换器,将路径分析、分类技术等Web数据挖掘技术封装为Web数据挖掘器,并与处理XML的Java应用编程接口(Java API for XML processing)等模块集成,以中间件的形式植入电子商务系统解决实际应用问题。

需要说明的是,目前Web数据挖掘的过程并非完全自动的,上述应用模型中有许多细节工作仍需要人工完成。

2.利用分类技术发现潜在客户群体

分类是一种数据分析形式,可以用来抽取描述重要数据集合的模型,一般用于预测数据对象的离散类别。在电子商务系统中应用分类技术,可以通过挖掘客户群体中某些共同的特性而将客户分成不同的类别,建立不同种类客户之间的特征分类模型,进而预测不同行为类别客户的分布特征。

对一个电子商务网站来说,从众多的访问者中发现潜在客户群体非常关键。那么,如何通过Web挖掘来发现潜在客户群体呢?可以应用分类规则挖掘中的主要方法,如决策树分类技术,先对客户通过Web日志文件的处理和分类规则挖掘,识别出其各类的公共属性,然后对一个新的客户,依据分类规则进行预测,确定是否为潜在的客户。如果发现某些访问者为潜在客户,就可以对这类客户实施一定的策略,使他们尽快成为在册客户,从而使电子商务网站的订单数增多,效益增加。

四、结束语

研究表明,数据挖掘工作60%的时间用在数据准备上。这一方面说明数据挖掘技术对数据要求的严格,但同时也启示我们:如果能减少在数据准备阶段的工作量,也就意味着可以有效地减少整个数据挖掘过程的工作量。本文所提出的基于XML的Web数据预处理方法被实际应用证实是一种有效的方法。

参考文献:

[1]陆汝钤:人工智能[M].北京:科学出版社,2000.

[2]胡侃夏绍玮:基于大型数据仓库的数据采掘:研究综述[J].软件学报,1998,9(1)

第8篇:数据挖掘技术研究范文

【关键词】 移动学习 教学资源 数据挖掘 聚类

在传统的教学方式中,一直是以教师为中心的基本教学方法。这种方式,学生只能感知学习内容,而解决实际问题时,由于缺乏实践经验,他们通常难以完成。

随着智能手机、平板电脑等各种智能移动终端已经得到了非常广泛的发展与关注,随之而来的一种新的学习模式一一移动学习,已经开始为人们所关注。与传统的课堂学习或基于桌面电脑的E-Learning相比,移动学习可以突破时空限制,移动学习者在任何时间、任何地点的“零碎”情境下,只要学习者有学习的意愿,就可以随时随地地进行学习。

本研究将以“Visual Basic程序设计”课程为依托,重点对面向移动学习教学资源的开发和应用两方面展开研究。首先基于课程进行按知识点的移动学习资源设计,一个知识点可以是一个属性介绍,也可以是一个算法实现;同时引入数据挖掘技术,基于学生关于学习资源使用情况和学习效果反馈信息,进行聚类分析,深入探究学习者对不同知识点的掌握程度和学习效果,从而推进和改善移动课程资源设计和教学过程设计。

一、移动教学资源

移动学习资源是指支持开展移动学习的各种信息资源,即移动学习资料、移动学习环境和移动学习支持系统[1]。移动学习资源是移动学习的重要组成部分,是教师组织教学的工具和学习者获得信息的途径[2]。学习资源一直被认为是教育技术学最重要的研究对象之一,并一直受到研究者的重点关注,对学习资源的正确的认识和理解,是开发优质教学资源的前提,也是教育技术研究实践中的一项重要任务。

分析现有的文献资料可以发现国内移动学习资源的研究主要是集中在移动学习资源的学习模式、技术支持、开发与设计等方面,尤其是对于面向移动学习的教学资源的拓展开发以及如何让这为学习者服务等研究还在初步阶段。

二、教学资源设计

课程的内容分解设计直接决定着教学资源的知识内容,它主要指根据课程目标在确保课程内容完整性的同时,如何将课程内容分解成一定粒度容量的知识内容,以适应学习者的碎片化学习需求。

移动学习课程与网络课程相比最大的特点就在于内容的碎片化,将一个多小时的内容拆分成多个独立的知识片段,每个知识片段都会有一个主题,这个知识主题是根据学习者的认知规律和教学方式对元知识点的逻辑重组,这样有助于更清晰完整的表达知识框架;此外,移动学习课程按照知识点模块化组织,当知识点内容发生变化时,移动学习课程也能够实现快速的更新升级,从而避免了重复制作课程[3]。

一般来说,知识点是枯燥、抽象的描述,不容易被学习和理解,那么就需要根据知识点的类型选择合适的方法、步骤和组织形式,综合运用文字、图片、音频和视频等多媒体素材对知识点进行表现,这样才能使其更加贴近学习者,更易于被理解。

2009年张驰等提出的基于课程知识点进行片段式的移动学习资源设计,即将工作或学习内容分割成小块的有用信息,这样人们就可以通过非线性的方式获得这些信息;主要包括两方面内容:①学习内容的微型化②学习形式的微型化[4]。

移动学习资源的研究和开发还有不足之处,忽视了资源知识点之间的内在关联,一定程度上影响了学习者进行持续而系统的有效学习,降低了移动学习效率。

三、数据挖掘在移动学习中的应用

数据挖掘就是从大量的、不完整的数据中,提取隐含在其中有用信息的过程。基于聚类的数据挖掘是一种“无监督学习”的方法,事先不知道将要分成哪些类,采用最大化类内的相似性、最小化类间的相似性原则进行归类,即使得一个簇中的对象具有很高的相似性,而与其他簇中的对象很不相似。聚类分析的目标就是在相似的基础上收集数据来分类[5]。

在教学中,基于聚类的数据挖掘技术可以根据学生的平时及期末考试成绩,挖掘出内在的影响因素,如学生的学习态度、学习习惯、薄弱章节等信息。得到的总结分析应用于指导学生学习及日常教学,既节省了大量的练习时间又能够获得良好的学习效果。

3.1数据收集与数据转换

1) 数据准备

以《Visual Basic程序设计第四版》(龚沛曾著)教材中的第四章“基本控制结构”部分知识点为例,制作移动学习课件,课件时长基本控制在5至30分钟的范围内。5分钟的课件涉及一个较细的知识点,如IIF()函数的使用方法;10分钟的课件涉及一个较大的知识点,如IF条件语句的语法结构;30分钟的课件中讲授一个更大的知识点或多个紧密关联的小知识点,如具体算法的实现。

组织学生一段时间的移动学习后,从金陵科技学院“土木工程”、“机械设计与自动化”和“动物科学”三个专业获取成绩样本数358份,并根据每个学生各个知识点的得分情况,计算出每个知识点的“成绩绩点”(成绩绩点=所有学习者该知识点的得分均值/该知识点的分值),如某知识点考核的总分为10分,学生得分为9分,则该项相应的成绩绩点为0.9。

2) 数据转换。

为了使数据变换成适于数据挖掘的形式,也便于维度信息的表述,我们对数据各维度上的信息进行数值化和量化。如:根据长年教授VB课程教师的多年经验,将各个知识点按照难易度进行了划分,并将“难”、“中”、“易”分别转换成3、2和1;课件时长的属性维度上的信息:将5 分钟左右、10分钟左右、30分钟左右,分别转换为1、2、3;同时对每个学生每个知识点点击学习的次数、性别和成绩绩点分别进行相应的转换。将经过转换后的样本信息建成数据挖掘的样本数据库,具体的信息维度设计与量化情况见表1。

具体的数据统计形式如表2,其中每条数据实体为一位学生一个知识点的学习情况。

3.2聚类过程

本文所用的聚类分析方法是K-means算法。这一种得到最广泛使用的聚类算法,它是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数达到最优,从而使生成的每个聚类内紧凑,类间独立。这一算法不适合处理离散型属性,但是对于连续型具有较好的聚类效果。主要包括以下步骤:

1)随机取k个元素作为各个簇的中心。

2)根据每个对象与各个簇中心的欧式距离,分配给最近的簇。欧式距离公式为:

4)根据各个簇元素的平均值,重新计算新的簇的中心,然后转(2)。这个过程不断重复直到误差平方和最小。

(三)算法结果分析

根据K-means算法对转换后的数据分别进行了2、3、4类归类后,发现3类的归类效果较好。并对3类归类后的数据进行了统计,统计信息如表3。

从表3的统计结果可以看出:类别一中涉及知识点难度较为简单,即使在点击次数不多的情况下,但是成绩绩点还是相对要高;类别二中涉及的知识点较难,但学习者在多次点击学习的情况下,还是得到了不错的绩点;类别三中涉及的知识点相对是最难的,但是可以发现学习者的点击次数明显下降,最终的学习绩点也很不理想,同时有趣的发现女生在该类别中所占的比例是明显多于男生。

通过以上分析可以看出一些难易程度适中的知识点,学生通过一段时间的自学是能够掌握的很好的。同时,哪些知识点还存在问题,教师可以根据学生的学习情况有的放矢地进行教学,并给出学习建议和指导,同时修改组卷参数以给出符合学生学习水平和特性的试题;学生也可以根据分析结果进行有针对性的学习从而提高了教学和学习效率。

通过本次挖掘结果,学生也意识到要提高自己的学习效率,就要努力改变自己的学习习惯和学习态度;同时教师可以根据不同章节的难易度,适当让学生自学,以提升学生自我学习的能力。

四、结论

本研究首先依据移动学习资源的特点,对课程学习资源进行了设计与制作,随后引入数据挖掘技术对学生的成绩样本进行了聚类分析,得到了较理想的聚类结果。

移动学习有助于丰富学生的思维方式,有助于培育学生深度学习的学习品质。

同时移动教学资源充分开发与利用,使学习内容借助资源的具体性与形象性,帮助学生理解掌握抽象的学习内容。

参 考 文 献

[1]李瑞,陈新,袁晓斌.移动学习资源建设策略探讨[J].现代教育科学,2007,(6).

[2]方晶,陈章其.移动学习资源的开发初探[J].现代教育技术,2007,17(7).

[3]唐江炜.基于知识点的课件制作平台的设计与实现[D].苏州:苏州大学硕士学位论文,2008

第9篇:数据挖掘技术研究范文

[关键词] 数据流 数据流挖掘 模型 算法

近年来,随着计算机技术和通信网络技术的蓬勃发展,由于众多应用领域的需求,数据流处理问题,特别是基于数据流的挖掘问题已受到越来越多的研究人员关注。

一、数据流以及数据流挖掘

1.数据流。数据流由一系列按序到达的数据组成,也可看作是信息传输过程中经编码处理的数字信号串。若令t表示任一时间戳,at表示在t时刻到达的数据元素,则数据流可以表示为无限集合{…,at-1,,at,at+1,…}。

2.数据流挖掘。数据流挖掘就是在数据流上发现提取隐含在其中的。人们事先不知道的,但又潜在有用的信息和知识的过程。流数据挖掘方面的研究主要包括多数据流挖掘和单数据流挖掘,挖掘多条数据流的主要目的是分析多条并行到达的数据流之间的关联,对单数据流的挖掘则涵盖了分类、频繁模式挖掘、聚类等多项传统数据挖掘中的主要任务,挖掘变化的数据流是一项特殊的任务,目前主要是以单数据流为对象进行研究的。

二、数据流挖掘的模型

按算法处理数据流时所选取的时序范围,数据流模型可分为以下几类。

1.快照模型:处理数据的范围限制在两个预定义的时间戳之间。

2.界标模型:处理数据的范围从某一个已知的初始时间点到当前时间点为止。

3.滑动窗口模型:处理数据的范围由某个固定大小的滑动窗口确定,此滑动窗口的终点永远为当前时刻,其中,滑动窗口的大小可以由一个时间区间定义,也可以由窗口所包含的数据项数目定义。

典型的数据流挖掘模型如图所示。

三、数据流挖掘算法

目前数据流挖掘方面的研究成果主要集中在数据流的聚类、分类和频繁模式挖掘方面。

1.数据流分类算法。数据流分类就是提出一个分类模型(或函数),并通过单遍扫描数据流,持续地利用分类模型将数据对象(数据流的数据点或元组等)映射到某一个给定的类别中。P.Domingos 和 G..Hulten他们提出了一种Hoeffding决策树分类算法VFDT(Very Fast Decision Tree),使用恒定的内存大小和时间处理每个样本,有效地解决了时间、内存和样本对数据挖掘,特别是高速数据流上的数据挖掘的限制。VFDT使用信息熵选择属性,通过建立Hoeffding树来进行决策支持,并使用 Hoeffding 约束来保证高精度地处理高速数据流。

由于VFDT算法假设数据是从静态分布中随机获取的,所以不能反映数据随时间变化的趋势。因此,P.Domingos和G..Hulten引入了滑动窗口技术,对VFDT算法进行改进,提出了CVFDT (Concept-adapting Very Fast Decision Tree)算法,除了保留VFDT算法在速度和精度方面的优点外,增加了对数据产生过程中变化趋势的检测和响应,使得算法更好地适应对高速时变流数据的分类。

2.数据流聚类算法。流数据本身所具有的特征使得传统的聚类算法不可能直接应用于(甚至不能应用于)流数据聚类, 数据流聚类算法就是通过单遍扫描数据流,持续地将数据流数据对象(数据点、元组等)分组成多个类或簇,在同一个簇中的数据对象之间具有较高的相似度,而不同簇间的数据对象的相似度很小。近年来,学者们提出的应用于大规模数据集的一趟聚类算法,如Squeezer算法和BIRCH算法,也可以应用于某些数据流问题,也有学者提出了针对流数据的聚类算法,典型的有STREAM算法和CluStream算法。

3.数据流频繁模式挖掘算法。数据流频繁模式挖掘就是单遍扫描数据流,来连续地发现其中的频繁项集。频繁项集是满足最小支持度的项集(Itemset)。对于数据流上的频繁项集挖掘的研究方法大多数都采用ε-算法和基于FP-tree模型的有效算法FP-stream。FP-stream算法采用倾斜时间窗口技术来维护频繁模式以解决时间敏感问题,研究了在数据流中构造、维护和更新 FP-stream 结构的有效算法,提出了计算和维护所有频率模式并动态更新它们。建立一个框架来挖掘带近似支持度的时间敏感模式,为每个模式在多时间粒度上增量维护一个倾斜时间窗口,在这种框架下可以构建和回答感兴趣的查询。

四、结语

由于数据流具有独特的性质,对其进行挖掘是一个挑战性的问题,当前的有关算法的研究有很多是在传统的增量式挖掘技术基础之上发展而来的,探索数据流挖掘技术与传统的静态数据挖掘技术之间的本质区别,提出更有效、新颖、快速挖掘算法是当前研究面临的重要问题。

参考文献:

[1]Gibbons P B,Matias Y:New sampling based summary statistic for improving approximate query answers[A].Proc of the ACM SIGMOD Int’l Confon Management of Data [C].Seattle:ACMPress,1998.331~342

[2]金澈清 钱卫宁 周傲英:流数据分析与管理综述.软件学报,2004,15(8):1172~1181