前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的数据挖掘技术分析论文主题范文,仅供参考,欢迎阅读并收藏。
关键词:远程开放教育,数据挖掘,应用,智能化
1 前言
现代远程开放教育的全过程基本上都是通过浏览网站的形式进行的,学生在Web上的行为都会产生大量的信息,这些信息在远程教育的全过程中十分宝贵,充分挖掘这些信息及其背后潜在的信息,反馈来指导远程教育中的各个环节,以此来为学生提供个性化的服务内容,增强远程开放教育的竞争力。利用数据库技术来存储管理数据,利用网络和计算机学习的方法来分析数据,从而挖掘出大量的隐藏在数据背后的知识,即数据库中的知识发现---KDD(Knowledge Discovery in Databases),其中,数据挖掘技术便是最为关键的环节。论文参考网。基于远程开放教育将是当前和未来教育的重要辅助系统,本文提出并介绍信了把数据挖掘技术应用于现代远程开放教育系统中。
2 数据挖掘概述
2.1数据挖掘(DataMining)定义
数据挖掘就是从大量存储的数据中,利用模式识别、统计和数学的技术,筛选发现新的有意义的关系、模式和趋势的方法。就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它主要依靠人工智能、机器学习和统计学技术,对数据进行归纳推理,从中挖掘出潜在的模式,预测未来趋势,为决策提供支持。
2.2数据挖掘的主要任务
(1)关联分析。两个或两个以上变量的取值之间存在的规律性称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分析的目的是找出数据库中隐藏的关联网。
(2)聚类分析。聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。
(3)分类。分类就是找出一个类别的概念描述,它代表了这类数据的整体信息。
(4)预测。预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。
(5)时序模式。时序模式是指通过时间序列搜索出的重复发生概率较高的模式。它是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。
(6)偏差分析。在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。
2.3数据挖掘对象
根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等。
2.4数据挖掘技术实施的步骤
(1)确定业务对象。清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有评价,并以用户能理解和观察的方式将发现的知识呈现给用户。
(2)数据准备。这个阶段的工作包括数据集成、数据选择、预分析和转换。要对Web服务器上的数据进行挖掘,必须研究站点之间异构数据的集成问题,只有将这些站点的数据都集成起来,提供给用户一个统一的视图,才有可能从巨大的数据资源中获取所需的东西。
(3)数据挖掘。这个阶段就是利用数据挖掘工具对经过转换的数据进行挖掘和发现知识的过程。不同的数据挖掘工具有不同的算法,面向不同的分析需求,并且当具体使用操作时,也在一定程度上受到数据分析人员的思维方式和行为习惯的影响。数据挖掘利用人工智能领域中一些已经成熟的算法和技术。如:人工神经网络、遗传算法、决策树方法、邻近搜索算法、规则推理、模糊逻辑、公式发现等来进行数据的挖掘。
(4)结果分析。论文参考网。数据挖掘的结果由分析人员根据发现知识的领域重要性、可信度和支持度等阀值来对发现结果进行评价,并以用户能理解和观察的方式将发现的知识呈现给用户。通常会用到可视化技术。
(5)知识的同化。将分析所得到的知识集成到业务信息系统的组织结构中去。
3 现代远程开放教育系统简介
远程开放教育系统能实现个性化学习、实时教学、实时考试和智能答疑。为每一个接受网络远程教育的学习者提供个性化的学习进程。能根据与当前学习者相类似的学生的学习模式自动地对其后继知识的学习进行预测以及合理推荐,并对学习者的学习过程进行分阶段的评价,依据其绩效信息动态调整其学习难度、练习与测试内容,对学生提出的问题实现智能化答疑,对该学习者薄弱环节进行有效指导,做到因材施教和全天候学习。
远程开放教育系统由用户系统、WEB服务器、应用服务器、数据服务器、用户数据库和资源数据库组成。
用户系统用于实现远程开放教育系统的显示功能,其功能是:实现信息的和接受,管理员通过它来实现系统的管理、更新、维护等,主要是通过XML语言和HTTP协议实现WEB浏览器与WEB服务器的链接和信息通讯。WEB服务器用于完成远程开放教育系统的事务处理,用于处理学习过程中的各种事务。应用服务器直接为WEB服务器提供相关服务,处理WEB服务器以及XML文档组成的用户的事务请求信息。论文参考网。数据库服务器用于完成数据处理,为应用服务器提供相关服务,完成数据查询、修改和更新等服务,并把运行结果反馈给应用服务器。资源数据库中主要由远程开放教育系统中要使用的课件库、答疑库、作业库、试题库和必要的超级链接等构成。用户数据库主要用于存储远程开放教育系统中要使用的的注册档案、用户目前的学习内容、学习进展、作业情况和考试情况等信息。
4 数据挖掘技术在远程开放教育中的应用
现代远程开放教育是随着现代信息技术的发展而产生的一种新型教育形式,其基本特征是利用计算机网络和多媒体技术,提供丰富的教学资源供学习者选用,教学形式由原来的以教为主变为以学为主。数据挖掘技术在现代远程开放教育中的应用主要有以下几方面:
(1)在个性化学习方面的应用
由于每个学习者的知识背景、学习习惯和学习目标都不一样,故个性化学习在远程开放教育中就显得非常重要。为了实现此功能,基于WEB的智能远程开放教育系统首先要根据学习者的特点和学习目标来收集学习者的数据信息,然后对收集到的信息进行预处理,再应用一种合理的挖掘算法或综合应用不同的算法,如关联规则分析、聚类和分类技术、统计分析以及时序模式技术等,来处理此数据,最终发现用户的访问模式,但是通过模式挖掘后,生成的规则数目大、表达晦涩且不好用,这时就需要用到智能查询机制、可视化和联机分析等技术对模式进行分析评价,经过模式分析和应用技术处理后,选择一种学习者易于理解和接受的表达方式将知识数据显现出来。利用数据挖掘与学习内容绑定的技术,系统就可以以可视化方式来指导学习者学习和个性化发展,这样系统就实现了个性化学习功能。
(2)在资源库建设方面的应用
资源库建设在整个系统中至关重要,为了建立覆盖面广、功能齐全的资源库,我们就必须编制信息资源目录,征集种类资源信息,并进行资源、资源信息筛选、资源信息整理和存储;同时按学科门类建设积件库。当老师在系统内制作课件,为了有针对性和避免重复,我们可以对所有学习者已选的课程进行聚类,并通过聚类学习算法来自动确定每门课程的类别标记。接着利用数据挖掘中的关联规则,估计出一组相关同位类课程,再利用泛化关联规则,找到其上位类课程,或利用序列模式,预测出与之有关的学生未来可能选择的同级课程,最后围绕学习者的需求权限进行课程设置。
(3)在实时教学方面的应用
在本系统中,由于引入了互联网技术、人工智能技术、数据库技术和知识发现技术,通过机器学习、统计分析等方法设计出了个性化处理引擎,从大量的数据中进行数据挖掘,提取有用的、潜在的信息。学生可以通过网络实现每天24小时的学习,而且本系统可以更多且及时的了解到学生的学习学习进度、需求、能力、兴趣爱好等方面的信息,并动态地根据这些信息调整学习计划和进度,让学生得到针对其“个性”的教育,实现因材施教。
(4)在智能答疑方面的应用
基于WEB的远程教学系统中的智能答疑系统只要用户能上网,就可解答学生在学习过程中产生的问题。它能根据学生用户访问日志、问题记录等数据进行数据挖掘,用智能抽取的方法实现智能答疑。从用户访问日志和提问信息里面可以分析出学生的行为。智能答疑系统后台存储了大量的由经验丰富的教师精心挑选的问题答案,对于用户提出的问题.系统首先通过对问题的分析自动在数据库中寻找最适合的答案。这样通过数据挖掘,针对学生用户提问记录、日志不断更新和调整学生用户知识库,使问题的回答更加精确。
(5)在实时考试方面的应用
本系统的实时考试系统是一个基于数据库和WEB的远程在线式实时的测试系统。它能考虑个别学习者的能力和特性,按照考试的目的和必要性,提供各种问项信息,如难易程度、辨别程度等。并且还能同步打分,提供成绩进展情况,根据个人特性解释问题,按个人及科目对考试结果进行各种统计分析和评价,并存入学生用户数据中。这些功能的实现是由于系统采用关联规则、聚类和分类工具对数据库中抽取的数据进行处理,分析出学生的特性及其对课程各知识点的掌握程度,并结合学生的考试目的恰当地反馈给学生,这样提高了学生学习的效率。
5 结束语
在现代远程开放教育网站设计中,基于XML(ExtensibleMarkup Language,可扩展标记语言)的新一代系统设计环境,可以更好地描述半结构化和结构化的数据,更有利于进行数据搜索和挖掘。如何整合XML和Web服务技术,以此为契机开展数据挖掘和知识获取,在现代远程开放教育网站的设计中以学习者为中心,提供一种基于资源的学习,教学资源可以适应各种学习者的需要和背景进行不同的组合,提供更加优良的、个性化的服务。
参考文献:
[1]李爽,陈丽.国内外网上智能答疑系统比较研究[J].北京,中国电化教育,2003(5)
[2]苏新宁.数据挖掘理论与技术[M].北京:科学技术文献出版社,2003
[3]赵丹群.数据挖掘:原理、方法及其应用[J].现代图书情报技术,2000,(6)
[4]周云真,舒建文,王平根.据挖掘在基于WEB的智能远程教育系统中的的应用[J] .南京:文教资料,2006(10)
1.1数据挖掘技术
关联分析即找出两个或以上变量之间同时出现的规律、因果结构,即通过其他事物可对某个与之相关的事物做出预测。数据挖掘关联分析的主要作用就是分析海量数据中潜在的关联规则,对于高校图书馆个性化服务而言,即从图书馆数据库中发现相关的关联规则,针对用户的信息需求做出准确预测,提高信息推送的针对性,便于用户获取所需的信息。聚类即将数据库中的一组个体按照相似性归结为若干类型,应用于图书馆系统中,就是将相似的文献集中在一起,用户在搜索相关文献时可以查阅更多其他相关内容,便于其总结、归纳;在个性化服务中还可以通过聚类汇总用户所需的特定信息。分类与聚类相似,是按照分析对象的属性建立类组,用户查阅资料的过程中,每种信息的重要程度有所不同,通过分类可以将用户所需求的知识分为高度需求、中度需求及低度需求。在高校图书馆个性化服务中要对用户的使用规律做出预测,即根据用户历史查阅记录对用户所需的文献种类、特征等做出预测。时序模式主要是通过时间段对用户的访问记录、检索过程做出标志,再通过时间序列将重复率较高的内容挖掘出来,以预测其下个信息需求,提高用户查阅资料的便利性。
1.2图书馆中应用数据挖掘的必要性与可行性分析
图书馆应用数据挖掘技术的必要性体现在以下几个方面:首先,信息化需求。用户的借阅记录、检索记录均存储于图书馆数据库中,需要利用数据挖掘技术将这些海量数据转换为有用的知识信息,以便于馆员做出决策。其次,图书馆的管理需求。传统图书馆系统仅能为用户提供简单的访问、检索等功能,这些功能无法满足图书馆个性化的技术要求,因此要利用数据挖掘技术将用户借阅数据中隐含的关联性发掘出来,从中发现有用的知识信息。最后,用户服务的需求。数字化图书馆的发展越来越迅速,用户通过图书馆获得的资源也越来越丰富,如何从海量的信息资源中发掘出对用户有用的知识信息,仅依靠传统的图书馆管理系统无法解决这一问题,因此要利用数据挖掘技术对用户的借阅记录进行分析,从中获得更多有价值的信息,以提高图书馆的服务质量及馆藏利用率。而在图书馆个性化服务中应用数据挖掘技术也是可行的,一方面很多图书馆已具备比较好的物质条件及人才条件,这些均是图书馆个性化服务中应用数据挖掘技术的必要条件,而且政府在经济方面、政策方面也为数据挖掘的应用提供了更多保障;另一方面,近年来数据挖掘技术也有了长足的发展,其足以为图书馆的个性化服务提供必要的技术支持。图书馆数字化发展过程中需要采集、购置更多的数据资源,而利用数据挖掘技术可以为图书馆资源建设提供指导作用,挖掘图书馆的历史借阅记录,可进一步了解用户的借阅习惯、阅读兴趣及信息需求,并且可以对不同图书之间的关联性进行深入分析,图书馆员根据这些信息记录、分析结果等提供指导,可以提高图书资源分配的合理性,对馆藏布局进行优化。由此可见,数字化图书馆个性化服务中应用数据挖掘技术十分必要。
2图书馆个性化服务的具体体现
高校图书馆个性化服务是指根据每个用户的专业、爱好、研究方向、探索领域及特殊服务为其提供更具针对性的信息服务,帮助用户查阅更加完整的信息资料,便于其学习、研究。高校图书馆个性化服务具体体现在以下3个方面:
①用户可根据自己的需求定制相关信息,以保证其在图书馆中能够查阅到相关资料;图书馆利用数据挖掘技术发现用户的兴趣爱好,为其定制个性化的访问空间。用户访问图书馆数据库时会将其兴趣爱好间接地反映出来,如果用户不感兴趣,在页面停留的时间会较短,停留时间较长则说明比较感兴趣;利用用户的浏览路径信息时间即可将用户对信息资源的感兴趣程度发掘出来。
②提高图书馆资源利用率。利用数据挖掘技术可以识别图书馆网站内频繁访问的路径及用户访问次数较多的页面,可以将新书信息、重要的分类信息放在这些路径上,从而向用户主动推送其所需要的信息资源,提高图书的利用率。
③优化链接结构,提高用户应用的便利性。对Weblog进行挖掘,可以发现用户访问页面的相关性,增加联系比较密切的网页之间的关联性;发现用户的期望位置,如果用户访问期望位置的频率高于对实际位置的访问频率,则可在二者之间建立导航链接,优化站点。
④查新服务与定题服务。传统图书馆主要通过查询光盘数据库、文献数据库等进行查新服务,而随着网络技术的不断发展与应用,外部网络信息及更新的速度远远超过图书馆内部网络,因此要加强网络平台的建设,以保证服务结果的真实性与可靠性。数字图书馆在进行查新与定题服务过程中,可以利用可视化技术为用户提供在线即时信息分析。
3图书馆个性化服务中数据挖掘技术的应用
图书馆个性化服务数据挖掘技术的应用流程如下:建立读者数据仓库——数据收集——挖掘算法的选择——挖掘结果的显示——对结果的评价。
3.1建立读者数据仓库
数据挖掘过程中,在确定了挖掘目标后,即开始进行数据准备,从大量数据中选择一个与需挖掘目标相关的样板数据子集。此时需要建立一个数据仓库,其主要作用是将所有挖掘目标所需的数据保存其中,如果未建立数据仓库直接进行数据挖掘,可能会导致挖掘失败,因此数据挖掘的前期工作大部分用于准备数据,因此建立数据仓库是一个至关重要的准备工作。高校图书馆个性化服务中应用数据挖掘技术,第一步就是建立用户的兴趣库及图书馆自身的特色资源数据库。用户使用图书馆的过程中,必然会产生大量的借阅记录,访问图书馆网站会留下访问记录,这其中均潜藏了大量有意义的信息。
3.2数据收集
在建立用户兴趣库及特色资源数据库后,必须对这两个数据库中的数据进行分析、调整,以保证原始数据的质量,从而保证数据挖掘结果的质量。数据收集即数据的分析与调整可以分为数据抽取、数据清洗及数据转换等3个步骤。其中数据抽取的主要作用是将与挖掘目标相关的数据信息搜索出来;数据清洗则是对数据进行噪声消除、重复记录的消除及推导计算缺值数据等。图书馆每天会产生大量的用户相关的数据,并非所有的数据均对整个挖掘处理过程有正面作用,有些数据可能会对挖掘效果产生负面影响,因此剔除这些无用的数据十分必要。数据转换的主要作用是精减数据维数,从初始特征中分析出真正有用的特征,通过数据转换可有效减少数据挖掘时需要考虑的变量数。
3.3选择算法及建立模型
数据挖掘过程中不同的算法可能会实现同一个任务,但过程却大相径庭,因此要根据数据的特点、实际运行系统的要求选择适用的算法。有些用户比较倾向于获取描述型的、容易理解的知识,有些用户则希望获取预测型知识,因此要针对不同的用户选择对应的算法,之后就要进行数据挖掘模型的建立。通过对用户分类、聚类及时间序列的分析,将每类用户的普遍性需求及个性化需求抽象出来,从而建立一系列的关联规则模型。一个模型完成后不一定可以立刻解决问题,需要对其进行反复验证,如果可以解决问题证明模型有效;如模型存在缺陷,则要通过反馈对模型进行修改、调整,或者选择新算法,建立新模型,对不同的模型进行全面考察。
3.4结果解释与知识表示
在建立数据挖掘模型后,可利用建立挖掘模型时所用的算法规则进行运算,即可产生数据挖掘结果,图书馆只需对挖掘结果进行可视化、可理解化处理即可。要将抽象的数据解释成易读、易懂的结果,图书馆决策者及管理者即可根据可视化的挖掘结果进行决策。比如图书馆新引进了一批考古专业的学术论文,由数据挖掘模型分析结果可知,该批论文的查阅者90%均为考古专业的老师与学生,其他专业的师生查阅率不到10%,根据这一结果,即可将论文信息传递给考古专业的相关用户,以提高信息推送的针对性。
3.5结果的验证、应用及评价
产生挖掘结果后需要进一步实践,以验证结果的有效性与可用性,及对模型的实用性进行评价,并且挖掘结果还具备预测未来数据的功能。上一步的结果解释经过实践后,可对应用过程进行跟踪了解,获得用户的反馈信息,对结果的实用性进行验证。需要注意一点,即一个数据挖掘的模型与已有数据完全相符比较困难,且并非所有的环境、每个时间节点均适用于同一个数据挖掘模型,因此要对挖掘结果做出评价,如经过用户的反馈,数据挖掘出来的结果可以解决问题,实现了最初的挖掘目标,满足了用户需求,则可判定该模型是合理的。挖掘结果可以满足用户的要求,用户就会做出满意的反馈,将这一反馈信息提供给决策者即可做下一步的实施,完成该阶段后,图书馆就基本上实现了以用户为中心的个性化服务的数据挖掘过程。不过某些情况下模型的评价结果可能不尽如人意,即数据挖掘的结果无法满足用户的要求,这种情况就要由系统进行重新处理,重复上述步骤,重新抽取数据、选择另外一种数据转换方法、设定新的数据挖掘参数值、选择另外的挖掘算法等。由此可见,数据挖掘的过程是一个不断反馈的过程,体现出反复性的特点。
4结语
论文摘要:随着数据库技术和人工智能技术的不断进步,数据挖掘技术逐步发展起来,作为当前计算机信息技术中的一项较为新兴的技术,综合运用了数理统计、模式识别、计算智能、人工智能等多项先进技术,主要是从大量的数据中来发现和挖掘一些隐含的有价值的知识,从大型的数据库数据中挖掘一些人们比较感兴趣的知识,本文主要讲了数据挖掘技术的概念、数据挖掘技术在保护设备故障信息中的实现方法以及数据挖掘技术保护设备故障信息管理的基本功能等问题。
数据挖掘技术作为当前计算机信息技术中的一项较为新兴的技术,综合运用了数理统计、模式识别、计算智能、人工智能等多项先进技术,主要是从大量的数据中来发现和挖掘一些隐含的有价值的知识,也就是从大型的数据库数据中挖掘一些人们比较感兴趣的知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,数据挖掘技术也是现在智能理论系统的重要研究内容,已经开始被应用于行政管理、医学、金融、商业、工业等不同的领域当中,在保护设备故障信息管理方面发挥出了积极的作用。
一、数据挖掘技术的概念
随着数据库技术和人工智能技术的不断进步,数据挖掘技术逐步发展起来,主要是指从大量的数据中发现和挖掘一些隐含的有价值的有用信息和知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,当前数据挖掘技术已经逐渐被应用于了医药业、保险业、制造业、电信业、银行业、市场营销等不同的领域,随着计算技术、网络技术以及信息技术的不断进步,在故障诊断过程中所采集到的数据可以被广泛地存储在不同的数据库当中,如果依然采用传统的数据处理方法来对这些海量的信息数据进行分析处理,不仅会浪费大量的实践而且也很难挖掘到有效的信息数据,同时,尽管智能诊断以及专家系统等方式在故障的诊断过程中已经被得到了广泛的应用,但是这些方法却仍然存在着很多推理困难、知识瓶颈等一些尚未完全被解决的问题,采用数据挖掘技术就可以比较有效地来解决这些难题,在故障诊断的过程中发挥其独特的优势。从不同的角度进行分析,数据挖掘技术可以分为不同的方法,就目前的发展现状来看,常用的数据挖掘技术方法主要有遗传算法、粗集方法、神经网络方法以及决策树方法等。
二、数据挖掘技术在保护设备故障信息中的实现方法
1.基本原理。在设备出现故障时采用数据挖掘技术对设备进行一系列的故障诊断,也就是说根据这一设备的运行记录,对其运行的趋势进行预测,并对其可能存在的运行状态进行分类,故障诊断的实质就是一种模式识别方式,对机器设备的故障进行诊断的过程也就是该模式匹配和获取的过程。
2.对故障诊断的数据挖掘方法建模。针对机械故障的诊断来说,首先就应当获取一些关于本机组的一些运行参数,既要包括机器在正常运行以及平稳工作时的信息数据,也应当包括机器在出现故障时的一些信息数据,在现场的监控系统中往往就会存在着相应的正常工作状态下以及出现故障时的不同运行参数,而数据挖掘的任务就是从这些杂乱无章的信息样本库中找出其中所隐藏着的内在规律,并且从中提取各自故障的不同特征,在对故障的模式进行划分时,我们通常可以借助概率统计的方式,在对故障模式进行识别时可以采用较为成熟的关联规则理论,实现变量之间的关联关系,并最终得到分类所需要用到的一些规则,从而最终达到分类的目的,依据这些规则,就可以对一些新来的数据进行判断,而且可以准确地对故障进行分类,找出故障所产生的原因和解决故障的正确方法。
三、数据挖掘技术保护设备故障信息管理的基本功能
1.数据传输功能。数据挖掘技术保护设备故障信息管理与分析系统的主要数据来源就是故障信息的分站系统,而分站系统中的数据是各个子站的一个数据汇总,而保护设备故障信息管理与分析系统所采用的获取数据的主要方式就是一些专门的通信程序构建起系统与分站之间的联系,将分站上的一些汇总数据传输到故障信息系统的数据库中,分析系统所具有的数据传输功能,在进行数据的处理时又能做到不影响原先分站数据库的正常运行,并且具备抗干扰能力强、计算效率高的优点。
2.数据的分析功能。系统在正常运行时,会从故障信息子站或者是分站采集相关的数据并且对这些采集到的数据进行分析整理,最终得到有用的数据信息,利用数据挖掘技术对庞大的故障数据进行分析、分类以及整理,能够有效地找出有用的信息,归并一些冗余的信息,对信息进行有效地存储和分类。另外,数据挖掘技术还具有信息查询的功能,可以进行不同条件下的查询,例如按时间段、报告类型、设备型号以及单位等进行查询,实现查询后的备份转存等,根据故障信息系统所提供高的数据信息以及本系统库中所保存的一些整定阻抗值,可以通过逻辑判断生产继电保护动作的分析报告,主要包括对故障过程的简述、故障切除情况以及保护动作情况等,可以便于继电保护人员直观的对保护装置的动作情况进行分析。
四、结语
随着企业自动化程度的不断提高以及数据库技术的迅速发展,很多企业在一些重要的设备方面都安装了监测系统,对设备运行过程中的一些重要参数和数据进行采集,采用数据挖掘技术可以有效地解决设备故障诊断中的一些知识获取瓶颈,将数据挖掘系统充分应用到监控系统中,有效解决故障诊断中的一些困难,事实证明,将数据挖掘技术应用到故障诊断中是非常有效的,也是值得研究和学习的新型技术手段。
参考文献
[1]李勋,龚庆武,杨群瑛,罗思需,李社勇.基于数据挖掘技术的保护设备故障信息管理与分析系统[J].电力自动化设备,2011,9
[2]李建业,刘志远,蔡乾,赵洪波.基于Web的故障信息系统[J].电力信息化,2007,S1
关键词 情报学;硕士论文;关键词
中图分类号G251 文献标识码A 文章编号 1674-6708(2014)114-0013-02
当前,世界各国的许多高等院校和科学研究机构都在加强对图书情报的研究,许多世界一流院校,比如Harvard University(哈佛大学)、Princeton University(普林斯顿大学)、Yale University(耶鲁大学)、Massachusetts Inst. of Technology(麻省理工学院)等都建立了比较完善的情报学教育体系。而比较而言,在我国高等院校与科研院所对图书情报学的相关研究,明显要相对落后,近年来随着改革开放的深入推进,有关情报学的招生和课题研究有所提升,并呈现出较为快速的增长态势,然而由于研究内容相对较为高深,而且研究的靶场显得较为前沿化与多元化。基于关键词对学位论文进行统计、研究与分析是文献计量学的范畴,是图书情报学研究的重要内容。即以学位文献或学位文献的某些特点为标的,以聚集梳理一定数量文献为基础,由此展开对某一时域某一领域科学技术基本状况与基本特征的研究,并由此论述和预测该领域科学技术在今后一段时期的研究趋势与特点规律态势。基于独特关键词进行图书情报领域的硕士学位论文进行分析,是情报学研究的一项重要方法,是一种将文献资料中的众多核心要素关联起来,进行统计分析的引证分析方法,其可以较为科学地评价文献所研究与发展的现状和趋势,揭示学科当时研究的热点,较为准确地评价文献所代表的学术水平。
1 研究对象数据来源
本文研究的对象定位于对国内图书情报领域这一总体框架,并于此基础上将“靶向”集中于硕士学位论文的统计、分析与研究,将“靶标”聚集到硕士学位论文的研究热点、趋势、重点、前沿以及其变化情况,从而更加清晰地梳理出我国情报学研究的发展脉络,从而为我国情报学教育发展提供参考。研究的主要数据来源集中于国内著名的学位论文收集库――中国知网CNKI学术文献总库、维普期刊资源整合服务平台与万方数据知识服务平台“三大论文数据库”,以及国内高等院校图书馆自建特色数据库。其中,中国知网CNKI和万方数据库是国内收录学位论文最为全面的数据库,因此,为了确保分析研究的数据具有较高可信度与代表性,分析研究检索的数据源即来自该两个数据库,着重定位于“学科专业名称”、“学科专业分类”选项进行检索,而检索的时间区域定位于近10年,对于两个数据库检索出来的文献,对于相同的通过采用SQL 语句进行筛选,剔除重复的以及不符合的。
由此,以“情报学”作为检索词,从中国知网CNKI数据库获得1640篇硕士论文,从万方数据库中获致1315篇硕士论文,通过SQL筛选剔除重复的以及不符合的795篇,总共获得有效国内图书情报领域硕士论文2160篇。
2 基于高频关键词的国内图书情报领域硕士学位论文特点
通过对获取到的2160篇国内图书情报领域硕士论文进行研究,综合统计论文的关键词,累计关键词有13976个,经过分析研究,去除不能表达论文主题概念的关键词3645个,共得10331个,平均每篇硕士文献关键词数为4.78个,由此可说明该统计是科学的,与国外科文献资料对关键词的标引规则相符(国内外科技期刊要求的每篇关键词应标出 3-8 个),接着对关键词的词频进行统计分析,将关键词的频度大于60作为标准,将其定义为“高频词”,通过对“高频词”的统计分析,可以非常清晰地看出,有关“知识管理”这一主题的频次最高,多达126次。无疑,这也证实了近些年来,学术界对知识管理这个方向的研究热点。此外,“电子商务”为121次、“信息化”为118次、“信息技术”为112次、“竞争情报”为102次、“信息服务”为98次、“信息检索”为96次、“数据挖掘”为87次、“数字图书”为84次、“信息资源”为79次、“电子政务”为75次、 “知识服务”为71次、“知识共享”为68次、“数据仓库”为63次,从中也反映了我国对信息化建设、知识服务、数字化建设等关注在日益提升,也验证了我国国务院学位委员会重新颁布的《授予博士、硕士学位和培养研究生的学科、专业目录》中“图书馆、情报与档案管理”的实效,表明了情报学与管理学之间渗透和结合日益加强,也可以折射出当前研究的重点、热点仍然集中在情报学基础领域,并预示着今后情报学研究的一个重点将是对网络信息资源的开发、整合与利用。
3 基于聚类共词的国内图书情报领域硕士学位论文特点
通常来说,仅仅通过孤独地察看论文的某一关键词,通常是难以有充足的理由说明该论文所研究的主题,然而通过关注两个或者两个以上的关键词,将可以给予人们更加充分的信息去把握论文的大致内容和论文的主题脉络。通过采取计算机数字高效处理作用,充分发挥Excel的数据透视功能,再次对出现次数高于60的高频出现的关键词进行“聚类性”分析,统计在同一论文中两两同时出现的关键词,从而构建出60 × 60的“聚类共词矩阵”,通过这一矩阵的研究,非常清晰地显示出“聚类共词矩阵”是一个对称矩阵,其中位于矩阵对角线上的数据显示的是某关键词自身一同出现的频次,这个一同出现的现象就实质来说,就是论文之间的相关度,对于非对角线上的数据,则表示不同关键词之间的共现频次。通过这个矩阵可以从另一个侧反题出,关键词分布既有交叉、相互渗透又具有群组分布的独立性。通过Excel的数据透视处理得到共现频次较高的有:“知识管理”为124次,“电子商务”为106次,“竞争情报”为101次,“高校图书馆”为98次,“信息服务”为92次,“数据挖掘”为87次,“数学图书馆”为83次,“信息资源”为81次,“电子政务”为79次,“知识共享”为72次,“数据仓库”为66次。由此可以看出,在国内图书情报领域硕士学位论文的研究主题中,当前基于数字化、信息化、电子化的知识管理与数据挖掘是个热点,同时也说明我国情报学教育研究的领域在不断拓宽。
综合以上,关注独特关键词下国内图书情报领域硕士学位论文研究的学科结构特点,获得了基于高频关键词的国内图书情报领域硕士学位论文特点,以及基于聚类共词的国内图书情报领域硕士学位论文特点,通过对研究结果的比较分析,得出了一些有较为充足理由支撑的结论,那就是从中可以较为清晰地得出,当前以及今后一段时期国内图书情报领域硕士学位论文研究的侧重点在于“数字化、信息化、电子化的知识管理与数据信息挖掘”。
参考文献
[1]曾学喜.网络舆情突发事件预警指标体系构建[J].情报理论与实践,2013(11).
[2]Miao Adam X,Zacharias Greg L.A computational situation assessment model for nuclear power plant operations[J].IEEE Transactions on systems,Man and Cybernetics,2011(9).
【关键词】叶贝斯分类 数据挖掘 个性化学习 学习风格
网络环境下的个性化学习是以学生作为教育系统的中心与教育服务主体。在个性化的教育系统中我们在营造数字学习氛围的同时要强调并坚持学生的主体地位,开展个性化学习,把它看作是一种探索式性、实践性、创造性的学习。实现网络个性化学习的关键在于根据学习者的信息数据分析提取个性化特征,进而实现对学习者的个性化推荐或教学指导。
本文针对目前网络学习系统中存在的个性化单一与实现难度大的问题,利用叶贝斯分类算法解决学习风格分类问题,让学生更深入的了解自己的学习模式与需求,实现真正自主式、个性化学习。
1 数据挖掘与分类
1995年,美国计算机学会(Association for Computing Machinery ,简称ACM)组织提出了数据挖掘(Data Mining)概念。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先未知的、但又是潜在有用的信息和知识的过程。数据挖掘又称为数据库中知识挖掘(Knowledge Discovery in Databases)、知识提取(Knowledge Extraction)、数据采矿等。
数据挖掘是一个跨学科技术领域,它是数据库技术、统计学、人工智能、数据可视化、信息提取、并行计算和分布式计算等多个学科结合的产物。发现潜在未知的规则,是数据挖掘的重要特征也是它的目标,它与数据分析的差别在于数据分析通常从一个假设出发,通过建立方程、模型来验证假设是否成立,而数据挖掘则是直接挖掘信息之中隐藏的规律,发现新的知识。
分类是常用的数据挖掘手段之一。它是将一组组个体分门别类的归入预先设定的几个类中。分类的目的是建立一个分类模型,该模型能把数据库中的数据项映射到类别中的某一个类别。常用的分类方法有:决策树分类方法、贝叶斯分类方法和规则归纳方法。
2 应用叶贝斯分类算法判定学习风格
学习风格是指学习者一贯持续的带有个性特征的学习方式,它是学习倾向和学习策略的总和。学习风格是个体在长期的学习过程中逐渐形成的,受特定的家庭、教育和社会文化的影响,通过个体自身长期的学习活动而形成,具有鲜明的个性特征。心理学认为人有七种学习风格:Linguistic(语言)、Logical(逻辑)、Visual(视觉)、Musical(音乐)、Kinesthetic(动觉)、Intrapersonal(内省)与Interpersonal(人际)。使用叶贝斯分类算法我们可以通过分析学习记录,获得学生的学习风格。 叶贝斯分类算法基于贝叶斯定理,应用于文本分类时,通过计算文本属于每个类别的概率.将该文本归为概率最大的一类中。
2.1 朴素贝叶斯分类和贝叶斯网络
贝叶斯定理是关于随机事件A和B的条件概率和边缘概率的一则定理。
P(A|B) = P(A^B) / P(B) = P(A)*P(B|A) / P(B)
其中P(A|B)表示在B发生的情况下A发生的可能性。其中P(A)是A的先验概率或边缘概率。(A|B)是已知B发生后A的条件概率, P(B|A)是已知A发生后B的条件概率, P(B)是B的先验概率或边缘概率,也作标准化常量。由此,贝叶斯定理可表述为:
后验概率 = (相似度*先验概率)/标准化常量
由于,比例P(B|A)/P(B)也有时被称作标准相似度,所以贝叶斯定理又可表述为:
后验概率 = 标准相似度*先验概率
贝叶斯分类方法是基于贝叶斯定理的,朴素贝叶斯(Naive Bayes)和贝叶斯网络(Bayesian Networks)看作是两种不同情形下的分类方法。
2.1.1 朴素贝叶斯分类
朴素贝叶斯分类方法是一个基于概率的分类方法,它通过计算后验证概率的方法来确定所属类别的概率。
Vj属于V集合, 其中Vmap是给定一个example,得到的最可能的目标值。其中a1...an是这个example里面的属性。这里面,Vmap目标值,就是后面计算得出的概率最大的一个.所以用max 来表示。
朴素贝叶斯分类默认基于一个简单的假定:给定目标值时属性之间相互条件独立。因此,该假定说明给定实力的目标值情况下。观察到联合的a1,a2...an的概率正好是对每个通过概率计算,从待分类的样本数据的属性 a1,a2,...,an 中求出最可能的分类目标值,即计算各类 Vj∈ V对于这组属性的条件概率 P(Vj|al,a2,...,an),其中j=1,2,...m(类别标识数),并输出条件概率最大的类别标识作为该样本数据的所属类别。这个假设是朴素贝叶斯不同于贝叶斯网络等其它贝叶斯分类算法的根本,也是朴素贝叶斯这个名称的由来。
2.1.2 贝叶斯网络
在实际应用中,大多数情况下不支持朴素贝叶斯的假设,即各特征并非彼此独立,此情况下可以使用贝叶斯网络进行分类。
贝叶斯网络是根据变量之间的依赖关系,使用图论方法表示变量集合的联合概率分布的图形模型,它引入了一个有向无环图(Directed Acyclic Graph)和一个条件概率表集合。DAG的结点v包括随机变量(类别和特征),有向连接E(A->B)表示结点A是结点B的parent,且B与A是有依赖关系的。同时引入了一个条件性独立(conditional independence)概念:即图中任意结点v在给定v的parent结点的情况下,与图中其它结点都是独立的,也就是说P(v|par(v),x1,x2...,xn) = P(v|par(v))。这里par(v)表示v的parent结点集,x1,x2,...,xn表示图中其它结点。如果已知所有联合概率值(joint distribution),那么就可以解决任何形式的概率问题。但现实中的特征集合数量过多(>10),几乎无法通过统计得到。所以,这个问题要通过条件独立的概念来对各条件概率值进行优化来解决。贝叶斯网络的建模有两个步骤:创建网格结构与估计每一个结点的概率表中的概率值。
2.2 贝叶斯分类过程
在本学习系统中,主要使用朴素贝叶斯分类方法对网络学习某一体育课程的学习者的学习风格进行分类。
2.2.1 建立样本数据
根据体育学科的学习特点,我们可以把学习者的学习风格简要概括为视觉型(V)、语言型(L)和动觉型(K)。把每一个学习者看作一个矢量 S,学习者的每一次学习记录作为属性 Ai,学习者的风格(视觉型、听觉型和动觉型)作为可能的类别 C,对于随机分类向量S={a1,a2,…,an},由此知道 s对每个类别的概率P( Ci|S)分布,其中P( Ci|S) 由贝叶斯公式P( Ci|S)=P( S|Ci)P(Ci )/P(S ) 计算得到,概率最大的那个就是 s的预测类别。
当学生登入系统时,系统首先根据学号查看学习风格数据库中是否有该生的学习风格类型记录,如果有,系统则推荐学生适合其风格的学习内容,如果无,则系统将学习者这次学习的学习记录保存在学生学习记录库的学习过程数据表中。
经过数据预处理,我们可以确保建模的数据是正确有效的。分析处理中我们需要得到分类模型需要的训练样本集的相关属性,包括文本学习次数(T)、视频学习次数(V)、活动次数(A)、文本学习平均成绩(TS)、视频学习平均成绩(VS)、活动成绩(AS)、学习风格类型(S)。当学生登录次数达到某值时,系统自动将这些属性值计算并存储。在分析训练样本时我们把学习次数属性值分为10 三个区间,将成绩分为 A(90-100) 、B(75-89)、 C(60-74)、 D(< 60)。朴素贝叶斯分类法对于学习次数和学习成绩这类连续属性的类条件概率计算,一是把连续的属性用相应的离散区间替换进而离散化,或是通过训练数据估计分布的参数。
2.2.2 建立学习风格建模
根据贝叶斯的最大后验准则,对任一未知样本 s={a1,a2,…,an},确定后验概率 P(Cj| a1,a2,…,an),把最大的类确定为该样本的学习风格。具体步骤为:
(1)计算得到每一种学习风格类型的先验概率P(Ci )。
(2)相对于每个类别的概率 P(aj|ci),训练样本集计算得出各属性的所有取值。
(3)计算出未知样本对三种类别的概率,选取概率最大的类别为学生的学习风格类型。
其中,建立学习风格分类模型最关键的步骤就是建立训练样本集。见表2-1。
2.2.3 建立算法
根据上述分析,设计算法如下:
初始化训练集D;计算每个学习风格类型的先验概率
由上述算法得出概率最大的类别为学生的学习风格类型。
3 结论
本文将叶贝斯算法应用在判定学习者的学习风格中,发现了学生的学习成绩、学习兴趣与学习风格之间的潜在联系。经过实际应用发现当朴素贝叶斯分类的假定条件成立时,它是一种非常精确的分类方法。 使用贝叶斯分类对系统中的学习者的学习风格进行分类,其特点主要有:
(1)它结合了概率与贝叶斯网络的分类方法,可以利用领域知识和其它先验信息,计算假设概率。
(2)可以把所有的属性都参与分类。
(3)针对离散属性的对象进行分析。
(4)数据样本可以增加也可以减少,这样可以进行增量学习。
(5)利用有向图的表示方式非常直观,弧表示变量之间的关系。
参考文献
[1]田文诗.基于学习者行为的序列模式挖掘算法研究与实现[D].硕士学位论文,吉林:吉林大学,2011(05).
[2]邓晖、徐梅林.网络学习环境之个性化属性调查及启示[J].现代教育技术,2003.13(1):49-54.
[3]凌江荣.在e_Learning中建立自适应学习路径的研究[D].硕士学位论文,湖南:湘潭大学,2007.
[4]田晓辉.基于Web的个性化学习系统在远程教育中的应用研究[D].硕士学位论文,西安:陕西师范大学,2007.
[5]史春秀.基于数据挖掘的个性化学习系统的研究[D].硕士学位论文,天津:天津大学,2007.
[6]王志平.基于数据挖掘技术的个性化学习系统的研究[D].硕士学位论文,重庆:重庆大学,2007.
作者单位
>> 基于网络数据挖掘的个性化电子商务推荐系统研究 基于大数据的社团个性化推荐系统 基于swarm平台和社交网络的电子商务个性化推荐系统仿真模型的理论构建 网络数据挖掘在图书馆个性化推荐中的应用研究 基于个性化推荐的网络营销 基于数据挖掘的电子政务个性化推荐服务框架研究 基于数据挖掘的个性化智能推荐系统应用研究 基于社交网络的个性化知识服务模型研究 基于免疫进化的网络教学资源个性化推荐系统研究 移动社会网络中基于位置的个性化餐馆推荐建模研究 基于IPTV的个性化推荐技术的研究 个性化好友推荐系统在社交网站上的应用研究 基于社交网络的社会化推荐算法研究 基于个性化混合推荐算法的网络推荐系统 基于数据挖掘的个性化推荐在SNS中的应用 基于Web使用数据挖掘的个性化推荐系统设计 基于小数据的高校图书馆个性化推荐 基于个性化推荐学习的网络培训教学课程平台的设计与实现 基于网络学习行为的个性化评价研究 社会化标签系统中基于本体的个性化推荐方法研究 常见问题解答 当前所在位置:l
[2]张婷婷. 社会化网络中人际关系与人际传播研究[D].长沙:湖南大学,硕士学位论文,2012
[3]王萍. 社会化网络的信息扩散研究[J]. 情报杂志,2009,28(10):39-42
Abstract: With the increasingly fierce market competition and the rapid development of computer technology, application of data mining technology in the coal trade management system is particularly important. In this paper, combining today's more popular data mining techniques, using linear regression and the weighted moving average algorithm ,sales were predicted.
关键词: 煤炭贸易管理系统;数据挖掘;线性回归;加权移动平均
Key words: coal trade management systems;data mining; linear regression;weighted moving average
中图分类号:TP311 文献标识码:A文章编号:1006-4311(2010)08-0123-02
0引言
当前国内开发的大多数煤炭管理系统是为公司管理煤炭业务而开发,只能实现数据录入、分类查询信息、汇总信息、定时发送短信息等功能。决策结果只能是基于决策者的直觉而不是数据库中丰富的信息。为此数据挖掘技术的应用基于此而产生。国内将数据挖掘应用于煤炭贸易的例子并不多见。本文将分别利用线性回归和加权一次移动平均算法对煤炭年度销售进行预测。
1数据挖掘技术简述
1.1 数据挖掘的概念数据挖掘(Data Mining)就是从大量的、不完全的、有声的、模糊的、随机的数据中,提取隐含在其中的、人们预先不知道的、但又是潜在有用的信息和知识的过程。
1.2 数据挖掘的方法
1.2.1 分类法分类就是找出一个类别的概念描述,并用这种描述来构造模型,一般用规则或决策树模式表示(该模型能把数据库中的数据项映射到给定类别中的某一个)。
1.2.2 关联分析法关联分析是指在数据库中寻找值的相似性,一般用支持度和可信度两个阈值来度量关联规则的相关性。
1.2.3 聚类分析法我们将数据库中的数据分组成为由类似的数据组成的多个类的过程称为聚类,由聚类生成的每个类是一组数据的集合,同一类中的数据彼此相似,不同类中的数据相异。
1.2.4 预测法预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。典型的预测方法是回归分析,即用大量的历史数据,以时间为变量建立回归方程。
1.2.5 时序模式法时序模式是指通过时间序列搜索出的重复发生概率较高的模式,与回归一样,它也是用已知的数据预测未来的值。
2二元线性回归法应用研究
基本过程是先建立数据仓库,提取分析要用的数据源,进行数据处理后,利用大量数据,建立线性回归模型,得出销售量与顾客购买频率和年份影响因素之间的联系,然后通过找出的规律可以预测煤炭在下个年度销售量,从而保证供应。下面我们以二元线性回归分析预测法为例,说明多元线性回归分析预测法的应用。
二元线性回归分析预测法,是根据两上自变量与一个因变量相关关系进行预测的方法。二元线性回归方程的公式为:=a+bx+bx
式(1)中::因变量;x、x:两个不同自变量,即与因变量有紧密联系的影响因素。
a、b、b:是线性回归方程的参数。a、b、b是通过解下列的方程组来得到。
∑y=na+b∑x+b∑x
∑xy=a∑x+b∑x+b∑xx
∑xy=a∑x+b∑xx+b∑x
本文主要通过公司运营时间预测顾客购买频率分,进而找出方法来发展客户群,再根据年份和顾客购买频率分预测年度销售量,若预计2007年煤炭销售量,首先用一元回归分析预测法预测2007年顾客购买频率分,再用二元回归分析预测法预测2007年煤炭销售量。
从表1中可以看出煤炭销售量同年份和顾客购买频率有一定关系,可试用二元线性回归预测法进行预测。其具体过程如下:
Y:煤炭销售总量;(单位:吨)x1:年份(单位:年) ;x2:顾客购买频率(单位:分)
2.1 解下列方程组,求a、b、b参数 ,把有关数据代入上面方程组,解方程组得:a=13.4517,b=-0.0186,c=1.3101
由此建立的二元线性回归方程为:
=a+bx+bx=13.4517-0.0186x+1.3101x
这个回归方程必须经过检验才能作为预测模型。
2.2求相关系数,二元线性回归方程的相关系数公式如下:
γ=
为了计算相关系数γ,需列表计算∑(Y-)和∑(Y-)
===84.21把表2、3有关数据代入式
γ===0.987
相关系数为0.987,说明自变量X1、X2与因变量Y之间有高度相关关系。
2.3 作回归标准差检验
S===9.32、==0.01106=11.06%
由此说明二元线性回归方程=13.4517-0.0186x1+1.3101x2用于预测,有较高的精确度。
2.4 计算预测值当年份为2007年,采用一元回归分析预测法预测顾客购买频率分,用最小二乘法求解α,β;β=15.32,α=13.385,由此建立的一元线性回归方程为:=α+βx=13.385+15.32x;
当2007年公司运营时间为9年时,预测顾客购买频率分为151。依据题意,x1=2007,x2=151,将它们代入二元线性回归方程。
=13.4517-0.0186×2007+1.3101×151=173.9466
因此该年度煤炭需求预测值为173.9466万吨。
3加权一次移动平均预测法的应用研究及改进
设{yt}为时间序列,取移动平均的项数为n,设yt是第t期的实际值,则第t+1期的预测值的计算公式为:
=
说明:项数n的取值应该根据时间序列的特点而定, n大:降低移动平均数的敏感性,影响预测的准确性,n小:移动平均数易受随机变动影响,难以反映实际趋势, 一般:n的大小能包含季节变动和周期变动的时期较好。
针对煤炭销售的历史数据特点,数据是逐渐递增的规律,经过反复训练使n=1合理,也就是说结果只与上个周期有关。
Wi表示权重。如何选择权数Wi?
M=S-S1=646.08 S为前8年总销售量,S1为1999年销售量;N=S-S2=518.38 S为前8年总销售量,S2为2006年销售量;W1=M:N=1.2463
针对煤炭企业数据特点对原始模型进行改进后如下:
=W1Y2006
因此2007年销售量为Y2007=WY2006=1.2463×155.3=193.5504,由于此预测模型只和销售序列有关,没有考虑其他影响因素,此预测模型的误差较大,所以不如二元线性回归分析法应用效果好。但对于不同的煤炭企业不同的阶段的销售预测有着不同的参考价值。
由于国家能源产业政策和宏观调控的影响,煤炭销售情况受各种因素影响,并不是十分稳定,因此本文介绍的二元线性回归分析法和加权一次移动平均预测法的数据挖掘技术应用方法仅供煤炭贸易集团和公司参考,同时也可为煤炭企业保证煤炭供应起到决策的辅助作用。
参考文献:
[1]冯勤.基于回归数据挖掘预测系统的分析与研究:[硕士学位论文].天津:天津大学电子信息工程学院,2005.
有关计量经济学期末论文范文一:我国企业经济统计的现状与改革创新分析
在知识经济时展背景下,企业经济统计工作也迎来了新一轮的发展机遇和挑战。传统的思维模式不仅无法满足实际经济统计工作的需要,也阻碍着我国社会经济的进一步发展。所以必须要针对当前的经济统计工作现状,进行不断的改革与创新,从而更好的适应经济时代的发展。
一、企业经济统计创新的重要性。
现代企业制度的确立,为我国企业发展迎来了新一轮发展机遇和挑战,也对企业管理工作提出更高的要求。企业经济统计作为企业发展与进步的重要辅助手段,不仅为企业管理者提供精准的信息和决策依据,也为企业生产经营活动的顺利进行提供了有利的保障。企业管理水平的不断提高,也为企业信息化建设带来了一定的难度,而企业经济统计工作包含了丰富的信息化活动内容,这就要求统计人员要不断优化企业经济统计信息网络的功能,促进企业信息化建设得到充分的完善。企业发展诈略的制定和管理工作的顺利开展,也需要经济统计人员设置出更加科学合理的统计指标体系,从而统计出更加精准、完整的数据内容,同时也为企业生产经营提供更加精准的评估,从而促进企业的全面发展。因此,经济统计的创新对企业的建设和发展有着至关重要的作用。
二、当前企业经济统计现状。
一是很多企业统计制度不健全。当前,很多企业都没有建立起一套完整、统一的经济统计工作制度,使得企业工作人员无法得到精准、完整的统一报表,统计台账和原始记录也比较凌乱,企业管理者在制定发展战略和决策时也无法得到高质量的统计数据。同时,一些新兴的企业也在随着市场经济的发展在不断壮大,在这些企业中,很大一部分都没有建立起标准的企业统计制度,相应的统计部门与人员也没有进行标准的划分和合理的配置,统计报表也没有专业的统计人员进行报送,职员也没有按照相应的统计制度去开展统计工作,进行报表的计算和统计。
二是企业经统计人员缺乏法制理念。在开展统计工作过程中常常会遇到一些法律方面的问题,但是很多企业的统计人员都没有树立正确的法制观念,在统计中常常会为了自身利益,制造一些虚假数据,甚至还有一部分企业为了逃避税收而瞒报一些重要数据,严重影响了数据的真实性和完整性,这样的数据不仅无法得到人们的认可和接受,也会给统计工作带来一些不良影响。
三是相关企业统计人员的整体素质有待提升。目前,很多企业都没有重视起统计工作的重要性,统计人员也缺乏相应的专业知识和统计经验,企业也没有对相关统计人员进行定期培训,造成人员的知识结构和思维模式无法得到及时的更新和优化。而在开展实际工作时,由于统计人员的专业素质和工作水平一直无法得到显着的提升,运用的统计方法也难以符合企业发展要求,统计工作也难以顺利进行,导致企业统计信息不断弱化,也使得企业统计工作无法发挥最大限度的积极作用。
四是企业统计工作手段缺乏创新性。随着信息经济时代的发展,对统计信息的时效性、准确的要求也在不断提高,但是目前很多企业的统计手段都没有得到及时的优化,企业也没有为统计部门配备符合工作要求的办公设备,不仅使统计部门提供的数据的时效性和准确性无法得到应有的保障,也导致企业经济统计工作的质量和效率一直无法取得显着的提高。
同时,还有很多企业没有正确认识到统计工作的积极作用,认为经济统计只是对一些数据进行简单的整理,如数据报表的制作和填写等这种简单的统计工作,造成企业经济统计工作常常缺乏真实和完整性,也有很多企业由于严重缺乏统计方面的人才,也没有设立专门的统计部门,使得很多企业逐渐忽略了统计部门和开展统计工作的重要性。
三、企业经济统计创新的内容分析。
(一)统计思维理念方面的创新。
传统的统计理念早已无法适应信息时代背景下企业的发展需求,因此,企业必须要树立正确的科学发展理念,并将其作为开展企业经济统计工作的重要理论依据,而我们也必须要正视经济统计工作中的种种问题,并分析总结出问题的成因,通过定期的专业培训,使统计人员的专业素质和统计水平得到不断提升,还要制定出一套完整的工作规范,并要求统计人员严格按照制度规范开展统计工作,同时还要根据实际统计工作情况,建立其合理的奖惩机制,从而充分调动起统计人员工作的积极性和责任心,多为职员提供学习和实践的机会,促进统计人员的全面发展,也确保统计工作能够顺利进行。
(二)统计内容方面的创新。
统计内容方面的创新,主要体现在企业活动条件、企业投入和产出统计等方面的基本内容的补充和拓展,同时还要将一些已经过时的、没有实质价值的原始凭证,以及一些与实际情况不符的数据,进行适当的取舍,同时还要将信息化、网络化的企业虚拟运作统计真实的呈现出来,使统计人员的工作创造力得到充分的发挥,也将人本主义的企业文化统计充分反映出来。
(三)统计功能和方法方面的创新。
企业经济统计方面的创新主要体现在完整的企业统计指标体系的建立。评价功能的创新,其功能主要是对企业生产经营过程进行详细分析和评估,并且能够为企业的发展战略和重要决策的制定提供更加精准的判断标准与评估数据,其积极作用主要体现在企业生产经营活动过程中。分析功能的创新,主要是指企业经济统计人员能够利用先进的统计软件,以及科学有效的统计手段,对企业经济的发展现状和未来的发展趋势进行合理的分析和评估。而企业统计方法的创新则要求统计人员,要充分整合先进的科学技术,如:信息技术、网络技术等,通过这些技术的应用,使统计工作质量和效率能够得到不断的提高,不断完善企业业务流程,提升企业核心竞争力。
(四)统计人员管理方面的创新。
对于企业经济统计人员的管理,要不断结合企业的实际发展状况,设置出能够被更多统计人员所接受和认可的管理机制,从而更好的适应现代化企业发展的实际要求,同时也要为人员提供更多实践学习的机会,并对其进行定期培训,从而使其能够及时的掌握最新的统计理念和手段,知识结构和统计水平也得到不断的优化和提高,同时也要给予统计人员更多展示自己的平台,使其自身的优势和潜力能够得到充分的体现和发倔,并探索和创新出更多科学有效的统计手段。
经济统计是一项复杂的工作,对企业和社会经济的发展有着重要意义,必须给予充分的重视。但是目前很多企业开展的经济统计工作还存在一些有待解决的问题,使得统计工作质量和效率也无法得到显着的提升。因此,统计人员必须要深入分析和总结不同阶段统计工作中的问题,采取有效的解决对策,实行创新性统计,从而使经济统计工作的适应性和灵活性得到不断的提升,从而更好地为企业发展服务,提升企业的竞争力。
参考文献:
[1] 吴东晟,李晓明。我国企业经济统计创新问题研究[J].生产力研究,2009,12(20):25-32.
[2] 牟钟捷。探讨我国企业经济统计的创新问题[J].城市建设理论研究(电子版),2013,23(36):12-14.
[3] 王小红。关于我国企业经济统计创新问题探究[J].经济视野,2014,15(21):77-78.
[4] 林琳。我国企业经济统计创新问题分析[J].商场现代化,2012,25(20):23-25.
有关计量经济学期末论文范文二:经济统计中数据挖掘技术的使用分析
伴随着经济统计发展,经济统计的经验累积,目前的经济统计所需要统计的数据已经非常庞大,数据统计者在进行数据统计时,如果仅适用数理知识的采集,并不会对数据进行深入挖掘,造统计结果不准确。统计数据的数量逐渐增多,数据类别也同样增加,对此,如果仅仅是使用以往的数据统计方式,并不能准确、全面的实现数据分析并统计的工作。数据挖掘技术是目前全新的统计方式,其具备良好的数据统计方式,能够横向的对数据进行挖掘,进而更好的对经济数据进行统计,更好的满足社会对经济统计数据的需求。
一、数据挖掘技术概论。
数据挖掘技术简单的说就是对数据信息进行深入挖掘的一种技术,在实际的使用过程中,能够将复杂的数据库变得更加的简化,进而从中发现能够利用的数据信息,并加以分析和整理,进而达到庞大且散乱的数据得到充分的利用。目前我国的经济数据统计信息量非常庞大,并且还带有数据不完整、随机性强的特点,这些都造成常规的数据统计方式和系统无法充分的分析并统计经济数据。数据挖掘技术能够将这些具备随机性强、完整性低的原始数据进行分析和统计,最终形成一套能够合理利用的统计数据形态,以便于数据使用者更好的对数据进行应用和提取。这样能够将数据进行更准确、更全面的收集、分析和加工的技术被称为数据挖掘。
数据挖掘的特点是能够自动的将有价值的数据发现并收集,然后对其进行处理、加工,将大量的信息处理、加工之后对其进行分析和统计,进而实现数据的有效性、准确性和实用性。
二、数据挖掘技术在经济统计中的应用效果。
1.综合性应用能力较强。数据挖掘技术已经被许多的统计工作所合理应用,并且发挥着至关重要的作用,其中也包括经济统计。数据挖掘技术不仅仅是一种数据挖掘能力强、具备统计能力的技术,还能够根据数据使用者的要求将数据进行分类和统计。因此,数据挖掘技术在经济统计中,能够有效地将数据进行开发、整理和分类,给统计数据的使用者提供更好的便利服务。
2.较强的有效性。数据挖掘技术目前在我国应用的实践并不长,但是其在经济统计的工作中的实际应用效果非常好,并且还具备稳定的工作性能,不仅仅是能够对经济数据进行整理、分析和统计,还能够更加有效的对挖掘出更多有价值的信息,在实际的应用中能够表现出较高的有效性。
3.数据挖掘技术能够更有效的应用于宏观型的数据库。目前,我国的经济统计多数还是使用的传统的经济统计方式,收集和统计的数据信息并不能形成一个有机整体,在进行数据的管理时,仍然会出现许多的问题。对此,就需要利用新技术来提升经济统计的有效性。宏观经济统计数据库能够给数据挖掘技术提供相当合适的统计平台。对于经济统计来说,其统计的数据必须要准确无误,这就需要有大量且可靠的数据资源,宏观经济统计数据库的特点便在于此,所以数据挖掘技术能够更有效的应用于宏观型的数据库。
三、数据挖掘技术的数据挖掘流程。
数据额挖掘的整个流程主要为在数据库中中利用数据挖掘算法收集相关的数据,然后围绕着数据挖掘进行的预处理,进行多次重复的对数据进行统计和处理。整个数据发掘过程是由多个挖掘步骤所组成的,数据挖掘仅仅是整个挖掘技术的一个主要步骤。数据挖掘收集的主要步骤有以下四个。(1)定义目标阶段。根据数据统计者的要求定义数据挖掘目标。定义目标的适配度会直接影响数据挖掘的最终效果,对此,就需要具有应用领域知识的专家和数据挖掘经验的技术人员共同写作对目标进行定义。一方面需要对各种算法进行对比,最终确定最行之有效的算法之一,另一方面确定数据挖掘能够充分的满足实际工作要求。(2)数据准备阶段。数据准备阶段是数据挖掘技术中最为重要且过程最长的阶段。这个阶段主要分为三个步骤:数据挑选,数据处理和数据变化。数据挑选主要是指从数据仓库或数据库中挑选所有相关的数据,将这些数据定义为目标数据。数据处理是指对目标数据进行初步的处理,然后挑选出挖掘出符合要求的数据。数据变换是指对挖掘出服务要求的数据进行精简,即从数据处理中挖掘出的数据进行更深层次的挑选,最终挑选出完全符合数据统计要求的数据。(3)数据挖掘阶段。这一阶段是主要的数据挖掘阶段。首先是预定算法,换而言之就是采用怎样的条件挑选数据,并进行挖掘。
然后针对算法完成数据挖掘工作。在完成之后,便可以进行数据挖掘模块的计算。这个阶段是相关领域专家和数据挖掘分析者最为关注的一步,也能够被称为实际上的数据挖掘。(4)评估阶段和结果显示。根据数据使用者的要求将数据进行分析并将结果显示,将有价值意义的数据显示出来,并且将挖掘出的数据进行价值评估,对于无意义的或存在重复的数据删除。如果最终挖掘出的数据无法满足数据使用者的要求则返回到上一步,重新筛选。
四、数据挖掘在经济统计中的发展方向。
目前数据挖掘的发展方向可以从多个方面展开:(1)根据数据使用者的要求开发出各种数据挖掘系统。具备较强功能性的数据挖掘系统仍然难以处理各种数据,对此就需要针对要求制定出各式各样的数据挖掘系统,例如空间数据库挖掘和关系数据库挖掘等。(2)提升数据挖掘显示结果的确定性、可表达性和有效性。需要已经挖掘出来的数据能够充分表明数据库的主要内容,并且能够运用于实际的相关领域当中。对具备缺陷的数据需要进行分析,以相似的数据或者有规律数据的形式展现出来。(3)数据挖掘结果简化。挖掘出的数据最终使用者并非是数据挖掘的专家,所以挖掘结果一定要简化。
(4)交互式、多抽象层数据挖掘。交互式数据挖掘能够准许用户对数据进行精确挖掘,数据的焦点具备动态改变的特点,从多个角度多个抽象的层次灵活的收集数据、挖掘数据。(5)数据挖掘的保密性和安全性。因为最终的经济统计结果需要一定的安全性和保密性。对此,就需要加强数据挖掘结果的保密性和安全性,以免数据造成泄漏,隐私被别人侵犯。
五、结语。
经济统计工作对我国的经济发展有着至关重要的作用,伴随着挖掘技术在经济统计中的应用,对数据统计的分析也更显高标准化和高质量化。对此,提升数据挖掘技术的应用效果,能够有效的提升统计工作的统计结果质量,让其具备可靠、真实的特点,进而给政府提供指定社会战略发展目标的有力证据,帮助工业企业确定经济发展目标。数据挖掘技术在经济统计中具备巨大的社会效益和经济效益。
参考文献:
[1]夏昌华。统计分析的新模式-数据挖掘技术[J].统计与咨询,2012,14(2):269 -270.
[2]张宗峰,姚猛,藤立臣等。数据额挖掘及英在官方统计中的应用前景[J].江苏统计,2010,28(10):832.
[3]郑建国。基于统计的数据挖掘技术在CRM系统中的应用统计[J].河北工业大学。2010,10(03):11-13.
[4]王福根。数据挖掘技术在建模、优化和故障诊断中的应用[J].红外与激光工程。2013,35(10):621-629.
关键词:数据挖掘技术;成绩管理
一、数据挖掘的定义
数据挖掘是一个涉及多学科交叉的研究领域,综合了人工智能、机器学习、数理统计等学科,它把对数据的应用从较低层次的简单的查询提升到从数据中挖掘知识。简单的说,数据挖掘就是从数据中获取知识。从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道、但又是潜在有用的信息和知识的过程。数据挖掘应该更正确地命名为“从数据中挖掘知识”。
二、数据挖掘的过程
数据挖掘过程大概可以概括为三部分:数据准备、数据挖掘、结果的表达和解释。如图1-1。
三、数据挖掘的特点
数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,所得到的信息具有事先未知、有效、实用三个特征;用户不必提出明确的要求,系统能够根据数据本身的规律性,自动地挖掘数据潜在的模式,或通过分析建立新的业务模型,帮助决策者调整市场策略,这有利于发现未知的事物。因此,它是由数据驱动的一种真正的知识发现方法。
四、学生成绩管理的现状
随着高校招生规模的扩大使成绩管理处理的数据量急剧增加,存放在数据库中的大量的成绩数据,对于一般的查询过程是有效的,管理人员能够通过简单的统计或排序等功能获得一些表面的信息,但随着数据库中存储的数据量的增大,传统的数据库管理系统的数据管理和处理功能就不能满足现实的需要,因为无论是查询、排序还是方差,其处理方式都是对指定的数据进行简单的数字处理,对于学生成绩管理方面,往往只能做一些简单的功能,由于大量数据以不同的形式存储在不同的计算机上,从而使隐藏在其中的大量有用信息无法得到有效的利用,无法发现数据中存在的关联和规则,无法根据现有的数据预测未来的发展趋势。上述问题直接导致教学管理部门无法进行有效的评估,任课教师无法进行有效的教学方法改进。而如何将这些数据信息转化为知识表示,为学校管理者提供决策依据,科学指导教学,提高教学管理水平,将是高校需要迫切解决的问题。
五、将数据挖掘技术在成绩管理中的应用
1、学生成绩分析方面
学生的学习成绩是评估学生表现好坏的重要依据,也是学生是否掌握好所学知识的重要标志,目前高校使用的成绩管理系统大部分只能做一些简单的数据管理和处理,例如:学生的平时成绩输入、考试成绩输入、毕业设计成绩登记,进行各类统计报表和信息查询、分析某一个班学生学习成绩分布的情况等。目前大量的成绩数据只是简单地存储在数据库中,隐藏在这些数据中的潜在信息被闲置,没能被充分利用。在数据库中学生成绩分析从定性的角度考虑不是很精确,而数据挖掘是从定量的角度精确地分析学生成绩分析的各个方面数据。
2、在考试方面
考试是对教师教学效果和学生学习效果的一个检验,是教学中必不可少的环节,虽然按考试成绩可以总体评价在一定时期内学生取得的成绩,但这并不能有效地说明成绩的高低与哪些因素有关,无法知道教师教学环节中的成功与不足之处,对教师教学方法的改进和学生学习成绩的提高都没有实际意义上的帮助,而且,学生考试成绩的高低也与试题的质量有着很大的关系,因此探索有效的方法来评价试题的质量如试题难易度,知识点全面度等在实际的教学过程中同样具有重要的意义。将数据挖掘技术应用于试卷分析数据库中,然后根据学生得分情况分析出每道题的难易度、区分度、相关度等指标,那么据此,教师可以对试题的质量作出比较准确的评价,进而可以用来检查自己的教学情况及学生的掌握情况,并为今后的教学提供指导。
2、在教学评价方面
教学评价是教学中的一个重要环节,是引导教育、培养高素质人才,帮助社会充分利用教育成果和促进教育健康发展的保证。传统的教学评价大多是参考相关评价指标体系和调查问卷等方式实施的,而且更是注重评价的结果,以作为教师晋升、学生评优等的依据.高校每学期都要搞课堂教学评价调查,积累了大量的教学信息数据,利用数据挖掘技术,从教学评价数据中进行数据挖掘,探讨教学效果的好坏与教师的年龄、职称之间有无必然的联系,课堂教学效果与教师整体素质关系如何,合理配备班级的上课教师,使学生能够较好的保持良好的学习态度,从而为教学部门提供了决策支持信息,促使更好地开展教学工作,提高教学质量。
3、选择教师的教学方法方面
在教学过程中,教师可以采用多种方法来完成自己的教学任务,比如讲授法、多媒体演示、分组讨论法、课程实习法等,在通常情况下,一般可以采取一种或几种方法进行.据此可用数据挖掘的方法来挖掘数据库中的数据,判定下一步应采取什么样的教学方法,以满足教学的需要,更有利于学生对知识的吸收。
4、课程的合理设置方面
在学校,学生的课堂学习是循序渐进的,而且课程之间有一定的关联与前后顺序关系,在学一门较高级课程之前必须先修一些先行课程,如果先行课程没有学好,势必会影响后续课程的学习,此外,每一学期安排课程的多少,也会影响学生的学习效果。利用学校教务管理系统中存放的历届学生各门学科的考试成绩,结合数据挖掘技术的相关功能,得出一些有价值的规则和信息,最终找到影响学生成绩的原因,在些基础上,对课程设置做出合理安排。
六、结束语
随着我国各高校管理信息化的不断推进,各类学校的数据库建设不断完善,在学校平时的教育教学管理中累积了大量的数据。在这些海量的数据中,隐藏着大量有用的知识,如果利用好这些知识,将能够对学校的教育教学工作起到积极的指导作用。数据挖掘技术正是为了解决如何从海量数据中挖掘出有用的知识,因此,将数据挖掘技术应用到高校的教育教学中去是非常有必要的。
参考文献:
【1】吉根林,帅克,孙志挥.数据挖掘技术及其应用.南京师大学报(自然科学版),2000,23(2):25-27
【2】李庆香.数据挖掘技术在高校学生成绩分析中的应用研究:硕士学位论文.重庆:西南大学教育技术系,2009