公务员期刊网 精选范文 数据挖掘技术探讨论文范文

数据挖掘技术探讨论文精选(九篇)

前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的数据挖掘技术探讨论文主题范文,仅供参考,欢迎阅读并收藏。

数据挖掘技术探讨论文

第1篇:数据挖掘技术探讨论文范文

【关键词】信息资源管理;研究生教学;财经院校

【中图分类号】G642 【文献标识码】B 【论文编号】1009―8097 (2008) 09―0125―03

信息资源管理(IRM)是为了确保信息资源的有效利用、以现代信息技术为手段,对信息资源实施计划、预算、组织、指挥、控制、协调的一种管理活动[1]。信息资源管理的理论和实践活动及以后信息资源管理类学科之间的集成和整合的需要,导致了一门渗透性很强的横断学科――信息资源管理学产生[2],其内容涉及信息科学、管理科学、数据处理、通信、计算机科学、文献情报学等各个方面。随着全球信息化基础设施建设的热潮,信息资源管理也成为国内外高校开设的一门重要课程。

一 国内外高校同类课程现状

信息资源管理作为一门新兴边缘学科,打破了原有学科界限,具有鲜明的时代特征,作为档案学、图书馆情报学和情报学的一个分支领域,多学科综合性、交叉性等特点是其典型特征[2]。在国外大学,IRM课程多设置在信息科学专业,如美国东北大学,或者图书馆学专业,如威斯康星大学。根据学科专业不同,课程侧重点也有所不同,主要可分为三大方向:信息系统学派、记录管理学派、信息管理学派。

90年代初,中国学者孟广均和卢泰宏等人系统地引入了信息资源管理理论[3]。目前,国内很多高校信息管理专业和图书馆情报学专业都开设了信息资源管理课程,大多都设置在本科专业,也有一些设立了硕士和博士研究方向。大部分还是以传统的信息管理为主线,以理论教育为主导,和企业应用及时代特点结合的较少,教学重点也依专业有所不同。

二 课程教学探讨

1 课程定位

我校自2001年开始开设此课程作为信息学院硕士研究生必修课程。不同于其他高校的信息管理专业和图书馆情报学专业,我校是财经类院校,信息学院硕士方向主要为电子商务、供应链管理、信息管理,是以管理学、经济学为主、信息技术为辅助实现手段的交叉学科,因此我们的IRM课程定位也是多学科交叉,侧重从管理思维及企业应用而不是技术角度,结合当前知识经济时代特征组织课程内容体系、分析讲解问题,和企业市场对具有复合型知识结构人才的需求紧密结合。

2 体系结构

本课程自开设以来,一直由作者承担此课程的教学及相关研究工作。作者在对当前国内IRM教材著作、教学内容深入研究及6年教学实践体验的基础上,结合在美国威斯康星大学图书馆和信息科学学院的交流学习经验,提出了适合本专业方向和学生特点的创新课程体系结构,经过多次教学实践,得到学生的认可。我们的课程体系遵循系统性和创新性原则,在保证教学内容所包含的知识是具有内在逻辑联系的完整知识体系前提下,区别于以传统信息系统管理为主线的内容体系,采用符合知识经济时代特征的体系结构,反映学科领域最新成果,在这里提出来供大家探讨。

(1) 信息资源管理概述:作为整个课程的基础,这部分主要包括数据、信息、信息资源、信息化、信息产业、知识、知识经济、知识管理等概念及其关联,目的是使学生掌握信息资源从产生到利用到再创造的过程。

(2) 知识管理:知识是从相关信息中过滤、提炼、经过人脑加工得到的有用信息,知识管理是现代信息资源(知识资源)管理的核心。这部分主要介绍知识的生命周期;企业知识管理的原因、目的、工具和手段;知识管理的企业实施和应用;知识管理系统方案和技术平台;北京移动、三星等企业知识管理案例分析。

(3) 数据挖掘:数据挖掘是数据库中的知识发现,是从海量数据中抽取出潜在的、有价值的信息、知识,是针对目前企业面对大量杂乱数据无法辨别有价值的资源进行管理,而提出的方法。本部分主要介绍数据挖掘的特点、原由、过程、人员、环境、相关技术;数据挖掘的商业应用;相关软件(重点SPSS系统);数据挖掘与CRM;数据挖掘在证券行业、网络应用、远程教育等方面的应用案例分析。不同于介绍技术和算法为主的数据挖掘课程,本课程重点在于数据挖掘的商业应用,侧重于分析、管理和应用。

(4) 信息资源规划(IRP):IRP是完全中国特色的信息资源管理内容,是指对企事业单位或政府部门所需要的信息资源,从采集、处理、传输到使用的全面规划,是针对于国内信息化建设的总体规划。主要内容包括:信息资源管理基础标准的讲解及应用;信息资源网;IRP在大型企事业单位的实施(四一三三原则);IRP与ERP;IRP2000系统软件介绍;政府信息资源规划案例。

(5) 首席信息执行官(CIO):CIO在企业的角色主要就是对企业的信息资源进行总体规划、协调、管理,因此这部分主要介绍IRM与CIO;中国CIO面临的挑战和机遇;CIO与IRP的工程化方法;CIO与本组织信息化整体解决方案(IT服务链)。

(6) 网络信息资源管理:适应当前网络发展,介绍通过网络如何对信息资源进行更好的组织和管理。主要包括网络信息资源及信息结构;网络信息资源组织;信息结构(导航、标志、检索等系统)设计;网站资源设计原则;案例分析。

(7) 信息资源安全管理:在信息资源的开发、管理和利用过程中,安全问题是一个十分重要的问题,因此本部分主要从管理和技术两方面对信息资源管理中的安全风险及应对措施进行分析,并结合案例介绍对系统进行审计和评价的方法。

3 教学资源

教师注重将所讲授内容体现在教学实践本身,随时随处体现“信息资源管理”观点和方法:利用知识管理理念,整合各方面知识资源,包括各种教材著作、专家渠道、国内外最新研究论文、案例资源等内容,形成资源库。

自课程开设以来,先后使用参考过科学出版社出版孟广均等著的《信息资源管理导论》,高等教育出版社王景光主编的《信息资源管理》,武汉大学马费成编著的《信息资源开发利用》,北京理工大学甘仞初主编的《信息资源管理》,电子工业出版社肖明编著的《信息资源管理》等著作,以及Ricks Betty R & Gow, KAY F. Information Resource Management Cincinnati (Ohio)等国外著作。已有教材都对信息管理学科进行了全面系统的论述,但内容大都比较抽象,理论性较强,多以信息系统论为核心,和现实企业应用及我们专业特点结合不足。因此,教师在教学中,指定其中两本为参考教材,而围绕课程体系的内容主要来自于教师对国内外研究资料收集整理加工后形成的教案、讲义,资料来源大都为排名行业前列的学术刊物、数据库、著名专家。除了理论知识,资源库还纳入不同企业的案例,以及知识案例获取的各种专家渠道。

4 教学方法

结合课程和中国学生特点,教师在教学中注重创新性,借鉴国内外同行的经验,及时引入先进的教学理念和方法手段,采用整合的教学方式“课堂讲授+案例分析+Leading Discussion+小组讨论/作业”相结合,目的在于尽量激发学生主动学习的愿望和能力,区别于以往“高级本科生”似的研究生教育方式。

(1) 教师的课堂讲授主要在于让学生了解知识课程体系结构及关键知识点,特别是重点和难点,引导学生把点串成线,配合阅读资料和案例,进而使知识面立体化。

(2) 案例分析,主要是教师通过企业渠道获得并整理内容详实的企业案例,把理论知识融入到企业实际应用中,加深学生对理论和实践如何结合起来的理解,弥补学生由于条件所限无法亲自参与重要的企业实践环节的缺口。

(3) Leading Discussion是教师借鉴美国大学研究生课程教学方法所得,培养学生独立深度研究分析能力。由于课程内容比现有教材更新,涉及范围更广,仅靠教材难以获取足够知识。教师定期提供国际上较新的研究论文,课下每位同学独立阅读并总结出不超过一页纸的summary,提出2-3个针对性问题。课堂上每次轮流由不同学生主持leading discussion对论文进行分析讨论,并回答问题。这种方式有助于学生开拓视野,了解国际最新动向,督促其主动学习、思考、沟通能力(这正是中国学生普遍缺乏的),还能提高专业英语阅读理解归纳能力和阅读速度。

(4) 小组讨论/作业主要是教师提供案例内容框架及引导问题,学生分组讨论不同案例(课堂或课下,视时间而定),鼓励brain storming,以PPT形式进行课堂演示,实现知识资源共享。最后教师对各组案例分析就行评价总结。

全程采用多媒体教学,教学中始终贯穿着启发式、引导性和参与性的理念。启发式教学:启发学生通过以上各种方式实现自我学习、自我教育,克服教师满堂贯、填鸭式的教学方式,注重研究生教育和本科教育的区别。引导性:教师在教学中先引入问题,积极启发学生主动思考,而不是被动接受灌输;引导学生探索性阅读,进入学术研究领域。参与性:鼓励学生主动参与教学环节,师生互动、教学相长,调动学生学习的积极性和主动性。

5 考核

为体现课程的多学科交叉性、复合型知识能力特点,课程采用多形式考核方式,重在考察学生对企业实际问题分析、提出解决方案的能力,以及此过程中对现代IRM管理理念和知识的理解应用和渗透。在强调“开卷+闭卷”传统考试形式基础之上,将参与讨论、案例分析、Leading Discussion、论文撰写、企业调研、小组作业等综合起来全面考察学生学习情况,这种“非概念记忆”的能力考核方式进一步调动了学生主动学习的积极性和创造力。

三 结言

经过多次教学实践不断改进,教学内容体系和方式方法得到了专家及学生的一致认可:普遍认为课程内容新颖全面,反映信息资源管理领域的最新发展和趋势;国外资源丰富,与国际学科发展接轨;高质量案例的引入恰当充分,和实际企业应用相联系。教师在讲授中补充很多专业领域最新的知识,扩展学生知识面;注重关键知识点的掌握,培养学生独立思考和判断、分析、解决问题的能力,非常适合财经类院校研究生阶段教学的特点。

在教学中,我们也注意及时发现总结问题,充分意识到不足和需要改进之处:

1 教学中很多内容都超出现有参考教材,因此需要将教学内容资源整合成更加系统全面的教材,供学生参考。

2 对于一些最新的较为抽象的内容,以及一些专业术语,还需进一步增加关联性更强的实例,更加深入浅出的进行讲解,让学生更容易理解。

3 信息和网络时代,知识及企业应用的更新频率都在加速,需要及时更新资源库以和现实世界发展保持同步,如何追踪最新的知识资源、企业实践和专家渠道是很大的挑战。

信息资源管理课程是知识经济时代新兴的一门重要课程,教学体系、方法发展还不完善。在北京召开的北京高校信息资源管理专业高级研讨会上,大家也一致认为信息资源管理这门课程的教材的内容和教学方法需要进一步改革。本文提出了适合财经类院校研究生的教学内容体系和教学方法设计,供开设此课程的高校教师探讨,并希望能有一定的启发借鉴作用。

参考文献

[1] 王景光.信息资源管理[M].高等教育出版,2002.12.

第2篇:数据挖掘技术探讨论文范文

[作者简介]王会金(1962― ),男,浙江东阳人,南京审计学院副校长,教授,博士,从事信息系统审计研究。

[摘 要]当前,我国急需一套完善的中观信息系统审计风险控制体系。这是因为我国的中观经济主体在控制信息系统审计风险时需要一套成熟的管理流程,且国家有关部门在制定信息系统审计风险防范标准方面也需要完善的控制体系作为支撑。在阐述COBIT与数据挖掘基本理论的基础上,借鉴COBIT框架,构建中观信息系统审计风险的明细控制框架,利用数据挖掘技术有针对性地探索每一个明细标准的数据挖掘路径,创建挖掘流程,建立适用于我国中观经济特色的信息系统审计风险控制体系。

[关键词]中观信息系统审计;COBIT框架;数据挖掘;风险控制;中观审计

[中图分类号]F239.4 [文献标识码]A [文章编号]10044833(2012)01001608

中观信息系统审计是中观审计的重要组成部分,它从属于中观审计与信息系统审计的交叉领域。中观信息系统审计是指IT审计师依据特定的规范,运用科学系统的程序方法,对中观经济主体信息系统的运行规程与应用政策所实施的一种监督活动,旨在增强中观经济主体特定信息网络的有效性、安全性、机密性与一致性[1]。与微观信息系统相比,中观信息系统功能更为复杂,且区域内纷乱的个体间存在契约关系。中观信息系统的复杂性主要体现在跨越单个信息系统边界,参与者之间在信息技术基础设施水平、信息化程度和能力上存在差异,参与者遵循一定的契约规则,依赖通信网络支持,对安全性的要求程度很高等方面。中观信息系统审计风险是指IT审计师在对中观信息系统进行审计的过程中,由于受到某些不确定性因素的影响,而使审计结论与经济事实不符,从而受到相关关系人指控或媒体披露并遭受经济损失以及声誉损失的可能性。中观信息系统审计风险控制的研究成果能为我国大型企业集团、特殊的经济联合体等中观经济主体保持信息系统安全提供强有力的理论支持与实践指导。

一、 相关理论概述与回顾

(一) COBIT

信息及相关技术的控制目标(简称COBIT)由美国信息系统审计与控制协会(简称ISACA)颁布,是最先进、最权威的安全与信息技术管理和控制的规范体系。COBIT将IT过程、IT资源及信息与企业的策略及目标联系于一体,形成一个三维的体系框架。COBIT框架主要由执行工具集、管理指南、控制目标和审计指南四个部分组成,它主要是为管理层提供信息技术的应用构架。COBIT对信息及相关资源进行规划与处理,从信息技术的规划与组织、采集与实施、交付与支持以及监控等四个方面确定了34个信息技术处理过程。

ISACA自1976年COBIT1.0版以来,陆续颁布了很多版本,最近ISACA即将COBIT5.0版。ISACA对COBIT理论的研究已趋于成熟,其思路逐步由IT审计师的审计工具转向IT内部控制框架,再转向从高管层角度来思考IT治理。大多数国际组织在采纳COSO框架时,都同时使用COBIT控制标准。升阳电脑公司等大型国际组织成功应用COBIT优化IT投资。2005年,欧盟也选择将COBIT作为其审计准则。国内学者对COBIT理论的研究则以借鉴为主,如阳杰、张文秀等学者解读了COBIT基本理论及其评价与应用方法[23];谢羽霄、黄溶冰等学者尝试将COBIT理论应用于银行、会计、电信等不同的信息系统领域[45]。我国信息系统审计的研究目前正处于起步阶段,因而将COBIT理论应用于信息系统的研究也不够深入。王会金、刘国城研究了COBIT理论在中观信息系统重大错报风险评估中的运用,金文、张金城研究了信息系统控制与审计的模型[1,6]。

(二) 数据挖掘

数据挖掘技术出现于20世纪80年代,该技术引出了数据库的知识发现理论,因此,数据挖掘又被称为“基于数据库的知识发现(KDD)”。1995年,在加拿大蒙特利尔召开的首届KDD & Date Mining 国际学术会议上,学者们首次正式提出数据挖掘理论[7]。当前,数据挖掘的定义有很多,但较为公认的一种表述是:“从大型数据库中的数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的潜在有用信息,提取的知识表现为概念、规则、规律、模式等形式。数据挖掘所要处理的问题就是在庞大的数据库中寻找有价值的隐藏事件,加以分析,并将有意义的信息归纳成结构模式,供有关部门在进行决策时参考。”[7]1995年至2010年,KDD国际会议已经举办16次;1997年至2010年,亚太PAKDD会议已经举办14次,众多会议对数据挖掘的探讨主要围绕理论、技术与应用三个方面展开。

目前国内外学者对数据挖掘的理论研究已趋于成熟。亚太PAKDD会议主办方出版的论文集显示,2001年至2007年仅7年时间共有32个国家与地区的593篇会议论文被论文集收录。我国学者在数据挖掘理论的研究中取得了丰硕的成果,具体表现在两个方面:一是挖掘算法的纵深研究。李也白、唐辉探索了频繁模式挖掘进展,邓勇、王汝传研究了基于网络服务的分布式数据挖掘,肖伟平、何宏研究了基于遗传算法的数据挖掘方法[810]。二是数据挖掘的应用研究。我国学者对于数据挖掘的应用研究也积累了丰富的成果,并尝试将数据挖掘技术应用于医学、通讯、电力、图书馆、电子商务等诸多领域。2008年以来,仅在中国知网查到的关于数据挖掘应用研究的核心期刊论文就多达476篇。近年来,国际软件公司也纷纷开发数据挖掘工具,如SPSS Clementine等。同时,我国也开发出数据挖掘软件,如上海复旦德门公司开发的Dminer,东北大学软件中心开发的Open Miner等。2000年以来,我国学者将数据挖掘应用于审计的研究成果很多,但将数据挖掘应用于信息系统审计的研究成果不多,且主要集中于安全审计领域具体数据挖掘技术的应用研究。

二、 中观信息系统审计风险控制体系的构想

本文将中观信息系统审计风险控制体系(图1)划分为以下三个层次。

(一) 第一层次:设计中观信息系统审计风险的控制框架与明细控制标准

中观信息系统审计的对象包括信息安全、数据中心运营、技术支持服务、灾难恢复与业务持续、绩效与容量、基础设施、硬件管理、软件管理、数据库管理、系统开发、变革管理、问题管理、网络管理、中观系统通信协议与契约规则等共计14个主要方面[11]。中观信息系统审计风险控制体系的第一层次是根据COBIT三维控制框架设计的。这一层次需要构架两项内容:(1)中观信息系统审计风险的控制框架。该控制框架需要完全融合COBIT理论的精髓,并需要考虑COBIT理论的每一原则、标准、解释及说明。该控制框架由14项风险防范因子组成,这14个因子必须与中观信息系统审计的14个具体对象相对应。框架中的每一个因子也应该形成与自身相配套的风险控制子系统,且子系统应该包含控制的要素、结构、种类、目标、遵循的原则、执行概要等内容。(2)中观信息系统审计风险的明细控制标准。控制框架中的14项风险防范因子需要具备与自身相对应的审计风险明细控制规则,IT审计师只有具备相应的明细规范,才能在中观信息系统审计实施过程中拥有可供参考的审计标准。每个因子的风险控制标准的设计需要以COBIT三维控制框架为平台,以4个域、34个高层控制目标、318个明细控制目标为准绳。

(二) 第二层次:确定风险控制框架下的具体挖掘流程以及风险控制的原型系统

第一层次构建出了中观信息系统审计风险控制的明细标准Xi(i∈1n)。在第一层次的基础上,第二层次需要借助于数据挖掘技术,完成两个方面的工作。一是针对Xi,设计适用于Xi自身特性的数据挖掘流程。这一过程的完成需要数据资料库的支持,因而,中观经济主体在研讨Xi明细控制标准下的数据挖掘流程时,必须以多年积累的信息系统控制与审计的经历为平台,建立适用于Xi的主题数据库。针对明细标准Xi的内在要求以及主题数据库的特点,我们就可以选择数据概化、统计分析、聚类分析等众多数据挖掘方法中的一种或若干种,合理选取特征字段,分层次、多角度地进行明细标准Xi下的数据挖掘实验,总结挖掘规律,梳理挖掘流程。二是将适用于Xi的n个数据挖掘流程体系完善与融合,开发针对本行业的中观信息系统审计风险控制的原型系统。原型系统是指系统生命期开始阶段建立的,可运行的最小化系统模型。此过程通过对n个有关Xi的数据挖掘流程的融合,形成体系模型,并配以详细的说明与解释。对该模型要反复验证,多方面关注IT审计师对该原型系统的实际需求,尽可能与IT审计师一道对该原型系统达成一致理解。

(三) 第三层次:整合前两个步骤,构建中观信息系统风险控制体系

第三层次是对第一层次与第二层次的整合。第三层次所形成的中观信息系统风险控制体系包括四部分内容:(1)中观信息系统审计风险控制框架;(2)中观信息系统审计风险控制参照标准;(3)中观信息系统审计风险控制明细标准所对应的数据挖掘流程集;(4)目标行业的中观信息系统审计风险控制的原型系统。在此过程中,对前三部分内容,需要归纳、验证、总结,并形成具有普遍性的中观审计风险控制的书面成果;对第四部分内容,需要在对原型系统进行反复调试的基础上将其开发成软件,以形成适用于目标行业不同组织单位的“软性”成果。在设计中观信息系统风险控制体系的最后阶段,需要遵循控制体系的前三部分内容与第四部分内容相互一致、相互补充的原则。相互一致表现在控制体系中的框架、明细控制标准、相关控制流程与原型系统中的设计规划、属项特征、挖掘原则相协调;相互补充表现在控制体系中的框架、明细控制标准及相关控制流程是IT审计师在中观信息系统审计中所参照的一般理念,而原型系统可为IT审计师提供审计结论测试、理念指导测试以及验证结论。 三、 COBIT框架对中观信息系统审计风险控制的贡献

(一) COBIT框架与中观信息系统审计风险控制的契合分析

现代审计风险由重大错报风险与检查风险两个方面组成,与传统审计风险相比,现代审计风险拓展了风险评估的范围,要求考虑审计客体所处的行业风险。但从微观层面看,传统审计风险与现代审计风险的主要内容都包括固有风险、控制风险与检查风险。COBIT框架与中观信息系统审计风险控制的契合面就是中观信息系统的固有风险与控制风险。中观信息系统的固有风险是指“假定不存在内部控制情况下,中观信息系统存在严重错误或不法行为的可能性”;中观信息系统的控制风险是指“内部控制体系未能及时预防某些错误或不法行为,以致使中观信息系统依然存在严重错误或不法行为的可能性”;中观信息系统的检查风险是指“因IT审计师使用不恰当的审计程序,未能发现已经存在重大错误的可能性”。IT审计师若想控制中观信息系统的审计风险,必须从三个方面着手:(1)对不存在内部控制的方面,能够辨别和合理评价被审系统的固有风险;(2)对存在内部控制的方面,能够确认内部控制制度的科学性、有效性、健全性,合理评价控制风险;(3)IT审计师在中观信息系统审计过程中,能够更大程度地挖掘出被审系统“已经存在”的重大错误。我国信息系统审计的理论研究起步较晚,IT审计师在分辨被审系统固有风险,确认控制风险,将检查风险降低至可接受水平三个方面缺乏成熟的标准加以规范,因此我国的中观信息系统审计还急需一套完备的流程与指南 当前我国有四项信息系统审计标准,具体为《审计机关计算机辅助审计办法》、《独立审计具体准则第20号――计算机信息系统环境下的审计》、《关于利用计算机信息系统开展审计工作有关问题的通知》(88号文件)以及《内部审计具体准则第28号――信息系统审计》。。

图2 中观信息系统审计风险的控制框架与控制标准的设计思路

COBIT框架能够满足IT审计师的中观信息系统审计需求,其三维控制体系,4个控制域、34个高层控制目标、318个明细控制目标为IT审计师辨别固有风险,分析控制风险,降低检查风险提供了绝佳的参照样板与实施指南。COBIT控制框架的管理理念、一般原则完全可以与中观信息系统审计风险的控制实现完美契合。通过对COBIT框架与中观信息系统审计的分析,笔者认为COBIT框架对中观信息系统审计风险控制的贡献表现在三个方面(见图2):(1)由COBIT的管理指南,虚拟中观信息系统的管理指南,进而评价中观主体对自身信息系统的管理程度。COBIT的管理指南由四部分组成,其中成熟度模型用来确定每一控制阶段是否符合行业与国际标准,关键成功因素用来确定IT程序中最需要控制的活动,关键目标指标用来定义IT控制的目标绩效水准,关键绩效指标用来测量IT控制程序是否达到目标。依据COBIT的管理指南,IT审计师可以探寻被审特定系统的行业与国际标准、IT控制活动的重要性层次、IT控制活动的目标绩效水平以及评价IT控制活动成效的指标,科学地拟定被审系统的管理指南。(2)由COBIT的控制目标,构建中观信息系统的控制目标体系,进而评价中观信息系统的固有风险与检查风险。COBIT的控制目标包括高层域控制、中层过程控制、下层任务活动控制三个方面,其中,高层域控制由规划与组织、获取与实施、交付与支持以及监控四部分组成,中层控制过程由“定义IT战略规划”在内的34个高层控制目标组成,下层任务活动控制由318个明细控制目标组成。COBIT的控制目标融合了“IT标准”、“IT资源”以及被审系统的“商业目标”,为IT审计师实施中观信息系统审计风险控制提供了层级控制体系与明细控制目标。IT审计师可以直接套用COBIT的控制层级与目标拟定中观信息系统管理与控制的层级控制体系以及明细控制目标,然后再进一步以所拟定的明细控制目标作为参照样板,合理评判中观信息系统的固有风险与控制风险。中观信息系统中“域”、“高层”、“明细”控制目标的三层结构加强了IT审计师审计风险控制的可操作性。(3)由COBIT的审计指南,设计IT审计师操作指南,进而降低中观信息系统审计的检查风险。COBIT的审计指南由基本准则、具体准则、执业指南三个部分组成。基本准则规定了信息系统审计行为和审计报告必须达到的基本要求,为IT审计师制定一般审计规范、具体审计计划提供基本依据。具体准则对如何遵循IT审计的基本标准,提供详细的规定、具体说明和解释,为IT审计师如何把握、评价中观经济主体对自身系统的控制情况提供指导。执业指南是根据基本标准与具体准则制定的,是系统审计的操作规程和方法,为IT审计师提供了审计流程与操作指南。

(二) 中观信息系统审计风险控制体系建设举例――构建“设备管理”控制目标体系

前文所述,中观信息系统审计的对象包括“信息安全”等14项内容,本文以“硬件管理”为例,运用COBIT的控制目标,构建“硬件管理”的控制目标体系,以利于IT审计师科学评价“硬件管理”存在的固有风险与控制风险。“设备管理”控制目标体系的构建思路参见表1。

注:IT标准对IT过程的影响中P表示直接且主要的,S表示间接且次要的;IT过程所涉及的IT资源中C表示涉及;空白表示关联微小。

表1以“设备管理”为研究对象,结合COBIT控制框架,并将COBIT框架中与“设备管理”不相关的中层控制过程剔除,最终构建出“设备管理”控制的目标体系。该体系由4个域控制目标、21个中层过程控制目标、149个明细控制目标三个层级构成,各个层级的关系见表1。(1)第一层级是域控制,由“P.设备管理的组织规划目标”、“A.设备管理的获取与实施目标”、“DS.设备管理的交付与支持目标”以及“M.设备管理的监控目标”构成;(2)第二层级是中层过程控制,由21个目标构成,其中归属于P的目标5个,归属于A的目标3个,归属于D的目标9个,归属于M的目标4个;(3)第三层级是下层任务活动控制,由149个明细目标构成,该明细目标体系是中层过程控制目标(P、A、DS、M)针对“IT标准”与“IT资源”的进一步细分。IT标准是指信息系统在运营过程中所应尽可能实现的规则,具体包括有效性、效率性、机密性等7项;IT资源是指信息系统在运营过程中所要求的基本要素,具体有人员、应用等5项。根据表1中“有效性”、“人员”等“IT标准”与“IT资源”合计的12个属项,每个具体中层控制目标都会衍生出多个明细控制目标。例如,中层控制目标“DS13.运营管理”基于“IT标准”与“IT资源”的特点具体能够演绎出6项明细控制目标,此7项可表述为“DS13-01.利用各项设备,充分保证硬件设备业务处理与数据存取的及时、正确与有效”,“DS13-02.充分保证硬件设备运营的经济性与效率性,在硬件设备投入成本一定的情况下,相对加大硬件设备运营所产生的潜在收益”,“DS13-03.硬件设备保持正常的运营状态,未经授权,不可以改变硬件的状态、使用范围与运营特性,保证设备运营的完整性”,“DS13-04.设备应该在规定条件下和规定时间内完成规定的功能与任务,保证设备的可用性”,“DS13-05.硬件设备运营的参与人员必须具备较高的专业素质,工作中遵循相应的行为规范”以及“DS13-06.工作人员在使用各项硬件设备时,严格遵循科学的操作规程,工作中注意对硬件设备的保护,禁止恶意损坏设备”。上述三个层级组成了完整的“硬件设备”控制目标体系,若将中观信息系统审计的14个对象都建立相应的控制目标体系,并将其融合为一体,则将会形成完备的中观信息系统审计风险控制的整体目标体系。

四、 数据挖掘技术对中观信息系统审计风险控制的贡献

(一) 数据挖掘技术与中观信息系统审计风险控制的融合分析

中观信息系统是由两个或两个以上微观个体所构成的中观经济主体所属个体的信息资源,在整体核心控制台的统一控制下,以Internet为依托,按照一定的契约规则实施共享的网状结构式的有机系统。与微观信息系统比较,中观信息系统运行复杂,日志数据、用户操作数据、监控数据的数量相对庞杂。因而,面对系统海量的数据信息,IT审计师针对前文所构建的明细控制目标Xi下的审计证据获取工作将面临很多问题,如数据信息的消化与吸收、数据信息的真假难辨等。而数据挖掘可以帮助决策者寻找数据间潜在的知识与规律,并通过关联规则实现对异常、敏感数据的查询、提取、统计与分析,支持决策者在现有的数据信息基础上进行决策[12]。数据挖掘满足了中观信息系统审计的需求,当IT审计师对繁杂的系统数据一筹莫展时,数据挖掘理论中的聚类分析、关联规则等技术却能为中观信息系统审计的方法提供创新之路。笔者认为,将数据挖掘技术应用于前文所述的明细控制目标Xi下审计证据筛选流程的构建是完全可行的。恰当的数据挖掘具体技术,科学的特征字段选取,对敏感与异常数据的精准调取,将会提高中观信息系统审计的效率与效果,进而降低审计风险。

(二) 中观信息系统审计风险控制目标Xi下数据挖掘流程的规划

数据挖掘技术在中观信息系统审计风险控制中的应用思路见图3。

注:数据仓库具体为目标行业特定中观经济主体的信息系统数据库

中观信息系统审计明细控制目标Xi下数据挖掘流程设计具体可分为六个过程:(1)阐明问题与假设。本部分的研究是在一个特定的应用领域中完成的,以“中观信息系统审计风险明细控制目标Xi”为主旨,阐明相关问题、评估“控制目标Xi”所处的挖掘环境、详尽的描述条件假设、合理确定挖掘的目标与成功标准,这些将是实现“控制目标Xi下”挖掘任务的关键。(2)数据收集。图3显示,本过程需要从原始数据、Web记录与日志文件等处作为数据源采集数据信息,采集后,还需要进一步描述数据特征与检验数据质量。所采集数据的特征描述主要包括数据格式、关键字段、数据属性、一致性,所采集数据的质量检验主要考虑是否满足“控制目标Xi”下数据挖掘的需求,数据是否完整,是否存有错误,错误是否普遍等。(3)数据预处理。该过程是在图3的“N.异构数据汇聚数据库”与“U.全局/局部数据仓库”两个模块下完成的。N模块执行了整合异构数据的任务,这是因为N中的异构数据库由不同性质的异构数据组合而成,数据属性、数据一致性彼此间可能存在矛盾,故N模块需要通过数据转换与数据透明访问实现异构数据的共享。U模块承载着实现数据清理、数据集成与数据格式化的功能。“控制目标Xi”下的数据挖掘技术实施前,IT审计师需要事先完成清理与挖掘目标相关程度低的数据,将特征字段中的错误值剔除以及将缺省值补齐,将不同记录的数据合并为新的记录值以及对数据进行语法修改形成适用于挖掘技术的统一格式数据等系列工作。(4)模型建立。在“V.数据挖掘与知识发现”过程中,选择与应用多种不同的挖掘技术,校准挖掘参数,实现最优化挖掘。“控制目标Xi”下的数据挖掘技术可以将分类与聚类分析、关联规则、统计推断、决策树分析、离散点分析、孤立点检测等技术相结合,用多种挖掘技术检查同一个“控制目标Xi”的完成程度[12]。选择挖掘技术后,选取少部分数据对目标挖掘技术的实用性与有效性进行验证,并以此为基础,以参数设计、模型设定、模型描述等方式对U模块数据仓库中的数据开展数据挖掘与进行知识发现。(5)解释模型。此过程在模块“W.模式解释与评价”中完成,中观信息系统审计风险领域专家与数据挖掘工程师需要依据各自的领域知识、数据挖掘成功标准共同解释模块V,审计领域专家从业务角度讨论模型结果,数据挖掘工程师从技术角度验证模型结果。(6)归纳结论。在“Z.挖掘规律与挖掘路径归纳”中,以W模块为基础,整理上述挖掘实施过程,归纳“控制目标Xi”下的挖掘规律,探究“控制目标Xi”下的挖掘流程,整合“控制目标Xi”(i∈1n)的数据挖掘流程体系,并开发原型系统。

(三) 数据挖掘流程应用举例――“访问控制”下挖掘思路的设计

如前所述,中观信息系统审计包括14个对象,其中“网络管理”对象包含“访问管理”等多个方面。结合COBIT框架下“M1.过程监控”与“IT标准-机密性”,“访问管理”可以将“M1-i.用户访问网络必须通过授权,拒绝非授权用户的访问”作为其控制目标之一。“M1-i”数据挖掘的数据来源主要有日志等,本部分截取网络日志对“M1-i”下数据挖掘流程的设计进行举例分析。

假设某中观信息系统在2011年4月20日18时至22时有如下一段日志记录。

(1) “Sep 20 19:23:06 UNIX login[1015]:FAILED LOGIN 3 FROM(null) FOR wanghua”

(2) “Sep 20 19:51:57 UNIX―zhangli[1016]:LOGIN ON Pts/1 BY zhangli FROM 172.161.11.49”

(3) “Sep 20 20:01:19 UNIX login[1017]:FAILED LOGIN 1 FROM(null) FOR wanghua”

(4) “Sep 20 20:17:23 UNIX―wanyu [1018]:LOGIN ON Pts/2 BY wanyu FROM 172.161.11.342”

(5) “Sep 20 21:33:20 UNIX―wanghua [1019]:LOGIN ON Pts/5 BY wanghua FROM 191.34.25.17”

(6) “Sep 20 21:34:39 UNIX su(pam――unix)[1020]:session opened for user root by wanghua (uid=5856)”

… … …

选取上述日志作为数据库,以前文“控制目标Xi”下数据挖掘的6个过程为范本,可以设计“M1-i.用户访问网络必须通过授权,拒绝非授权用户的访问”下的审计证据挖掘流程。该挖掘流程的设计至少包括如下思路:a.选取“授权用户”作为挖掘的“特征字段”,筛选出“非授权用户”的日志数据;b.以a为基础,以“LOGIN ON Pts BY 非授权用户”作为 “特征字段”进行挖掘;c.以a为基础,选取“opened … by …”作为“特征字段”实施挖掘。假如日志库中只有wanghua为非授权用户,则a将会挖出(1)(3)(5)(6),b会挖出(5),c将会挖掘出(6)。通过对(5)与(6)嫌疑日志的分析以及“M1-i”挖掘流程的建立,IT审计师就能够得出被审系统的“访问控制”存在固有风险,且wanghua已经享有了授权用户权限的结论。

参考文献:

[1]王会金,刘国城.COBIT及在中观经济主体信息系统审计的应用[J].审计研究,2009(1):5862.

[2]阳杰,庄明来,陶黎娟.基于COBIT的会计业务流程控制[J].审计与经济研究,2009(2):7886.

[3]张文秀,齐兴利.基于COBIT的信息系统审计框架研究[J].南京审计学院学报,2010(5):2934.

[4]谢羽霄,邱晨旭.基于COBIT的电信企业信息技术内部控制研究[J].电信科学,2009(7):3035.

[5]黄溶冰,王跃堂.商业银行信息化进程中审计风险与控制[J].经济问题探索,2008(2):134137.

[6]金文,张金城.基于COBIT的信息系统控制管理与审计[J].审计研究,2005(4):7579.

[7]陈安,陈宁.数据挖掘技术与应用[M].北京:科学工业出版社,2006.

[8]李也白,唐辉.基于改进的PE-tree的频繁模式挖掘算法[J].计算机应用,2011(1):101104.

[9]邓勇,王汝传.基于网格服务的分布式数据挖掘[J].计算机工程与应用,2010(8):610.

[10]肖伟平,何宏.基于遗传算法的数据挖掘方法及应用[J].湖南科技大学学报,2009(9):8286.

[11]孙强.信息系统审计[M].北京:机械工业出版社,2003.

[12]苏新宁,杨建林.数据挖掘理论与技术[M]. 北京:科学技术出版社,2003.

Risk Control System of MesoInformation System Audit:From the Perspective of COBIT Framework of Date Mining Technology

WANG Huijin

(Nanjing Audit University, Nanjing 211815, China)

第3篇:数据挖掘技术探讨论文范文

我们在教学的过程中,也比较比较注重案例教学。例如,在讲授神经网络时,我们可以用上海证券交易所中股市中股票随时间变化的数据为例,让学生讨论如何应用神经网络对股票价格进行预测。人工神经网络是一种模仿自然界动物神经网络行为特征,进行分布式并行信息处理的算法数学模型,能够较好地处理具有一定复杂性的数据,在预测、拟合等方面取得了很好的应用效果。让学生采用神经网络进行实际数据分析和处理,可以增强他们学习的积极性,更主动地投入到学习中去。我们也要求他们使用回归分析的方法对股票价格进行预测,然后和神经网络预测的结果进行比较。通过这个过程,可以使学生们不但了解了神经网络与回归分析算法的异同,加深他们对神经网络的认识。

加强实验教学,增强学生动手能力

信息与计算科学专业是以信息领域为背景,数学与信息、管理相结合的交叉学科专业。该专业培养的学生具有良好的数学基础,能熟练地使用计算机,初步具备在信息与计算科学领域的某个方向上从事科学研究,解决实际问题,设计开发有关软件的能力。毕业生适合到企事业单位、高科技部门、高等院校、行政管理和经济管理部门,从事科研、教学和计算机应用软件的开发和管理工作,也可以继续攻读信息与计算科学及相关学科的硕士学位。从信息与计算科学专业的培养目标可以看出信息与计算科学专业的本科生不但需要掌握理论知识,还需要具有将所学知识用来解决实际问题的能力。数据挖掘作为一门应用性较强的课程,需要学生能够运用数据挖掘知识分析和解决实际问题,要求学生能够熟练掌握数据挖掘的程序设计,以便在将来的就业中具有更好的适应性,因此实验环节的教学有着其必要性。基于这些原因,我们在这门课中引入实验环节,并将其纳入考核要求。我们实验所用的基本软件是SAS统计分析软件。SAS软件是一个集统计分析、报表图形、信息系统开发和大型数据库管理等多种强大功能为一体的大型软件系统,是目前国际上主流的统计分析软件之一。我们信息专业在大三时开设这门课程,之前已经学过C语言和JAVA等程序设计方法,有了一定的编程基础,因此学习使用SAS软件并不是特别困难。而且,在SAS软件中,系统自带了许多数据挖掘函数,这方便了同学们的使用。我们在平时的学习中,将一些SAS软件的基本程序设计基础知识先发给同学们,让他们利用课后时间自己在个人电脑上进行熟悉,从而使得他们熟悉基本SAS程序设计方法,这样可以在实验课上直接运用SAS软件进行数据挖掘程序的编写。在实验课上,我们主要将要实验的内容和相关数据资料提供给同学,要求同学自己用数据挖掘的知识和SAS软件进行编程实现,并写出实验分析和小结。另外,在实验中,我们也要求学生尽可能将一些实验结果用图表的形式如崖底碎石图等表示出来,以利于进一步分析。对于少部分学有余力的同学,我们也引导他们自编相关的程序。比如说在SAS软件中进行K-均值聚类用fastclus这个函数就可以了,但是学生对程序具体实现过程可能不是很清楚。如果学生能够将程序K-均值聚类详细程序步骤自己编写出来,就可以表明学生对所K-均值聚类算法也有了较清楚的认识。另外,对于属于数学建模协会的同学,我们也引导他们将数据挖掘的知识和数学建模中某些问题相结合起来,对于以往出现的一些可以利用数据挖掘知识分析的问题让他们利用相关的数据挖掘知识对其进行分析和求解,通过这样的方式,可以这样拓展这些同学的思路,也为数学建模培养了人才。

灵活的课后作业形式,提高学生的综合能力

第4篇:数据挖掘技术探讨论文范文

作者简介:舒忠梅,中山大学教育学院讲师,博士;屈琼斐,中山大学教育学院副教授,副院长,社会学博士;郭清顺,中山大学科技发展研究院副主任,研究员,博士。(广州/510275)

*本文系国家自然科学基金“ITS中基于有向超图的个性化的学习过程及其支持资源的优化”(61202345)的成果之一。 摘要:高等教育机构正处于数据爆炸的信息时代,高校多年来积累的大量办学数据为学校的科学管理带来了挑战与机遇。现代大学的科学管理亟待加强数据的有效利用,从信息技术的利用与高等学校的管理效益出发,分析国内外高等教育机构应用商业智能技术进行教育管理和研究的状况,探索基于商业智能技术搭建高校教育管理平台的实践应用,对平台体系架构、数据挖掘技术在大学生学习成果预测的应用案例等方面进行探讨。

关键词:高校管理;数据分析;商业智能《国家中长期教育改革和发展规划纲要(2010-2020年)》提出:“信息技术对教育发展具有革命性的影响,必须予以高度重视。”[1]信息技术的高速发展,为高等学校的教育教学及其服务管理提供了新的手段和丰富的资源。[2]随着高等教育的发展和教育体制的改革,高校积极进行管理信息化建设,实施数字化校园或智慧校园等举措,积累了大量的教育数据。国际数据公司IDC研究表明,数字大学仅2007年创建或采集2.25×1021 位数据,并预计将以每年60%的增速持续,海量的数据时代已经来临。[3]针对海量教育数据的挑战与机遇,本文从信息技术的利用与高等学校的管理效益出发,探讨如何通过商业智能技术有效利用当前高校管理产生的大量教育数据。

一、国内外高校管理中的数据利用概况

高校管理产生和存储的教育数据其实是高校的重要财富之一,充分利用可以有效提高高校的管理效益。同时,高校面临着海量数据带来的巨大挑战,如何管理并利用好海量数据,如何从大量的教育数据中获得有用的信息,提高高校管理系统的效率,是现代大学管理所面临的新挑战。

(一)现代大学的科学管理亟待数据有效利用的加强

在教育竞争日益激烈的今天,数据资源的管理和应用是现代大学取得竞争优势的重要工作之一。数据记录着学校的有形资源及其历史演变,导致高校数据量巨大,而其中真正有价值的信息却不多。数据能否带来价值和转化为决策效益不仅仅取决于量的多少,更重要的是取决于数据的可用性和对其合理的使用。[4]

目前,大多数高校为满足日常工作需求,建立了校务办公信息系统,但这些系统基本上属于联机事务处理(OLTP)系统,无法直接提供各种综合程度的数据采集并加以综合利用的功能。同时,这些信息系统产生的大量数据也不能进一步提炼升华为知识,及时提供给决策部门,让淹没在众多信息系统中的海量数据能够“说话”已成为重要课题。

另一方面,在我国高校管理系统中,高等教育研究一直较少开展对高校管理信息有关的定量和综合研究。而在国外大学的管理系统中,一个完整的院校研究部门是必不可少的,其基本功能就是对信息的管理和分析。对数据展开研究,是增强高校管理系统职能的一个重要环节。而且,随着国家逐渐放给大学越来越多的办学自的发展趋势,高校管理系统将因重视信息的管理和分析而衍生出一个新的功能,或者吸引高等教育研究人员深入关注信息管理与分析问题,从而更加实际地支持高校管理提升,是已萌芽并可预见的发展趋势。[5]

(二)国内外高校管理中的商业智能应用

随着云计算和云存储的推广,可以收集和利用越来越多的数据。为了高效地处理和有效地利用各种形式的海量数据,以数据仓库、数据挖掘、联机分析处理等为核心的商业智能(Business Intelligence, BI)技术应运而生。商业智能这一概念由加特纳·格鲁派于1989年提出,可将商业智能理解为一种能够将机构现有的数据转化为知识,帮助机构通过基于事实和电脑化系统,做出科学业务决策的工具。商业智能技术已成功地应用于银行、电信、保险、制造业和零售业等行业。[6]从全球范围来看,商业智能已经成为最具有前景的信息化领域。

通过调查了解世界各地的高等教育部门采用商业智能技术的状况发现,高等教育已明显落后于其它行业。然而,Dave Wells在文献中指出,越来越多的高校正在关注商业智能应用这一主题,高等教育在技术方面已经到了应用商业智能的时候了。[7]

例如,北美高等教育界较早关注商业智能应用的重要性,美国部分高校已经采用或正开始采用商业智能技术,对学校的教育数据进行整合分析,为学校的科学决策与管理提供信息支持。如宾州州立大学、密执根大学均于2005年提出建设BI项目的倡议,弗罗里达州立大学、华盛顿大学分别于2007年、2008年开始利用BI项目分析学校整合数据进行决策支持,普渡大学于2008-2014年期间建设学校新的协同集成系统,印第安纳大学2009年提出BI建设路线图,斯坦福大学商业智能中心2009年提交的BI架构及方案获批准、2010年正式启动项目建设,加州大学(总部)建设StatFinder系统,伊利诺斯大学建立学校决策支持数据仓库,亚利桑那州立大学为支持科学决策建设了仪表盘(dashboard)等。

·教育管理· 基于商业智能构建高校教育管理平台的实践探讨 在欧洲、亚洲等地区的高等教育体系中,商业智能技术的应用才刚刚起步。我国少数高校也开始迈出了建设BI系统的步伐,如中山大学2010年开始提出学校BI系统建设倡议,现已初步完成BI系统的数据仓库建设,上海交通大学2011年推出BI项目的子系统——财务管理驾驶舱系统,复旦大学为学校师生在校生命周期实现管理信息化“全覆盖”,中国人民大学推出综合数据填报、数据存储、数据管理和数据展示等四大功能的数据平台,浙江大学为优化资源配置建设共享数据中心进行数据集成,上海财经大学建设校务决策支持系统,常熟理工学院建立高校决策支持系统等等。

同时,基于商业智能技术产出的数据,也形成一批对高等教育和高校自身进行深入分析的研究报告。如美国教育研究的主要组织院校研究学会,年会报告除了涵盖数据管理、数据仓库等关于计算机技术本身的报告之外,关于评估、资源、学生、合作和分析的报告,较多地来自于商业智能系统数据的研究结果。[8]

二、数据驱动的高校教育管理智能平台架构在海量教育数据亟待有效利用的驱动下,为提高高校管理效益,将商业智能技术应用到高校教育管理中,对高校产生的大量数据用数据挖掘等商业智能技术进行分析研究与处理,可以帮助高校决策者做出对学校发展更为有利的科学决策。其关键是建立综合层面上的、能反映高校整体教育教学管理的信息集成系统平台(下文简称高校BI系统平台)。高校BI系统平台体系架构由数据源、数据存储与管理层、数据分析层和用户接口层组成,如图1所示。

图1高校BI系统体系架构

(一)数据源

数据源是整个系统的基础,包括高校各类业务管理信息系统的内部数据和其他外部数据。内部数据包括存放于操作型数据库中的各种业务数据和办公自动化系统包含的各类文档数据,如学校财务处、人事处、教务处、科研处、设备处等部门数据库中业务数据;外部信息包括各类教育信息、外部统计和调研数据及文档等。

(二)数据存储与管理

数据存储与管理层是整个系统的核心,包括ETL管理工具、公共数据集、元数据、数据仓库和数据集市。高校BI系统平台建设采用数据驱动设计方法,从学校原有的各个部门的业务处理系统和外部数据源中经过ETL提取数据,并根据常见的分析和统计主题,建设校级数据仓库以及人才培养、师资队伍、科学研究、办学资源、交流合作等主题的数据集市。

(三)数据查询与分析

高校决策者常常希望从不同的角度审视教育数据,比如从时间、区域、学科、教学或科研成果、课程建设、学生层次、交流合作、办学资源等维度全面了解学校的教育质量和状态。高校BI系统平台的数据分析层利用商业智能技术为高校管理主要提供固定报表、即席查询、统计分析、多维分析、预警功能、预测分析、数据挖掘建模分析及优化分析等,根据学校现有学生、教师、资源、科研和人才培养等状况,有助于高校决策者全面地对学校资源配置进行调控、对学校整体办学信息的内部结构进行调整等,做出对学校发展更为有利的科学决策。

(四)用户接口

用户接口层根据高校用户访问需求和角色访问授权机制,提供强大的多用户数据查询操作,并以仪表盘或表格、直方图、饼图等直观方式将查询结果或决策信息呈现给用户。

三、应用案例

下面以高校BI系统平台中的调研数据为商业智能技术应用案例,利用回归方法对大学生学习成果进行数据挖掘分析。

(一)数据来源

案例分析的数据来源于高校BI系统平台中“中山大学学生学习状况调查”项目于2012在中山大学全校范围内开展的在线调研数据。[13]调查覆盖全校36个学院(系),调查总体约为3.3万名本科生。让学生在无压力的情况下答题,共回收问卷7051份,回收率约为21.2%,与国际上通用的问卷回收率相当。案例分析聚焦于本科样本,全部回收的问卷根据答题时长、问卷质量标准等原则,筛选出有效问卷数据6673份,有效率为94.6%。

本研究从学生学习经历角度,在“生源-学习-成果”的逻辑框架中,考察分析学校因素和学生因素对于学生学习成果的影响机制。调查把学生学习经历和成果分解为生源情况、学校学习资源供给、学生与学校的融合、学生学习投入、学生成果、学校成果6 大维度,各维度下题目的内部一致性均达到0.9以上,具有较高的信度。

(二)数据分析

逐步回归提供了一种识别与学生学习成果相关的具体经历的方法,对于学生学习状况调查中的227项进行相似项合并,用向前和向后逐步回归确定与学习成果相关的项目,对残差图和诊断法的彻底审查,最后确定17个独立变量出现在多元回归模型中(如表2所示),其中,相关系数R为0.994,校正判定系数R2为0.988,因变量变化中有98.8%左右的信息可以由预测变量解释,说明模型的拟合优度较好;Durbin-Watson为1.937,接近最佳理想值,如表1所示。

表2显示的是回归系数的相关统计量,可以看出,这17个独立变量的显著性概率Sig.都小于0.05,说明其系数显著不为0,这17个变量均与学生学习成果显著相关。

分析表2中的数据可以看出,学生学习经历中的学校学习资源提供、学生学习投入和校园文化及学校成果等四大维度的17个变量均为影响学生学习成果的重要预测变量,包括课程作业评价、专业学习经历评价、学术规范指导、平等文化、多元能力的培养氛围等学校因素变量,以及朋辈交流情况、自主学习情况、活动参与情况、课外阅读情况、论文写作情况、讨论关注的内容情况、师生交流、课业活动及个人闲暇活动时间分配等学生因素变量。同时,在校经历满意度、综合满意度和能力培养满意度等融合学校因素和学生因素的学校成果也对学生学习成果具有一定的影响。

通过标准系数可以看出,朋辈交流情况、自主学习情况和讨论关注的内容情况分别是第一、第二和第三重要的预测变量,而性别、年级、所在校区等人口学变量并未出现在该回归分析模型中,对学生学习成果的影响不显著。

进一步分析朋辈交流情况和自主学习情况调查指标应答概况,如表3所示,“有时”、“时常”或“频繁”进行朋辈交流的比例为63.7%~97.7%,自主学习的比例为52.5%~92.9%,朋辈交流和自主学习的平均比例相当高(81.8%)。“有时”、“时常”或“频繁”地进行朋辈交流方面的主要比例情况为:“与家庭背景(社会、经济的)不同的同学交流”为97.7%、“与兴趣不同的同学交流”为95.6%、“在与同学的谈话中得到启发,改变自己的想法”为94.4%、“与世界观、价值观不同的同学交流”为93%、“与不同专业的同学交流”为92.6%、“同学与你谈话后,表示受到了你的启发”为90.8%。“有时”、“时常”或“频繁”地进行自主学习的主要比例情况为:“利用图书馆、网络等资源丰富自己的学识”为92.9%、“根据课程安排,做课堂展示”为91.3%、“努力掌握对自己而言较难的课程内容”为91.3%、“随着学习经历的丰富不断整合、梳理自己的知识系统”为88.4%,“因课程设置和教师的要求具有挑战性而更加努力地学习”为85.9%。

上述情形符合Vincent Tinto在研究大学生退学问题时提出的理论模型:学生取得较好的学习成果,依赖于他们在学习经历中能否将自身的经验和目标与学校系统内部的学术系统和社交系统相融合。[10]学术系统代表学生个人的课业表现、智力发展、学业成就等综合表现,如表2中自主学习情况、活动参与情况、课外阅读情况、论文写作情况、讨论关注的内容情况及课业活动等属于学术系统的范畴。社交系统代表学生在校内的同伴关系、师生关系、社交行为等综合表现,如朋辈交流情况、师生交流及个人闲暇活动时间分配等属于社交系统的范畴。学生在其学习经历中,有效地利用学习资源和校园文化氛围、将学术系统和社交系统进行整合,可以从学业和人际关系上自我提升,从而提高学习成果。

四、小结

如今,高等教育机构正处于数据爆炸但知识贫乏的信息时代,面对浩如烟海的各类教育数据,若不能有效地加以利用,就会降低对数据的使用效益并使各级教育机构的管理和决策尤为困难。同时,随着教育改革的逐步深入和高等教育的国际化,高校面临着质量评估、绩效考核、社会问责、大学排名等现实问题,如何有效地管理海量的教育数据,并从这些数据中获取有用的信息,调整教育教学策略,提升教育教学质量和管理效益,是高校教育管理与深入发展的重要研究课题。

为此,对现代大学管理如何有效利用数据以提升高校管理效益进行了思考,探讨了商业智能技术在高校管理中的应用情况,并从体系架构、数据挖掘技术在大学生学习成果预测评价应用案例等方面进行分析。由于高校数据来源的异构与多样化、数据管理机制缺乏等,使得商业智能技术在高校教育管理中全面地展开深层次应用,还有很长的路要走。

参考文献:

[1]国家中长期教育改革和发展规划纲要工作小组办公室.国家中长期教育改革和发展规划纲要(2010-2020年)[N].中国教育报,2010-07-30(1-3).

[2]熊才平,何向阳,吴瑞华.论信息技术对教育发展的革命性影响[J].教育研究,2012(6):22-29.

[3]John F.Gantz et al..The Diverse and Exploding Digital Universe: An Updated Forecast of Worldwide Information Growth through 2011[EB/OL].Framingham, MA: IDC, 2008.http:///collateral/analyst-reports/diverse-exploding-digital-universe.pdf.

[4]常桐善.构建院校智能体系:院校研究发展的新趋势[J].高等教育研究,2009(10):49-54.

[5]屈琼斐.信息管理与中国大学院校研究的实践环境分析[J].高等教育研究,2010(11):69-72.

[6]V.Farrokhi, L.Pokorádi.The necessities for building a model to evaluate Business Intelligence projects Literature Review [J].International Journal of Computer Science & Engineering Survey (IJCSES),2012(2):1-10.

[7]Dave Wells.Institutional Intelligence: Applying business intelligence principles to higher education[EB/OL].Campus Technology, 2007.http://campus / articles /2007/04/institutional-intelligence.aspx.

[8]S.ElAtia, D.Ipperciel, A.Hammad.Implications and Challenges to Using Data Mining in Educational Research in the Canadian Context [J].Canadian Journal of Education, 2012(2): 101-119.

第5篇:数据挖掘技术探讨论文范文

关键词:人工智能;案例式教学;兴趣引导教学法;问题驱动教学法

中图分类号: TP309 文献标识码:A 文章编号:1009-3044(2014)03-0599-02

人工智能是一门研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的综合性技术学科[1],是计算机科学、控制论、信息论、神经生理学、心理学、语言学等多种学科互相渗透、迅速发展且与人类生活密切相关的综合性新学科,其核心研究领域包括模式识别、自然语言处理、机器学习、数据挖掘、人工神经网络和专家系统等等[2]。

语言信息处理是语言学与计算机科学交叉形成的一门新型学科,其课程体系以语言学、计算机应用、应用数学和认知科学为主干,研究内容是自然语言的自动化信息处理技术,是人类语言活动中信息成分的发现、提取、存储、加工与传输[3]。目前该方向的主要应用领域包括机器翻译、文献检索、信息提取、自然语言的人机接口等。由此可见,为语言信息处理专业开设人工智能课程是必须的。该文针对“人工智能”课程自身特点和语言信息处理专业研究生培养目标,并结合笔者多年来的教学经验,分别从课程内容设定、教材选择、教学方法、考核方式等多个方面对该课程的教学改革进行了探索与研究。

1 以“精”“典”为基本要求的教学内容选择

“人工智能”课程的突出特点研究内容涉及面广而学时数较短(大部分高校的研究生专业安排的课程的时数在36到48学时之间)。因而授课时不能追求内容“大而全”,必须“精”,选择重点、核心基础知识进行学习,选择与专业方向最相关的“典”型应用领域进行重点详细介绍,使学生在有限的时间内学到最有用的知识。“人工智能”课程教学内容总体可以分为三大部分。

第一部分是基础理论知识,学习人工智能中知识的表示方式(谓词逻辑表示法、产生式知识表示法、框架表示法、语义网络表示法等)。语言信息处理专业学生本科专业背景不同(有文科,有理工科),所以该部分教学内容难点在于教学进度和难易程度的均衡。本部分内容可安排8~10学时。

第二部分是搜索与推理,对使用特定知识表示方式表达的知识和问题进行推导或搜索,得出相应结论或搜索结果。本部分安排10~12学时,重点在于启发式搜索。

第三部分是人工智能中的典型应用领域。对于该部分内容的选择要以学生专业为中心进行,选择与学生专业相关性较大的领域进行教学,以期能够有助于学生了解并掌握学术的主流发展趋势,从而能够更好地培养自身的科学素养和创新能力。本部分主要学习机器翻译、机器学习、自然语言处理、数据挖掘、多Agent系统等。本部分安排18~36学时。

2 选择“最合适”的教材

教材是教师教和学生学的主要凭借,教材的好坏在很大程度上决定了教师能否成功“教”与学生能否顺利“学”。教材的选择要以教学对象的特点和教学目标为依据,选择最合适的教材。在广泛研读目前比较热门的人工智能教材的基础上,结合教学目标和教学对象的特点,选则清华大学出版社出版﹑蔡自兴和徐光祐编著的《人工智能及其应用》(第4版)[1]作为教材。该教材总体也可以分为三部分:第一部分论述了人工智能的三大技术, 即知识表示;第二部分论述推理及搜索; 第三部分论述人工智能的主要应用领域,包括专家系统、机器学习、自动规划、分布式人工智能和自然语言理解等。与第三版本科生用书相比,增加了如本体论和非经典推理、决策树学习和增强学习、词法分析和语料库语言学等(非常适合笔者的教学对象)。

3 创新型人工智能课程教学方法

“人工智能”课程涉及的知识面广,既包括基础理论,也包括具体应用,即有抽象复杂的计算,也有繁杂的系统实现,为此,如何激发学生的学习兴趣并保持学生的学习兴趣是本课程教学的关键。此外,因为是研究生教学,所以更突出学生的主体地位,注重培养学生的学习兴趣、自主学习的意识和能力。为此,笔者主要采用了以下几种教学方法。

3.1 兴趣引导教学法

常言“兴趣是最好的老师”,如何培养学生对本门课程的学习兴趣,激发学生对本门课程的求知欲,是一门课程首要任务。

为了提高学生的学习兴趣,笔者在第一节课让学生观看美国科幻电影“机器人”的相关片断,通过机器人安德鲁非凡的创造能力、情感表达能力和自学习能力让学生更好地了解人工智能的目标、意义,激发学生探索人工智能的兴趣;在学习“博弈策略”及“极大极小分析法”时,笔者通过让学生来参与“一字棋”对决游戏说明博弈树的层次结构原理,通过“人机对弈”说明“α-β剪枝技术”引入的必要性;通过“啤酒与尿布”的故事说明数据挖掘技术在现实生活中的应用,让学生认识到人工智能并不是虚无抽象的学科,而与人们的生活息息相关,激发起学生用人工智能相关技术解决现实问题的兴趣。

3.2 问题驱动教学法

在讲授基础理论时,如“不确定性推理”、“数据挖掘”等这一类型内容抽象、算法复杂的知识时,采用了问题驱动式的教学方法。

教师首先提出与内容相关的若干问题,并为学生相关的资料或向学生提供找到问题的一些线索,让学生带着问题去思考、分析和讨论等方式来查找答案,主动获取知识,应用知识,教师在必须的时候还需给予一定的引导和帮助。如在讲授产生式知识表示法时,以“动物识别系统”问题原型,给出学生系统模型,让学生编写一个能够用来进行动物识别的应用程序。

此教学法很好地培养学生解决问题的能力,形成研究的态度,提高认知能力。

3.3 实践教学法

“实践是检验真理的唯一标准”。人工智能课程中,能够动手实践的知识一定要让实践。

在讲“专家系统”的构造步骤时,用“营养专家系统”为案例进行介绍,将该专家系统分解为一个个小的具体任务(如知识库构建、规则库的构建、界面设计等),并分配给不同的学生,学生按照专家系统的一般构造步骤去完成相应的任务,最终完成一个完善的系统,从而达到掌握专家系统构建的教学目标。

实践教学法可以提高学生分析、解决问题的能力和动手能力,并可以进一步加深对理论知识的理解。

3.4 案例教学法

案例教学法是将案例讨论的方法运用到课堂教学活动中去,教师根据课堂教学目标和教学内容的需要,通过设置一个具体的案例,引导学生参与分析、讨论、表达等活动,让学生在具体问题情境中积极思考、主动探索,以提高教与学的质量和效果,培养学生认识问题、分析问题和解决问题等综合能力的一种教学方法[4]。案例教学法中教师扮演设计者和激励者的角色,鼓励学生积极参与典型案例的讨论,重点掌握教学进程,引导学生思考,组织讨论研究,进行总结、归纳,同时教师也参与到学生共同研讨。不但可以发现自己的不足,也可以从学生那里可以了解到大量感性资料。该教学法有利于调动学生学习主动性,通过生动具体的案例介绍可以促进学生对知识的理解和实际应用。

人工智能授课中,对于产生式系统和自然语言理解系统的有关概念及系统构成技术,采用了案例教学法。

在介绍产生式系统时,我们以动物识别系统为案例进行介绍。案例教学通常可以分为3个步骤,即案例引入、案例分析和案例总结。案例引入过程介绍产生式的语法和语义、产生式系统的组成及工作原理后,通过屏幕演示动物识别系统的运行过程使得学生能够获得老虎、金钱豹、斑马、长颈鹿、鸵鸟、企鹅、信天翁七种动物的一些特征;案例分析阶段通过向学生展示使用Prolog编写的动物识别系统源程序,详细介绍设计思想以及实现过程。该过程是案例教学的关键,教师引导学生进行案例分析,之后由学生进行补充,师生共同讨论力求系统得以更完善;案例总结阶段由老师对学生的讨论情况进行总结,在总结讨论情况的基础上提出一些问题(例如如何进一步提高系统的效率?)。

在介绍自然语言理解系统时,以自然语言情报检索系统LUNAR[5]为例进行介绍。从LUNAR系统的词法分析、语义解释和问题回答三个阶段进行详细分析。经过案例引入、案例分析和案例总结三个阶段,使得学生对LUNAR系统的设计步骤、关键技术及设计思路有深入的了解。之后,要求学生写出案例分析书面过程,并完成课后作业“指挥机器人的自然语言理解系统SHRDLU”。

4 课程考核方式的改革

研究生教育以培养学生的能力和素质为主要目标。人工智能课程的考核方式也以此为目标,采用以考察理解应用为目的的论述题,或结课论文形式进行,同时注重平时考核。平时考核以学生查资料的能力、阅读相关文献即完成课后作业的情况为考核对象。

5 结束语

为了提高人工智能课的教学质量,根据课程及教学对象的特点,结合教学过程实际问题,采用了合适的教材,安排了合适的学时,在教学过程中综合各种教学方法的优点,并采用了适当的考核方式。教学结果表明,通过这些尝试,提高学生学习的兴趣和积极性,取得较好的教学效果,学生能够有意识地使用人工智能中的相关知识、思想来进行学术研究。

参考文献:

[1] 蔡自兴,徐光祐.人工智能及其应用——研究生用书[M]. 第3 版. 北京:清华大学出版社,2004.

[2] 廉师友.人工智能技术导论[M].西安:电子科技大学出版社, 2002.

第6篇:数据挖掘技术探讨论文范文

关键词:通话行为;数据挖掘;模糊聚类;模糊C均值(FCM)聚类

中图分类号:TP301文献标识码:A文章编号:1009-3044(2008)14-20926-03

1 引言

近年来电信事业蓬勃发展,随着市场竞争的充分展开和电信资费的不断下降,对于客户的消费行为分析显得越来越重要。对用户呼叫行为进行有效分析和辨识,是对客户分群及市场细分的必要手段。本研究希望能应用模糊数学理论和数据挖掘领域中的聚类技术,对客户呼叫行为进行分析,为电信市场细分和营销策略计划的制订提供有效工具。

要分析电信用户的呼叫行为,需要从用户通话记录中找出使用电话多和少,或是电信消费高和低的用户分群。本研究采用模糊集理论[4]作为技术基础,只关心如何能够从用户的通话记录中剖析出有意义的信息,尚有其他许多种分类方法不在我们讨论范围之内。某些通话行为特别怪异的电信用户,需要在后续研究中加以调整改进其分类。

2 相关研究

在本章节中,我们将针对本论文研究范围的相关领域进行探讨,第一部分为聚类技术介绍;第二部分为本文采用的模糊C均值(FCM)聚类算法的原理介绍。

2.1 模糊聚类技术(Fuzzy Clustering)

2.1.1 聚类分析的基本概念

聚类就是将数据对象分组成多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大[1] 。聚类与分类不同,前者是一种无指导的学习,而后者是一种有指导的学习。在分类时对于目标数据中存在哪些类,事先已知,只需将每个数据点属于哪一个类识别出来;而聚类事先未知有多少类,以某种度量为标准,将具有相似特征的数据对象划分为一类,同时分离具有不同特征的数据对象。聚类需要考察所有的个体才能决定类的划分,并由算法自动确定。

大多数对象没有严格的属性,他们在性态和类属方面存在着中介性,具有亦此亦彼的性质,因此适合进行软化分。模糊集理论的提出为这种软划分提供了有力的分析工具,即模糊聚类分析。

2.1.2 聚类分析的分类

从实现方法上分,模糊聚类分析方法可大致分为四种类型:谱系聚类法、基于等价关系的聚类方法、图论聚类法和基于目标函数的聚类方法等。前三种方法不适用于大数据量的情况,难以满足实时性要求较高的场合,因此在实际中应用并不广泛。受到普遍欢迎的是第四种方法――基于目标函数的聚类方法,该方法把聚类分析归结成一个带约束的非线性规划问题,通过优化求解获得数据集的最有模糊划分和聚类。设计简单、解决问题的范围广,还可以转化为优化问题而借助经典数学的非线性规划理论求解,易于计算机实现。因此,基于目标函数的模糊聚类算法成为新的研究热点。

2.2 模糊C均值(Fuzzy C-Means,FCM)聚类算法

模糊C均值(FCM)聚类算法首先由Dunn于1974年提出,并由Bezdek于1981年改进。这种算法能自动对数据对象进行分类并求出聚类中心和每个数据点的隶属度,使得非相似性指标的目标函数达到最小,从而决定每个数据点的归属。

初始化:给定聚类类别数c,2≤c≤n,n是数据个数,设定迭代停止阈值ε,指定加权指数m;用值在[0,1]区间的随机数初始化隶属矩阵U,使其满足约束条件式(1);

步骤一:计算c个聚类中心ci,i=1,…,c;

步骤二:计算目标函数式(2)。如果J小于ε,或相对于上一次J值的改变量小于ε,则停止;

步骤三:重新计算隶属矩阵U,返回步骤一。

整个计算过程就是反复修改聚类中心和分类矩阵的过程。该算法的收敛性已经得以证明[3]:FCM算法能从任意给定初始点开始沿一个迭代子序列收敛到其目标函数Jm(U,P)的局部极小点或鞍点。

2.2.2 聚类有效性控制

利用Matlab 2006a提供的模糊逻辑工具箱(Fuzzy Logic Toolbox)中的fcm函数对通话记录进行聚类,只需要输入一个初始变量,即分类数c,就可以很快得出结果。但是,关于初始变量c的给定,不同的c值,会产生不同的聚类结果;即使是同一c值,有时也会产生不同聚类结果。这是由于算法结果一般地依赖于初始值,而初始值的给定在计算过程中是随机的,有时候会不可避免地陷入局部最优而非达到全局最优,关于这方面的研究,可以参考文献[2]。聚类有效性问题一般通过建立有效性函数来解决。这种函数用于衡量聚类的紧密度和分离度,以此来判定聚类的有效性。

其中,n为样本数,中的下标表示FCM算法中的加权指数为2,dij表示样本i与第j类聚类中心的距离。XIE-BENI指标可以解释为(U,V)的总方差与V的分离性指标的比值。分类效果好时,各类中心间的距离应该最大,即分离性指标比较大。由此当对应最佳类数n*时,应该最小。

根据函数确定最佳类数n*的步骤如下:

(1) 给定c的范围是。这是根据很多研究者的使用经验和一些理论依据给出的;

(2) 计算当2≤c≤时每个整数c所对应的V值;

(3) 比较各V的值,取V最小时所对应的c值即为所求。

3 研究设计

3.1 分析数据构成

对电信用户通话行为进行分析,可以利用大量的通话清单记录经过整理出分析特征维度,采用FCM聚类进行分析。分析特征的选择确定工作可以由专家凭经验完成,也可以由散布矩阵迹、J-M(Jeffries-Matusita)距离和变换散度等参量为类别可分性准则的最佳特征子集的选取方法[2]。一般情况下特征数目多了会产生维数灾难,但太少的特征将反映不出分析模式的总体信息。为便于实施,本研究采用专家选定的方式确定分析特征。

本文采用的聚类数据是随机选择了某地电信2006年6月至8月三个月共120个电话的通话特征数据,考虑到客户的隐私权,将客户的姓名及电话号码略去,赋以识别号ID代之。

这是一个六维的高维度数据空间(客户识别号ID非分析特征,不列为分析维度),特征属性分别为长途呼叫总次数、长途呼叫不同被叫号码个数、长途平均单次呼叫时长、市话呼叫总次数、市话被叫次数以及市话被叫不同主叫号码数,如表1所示:

3.2 程序及结果

本文使用Matlab 2006a版中的矩阵运算判定聚类有效性,并用FCM函数对以上数据进行聚类,部分源代码如下:

load analysisdata.dat

[center,U,obj_fcn] = fcm(analysisdata,4);

maxU = max(U);

index1 = find(U(1,:)==maxU);

……

line(analysisdata(index1, 1), analysisdata(index1, 2), 'linestyle','none','marker', 'o','color','g');

……

plot(center(1,1),center(1,2),'ko','markersize',15,'LineWidth',2)

plot(center(2,1),center(2,2),'kx','markersize',15,'LineWidth',2)

……

运算后得到以下结果:

对聚类有效性函数式(3),确定类数c。

一般地,取m=2,分母权值均为1,当类数2≤c≤10时,有效性函数V取得如下结果:c=4,V=3765.7414。

可以确定,当c=4时V取得最小值,因此可分为4类,聚类中心矩阵为:

聚类结果投影在维度“市话呼叫总次数”、“市话被叫总次数”上 的示意图如图1。

聚类中心点在各维的取值表征了该类的特征,因此客户分类如表2所示。

3.3 简单的模式识别

聚类完成后,可以用以下方法进行模式识别验证:

(1) 按与中心距离的识别

算出聚类中心center后,新样本可根据距离判定属于哪一类,对于一个新样本xk,如果,则xk属于cj类。

(2) 按最大隶属度原则来识别

如果,则xk属于cj类。

由前面程序输出可以得到隶属度矩阵U,U为一个4×120的矩阵,表示120个样本的在四类的隶属度。

由于样本数较多,截取一段结果图示如图2:

可以看到,矩阵U每一列之和为1,即是每一样本的各类隶属度之和为1。取每一列的最大值,最大值在第几行,该样本就属于第几种类型。

在此简单抽取两个样本查看确认分类是否正确,如样本:

样本16属于第一类“主叫活跃,被叫少”,而样本89属于第二类“主叫不活跃,被叫活跃”。经过查核某地电信IBSS系统及计费帐务系统,样本16登记的属性为“个体商铺”;样本89登记的属性为“住宅”。客户属性的使用习惯与聚类结果相符。

4 结束语

电信用户呼叫行为分析中聚类分析是一个新的研究领域,与之相似的研究可以追溯到市场营销中的市场细分,市场细分与客户聚类功能相同,都是将产品或服务的销售对象进行分类。但两者是有区别的,市场细分的分析数据来自企业外部,比如消费者的人口特征、区域特征、行业性质等等,用的只是一种“普遍适用”的策略,很难真正做到个性化服务。而客户通话行为聚类分析的数据源自于企业内部掌握的通话记录,根据客户本身的使用行为、消费倾向,保证每个客户的消费行为的连续性与一致性,有利于对现有客户进行管理,如发现优质客户,对不良客户进行预警等。因此,对企业有很重要的意义。

应用模糊C均值聚类算法得到比较满意的客户聚类结果,主要体现在:区分出了优质客户和普通客户;找到了每一类客户的特征。本文提出用FCM算法作为客户通话行为(消费行为)聚类的方法,为企业提供分析的量化依据。

参考文献:

[1] HSU T H. An application of fuzzy clustering in group-positioning analysis[J]. Proc Natl Sci, Counc ROC(C),2000,10(2):157-167.

[2] 高新波. 模糊聚类分析及其应用. 西安:西安电子科技大学出版社,2004,1:37-54.

[3] Bezdek J C. A convergence theorem for the fuzzy ISODATA clustering algorithm. IEEE Trans. PAMI, 1980, 1(2):1-8.

[4] Zadeh L A. Fuzzy logic. IEEE Trans. On Control System Magazine, 1988. 83-93.

第7篇:数据挖掘技术探讨论文范文

关键词:大数据:信息安全;个人信息保护

一、引言

当人们欢呼大数据时代降临时,棱镜门事件就如平地惊雷,炸响了人们对个人信息保护的重视。然而,与国外相比,我国的个人信息保护工作仍停滞不前,行政单位缺乏监管,过度收集个人信息:企业自律性不足,任意获取公民信息,满足商业目的:而普通公民则缺乏个人信息保护意识,变成了“透明人”。随着这些问题的日益突出,大数据时代的个人信息保护研究显得愈发重要。

二、大数据时代个人信息保护研究的主要内容

本文以CNKI中的相关文献为基础,从个人信息安全风险、个人信息保护立法、监管以及个人隐私保护四个方面介绍个人信息保护的主要研究成果。

(一)大数据时代个人信息安全的风险研究

大数据技术的快速发展给个人信息安全增加风险,但随着更多研究者的推进,风险也给个人信息安全保护带来了机遇。本文从法律、监管、技术三方面进行风险研究,探寻保护个人信息的有效方法。

法律风险方面,史为民从立法的角度分析了个人信息安全风险,提议出台具有权威性的相关法律。张毅菁则希望政府借鉴他国经验,引入域外立法机制,构建适应我国国情的立法模式。

监管风险方面,我国相关研究者普遍认为我国行政机构职权不够细化,缺乏明确的监管体系。王丽萍等人提出行业自律问题,认为企事业单位缺乏自制力,容易侵犯公民个人权益。

技术风险方面,李睿等人以信息抓取和数据分析技术为着力点分析相关的技术风险。另外,也有学者分析了用户搜索行为,并从网络与现实两方面阐述个人信息安全受到的影响。

现阶段的风险研究虽取得一定成果,但本层面的讨论还需进一步发展,立法方面,我国还需借鉴域外模式,形成一套适应时代的立法体系:监管机制方面还要调到政府、行业、公民一体化:技术方面需重点开发最新防御技术。

(二)大数据时代个人信息保护的立法研究

针对国内外发生的隐私泄漏事件,公民对个人隐私权愈发重视,然而相关法律至今未完善。针对现实情况,众多学者将研究重点投入到立法研究上,分为:法律研究与权利研究。

通过回顾,童园园等人认为应从刑法的角度完善个人信息保护法律条款,为个人信息保护提供制度背景。侯富强则提议将“欧美模式”与我国国情相结合,制定统一立法。

权利研究主要集中在两方面:一是隐私权研究:二是主体权利研究。连志英等人强调了隐私权对我国个人信息保护立法的重要意义。在主体权利方面,侯富强提出个人信息保护法的立法目的在于保护信息主体的权利。

立法研究一直是个人信息保护研究的主要方向,但现有研究明显底气不足。为了本领域的更好发展,未来的的研究方向应集中在立法体系的建立,法律内容的细化,吸收发达国家经验,形成成熟的立法机制。

(三)大数据时代个人信息保护的监管研究

大数据的飞速发展带来经济利益,但随之而来的也有信息安全问题。为解决该项问题,本领域研究者提出了一套政府、企业、公民相结合的个人信息保护监管体系,根据主体不同,分为行政监管、行业自律与公共监督。

从行政监管效果来看,李庆峰等人列举了行政监管体系的不足之处,提议整合相关部门,明确责权。张毅菁则重点分析政府过度监管行为产生的不利影响,呼吁政府加强自我管理,强化法律意识。

在行政监管体系研究后,行业自律受到关注。侯富强一方面肯定行业协会的积极作用,另一方面要求加大企业监管力度。史为民则分析了行业自律的局限性,提出改善措施,促进行业对个人信息的保护。

在公共监督研究方面,刘雅琦等人认为一个完善的监督机制除了行政监管与行业自律,还需公众的监督,只有三者相互配合,才能更好地发挥监管体系的作用,保护好公民的个人信息安全。

虽然监管体系发挥了一定保护作用,但也存在局限性:监管机构职权不定、行业主体自律不足、公民保护意识不强等。为此,政府应加大作为,运用行政手段和法律手段,严厉打击泄漏个人信息行为。

(四)个人隐私保护研究

随着近几年个人隐私侵犯现象加剧,个人隐私保护开始受到高度关注,与个人信息保护研究相比,隐私保护研究在法律、监管、技术层面具有一些新内容。

法律研究的目的是为个人隐私保护提供制度依据,维护公民的隐私与尊严。例如李睿分析了个人隐私泄漏问题,为个人隐私保护提供法律指导。童圆圆呼吁社会加强对个人隐私权的重视,并提出几项保护个人隐私安全的建议。

监管研究将个人隐私保护置于监管体系内,降低高额的社会执法成本。李庆峰认为公民自身可加强对企业的监督,保护网络隐私。王丽萍等人则将目光重点投向行业自律上。

技术研究是隐私保护研究的重点。刘晓霞提议将加密、匿名技术与隐私保护规则相结合保护用户个人隐私。连志英则提出加大安全技术开发与资金投入,依仗安全技术应对高级持续的技术攻击。

个人隐私保护主要从法律、监管、技术三大方向进行研究。法律方向,提出隐私权与被遗忘权:监管方向,强调了对网络隐私的监管:在技术方向,提出开发加密技术与匿名技术,这反映了公民对个人隐私的重视。

三、大数据时代个人信息保护研究展望

大数据时代的个人信息保护研究在理论与应用方面都取得了一定成果,但仍存在较多问题,本文拟从公共监管、域外立法模式、隐私权方面做进一步讨论。

(一)公共监管研究

当审视现行监管机制时,不难发现政府占据主导地位,若政府监管不力,将导致整个监管体系崩盘。为此,政府应发挥公民个人作用,将个人信息保护责任承担给每一位公民,形成公共监管模式。

(二)域外立法模式研究

通过对现有法律的分析,我国个人信息保护立法还在发展阶段。因此,国内相关学者一方面提出完善法律体系,出台专门的个人信息保护法,另一方面大力研究国外个人信息保护立法体系,吸收具有可行性的立法方案。

(三)加大隐私权研究

对于隐私权的探讨,我国一直处于缓慢阶段。例如:缺乏系统性的司法解释、政府内部监管存在漏洞、行业自律性差、数据挖掘技术存在争议等。为此,加大隐私权研究仍是今后的主要任务。

第8篇:数据挖掘技术探讨论文范文

本课题的研究目的是改变普遍存在于计算机基础课程传统教学中,学生单一接收、被动接受的学习方式,使学生亲历知识产生与形成的过程,追求“知识”发现、“方法”习得与“态度”形成的有机结合与高度统一。

(一)计算机基础课程的现状

我校从1979年就开设了算法语言课。在计算机技术飞速发展的情况下,计算机课程的内容也在不断扩充。伴随着计算机文化的形成,授课内容涵盖了数据结构、数据库和操作系统等基础学科领域。目前开设的计算机基础课程主要有《C程序设计》《计算机软件技术基础》等,讲授程序设计语言和计算机基础知识,使学生掌握用计算机解决实际问题的能力。目前的计算机基础课程大多采用传统教学模式,完成教学内容是课堂的首要教学任务,教师的讲授代替了学生主体活动,教师的认知结果代替了学生认知结果。在课堂上进行大量的讲授和习题训练,很少开展研究性学习。目前国内也已开展相关课题研究,但理论研究不够深入,在实践中也没有得到充分应用。

(二)创新教学模式的实践

我们在研究性学习的方法和理论指导下,进行创新教学,情感、知识、技能构成了新的教学模式。2010至2012连续三年,在《计算机软件技术基础》《C程序设计》等计算机基础课程中进行研究性学习的教学实践。

1.改革传统教学方法,灵活运用现代化教学手段在计算机基础课程创新教学模式实践过程中,教学方法的选择是关键环节之一。教师根据教学内容的难易不同,采用不同方法教授。学生自主预习课程内容,根据教师提出的问题在课堂上分析讨论。在教学中综合运用CAI课件等各种现代化教学手段,增强学习的主观能动性。采用现代化教学手段包括使用现代化的教学设备、采用新的教学模式等。在教学过程中引入科研活动,引导学生主动思考,探索知识。参加科研活动可以将新知识融入课堂教学,拓宽学生的知识面,增加学习兴趣。学生在亲身实践中获得了知识,提高了解决问题的能力。

2.重视学生自我发展,指导学生主动探究在计算机基础课程的教学中,课堂上以小组合作的形式提出问题并讨论解决方案。鼓励学生通过在课下收集资料、分析整理和处理信息等实践活动来学会学习,学会合作。学生在课堂上充分交流探讨,发表自己的观点。在课外自主研究,同学间积极合作。教师也要在学生的探究学习过程中,给予恰当的引导,给出学生探究的问题,最后要进行分析总结。

3.网络教学模式由于课堂上班级组织的限制,要实现按层次的分级教学比较困难。尝试在课外利用网络进行分级教学。网络教学系统包括分组讨论、分组教学、摇控辅导、答题示范等功能,彻底弥补了传统教学方式的不足。通过网络开展教学,在网上学生可以随时和教师交流沟通;教师利用网络完成课外答疑,将教案、课件和习题等放到网络上资源共享。学生不出门,就完成了答疑。这种方式深受学生喜爱,效果良好。此外,还可以通过在网上建立班级用户群,完成网络作业等方式,进行教学和辅导。班级用户间可进行相互讨论、互相答疑。学生网络讨论、网络作业完成等可计入平时成绩。对表现良好的学生给予奖励,从而激发学生的自主学习的兴趣。

4.反馈信息,及时评价实践教学期间,在我校理工科多个专业,针对各个学习阶段开展问卷调查,以全面了解学生对研究学习的态度、收获等。统计结果显示学生的主要收获是:促进了自主学习、主动学习;学会了利用网络收集资料;学到更多课外知识和有利于创新精神与创新能力的培养。2012年度,在本校光电工程学院的探测技术及仪器、光电信息工程等专业,进行了抽样调查。调查结果显示:85%的学生认可并喜欢研究性学习方式;通过采用研究性学习,实践前后学习兴趣和收获分别提高了28%和37%。实践结果表明,学生对计算机基础课的兴趣明显提高。实践教学中,教师充分与学生交流,学生参与学习的结果被及时地反馈回来,同时获得恰当的评价。教师注重激发并保持学生的学习热情,帮助学生逐步形成良好的认知结构。

(三)建设立体化教学资源与实现网络化考试管理在实践中,更新教学内容,完善基础课教材改革。教学内容和思想通过主教材体现,配合学生用书为学生提供实践指导。不断总结经验,形成综合理论、设计、实践于一体的立体化教学资源系统。为学生提供参考书目、案例教程、习题库等丰富的学习参考资源。改革考试管理,建立试题丰富、覆盖范围广泛的题库,用全自动考试系统完成组卷、考试、评分、试卷分析等全部过程,考试过程全部实现网络化管理。所有学生考试数据一律存储在数据库中,可以对其数据进行深层次的数据挖掘,对教学质量评估起到辅助决策的作用。除常规考试外还包括自选题目的论文(包括答辩)、自选题目的项目训练(包括答辩)等考核方式。考试过程实现计算机管理,学生的考试更加公平、公正、透明化、正规化。

二、实践结果

第9篇:数据挖掘技术探讨论文范文

关键词 教育信息化;大数据技术;应用

【中图分类号】G434 【文献标识码】A

【论文编号】1671-7384(2014)03-0064-03

随着网络信息技术的加速发展和应用,物联网、移动互联、社交网络等大大拓展了互联网的疆界和应用领域,数据正以前所未有的速度在不断地增长和累积,大数据时代的大幕已经开启。大数据在社会经济、政治、文化、生活等各方面产生深远的影响,将给各行各业的发展模式和决策带来前所未有的革新与挑战。教育行业也不例外,教育管理、思维方式、学习行为、教学评估等,无不受到大数据的影响。

大数据的概念及时代背景

大数据是一个正在发展中的概念。到目前为止,学术界对于“大数据”一词还没有准确、统一的定义。著名学者涂子沛在《大数据》一书中指出:“大数据(BigData)是指那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、管理和分析的大容量数据,一般以‘以太节’为单位。大数据之大,并不仅仅在于容量之大,更大的意义在于通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来‘大知识’、‘大科技’、‘大利润’和‘大发展’。”最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡。麦肯锡全球研究院报告《大数据:创新、竞争和生产力的下一个前沿》则对“大数据”定义如下:大数据是指大小超出了传统数据库软件工具的抓取、存储、管理和分析能力的数据群。麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”可见,大数据就是指蕴涵着巨大价值的、可有效利用的、多样化的海量数据集。

进入2012年以来,世界各国大数据的关注度与日俱增。在2012年1月份的达沃斯世界经济论坛上,大数据是主题之一,并特别针对大数据了报告BigData,BigImpact:New Possibilities for InternationalDevelopment ,探讨了新的数据产生方式下,如何更好地利用数据来产生良好的社会效益。2012年3月,美国奥巴马政府投资2亿美元,正式启动“大数据发展计划”,这一计划是美国政府继信息高速公路计划之后在信息科学领域的又一重大举措。同时,联合国一个名为GlobalPulse的倡议项目在2012年5月报告《大数据发展:挑战与机遇》,阐述大数据时代各国特别是发展中国家在面临数据洪流时的机遇与挑战,并对大数据的应用进行了初步的解读。目前,一些发达国家、著名研究机构以及大集团公司已将大数据作为获取有效信息和知识的重要来源、调整和部署战略决策的重要依据,大数据技术则成为信息挖掘、整理和分析的重要工具。

大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间。互联网时代的数据正在迅速膨胀,它决定着组织的未来发展,随着时间的推移,人们将越来越意识到数据对组织的重要性。对于企业组织来讲,大数据的价值体现在两个方面:分析使用和二次开发。对大数据进行分析能揭示隐藏其中的知识信息,对大数据的二次开发则是通过大数据创造出新产品和服务。例如,Facebook通过结合大量用户信息,定制出高度个性化的用户体验,并创造出一种新的广告模式。大数据这股汹涌浪潮正在兴起,将给各行各业的发展模式和决策带来前所未有的革新与挑战,教育领域同样不可避免,面临新的挑战和机遇。

大数据的主要特点

大数据时代的数据存在着以下几个主要特点。

规模巨大。个人和组织面临着数据量的大规模增长,呈现为海量数据。典型个人计算机硬盘的容量为TB量级,一些大企业的数据量已经接近EB量级。而根据麦肯锡全球研究院(MGI)估计,全球企业2010年在硬盘上存储了超过7EB(1EB等于10亿GB)的新数据。2015年全球移动终端产生的数据量将达到6300PB。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等。此外,各种意想不到的来源都能产生数据。

类型多样。数据来自多种渠道,如网络日志、社交媒体、互联网搜索、手机通话记录及传感器网等,内容包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等。这些实际是多视角的,不仅有正规的数据、媒体新闻数据、时效性的数据,还有带有个人情感的数据。而这些数据又打破了之前限定的结构化数据范畴,包含着结构化、半结构化以及非结构化的数据,并且半结构化和非结构化数据所占份额越来越大。

产生速度快。即数据被创建和移动的速度快,时效性要求高,这是大数据区别于传统数据挖掘最显著的特征。在高速网络时代,通过基于实现软件性能优化的高速电脑处理器和服务器,快速创建实时数据流已成为流行趋势。如一天之内谷歌公司处理几十PB的数据,Facebook新产生约10亿张照片、300TB以上的日志,淘宝网进行数千万笔交易、产生20TB以上的数据,新浪微博的约3亿用户可产生上亿条微博。

价值密度低。随着物联网的广泛应用,信息感知无处不在,数据信息海量,但其价值密度较低。价值密度的高低与数据总量的大小成反比,大数据中单条数据可能无价值,无用数据多,但综合价值大。例如,视频数据中,1小时的视频中有用的数据可能仅有一两秒钟,其余的可能是无用的数据,价值密度相对较低。因此,如何通过强大的数据挖掘算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。

存储要求高。种类多样的数据源,既提供了大量的数据,又带来了科学存储的问题。大数据通常可达到PB级的数据规模,因此,海量数据存储系统也一定要有相应等级的扩展能力。当前互联网中的数据向着异质异构、无结构趋势发展,新数据类型不断涌现,用户需求呈现出多样性。目前的存储架构难以解决数据的异质异构、爆炸性增长带来的存储问题,静态的存储方案满足不了数据的动态演化所带来的挑战。因而在海量分布式存储和查询方面仍然需要进一步研究。

管理复杂。大数据的规模和复杂结构是传统IT架构所面临的直接挑战,使得传统的数据管理技术不适合处理海量异构数据。许多公司已经拥有大量的存档数据,却没有能力来处理它。传统的关系数据库无法处理大数据的规模,目前可选择的方法包括大规模并行处理架构、数据仓库,或类似Greenplum的数据库以及ApacheHadoop解决方案等。

大数据在教育领域中的主要应用

1. 革新教育理念和教育思维

随着大数据时代的来临,教育大数据深刻改变着教育理念、教育思维方式。新的时代,教育领域充满了大数据,诸如学生、教师的一言一行,学校里的一切事物,都可以转化为数据。当每个在校学生都能用计算机终端学习时,包括上课、读书、写笔记、做作业、发微博、进行实验、讨论问题、参加各种活动等,这些都将成为教育大数据的来源。大数据比起传统的数字具有深刻的含义和价值。例如,对于一张试卷、一次考试,考试得分为90分,它可以是简简单单的一个传统的数字,但如果换一个角度来分析,把它作为一个数据来看待,就可以得到其背后所隐含的许多充满想象力的数据信息:可以是每一大题的得分,每一小题的得分,每一题选择了什么选项,每一题花了多少时间,是否修改过选项,做题的顺序有没有跳跃,什么时候翻卷子,有没有时间进行检查,检查了哪些题目,修改了哪些题目,等等,这些信息远远比一个90分要有价值得多。不单是考试,课堂、课程、师生互动的各个环节都渗透了这些大数据。教育将不再是靠理念和经验来传承的社会科学,大数据时代的教育将步入实证时代,变成一门实实在在的基于数据的实证科学。大数据使得教育者的思维方式发生了深刻变化,传统的教育大多是教育主管部门和教育者通过教学经验的学习、总结和继承来展开的,但是有些经验是不具有科学性的,常识有时会影响人们的判断。大数据时代将可以通过对教育数据的分析,挖掘出教学、学习、评估等符合学生实际与教学实际的情况,这样就可以有的放矢地制定、执行教育政策,制定出更符合实际的教育教学策略。

2. 实现个性化教育

大数据带来的一个变化在于实施个性化教育具有了可能性,真正实现从群体教育的方式转向个体教育。利用大数据技术,我们可以去关注每一个学生个体的微观表现,比如,他在什么时候翻开书,在听到什么话的时候微笑点头,在一道题上逗留了多久,在不同学科的课堂上提问多少次,开小差的次数分别为多少,会向多少同班同学发起主动交流,等等。这些数据的产生完全是过程性的,包括课堂的过程、作业的过程、师生或生生互动的过程,等等,是对即时性的行为与现象的记录。通过这些数据的整合能够诠释教学过程中学生个体的学习状态、表现和水平。而且这些数据完全是在学生不自知的情况下被观察、收集的,只需要一定的观测技术与设备的辅助,而不影响学生任何的日常学习与生活,因此其采集非常自然、真实,可以获得学生的真实表现。大数据技术将给教师提供最为真实、最为个性化的学生特点信息,教师在教学过程中可以有针对性地进行因材施教。比如,在课堂学习过程中,哪些学生注意基础部分,哪些学生注意实践内容,哪些学生完成某一练习,哪些学生可以阅读推荐书目,等等。不仅如此,当学生在完成教师布置的作业时,也能通过数据分析强化学习。比如,通过电子设备做作业时,某一类型的题目有几次全对,就可以把类似的题目跳过;如果某个类型的题目犯错,系统则可进行多次强化,这样不仅提高了学习效率,也减轻了学生的学习负担。

3. 重新构建教学评价方式

在教学评价中利用大数据分析,可以通过技术层面来评价、分析,进而提升教学活动,从依靠经验评价转向基于数据评价。教学评价的方式不再是经验式的,而是可以通过大量数据的“归纳”,找出教学活动的规律,更好地优化、改进教学过程。比如新一代的在线学习平台,具有行为记录和学习诱导的功能。通过记录学习者鼠标的点击,可以研究学习者的活动轨迹,发现不同的人对不同知识点有何不同反应,用了多长时间,以及哪些知识点需要重复,哪些知识点需要深化等。对于学习活动来说,学习的效果体现在日常行为中,哪些知识没有掌握、哪类问题最易犯错等成为分析每个学生个体行为的直接依据。通过大数据分析,还可以发现学生思想、心态与行为的变化情况,可以分析出每个学生的特点,从而发现优点,规避缺点,矫正不良思想行为。此外,大数据通过技术手段,记录教育教学的过程,实现了从结果评价转向过程性评价。例如,基于网络学习平台或电子课本,能记录下学生完成作业情况、课堂言行、师生互动、同学交往等数据,教师在期末时将这些数据汇集起来,有了更加丰富的素材与数据依据,可以发现学生学习成长过程的特点,能对学生的发展提出建议。同时,这些数据也可以促使教师进行教学反思,自己在哪些方面需要改进,从而促进和优化教学实施过程。

4. 加强学校基于数据的管理