前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的计算机大数据论文主题范文,仅供参考,欢迎阅读并收藏。
1.1大数据的发展
通过对大数据的汇集、智能分析和挖掘技术,发现数据中的潜在价值信息,帮助人们做出正确决策,这就是大数据产业的利益。国外大数据的起步比较早,比较成功的大数据应用案例有:商业龙头沃尔玛公司通过对消费者的购物数据进行分析,了解顾客的行为喜好,对超市的商品结构进行搭配重置以增加销售额;亚马逊公司通过大数据构建自己的推荐系统,每年可以靠此多收益20%;奥巴马通过大数据分析系统进行数据挖掘,用科学的手段获取选票、募集资金,赢得了总统竞选的胜利。相比于国外,国内的大数据研究和应用还处于起步和发展中的阶段,比较成功的案例有:淘宝数据魔方平台,通过大数据,为买家量身打造完善的购物体验产品;新浪微博大数据产品,通过大量的社交数据,创造不同的社会经济价值等。
1.2云计算的发展
云计算可以像电力资源一样提供弹性的按需服务,事实上它是集合了一系列的服务提供给用户。云计算的核心可分为三个层次,分别为基础设施层、平台层、应用层,如图2所示。云计算将基础设施、软件运行环境、应用程序抽象成服务,具有可靠性高、可用性强、规模可伸缩等特点,满足了不同企业的发展需求,各个云服务提供商根据各自服务对象的差别分别开发了各具特色的云服务。(1)基础设施即服务层基础设施即服务(InfrastructureasaService,IaaS)层通过部署硬件基础设施对外提供服务,用户可以根据各自的需求购买虚拟或实体的计算、存储、网络等资源。用户可以在购买的空间内部署和运行软件,包括操作系统和应用程序。消费者不能管理或控制任何云计算基础设施,但能控制操作系统的选择、存储空间、部署的应用,也有可能获得有限制的网络组件(如防火墙、负载均衡器等)的控制。云服务提供商为了使硬件资源得到更有效的利用,引入了Xen、KVM、VMware等虚拟化技术,使得云服务商可以提供更个性化的IaaS服务。亚马逊弹性云计算(AmazonElasticComputeCloud,AmazonEC2)是亚马逊Web服务产品之一,AmazonEC2利用其全球性的数据中心网络,为客户提供虚拟主机服务,让使用者可以租用云服务运行所需应用的系统。(2)平台即服务层平台即服务(PlatformasaService,PaaS)层是指云计算应用程序开发和部署的平台,包括应用设计、应用开发、应用测试和应用托管,都作为一种服务提供给客户。开发者只需要上传代码和数据就可以使用云服务,而无需关注底层的具体实现方式和管理模式。鉴于PaaS平台的重要意义,国内外厂商根据各自的战略提出了相应的PaaS平台,国外的如GoogleAppEngine(GAE),通过GAE,即使在重载和数据量极大的情况下,也可以轻松构建能安全运行的应用程序。国内也有新浪的SAE(SinaAppEngine)、阿里的ACE(AliyunCloudEnginee)等。(3)软件即服务层软件即服务(SoftasaService,SaaS)层是为云计算终端用户提供基于互联网软件应用服务的平台。随着Web服务、HTML5、AJAX、Mashup等技术的成熟与标准化,SaaS应用近年来发展迅速,典型的SaaS应用包括GoogleApps、SalesforceCRM等。国外云计算平台比较成功的应用案例有:亚马逊电子商务网站根据用户的购买行为和搜索技术搭建Hadoop集群,构建推荐系统;Twitter社交网站搭建Hadoop分布式系统用于用户关联的建立。国内云计算平台的成功案例有:阿里巴巴目前整个集群达到1700个节点,数据容量达到24.3PB,并且以每天255TB的速率不断攀升;2013年,华为推出国内首个运营云平台,目前为止与该平台签订协议的ISV有3000多家。
1.3云计算相关技术
(1)分布式文件系统分布式文件系统(GoogleFileSystem,GFS)[3]是Google公司针对云计算过程处理海量数据而专门设计的。一个GFS集群由一个主节点和多个从节点组成,用户可以通过客户端访问文件系统,进行正常的文件处理工作。在云计算中,海量数据文件被分割成多个固定大小的数据块,这些数据块被自动分配到不同的从节点存储,并会在多个节点进行备份存储,以免数据丢失。主服务器管理文件系统记录文件的各种属性,包括文件名、访问控制权限、文件存储块映射、块物理信息等数据。正是通过这个表,文件系统可以准确地找到文件存储的位置,避免数据丢失,保证数据安全。图3是GFS的体系结构示意,每一个节点都是普通的Linux服务器,GFS的工作就是协调成百上千的服务器为各种应用提供服务。(2)分布式并行数据库BigTableBigTable[4]是一个为管理大规模结构化数据而设计的分布式存储系统,可以扩展到PB级数据和上千台服务器。很多Google的项目使用BigTable存储数据,这些应用对BigTable提出了不同的挑战,比如对数据规模的要求、对时延的要求。BigTable能满足这些多变的要求,为这些产品成功地提供了灵活、高性能的存储解决方案。BigTable采用的键是三维的,分别是行键(RowKey)、列键(ColumnKey)和时间戳(Timestamp)。行键和列键都是字节串,时间戳是64位整型;值是一个字节串,可以用(row:string,column:string,time:int64)string来表示一条键值对记录。(3)分布式计算框架MapReduceMapReduce[5]是Google公司提出的大数据技术计算框架,被广泛应用于数据挖掘、海量数据处理以及机器学习等领域,由于其并行化处理数据的强大能力,越来越多的厂商根据MapReduce思想开发了各自的云计算平台,其中以Apache公司的Hadoop最为典型。MapReduce由Map和Reduce两个阶段组成。用户只需要编写简单的map()和reduce()函数就可以完成复杂分布式程序设计,而不用了解计算框架的底层实现。MapReduce的数据分析流程如图4所示。分布在不同服务器节点上的海量数据首先通过split()函数被拆分成Key/Value键值对,map()函数以该键值对为输入,将该键值对进行函数处理,产生一系列的中间结果并存入磁盘。MapReduce的中间过程shuffle()将所有具有相同Key值的键值对传递给Reduce环节,Reduce会收集中间结果,并将相同的Value值合并,完成所有工作后将结果输出给用户。MapReduce是一个并行的计算框架,主要体现在不同的服务器节点同时启动相同的工作,并且在每个独立的服务器节点上又可以启动多个map()、reduce()并行计算。
2基于云计算的大数据处理
目前大数据处理的基本流程如图5所示,整个流程经过数据源的采集,用不同的方式进行处理和加工,形成标准的格式,存储下来;然后用合适的数据计算处理方式将数据推送到数据分析和挖掘平台,通过有效的数据分析和挖掘手段,找出大数据中有价值的信息;最后通过可视化技术将信息展现给人们。
2.1数据采集存储
大数据具有不同结构的数据(包括结构、半结构、非结构),针对不同类型的数据,在进行云计算的分布采集时,需要选择不同的数据采集方式收集数据,这也是大数据处理中最基础的一步。采集到的数据并不是都适合推送到后面的平台,需要对其进一步处理,例如来源不同的数据,需要对其进行加载合并;数据存在噪声或者干扰点的,需要对其进行“清洗”和“去噪”等操作,从而保障数据的有效性;数据的格式或者量纲不统一的,需要对其进行标准化等转换处理;最后处理生成的数据,通过特定的数据库,如NoSQL数据(Google的BigTable,Amazon的Dynamo)进行存储,方便进行下一步的数据读取。由于传统的数据仓库无法适应大数据的存储要求,目前基于云计算的数据仓库都是采用列式存储。列式存储的数据具有相同的数据类型,可以大大提高数据的压缩率,例如华为的云存储服务MOS(MassiveObjectService)的数据持久性高达99.9%,同时提供高效率的端到端保障。
2.2数据计算模式
这一环节需要根据处理的数据类型和既定目标,选择合适的计算模型处理数据。由于数据量的庞大,会消耗大量的计算资源,因此,传统的计算技术很难使用大数据的环境条件,取而代之的是分而治之的分布式计算模式,具有代表性的几种计算模式的特点见表1。采用批处理方式计算的Hadoop平台,例如,Facebook拥有全球最大规模的Hadoop集群,集群机器目前超过3000台,CPU核心更是超过30000个,可以存储的数据量能够达到惊人的40PB;采用流处理方式计算的Storm平台分布式计算的时延比Hadoop更小;实时处理方式计算的Spark是一种基于内存的计算模式,例如,Yahoo运用Spark技术在广告营销中实时寻找目标用户,目前在Yahoo部署的Spark集群有112台节点和9.2TB内存;交互处理方式计算的Dremel在处理PB级别的数据时耗时可以缩短至秒级,并且无需大量的并发。
2.3数据分析挖掘
数据分析挖掘环节是从海量数据中发现隐藏规律和有价值信息的过程,这个环节是大数据处理流程最为有价值和核心的部分,传统的数据分析方法有机器学习、商业智能等。传统的数据挖掘十大算法[6](其中有K-Means、Na觙veBayes、SVM、EM、Apriori等)在云计算环境下都得到了大幅度的并行优化,在大数据的背景下,计算速度得到了很大程度的提升。现在新兴的深度学习是原始机器学习的一个新领域,动机是在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,这种新的数据分析挖掘技术已经在计算机视觉、语音识别、自然语言处理等领域有了成功的应用。
2.4数据解释展现
将挖掘出来的复杂信息进行数据解释和展现是整个大数据处理流程的最后一个环节,数据分析的结果需要向客户进行恰当的展现。与传统的数据输出和文本展示等方式不同,现在绝大部分的企业都通过引进“数据可视化”技术来展示大数据分析的结果信息,这种方式以图像、动画等方式,形象地向客户展现数据处理分析的结果,也容易被客户理解和接受,更为先进的是,现在逐步形成的“交互式可视化技术”,大大地方便了数据与人之间的“亲密交流”。目前面向大数据主流应用的可视化技术见表2。
3大数据和云计算的未来挑战
大数据需要超大存储容量的计算能力,云计算作为一种新的计算模式,为大数据的应用研究提供了技术支持,大数据和云计算的完美结合,相得益彰,发挥了各自的最大优势,为社会创造了巨大的价值。虽然国内大数据和云计算的研究还是处于初步阶段,但随着研究的不断进行,所面临的问题也越来越多。在大数据向前不断迈进的阶段里,如何让我们对大数据的研究朝着有利于全人类的方向发展成为了重中之重。
3.1重要战略资源
在这个信息社会里,大数据将会成为众多企业甚至是国家层面的重要战略资源。国家层面要将大数据上升为国家战略。奥巴马在2012年3月将“大数据战略”上升为最高国策,像陆权、海权、空权一样,将数据的占有和控制作为重要的国家核心能力。大数据资源也会成为各种机构和企业的重要资产以及提升企业社会竞争力的有力武器。在大数据市场里,客户的各种数据信息都会为企业创造价值,也会在促进消费水平、提高广告效应等方面扮演重要的角色。
3.2数据隐私安全
大数据如果运用得当,可以有效地帮助相关领域做出帮助和决策,但若这些数据被泄露和窃取,随之而来的将是个人信息及财产的安全问题得不到保障。2011年索尼公司遭到黑客攻击,造成一亿份客户资料泄露,经济亏损约1.71亿美元。为了解决大数据的数据隐私安全问题,Roy等在2010年提出了一种隐私保护系统,将信息流控制和差分隐私保护技术融入到云计算平台中,防止MapReduce计算过程中的数据泄露问题。在数据更新飞速的情况下,如何维护数据的隐私安全成为大数据时代研究的重点方向。
3.3智慧城市
人口的增长给城市交通、医疗、建筑等各方面带来了不小的压力,智慧城市就是依靠大数据和云计算技术,实现城市高效的管理、便捷的民生服务、可持续的产业发展。在刚刚结束的“两会”的政府工作报告中,总理也特意强调了智慧城市发展的重要性,目前国家智慧城市试点已遍布全国各地,多达409个。智慧安防、智慧交通、智慧医疗等都是智慧城市应用领域。智慧城市的建设也趋使大数据人才的培养。据预测,到2015年,大数据将会出现约100万的人才缺口,全球将新增440万个与大数据相关的工作岗位来填补这个空缺。
3.4能源消耗
统计学论文2300字(一):统计学方法的发展及其在大数据中的应用论文
【摘要】现阶段,统计学方法在我国企业管理中有广泛应用。本文尝试对统计学方法的诞生以及发展情况进行了简要的分析,同时还对统计学方法在现今大数据时代的应用情况进行了探索。
【关键词】统计学方法发展大数据应用
对于统计学方法来说,诞生的最初只是为了进行单纯的计数以及描述,随着统计学方法的不断发展,其所涉及到的内容更加多样化。在统计学家以及各个领域专家的不懈努力之下,统计学方法正在不断的进步以及完善,在实际应用的过程中也发挥出了较为理想的效果。在现阶段大数据的时代背景之下,对统计学进行深入探究是非常重要的,会对今后多个行业的快速发展起到促进作用。
一、统计学基本发展探析
对世界统计学的发展情况进行分析,会发现,其与科学界的发展趋势较为类似,随着统计学的不断完善,也开始与其他科学进行融合发展。对统计学进行总结,可以发现,其主要具备两个基本结合趋势,即与实质性学科结合的趋势以及与计算机学结合的趋势。对于统计学来说,其与经济学结合发展我国有广泛的应用,并且产生了经济统计这一专业;而统计学与教育的结合产生了教育统计。对于这些分支学科来说,其具有双重属性。一方面是统计学的分支;另一方面是实质性学科的分支。随着计算机信息技术的不断发展,其运算能力不断提升,这也使得大规模的统计调查工作在实际展开的过程中取得了理想效果,不仅保证了数据计算的准确性,同时也保证了计算的高效性。因此,在进行统计学技术研究发展的过程中,与计算机技术的深入结合应用是重要发展途径。通过对计算机软件的有效应用可以使统计计算过程中一些疑难的部分得到有效解决,同时也使得统计计算的展开更加方便。从现阶段我国经济类统计专业的教育情况来看,一方面在对统计方法进行创新教育,另一方面在对学生利用商品化统计软件包装能力进行提升。由此我们可以看出,在今后统计学的发展过程中,势必不能离开计算机技术的支持。在今后统计学相关专业的教育过程中,应该对学生的计算机程序设计以及利用能力进行培养提升,使得在展开统计工作的时候可以通过统计模型的编程来实现。
二、统计学方法在大数据中的应用趋势
(一)统计学方法及相关领域的动态分析
目前,国内外对统计学都有较为广泛的应用,主要应用在教育行业、生产制造行业以及企业管理当中,取得了较为理想的应用效果。根据CNKI数据库中统计方法、机器学习分布情况可以看出,在机器学习领域的论文数量从2013年以后一直呈现出持续增长的势头,并且在2016年超过了统计方法领域的论文数量。由此可以说明,我国在机器学习领域的发展速度正现出稳定提升的趋势,反映了我国在大数据领域研究方面越来越深入,所应用的研究方法也开始呈现出多样化的特点。从总体上来看国内在统计学方法研究过程中已经取得了阶段性的成果,并且其所面临的拐点与国家上的统计学发展拐点基本保持一致,大概都是在2013年开始对大数据以及将其学习等方面有了深入的探究,并且开始逐渐取得突破性的成果。而机器学习方法的论文数量都是在2016年开始超过统计方法的论文数量。但是与此同时,我们也看出其差异性也很明显,国内在统计方面研究的论文以及在机器学习方法方面研究的论文与国际相比较尚且存在较为明显的差距,并且这种差距呈现出了持续性的特点,这也使得我国在这两个领域方面还有很大的发展空间。
(二)统计学方法及相关领域研究方向分析
经过对CNKI数据库中的统计方法以及大数据领域期刊论文分布情况进行分析之后,可以看出,统计方法领域中出现频次最高的是“统计分析”以及“数理统计”、“人工智能”;在大数据领域出现频次较高的是“云计算”、“图书馆”以及“物联网”等关键词。通过上述关键词来看,其所涉及到的内容都是反映当前我国统计以及大数据技术所研究的重点以及热点,同时我们也可以看出,现阶段我国在统计与大数据领域方向的研究存在着一定的重合。在进行的数据研究的时候,需要应用到统计学方法,同时统计学方法在利用的时候往往也需要与大数据进行结合。
(三)统计学方法的发展展望
有数据的地方势必就会涉及到统计学。从17世纪开始,国势学派以及算数学派的争论到今天大数据计算、计算机技术的相互作用,使得统计学的内容正在不断完善,并且其应用领域也在不断扩大,随着大数据时代的来临,使得传统的统计学发展方向发生了一定转变,开始从小样本的统计推断分析走向大数据量的挖掘分析,从而使其所掌控的数据量不断提升。在未来统计学方法发展的过程中,应该注意将统计学与新的数据思维相结合,从而产生一种新型的、应用范围更广的大数据算法。从现阶段我国大数据方法创新发展的情况来看,其与国际研究在深度以及广度上还存在不小的差距,这也恰恰说明了我国在大数据统计学方面还有很大的进步空间。现阶段,国内的大数据研究更多的是停留在信息化产业上,与其他行业的融合发展趋势尚且不明显,这也使得信息服务以及数据产业的创新发展受到了一定影响。在今后统计学发展的过程中,其研究热点势必会从数据分析以及数据发掘向算法方向转移,这样也使得大数据技术与统计学方法二者之间的联系更加紧密。
结束语
综上所述,我国统计学方法在今后发展过程中应该充分考虑到实际需求,积极适应时代变化,现阶段大数据时代已经全面到來,并且大数据技术在我国有广泛应用,在实际应用的过程中取得了较为理想的效果。将大数据与统计方法进行结合可以使统计学方法的作用得到更好的体现,也使得统计学方法不断的进步以及拓展,在大时代背景之下,其功能性得到了更加充分的展现。
统计学毕业论文范文模板(二):线上线下混合式教学在生物统计学教学中的实践与研究论文
[摘要]为提升生物统计学课程的教学水平,针对传统生物统计学教学中的局限,分析和实践基于线上网络教学+线下面授教学的混合式教学模式在生物统计学教学中的应用策略和方法。实践表明,通过线上+线下的互动与教学,能激发学生学习的兴趣与动力,丰富生物统计学的教学形式与内容,促进生物统计学教学质量的提升。
[关键词]线上线下;混合式教学;生物统计学;实践
[作者简介]严明(1981—),女,重庆人,博士,讲师,研究方向:生物技术。
[中图分类号]G642[文献标识码]A[文章编号]1674-9324(2020)25-0273-02[收稿日期]2020-03-18
生物统计学是生物医学类专业的必修课程,学生通过学习本课程掌握实验设计的原理和方法,并学会对实验数据进行统计分析和处理。然而,生物统计学涉及到大量基础理论,单纯通过教师讲解,学生理解度较低,学习效果不佳。如何在有限的课时内,改革传统的以讲授为主的教学方式,有效提高教学效果是生物统计学教学亟待解决的难题。
近年来,随着互联网信息技术的发展,一种基于线上网络教学+线下面授教学的混合式教学模式应运而生。该模式可避免传统教学模式中以教师为主导,学生学习主动性差的缺点,又可克服学生完全在线学习缺乏监管、学习效果不佳的困难。本文尝试将混合式教学方法运用到生物统计学教学中,以期在有限的教学时间内最大限度实现教学目标,提升课程教学效果。
一、线上线下混合式教学的概念及内涵
线上线下混合式教学是一种新兴的教学模式,授课教师利用网络教学平台向学生提供教学视频和课件等教学资源,并设置作业、调查等互动模块,学生利用课外时间自主完成学习任务,并通过平台与教师交流。在线下课堂,教师根据学生在线学习的情况,对疑难问题进行有针对性的讲授,帮助学生理解、掌握教学难点。
线上线下混合教学模式打破了教学的时空限制,学生可以灵活安排学习时间,通过学习在线资料提出问题,并带着问题进行课堂学习,有效提升学习效率。线上线下混合教学还可帮助教师动态掌握学生学习情况,生成客观的过程性评价材料,并丰富课程的教学形式,拓宽教学路径,因此正逐渐成为高等教育领域的一大趋势。
二、生物统计学课程教学面临的困境
1.教学时长受限。目前,本校生物统计学面向生物医学工程和医学信息工程专业开设,每学期共32个课时。由于教学内容抽象,而且学生要通过大量实践才能掌握统计学原理在生物研究中的应用,因此,教学难度高,课堂教学时间很难满足教学需求。
2.教与学不同步。传统教学模式下,教师与学生之间的沟通以课堂为主,教师按照教学安排按部就班地进行教学,对学生需求重視不足;学生缺乏主动反馈的意识,教师很难掌握学生的真实学习状况,教与学处于不同步状态。
上述困境对如何拓展教学时间,完成课程教学并指导学生学以致用提出了新的挑战。
三、线上线下混合式教学在生物统计学教学中的实践探究
1.构建线上教学平台,实现课前线上自主学习。授课教师首先以超星泛雅平台和学习通APP为依托构建线上教学平台。教师在平台上将课程每章的重难点列示出来,搭建课程框架体系,并上传包括课件和教师根据课程知识体系录制的教学视频等资料。教学视频时长控制在15分钟以内,并保证精炼、易懂,让学生不会因视频过长而放弃观看,提高学习时效。同时,在教学平台提供视频配套的课件资料,方便学生下载并配套观看。教师还在平台设置了视频弹幕问答和闯关式章节测试,学生通过答题和测试后才能进入后续章节的学习。
在教学实践中发现,线上教学平台还可以为理论教学提供良好的拓展实践平台。教师可以在线上平台提供实验设计及实验数据分析的实例供学生练习,实现对课时压缩的有效弥补。学生普遍反映网络教学平台十分有利于自主学习,尤其是遇到知识难点时,学生可以通过反复线上观看教学视频来帮助理解,能达到较好的学习效果。
此外,线上教学平台可以通过视频回放次数、测试完成程度等数据统计帮助教师了解学生之间的差异性,既方便教师掌握学生学习状态,分析存在的问题,也为线下课堂教学提供依据,在后续教学中因材施教,满足不同层次学生的个性化学习需求提供依据。
2.线下检测自主学习效果,实施针对性教学。采用线上线下混合模式教学,课堂教学的任务发生转移。教师要集中精力对知识点进行梳理和归纳,并针对重难点以及学生在线上学习过程中的困难进行答疑解惑和查漏补缺。在教学实践中,为完成上述任务,在每个章节的线上学习完成后均安排答疑和小组讨论,让每位学生通过多种方式修正和完善遗漏或理解错误的知识点。全部授课结束后,授课教师向学生发放了关于教学效果的调查问卷,结果显示,78.2%(18/23)的学生认为采用混合式教学方法可以把重要知识点学透,在课堂上有更充裕的时间进行消化吸收,更有利于教学内容的掌握。
在线下教学中,教师还对教学场景进行了编排和优化。教师提供具体的实验案例,并以某一具体实验案例(如抗癌药物筛选)为背景贯穿整个课程教学始终,模拟真实实验场景,让学生从实验参与者的角度设计实验流程、整理实验数据、统计分析和解读呈现的全部流程。帮助学生实践生物学研究提出假说—实验验证—得出结论的基本流程,理解生物统计学对生物学研究的重要指导作用,培养学生知识迁移、应用和分析并解决科学问题的能力。
3.课后回顾学习并提升。在课堂教学完成后,师生的教学活动都还没有结束。教师要对线上线下教学过程中容易出现的问题进行整理总结,并将解决方案到网络平台,供学生回顾性学习。学生要对课堂上遇到的问题,搜集学习资料进一步思考和巩固。教师还要对学生课后学习情况进行挖掘,并根据学生的不同情况进行个性化的学习支持。对于有困难的学生,教师要单独辅导和监管,帮助学生完成课程学习;对于学有余力的学生,可以鼓励学生走进实验室,跟随教师的科研工作,完成真正的动手实践,实现素质提升。最终通过师生配合,完成对课程教学效果的提升。
4.教学考核。由于教学形式发生变化,课程的教学考核模式也要随之做出调整和改变。在实践中,教师改变传统的期末考核模式,充分利用线上线下教学记录,实现全过程考核。考试成绩包含网络平台学习考核(25%)、线下课堂表现(25%)和期末闭卷考试(50%)三部分。其中网络平台学习考核由系统根据学习时间、频率以及测试情况生成;课堂表现根据学生听课及参与讨论情况,综合学生互评和教师考核给分。上述考核方式,降低了期末考试在总成绩中的比重,更加侧重于学生的平时学习积累和实践能力的培养。因此,可避免学生“突击考试”的侥幸心理,促进学生向平时主动学习转变,更符合现代教学模式和人才培养的需求。
1 前言
信息管理与信息系统专业虽然属于管理学,但其主干学科包括计算机科学与技术、经济学、管理学等三个,该专业的综合性、实践性很强,但是目前各高校该专业的实践教学体系不完备,还未自成一家、各具特色,以致毕业生实践能力不突出,特色彰显不够,就业竞争力不强,培养应用型人才是当务之急,核心是要培养学生的应用能力、创新能力和工程素养。要达到本目标,就要大力加强和完善实践教学环节,建立多层次、一体化的实践教学体系。
曲靖师范学院信息管理与信息系统专业从2008年开办至今,已经培养5届学生,一直以来,我们不断加强和完善该专业的实践教学环节,形成了四位一体的实践教学体系,取得了良好的效果。
2实践教学体系的“硬件位”
实践教学体系的“硬件位”强调实验室建设。实验室是开展教研的硬件基础,没有这个基础,一切教研工作就是空中楼阁。我们一直重视信息管理与信息系统专业的实验室建设。采购实验设备的指导思想是实验设备要先进、实用,充分满足学生的学习和教师的教学科研的需要。
该专业已经建成硬件实验室有2个:计算机组成原理实验室、计算机组装与维护实验室,通信与网络实验室有2个:计算机通信实验室、计算机网络实验室,信息管理类的实验室有3个:数字库应用实验室、信息管理与软件实验室、信息技术创新实验室。同时为适应当今云计算、大数据的大趋势,我们投资200多万建立了云计算平台。
这些实验室的更新及新建,能充分满足学生的学习和教师的教学及科研的需要。
3实践教学体系的 “抓手位”
专业技能训练提升学生实践能力的抓手,在学生的整个大学四年期间,为了在不同学期提升学生的综合实践能力,我们开展了贯穿大学4年的专业技能训练。
专业技能训练是实践教学体系的抓手,专业技能训练的目的是根据训练大纲,我们应以项目为驱动来创新该专业的实践教学体系[1],提升学生应具备的专业素养和能力,形成几大子抓手,再作专项的打造。
我院的专业技能训练主要包括两个级别,一是课程设计训练,本训练以课程为依托,制定课程级别的训练大纲和测试方案;二是综合设计训练,训练学生综合能力,要求学生能灵活应用所学课程,完成一个综合性、设计性项目。
3.1 课程设计训练
“课程设计”一个多义词词条。它可以指“为掌握某一课程内容所进行的设计”[2]。课程设计是课程实验的高级环节,课程实验是提升学生立体实践能力的根本,课程实验分为验证性实验、综合性实验和课程设计实验,我们在传统验证性实验的基础上开展课程设计实验,提升学生的课程综合实践能力。
信息管理与信息系统专业的核心课程有6门,分别是:Java程序设计、管理信息系统、数据库原理、计算机网络及实验、管理学、经济学。我们针对这些课程,在编写实验大纲时,就要求编写课程对应的课程设计,设计方案要经过教研室的审核和信息工程学院教授委员的讨论及审定。以审定通过的课程设计为依托,为后续综合实践能力的提升打下坚实的基础。
以《Java程序设计》课程设计为例,课程设计的目的:利用Java语言的语法特性,结合数据结构算法、网络知识、文件处理和数据库等知识完成综合题目的设计和代码实现,并培养锻炼分析程序、撰写报告等能力。
3.2 综合设计训练
综合设计训练的目的是锻炼学生综合所学知识,设计和开发一个小项目的能力。这些项目有“ERP企业应用”、“Oracle运维管理”、“大数据管理”、“Java Web开发”等,这些小项目的训练要基于几门课的知识和技能,如“Java Web开发”就需要学生综合数据库、数据结构、软件工程、计算机程序设计等知识与技能。
综合设计训练要与毕业设计区别开来,此训练的主要目的是让学生体验和掌握项目开发流程,同时锻炼综合应用所学课程来完成一个具体的小项目。
3.3 信息管理与信息系统专业技能训练安排
为鼓励学生多渠道获得技能分,我们规定,学生在校期间,通过全国计算机技术与软件专业技术资格(水平)考试的中级资格、全国计算机等级考试的四级证书、思科(微软、ORACLE、华为、H3C或锐捷)的工程师级别认证、中级会计师,可获得3个学分;通过全国计算机技术与软件专业技术资格(水平)考试的高级资格、思科(微软、ORACLE、华为、H3C或锐捷)的高级工程师级别认证,可获得4个学分。
4实践教学体系的“信息系统开发能力位”
本专业的学生要求具体一定和信息系统开发能力,该能力通过毕业论文(设计)来炼成。毕业论文(设计)是教学过程的最后阶段采用的一种总结性的实践教学环节。通过毕业设计,学生可以综合应用所学的各种理论知识和技能,进行全面、系统、严格的技术及基本能力的练习。[3]毕业论文(设计)是实践教学体系的技能整合,我院对毕业论文(设计)作重大改革,着力打造学生综合实践能力
参加毕业论文(设计)的学生分两部分,一部分在公司实习,同时要在公司完成毕业设计工作,余下的学生在校内完成毕业论文工作,为提高毕业论文(设计)的质量,经向教务处请示,允许我院结合专业实践性强的实际,改革本专业毕业论文(设计)工作。改革思路包括三点,一是我院学生的毕业论文(设计)以毕业设计为主,弱化对学生文本的要求,强化对实践动作能力的提升和检查,二是做好规范管理工作,制定相关文件,如:“信息工程学院毕业论文(设计)工作规定”、 “信息工程学院毕业设计开发文档的撰写与打印规范” 、“信息工程学院毕业设计开发文档”等。
5实践教学体系的“校企合作位”
为提升学生的实习水平,满足用人单位的需求。我们自2013年开始,与四川华迪信息技术有限公司开展毕业实习合作,该公司是一家集软件外包、信息服务、学生专业技能培训为一体的软件公司,在全国小有名气。学生参加校企合作实习有两种类型,一是为期三个月的专业实习,二是为期四个月的就业培训。三个月的专业实习分为软件开发方向和网络方向,软件开发实训重点是提升学生的软件开发实践能力和水平,网络方向的实训重点是提升学生的网络设计、实施、部署能力。
从2013年开始,每年大概有一半的学生参加校企合作的实习,取得了良好效果,学生的专业实践能力提升了,就业质量明显提高,很多学生就在四川成都就业、创业。
关键词 大数据应用背景 超级计算机 数据处理
在电子信息技术的推动下,大数据已成为了当代潮流前线的主流技术,所谓大数据,从狭义上理解主要是指各种大规模的数据,具体来说是指难以在既定的时间范围内使用常规软件以及技术进行收集、统计、储存以及管理的数据集合,必须通过新型处理模式才可将其决策力、洞察力、发现力以及流程化进行充分发挥、具有规模大、复杂程度高、实时性强、高增长率以及多元化等特征的信息资产。由此可见,大数据是一种不同于传统数据的信息化数据资产,仅仅应用传统的软件或工具进行统计或管理是难以显效的,我们必须针对大数据的特征以及需求设计一款超级计算机,用于满足大数据的计算需求。
通过超级计算机来构建大数据处理中心,是现阶段最为主流的应用趋势。相比于传统计算机来说,超级计算机在性能方面具有显著优势,可以为大数据提供高效的计算以及处理服务。超级计算机早在二十世纪七十年代初就已被很多国家作为了一种战略性资源而进行使用,在国家经济建设、国防安全、社会发展、科学研究等方面得到了广泛的应用,并作出了极大的贡献,因此现阶段,超级计算机技术基本已经成为了衡量国家科技水平以及国防力量的重要指标之一。天河二号超级计算机是由我国国防科学技术大学研制而成的,它实现了每秒钟三点山九亿亿次的浮点运算速度,并以此成绩蝉联五次夺得全球运行速度最快超级计算机奖项。但是,超级计算机虽然具有如此高效的运行速率,它仍然只能在自己所擅长的以科学与工程运算为主的领域中发挥作用,例如一些计算密集型的任务中。此外,超级计算机具有计算模式单一的特点,它的处理过程通常由批量处理计算、流式运算、迭代运算、图运算等数据密集型运算方式组成,因此传统上的超级计算机很难直接被应用在大数据的计摘 要 在大数据应用时代背景当中,超级计算机迎来了前所未有的挑战,这些挑战主要体现在数据的计算、存储、通信以及编程方面,因此基于大数据的实际特征以及需求来设计一个超级计算机系统是十分有必要的。本文围绕如何基于大数据特征以及需求进行超级计算机设计、大数据时代应用背景下编程模型的设计两个方面展开讨论,对大数据应用背景下的超级计算机设计进行了分析,并提出了一些笔者自己的见解,希望能够对大数据应用背景下的数据处理问题提供一些对策建议。
关键词 大数据应用背景 超级计算机 数据处理算以及处理中。
1如何基于大数据特征以及需求进行超级计算机设计
显而易见,大数据的出现给人类技术带来了极大的挑战,而超级计算机具有十分强大的计算能力以及极其高效的数据处理能力,它将海量的信息高度集中在自己的系统当中,并通过工具媒介、数据存储等多元化角度对这些庞大的数据进行处理、分析以及应用,由此可见,不同的超级计算机在对信息处理以及计算时所呈现出的性能水平也是有所差异的。我们之所以要通过超级计算机来实现高性能数据计算,主要目的就在于提升数据计算效率,并通过对大数据的应用来增强通信效率。在本文中,笔者将围绕硬件和软件两个层面来设计大数据应用背景下的超级计算机。
1.1硬件体系结构
信息量大以及操作简单是大数据应用的显著特征,大数据应用能够确保计算指令维持在一个相对来说较低的状态,实际上间接增加了数据访问所需的成本,由此可见,在使用超级计算机管理大数据的过程中主要存在的问题在于数据吞吐率与数据计算效率之间的失衡性。针对这一问题,我们可以重点以两个切入点进行解决,一是针对片上缓存实施彻底优化处理。大数据应用指令等级相对较低,跳转频率较高,且不具备充分的局部性,再加上大数据通常只能使用一次,我们可以基于上述特点来降低指令缓存,并构建一个连接处理器与二级缓存的通道,以确保数据吞吐率与计算效率之间的失衡状态得到相对改善;二是提高大数据计算能力。在大数据的影响下,信息逐渐呈现出高密集化状态,这使得传统的处理器已无法满足信息处理需求。因此必须通过超级计算机来部署一个具备良好实时性的处理器,其中异构并行处理器是一项很好的选择,具体来说,也就是把R档募铀倨鞯既胫镣ㄓ么理器核心当中,在加速器的推动作用下,使数据处理过程中能够实现数据并行的效果。大数据应用过程中,对于数据的处理频率相对较高,因此必须想方设法改善节点计算效率并强化通信效率。顾名思义,大数据就是代表庞大的数据信息量,因此相应的储存模式也较为复杂,种类繁多,其中最为常见的数据储存模式为集中式存储模式以及分布共享式存储模式。为了较好地应对大数据通信频率较高这一问题,必须通过合理的手段来提高节点与节点或与设备之间的连接效率以及。对上文内容进行总结后得知,要想有效解决大数据应用中存在的问题,其中最关键的环节在于加大互联通信技术层面的研究开发力度,提高在节点连接效率优化方面的研究力度,一般可以通过两种方式来实现,一种为研发一款软硬件结合的多借口网络芯片,另一种为通过光互连技术来改善数据传送过程中的问题。
1.2硬件体系架构
在大数据中包含着海量的结构化数据、非结构化数据以及半结构化数据。这三种数据类型对应的存储方式也各不相同,结构化数据通常使用数据库结构实现存储,而非结构化以及半结构化数据的存储则更多地以依靠于不同文件与系统之间的协调与配合来实现。数据处理与数据计算是两个完全不同的过程,在数据计算的过程中,当数据加载已经结束时,则需要对各系统之间的交互频率进行合理地调整和控制,所以说应该选择单一的分布式文件系统来实现。而针对大数据的处理方式则相对来说更为丰富,同时也更加复杂,其中使用频率最高的数据处理方式有图处理以及批处理两种,这样据必须得到不同文件与系统之间的良好配合已结支持。由此可见,在设计超级计算机时,单一的文化系统完全不能满足计算机运行需求,应将多种文件组合在一起进行超级计算机系统的设计。
通过对非结构化数据的存储模式进行深入研究后可以发现,它所使用的存储结构通常为分布式文件系统。为了能够进一步提升大数据的处理效率,Google对大数据储存的文件系统进行了一定的创新,在原有基础上设计了一款具有扩展功能的GFS文件系统,创新后的文件系统在对应用层的运用下实现了对控制流以及数据量进行分离的目的,可以说是一个真正意义上的分布式文件系统,即使面对规模庞大的数据信息,该文件系统也能够实现高校的储存以及处理。GFS文件系统由以下三个基本部分构成,分别为若干块服务器、单一的主控服务器以及客户端。本论文以GFS文件系统为出发点,对目前已研发上市且具有代表意义的阿里巴巴分支ADFS系统进行了分析。在阿里巴巴的ADFS系统中,主要针对HDFSNameNode在使用过程中暴露出来的单点故障以及内存不足等一系列问题实施优化,工作原理主要为将内存中不属于热点范围内的数据转移至外部数据库当中,通过这种方式来缓解NalneNode所承受的内存压力,从而提升数据的处理质量以及效率。而在对半结构化数据以及结构化数据进行研究后发现,半结构化数据以及结构化数据在存储方式上有着十分显著的共性特征,他们通常都优先选择数据库以及分布式表结构作为存储方式,只有一些结构相对较为简单的半结构化数据更倾向于选择Key/Value分布式系统,其中较为典型的为亚马逊公司的Dynamo系统以及Facebook的Cassandra系统,亚马逊的Dynamo主要是运用Key/Value作为数据存储模式,这一存储模式相比于其它模式的优点在于具有强大的可扩展性以及可用性。Facebook的Cassandra系统同样也是采用Key/Value作为数据存储模式,通过对这一存储模式的运用进一步实现了数据存储可扩展性以及一致性的增强。
2大数据时代应用背景下编程模型的设计
在大数据时代@一背景下,编程模型所面临的挑战也是日益凸显出来,传统的编程模型也开始表现出一定的动力不足趋势,并无法满足大数据的编程要求,为了有效解决这一矛盾,必须基于大数据的特征以及需求来设计一种有别于传统编程模型的全新的编程模型。大数据时代下的编程模型必须满足简单易操作的基本原则,并在此基础上尽可能提高性能水平,构建一个清晰明确的编程抽象,确保程序员的编程工作能够更加顺畅,在这一过程中,程序员并不需要关注程序在集群中运行的具体状态以及情况,只需要针对每一项问题进行一一解决即可。在新的编程模型中,程序员的主要工作与任务在于关注一切有待解决的问题,以此来确保编程过程中各项任务的清晰化、明了化,同时还可以使代码后期的维护管理工作得到极大程度的简化,使程序员的工作更加方便、简洁、高效。此外,在构建编程模型时还应考虑到系统数据计算能力以及处理能力提升的目的,我们不仅要确保程序能够在集群上实现高效稳定的运行,同时也要保证不同类型的作业与任务能够在集群上并发运行,这样可以大大提高集群内部资源的共享有效率。但是在这一模型下,我们也会面临许多新的问题,需要后期通过探索与研究进行慢慢攻破,例如如何有效处理异构性问题、如何提升本地数据的有效利用率等。因此在基于大数据应用背景下进行新编程模型构建的同时,我们的考虑内容不能过于单一,必须综合衡量各方面的影响与利弊,在此基础上作出适当的取舍以及判断,从而构建一个简单、便捷、可靠、高效的大数据编程模型。
为了使效率得到进一步提升,超级计算机一般来说都会选择应用并行编程模型,例如Open MP以及MPI,其中,Open MP通常会与共享存储模式的融合而被广泛地应用在对称多处理器等架构的相关设备当中,而MPI所涉及的编程模型则相对来说更为复杂,一般来说需要在切换至信息通信计算模型下,要求编程工程人员针对所有的程序问题根据一定的规则进行一一分类,随后再将这些分类号的问题映射至分布式进程集合当中。Open MP以及MPI等并行编程模型并不适用于大数据的计算以及处理过程中,因此一些规模较大的互联网企业会根据自身公司的实际情况以及需求来研制具有针对性的大数据处理模型,这样一来不仅可以使工作人员的工作效率得到提升,同时也在很大程度上促进了大数据应用的有效实现。
3结语
综上所述,在大数据应用背景之下,对于超级计算机的设计可以适当导入一些高效模块结构,例如多核结构以及众核结构等。此外,宽带网络速度的提升也有利于超级计算机运行速度的改善,为其提供基本的保障条件。总而言之,在大数据时代背景之下,要想使数据处理以及计算速率得到有效提升,超级计算机的应用是必然的趋势所在,并取消以往计算机系统中的计算密集模式,取而代之的是数据密集模式。笔者相信在大家的共同努力之下,大数据应用背景下的数据处理以及计算问题自会得以有效解决。
参考文献
[1] 张听,袁晓如.树图可视化[J].计算机辅助设计与图形学学报,2012(9):1113- 1124.
关键字:计算机;物联网;网络;应用领域;大数据
既然计算机物联网技术对于社会发展、科技进步、人类生活等多个方面都有积极的影响,那么当下我们就应该将物联网技术的进一步发展作为科研重点。物联网技术的运用不能是盲目的,它的目的是为了在满足市场需求的前提下、建立更为完善的技术产业。只有这样,才能进一步推广物联网技术。另外,物联网技术的普遍应用并不是没有生活问题的,为了使其发展的更为快速,我们需要认清当下物联网运用的特点,分析物联网包含的主要技术,还要了解当前物联网技术的一些应用领域。
一、计算机物联网概述
计算机物联网就如其名称所示的一样,是在大数据时代,将有形物体接入互联网的一种技术。计算机物联网包含两个含义,第一方面,计算机物联网技术以网络为核心。在某种程度上,计算机物联网是互联网络的扩展。众所周知,计算机物联网是在大数据时代下应运而生的,因此其另一方面的含义就与计算机信息化有关,具体来说,就是计算机物联网可以通过大量的数据,促进与客户信息交流和沟通。计算机物联网技术在世界上被公认为最有发展前景的先进创新,它就像是一笔无形的财富。
(一)从技术层次看待计算机物联网
计算机物联网仅从字面上分析是无法真正理解的,还需要从计算机物联网的技术结构、关键技术、应用领域等方面来深入探究。从技术层次上来看,计算机物联网包含感知层、网络层和应用层三大层次。计算机物联网技术的三个技术层即相辅相成。每个技术层次都包含其特有的技术的,例如,其中网络层还可以分为两大层次,即传输层和处理层,主要负责信息数据的传输工作,由私有网络、互联网、有线和无线通信网组成。感知层就如同人体的神经末梢,负责信息资料的采集,其包含的技术最为丰富,有条形码、传感器、智能机械、识别码等。网络层是信息交换与通讯的重要平台,应用也最为广泛,其中的传输层包括卫星通信、移动通讯网等技术,处理层包括GIS/GRS技术、云计算等技术。另外,计算机物联网的技术层次上还包括一些常见的感知终端,例如二氧化碳浓度传感器、温度、湿度传感器、RFID标签和读写器、摄像头、GPS等。
(二)计算机物联网关键技术
在近几年来,物联网所涉及的领域面越来越广。其实现的基础是计算机物联网所包含的一些关键技术。具体有传感器技术、RFID标签、嵌入式系统技术。所谓传感器技术,是计算机能够处理海量数据的关键,也是计算机的主要应用程序。我们知道,计算机处理的数据需要时数学信号,这就要求计算机具备将模拟信号转变为数据信号的功能,故有了传感器技术。近些年来,随着计算机物联网的发展,另一种传感器技术得以问世,即RFID标签,其是一种整合技术,主要应用于自动识别、物品物流管理等领域。计算机信息化建设使得物联网技术也在不断发展,目前已经形成一种集信息技术设备、传感器技术、一体化技术为一体的尖端技术,即嵌入式系统技术。其是计算机物联网技术发展成熟的体现,在长期的的演变、法杖过程中,嵌入式系统得以广泛运用,涉及到工业生产和国防工业,小到人类的生活,大到可以运用在卫星系统。
(三)计算机物联网的应用技术
除了传感器技术、RFID标签、嵌入式系统技术之外,计算机物联网的核心技术还包括RFID等标识技术以及云计算技术,而其应用技术的发展也尤为迅速,较为成熟的包括无线传感网络技术、射频技术、网络通讯技术等。我们知道,随着社会的发展,要想利用计算机技术更好的服务于人类,必须考虑技术的功能性,保证其能适应科技时代的进步。传统的传感器并不成熟,其无法实现功能多样性。发展至今的无线传感网络技术已经能够满足军民,主要由许多个不同的无线传感器节点组成。为了顺应科技潮流,无线传感网络技术已经在努力向微型化、智能化的目标发展。相信在不久的将来,无线传感网络技术能够实现从传统传感器到智能传感器的完全蜕变。近些年来,计算机物联网技术的发展还体现在射频技术的应用上,较常见的应用有无线射频识别技术。这类技术主要用于电子晶片、感应卡。射频技术的原理比较难以理解,需要为由扫描器发射以特定频率进行无线电波能量的发射,还要驱动接收器电路将内部的代码送出。射频技术的先进在于其接收器的特殊性,且其晶片密码为世界唯一无法复制,安全性高、长寿命。除此之外,计算机物联网的应用技术还有网络通讯技术,具体是指利用现有的计算机设备,在相关网络通讯设备的辅助下,进行图文数据的采集、存储、处理和传输。网络通讯设备可以使资源实现其效用最大化,使信息资源达到充分共享。
二、物联网的应用
(一)城市交通管理
物联网技术最初就运用在交通行业,在其技术支持下,交通管制实现智能化。例如,物联网技术可以使交通管制系统更加自动化、智能化,能进行道路交通的实时监控。能在短时间内,对公路、桥梁、公交、停车场等场所进行系统管理。可以在任意时段估测道路交通流量,及时发现事故、交通堵塞等情况,并进行快速的自动判断,从而利于采取有效的解决措施。相信在不久的将来,全世界的交通都能实现智能化。
(二)家庭生活
科学技术的发展使得社会经济发展的速度越来越大,在计算机技术的推动下,我们来到了数字化的二十一世纪。在物联网技术的带领下,我们不管是在家庭生活,还是工作中,都感受到了巨大的便捷。通过计算机物联网技术,我们过上了智能化生活。可以通过手机来职能的控制家里的电器设备。通过手机端传送指令,来远程控制电器工作、监控家里的一切。近些年来,随着物联网生活生产领域的应用,其长足发展已成必然。
(三)节能减排
计算机物联网的发展,势必会使人类的生活发生改变。因此,一些由于人类生活方式而造成的空气污染、资源浪费问题将迎刃而解。我们知道,空气污染一直是全球环保工作的棘手难题。计算机物联网技术在应对空气污染上正好发挥了是特有的功能。近些年来,已经有科研学者针对空气污染进行了合理的分析,并认为,可以通过计算机物联网技术来改善。具体是通过物联网技术,对反应空气质量的数据进行收集。与此同时,要研发出一种新型的空气实时监测系统。这样就既能通过智能的实时监测系统来进行检测工作,又能物联网技术下对空气质量数据进行自动分析、统计。
三、结论
综上所述,计算机物联网的优势显而易见。其包含多种功能,符合大数据时代的先进科技技术。就目前来看,计算机物联网在人类生活和工业中都发挥着巨大的作用。其带动着多个行业的发展,使得智能化产品走向多样化。另外,从计算机物联网在多个领域的应用可以看出,物联网技术已经逐渐成熟起来,其在未来的发展趋势十分良好。作为计算机行业的工作者,我们应该永不止步,全身心的致力于更多像物联网技术的科技项目研究。希望在不久的将来,我们能让物联网在未来发展的更为快速,让我国所自主研发的智能化设备越来越多,给我们带来更多高科技体验。
作者:谭秦红 单位:贵州省铜仁职业技术学院
参考文献:
[1]朱顺强.中国物联网发展状况分析[A].中国通信学会2010年光缆电缆学术年会论文集[C].2010年.
关键字:大数据 情报研究 情报研究技术
中图分类号: G250.2 文献标识码: A 文章编号: 1003-6938(2012)06-0001-08
1 引言
当数据和黄金一样,成为一种新的经济资产[1],当科研处于以数据为基础进行科学发现的第四范式[2],当数据开始变革教育[3],这些无不宣告着我们已经进入了大数据(big data)时代。不同的学科领域,正在不同的层面上广泛地关注着大数据对自己的研究和实践带来的深刻影响,情报研究领域也不例外。
大数据,顾名思义是大规模的数据集,但它又不仅仅是一个简单的数量的概念,IBM公司指出,大数据的特点是4个V:Volume(大量)、Velocity(高速)、Variety(多样)及Veracity(真实),它提供了在新的和正在出现的数据和内容中洞悉事物的机会,使业务更加灵活,并回答以往没有考虑到的问题[4]。Gartner公司的报告也提出,大数据是大容量、高速和多样化的信息资产,它们需要新的处理方式,以提高决策能力、洞察力和流程优化[5]。
由此可见,大数据强调的不单纯只是数据量多少的问题,其背后隐藏了更为复杂和深刻的理念,这些理念包括:①将对数据和信息的分析提升到了前所未有的高度。这里的分析不是一般的统计计算,而是深层的挖掘。大数据时代,如何充分利用好积累的数据和信息,以创造出更多的价值,已经成为企业管理者、政府机构以及科研工作者首要关注的问题。“业务就是数据”、“数据就是业务”、“从大数据中发掘大洞察”等意味着对数据分析提出了新的、更高的要求。可以这么说,大数据时代就是数据分析的时代。②多种数据的整合和融合利用。大数据时代,数据的多样性是一种真实的存在,数据既包括结构化的数据,也包括非结构化的数据,表现方式可以是数据库、数据表格、文本、传感数据、音频、视频等多种形式。同一个事实或规律可以同时隐藏在不同的数据形式中,也可能是每一种数据形式分别支持了同一个事实或规律的某一个或几个侧面,这既为数据和信息分析的结论的交叉验证提供了契机,也要求分析者在分析研究过程中有意识地融集各种类型的数据,从多种信息源中发现潜在知识。只有如此,才能真正地提高数据分析的科学性和准确性。③更加广泛地应用新技术和适用技术。数据量大(Volume)、类型多样(Variety)、增长速度快(Velocity)是大数据的突出特点,这必然会带来数据获取、整合、存储、分析等方面的新发展,产生相应的新技术或者将已有的技术创新地应用于大数据的管理与分析。同时,大数据的这些特点也决定了传统的、以人工分析为主的工作模式将遇到瓶颈,计算机辅助分析或基于计算机的智能化分析,将成为大数据时代数据与信息分析的主流模式。
对于在数据分析领域扮演重要角色的情报研究工作而言,大数据的理念和技术既带来了机遇,也带来了挑战。一方面,在大数据时代,情报研究工作正在得到空前的重视,大数据为情报研究的新发展提供了机会,从更为广阔的视野来看待情报研究的定位,研究新技术新方法,解决新问题,将极大地促进情报研究理论与实践前进的步伐。另一方面,大数据时代本身也要求各行各业重视情报研究工作,这就必然使得众多学科有意识地涉足到以往作为专门领域的情报研究之中,并将其作为本学科的重要组成部分加以建设。文献分析(本质是文本分析)不再为情报研究所独占,以往情报研究领域积累的相关理论和方法很有可能优势不再。因此,如何把握住自身的优势,并抓住机会有所拓展,是情报学在大数据时代需要思考的问题。
2 大数据环境下情报研究的发展趋势
大数据带来的新观念,正在引报研究的新发展,而且,研究人员也在不断地从情报研究的实践中总结经验教训,引导情报研究的未来走向。英国莱斯特大学的Mark Phythian教授在2008年10月作 了题为“情报分析的今天和明天”的报告[6],指出:①获知情境是至关重要的。忽略战略环境、领导风格和心理因素等更为广泛的问题,将导致情报研究的失误;②要加强信息之间的关联。美国政府部门内部的信息共享障碍,致使分析人员无法获取充足的信息来支持分析活动,导致情报研究中的预测失败;③要汲取更多外界的专业知识。这一举措虽然不能保证分析的成功性,但将是竞争分析的重要信息来源。
综合大数据背景的要求和以往情报研究的经验教训,结合国内外同行的研究成果,本文将情报研究的发展趋势总结为以下五个方面:单一领域情报研究转向全领域情报研究;综合利用多种数据源;注重新型信息资源的分析;强调情报研究的严谨性;情报研究的智能化。
2.1 单一领域情报研究转向全领域情报研究
随着学科的深入交叉融合及社会发展、经济发展与科技发展一体化程度的增强,情报研究正从单一领域分析向全领域分析的方向发展。
首先,表现在各领域中的情报研究从视角、方法上的相互借鉴。从方法上看,社交网络分析方法、空间信息分析等其他学科的分析方法,广泛应用于军事情报、科技情报等领域,心理学等领域的理论也用于情报分析的认知过程,以指导情报分析及其工具的研发。同时,情报学中的引文分析等文献计量方法也被借鉴用于网站影响力评估。从技术上看,可视化、数据挖掘等计算机领域的技术,为情报研究提供了有力的技术视角,情报研究获得的知识反过来又给予其他技术领域的发展以引导。可见,无论从思想上、方法上、技术上,各领域之间的交叉点越来越多,虽然这种相互借鉴早就存在,但现在意识更强、手段更为综合。
其次是分析内容的扩展,这也是最为重要和显著的变化。在情报研究过程中,不仅仅局限于就本领域问题的分析而分析,而将所分析的内容置于一个更大的情景下做通盘考虑,从而得出更为严谨的结论。联合国的创新倡议项目Global Pulse在其白皮书“Big Data for Development: Opportunities & Challenges”[7]中指出,情境是关键,基于没有代表性样本而获得的结论是缺乏外部合法性的,即不能反映真实的世界。在情报研究领域,一些数据往往因为一些不可抗力的原因而不完整,如早期的科技数据,可能由于国际形势等外部因素,导致一些国家的科技信息无法获取,基于这样缺失的分析样本来评估该国的科技影响力,如果仅就数据论数据,无疑是会得“正确”的错误结论,这时应针对这样的异常情况,将研究问题放置在当时的时代背景下,揭示背后的原因,从其他方面收集信息来补充,才能得出符合实际的结论。也就是说,必须要考察不同时间戳下的相关信息,再对分析内容加以扩充,这实质是一种基于时间轴的扩展。另外,将内容扩展至本领域的上下游则是一种更为重要的扩展。例如,考察某项技术的发展前景,如果仅就该技术本身来讨论,可能会得出正面的结论,但如果结合特定地区人们对该技术的态度、当地的技术水平、物理条件、发展定位等,却可能会得出相反的结论。这就说明,在很多领域中,环境不同,发展程度不同,要解决的问题也就不同。一些地区当前关注的问题不一定就是其他地区要关注的问题,某些欠发达地区当前不一定就必须照搬另一些所谓发达地区的当前做法。这需要通盘考察,分析相关思想、观点和方法产生的土壤、使用的条件,结合当前环境再做出判断,否则可能会对决策者产生误导。
2.2 综合利用多种数据源
综合利用多种信息源已经成为情报研究的另一大发展趋势。Thomas Fingar[8]从军事情报角度指出,军事情报界需要综合利用人际情报、信号情报、图像情报和外部情报,进行全资源分析(all-source analysis),即利用多种不同的信息资源来评估、揭示、解释事物的发展、发现新知识或解决政策难题。科技情报界也是如此,如利用科技论文和专利,发现科技之间的转换关系、预测技术发展方向,综合利用政府统计数据、高校网站、期刊、报纸、图书等来评估大学等科研机构。可见,综合利用多种信息源是从问题出发,系统化地整合所有相关信息资源来支持情报研究,信息源可以是学术论文、专利等不同类型的文献集合、文本和数据的集合也可以是正式出版物与非正式出版物的集合等。
这一发展趋势是由几大因素决定的。一是情报研究问题的复杂性。在大数据背景下,情报不再局限在科技部门,而成为全社会的普遍知识。公众对情报的需求使得情报研究问题更为综合,涉及要素更为多元,同时也更为细化。这导致单一数据源不能满足分析的要求,需要不同类型的信息源相互补充。例如要分析科技之间的转换关系,就避免不了涉及科技论文和专利这两种类型的信息源。二是各种信息源的特性。不同信息源可以从不同角度揭示问题,如专利、研究出版物、技术报告等,可以较为直观地反映研究者对某科技问题的理解与描述,而评论文章、科技新闻、市场调查等,可以反映出社会对该科技的观点、认知情况[9]。因此,各类信息自身的特性就说明他们之间可以、也需要相互补充。此外,从现实角度来看,通常会遇到某些信息无法获取的情况,这就需要别的信息加以替代,这就从实践角度说明了综合利用多种信息源的必要性。三是分析结果的重要性。以评估大学为例,评估的结果会引导各学校在比较中发现自身优势和差距,指导未来发展定位,同时也为广大学生报考提供参考。可见,研究结果对社会的影响是广泛而深远的,要做到分析结果的可靠性、科学性,必然先要从源头上,即分析数据上加以丰富完善。
综合利用多种信息源也意味着诸多挑战。首先分析人员要熟悉每一种信息资源的特性,了解相似信息在不同资源类型中是如何表现的,不同信息源相互之间的关系是怎样的。其次,针对待分析的问题,要选择适合的信息,并不是信息越多越好,类型越全越好,尤其是当问题含糊不清时,可能需要不断地调整信息源。再次,情报研究人员要能有效地综合、组织、解释不同信息源分析出的结果,特别是当结论有所冲突的时候,识别不当结果、保证分析结果的正确性是很重要的。
2.3 注重新型信息资源的分析
随着网络应用的深入,出现了许多新型的媒体形式。Andreas M. Kaplan等人将构建于Web2.0技术和思想基础上,允许用户创建交换信息内容的基于网络的应用定义为社会化媒体(Social Media),包括合作项目(如维基百科)、博客、内容社区(如YouTube)、社交网站、虚拟游戏世界和虚拟社会世界(如第二人生)等六种类型[10]。这类媒体形式依托于Web2.0等网络技术,以用户为中心来组织、传播信息,信息可以是用户创造性的言论或观点,可以是围绕自己喜好收集的信息资源集合等。由于社会化媒体的易用性、快速性和易获取性等特点,它们正迅速地改变着社会的公共话语环境,并引导着技术、娱乐、政治等诸多主题的发展[11]。这些通过庞大的用户社区来传播的高度多样化的信息及其网络结构,为洞悉公众对某一主题的观点、研究信息扩散等社会现象[12]、预测未来发展方向[11]等提供了机会,有助于发现有共同兴趣的社群、领域专家、热点话题[13]等,带来了网络舆情分析等研究内容。此外,这类信息结合其他类型的数据,产生了新的情报研究领域。例如,智能手机的普及和GPS的广泛应用,使得可以从社交网络和网络交互数据、移动传感数据和设备传感数据中获取社会和社区情报(social and community intelligence,SCI),揭示人类行为模式和社群动态[14]。
此外,机构知识库等作为一种反映组织或群体知识成果的智力资源,也正引报界的重视。网络信息联盟的执行董事Clifford A. Lynch[15]从大学的角度指出,成熟完整的机构知识库应包含机构和学生的智力成果(包括科研材料和教学材料)以及记录机构自身各项事件和正在进行的科研活动的文档。这暗示着学术界从过去只关心科研成果正逐步转向关注科研过程。从机构知识库中,可以发现隐藏其中的科研模式、揭示目前科研状况的不足,引导机构未来科研的发展走向等。但现有的机构知识库工具还缺乏帮助人们理解和分析这些资源的机制[16],在大数据环境下,加强这方面的研究也是必然趋势。可以预见,随着科技的发展和应用的深入,还会不断的有新型资源出现,并不断促进情报研究的发展。
2.4 强调情报研究的严谨性
情报研究活动在宏观层面上是一种意义构建(sensemaking)[17],依赖于分析人员根据已有知识构建认知框架(frame),通过对认知框架的不断修正来达到理解的目的[18]。这意味着情报研究活动本身带有很大的不确定性,很多因素影响着情报研究的有效性。如何使情报研究工作更加严谨,减少情报分析的不确定、提升情报成果的质量,正成为学术界当前普遍关注的问题。情报研究严谨性(rigor)不等同于分析结果的正确性,它衡量的是情报研究的过程,是指在情报研究过程中“基于仔细考虑或调查,应用精确和严格的标准,从而更好地理解和得出结论”[19]。美国俄亥俄州立大学的Deniel Zelik[20][21]从评估角度,给出了8个指标来衡量分析过程的严谨性:假设探索、信息检索、信息验证、立场分析、敏感度分析、专家协作、信息融合和解释评价。从这几项指标看,信息检索和融合是从分析信息源上消除不全面性;假设探索是要使用多种视角来揭示数据和信息;信息验证侧重于数据的溯源、佐证和交叉验证;立场分析强调分析的情境性;敏感度分析指分析人员要了解分析的局限性,目的是从分析方法上消除主观影响;专家协作是防止分析结果受分析人员自身的学科背景或经验带来的偏差;解释评价是要正确对待分析结论。可见,情报研究的严谨性意在消除人的主观偏见,用更为客观的视角对待情报研究。如果说之前的情报研究活动依赖专家的个人判断,带有较为强烈的主观色彩,那么走向严谨性的情报研究活动正逐步转变为一门科学。
在大数据背景下,情报分析的严谨性,不仅体现在理念上,还暗含了对技术的要求。面对海量数据,自动化的技术手段必不可少。当信息的检索更多的是借助检索系统,而不是人工的收集,信息融合更多依赖数据仓库等技术手段,如何在这样的分析环境中将情报研究的科学性落到实处,是需要关注的问题。可以看到,利用技术本身已经在一定程度上避免了人的主观性,但面对同样一个问题,可以有不同的技术手段,也可能产生不同的结果,如何避免由技术产生的偏见,也许通过多种技术手段或采用不同的算法,全方位地展示信息内容及其之间的关系,从而避免产生信息的误读,是一个解决方案。可见,在大数据时代,情报研究需要多种手段来加强其分析过程的科学性,而这又需要多种技术方法加以支持。
2.5 情报研究的智能化
大数据背景下的情报研究,对技术提出了更高的要求。正如美国国家科学基金会(NSF)的报告[22]所说,美国在科学和工程领域的领先地位将越来越取决于利用数字化科学数据以及借助复杂的数据挖掘、集成、分析与可视化工具将其转换为信息和知识的能力。对于情报研究来说,应用智能化技术能自动进行高级、复杂的信息处理分析工作,在很大程度上把情报研究人员从繁琐的体力劳动中解放出来,尤其在信息环境瞬息万变的今天,及时收集信息分析并反馈已经变得非常重要,这都需要智能化技术加以支撑。从信息源来讲,情报研究对象得以扩展,其中可能包含微博等社会化媒体信息,可能包含图片、新闻等,大量非结构或半结构化数据的涌入,必然需要技术将这些数据转化为结构化数据,以供后续分析。同时,多元化的信息,需要根据分析需求加以融合,这可能需要语义层面上的技术支持。从分析需求来讲,简单的统计分析已不能满足现在社会的决策需求,需要从大量信息中发现潜在模式,指导未来的发展,这就涉及数据挖掘、机器学习等技术。此外,要寻求情报研究的客观性,摒除过多的主观意愿,也需要多种技术来支撑。可见,这一发展趋势是大数据时代下的必然。而各国在积极建设的数字化基础设施,也在推动着情报研究的智能化,如欧洲网格基础设施(European Grid Infrastructure,EGI)[23]项目就致力于为欧洲各领域研究人员提供集成计算资源,从而推动创新。
目前,对情报研究中的智能化技术没有统一的界定,但概观之,可以将情报研究智能化的本质概括为定量化、可计算、可重复。定量化是针对过去情报研究更多的是依赖人的主观判断,即基于已有文字材料或数据,根据研究人员的经验等给出粗略的结论,如果说这是一种定性化分析,现在更多地依赖通过计算机自动化处理原始材料并获得潜在数据,并在此基础上辅以人的判断,可以说是一种定量化的分析。可计算是指将各种信息资源转化为计算机可理解、处理的形式,如从新闻、论文、专利等中,提取出科研组织、科研人员等实体,再基于这些结构化的、富有语义的信息,采用统计、数据挖掘等方法加以计算,获取隐含的知识。可重复是指自动化分析技术消除了许多主观因素,从理论上讲,如果分析数据等条件一致,分析结论也应该是一致的,这也体现了智能化技术为情报研究带来客观性的一面。
3 情报研究中的技术问题
情报研究的上述发展走向,决定了情报研究既不能仍然停留在定性分析上,也不能仅仅靠简单的统计替代情报研究中的计算技术,由此对情报研究技术提出了新的要求。美国McKinsey Global Institute在2011年5月了研究报告“大数据:创新、竞争和生产力的下一个前沿领域”(Big data: The next frontier for innovation, competition, and productivity)[24]。报告分六个部分,其中第二部分讨论了大数据技术,并围绕大数据分析技术、大数据技术和可视化三方面进行了阐述。在大数据分析技术中,列举了26项适用于众多行业的分析技术,包括A/B测试、关联规则学习、分类、聚类分析、众包(Crowdsourcing)、数据融合和数据集成、数据挖掘、集成学习、遗传算法、机器学习、自然语言处理、神经网络、网络分析、优化、模式识别、预测建模、回归、情感分析、信号处理、空间分析、统计、监督学习、模拟、时间序列分析、无监督学习和可视化。这些技术绝大部分是已有的技术,也有部分是随着互联网的发展以及对大规模数据挖掘的需求,在原有技术的角度发展起来的,如众包就是随着Web2.0而产生的技术。
根据我们的理解,这些技术大致可以划分为可视化分析、数据挖掘以及语义处理三大类。这三大类技术也是当前情报分析领域应予以关注和深入研究的技术。
3.1 可视化分析
可视化分析(Visual Analytics)是一门通过交互的可视化界面来便利分析推理的科学[25],是自动分析技术与交互技术相结合的产物,目的是帮助用户在大规模及复杂数据内容的基础上进行有效的理解,推理和决策[26]。它不同于信息可视化,信息可视化关注计算机自动生成信息的交互式图形表示,关注这些图形表示的设计、开发及其应用[27],而可视化分析在此基础上加入了知识发现过程,关注自动分析方法及其选择,以及如何将最佳的自动分析算法与适当的可视化技术相结合,以达到辅助决策的目的。
目前的情报分析系统,虽然也提供了多种视图来揭示信息,但更多的是一种分析结果的呈现,系统内部分析、处理的机制对分析人员来讲是个黑匣子,分析人员无法了解分析方法、分析结果的局限性或者有效性,这无疑不符合情报研究严谨性这一发展要求。同时,现有的分析工具需要分析人员输入各种繁杂的参数,又缺乏对情报分析认知过程的支持,这就对使用人员的专业化程度提出了较高的要求,增加了分析的难度。而可视化分析则可以较好地解决这一问题,它整合了多个领域包括采用信息分析、地理空间分析、科学分析领域的分析方法,应用数据管理和知识表示、统计分析、知识发现领域的成果进行自动分析,融入交互、认知等人的因素来协调人与机器之间的沟通,从而更好地呈现、理解、传播分析结果[28]。佐治亚理工学院的John Stasko等人应用Pirolli 等人提出的情报分析概念模型[29],建立了一个名为Jigsaw(拼图)的可视化分析系统[30],并将其应用于学术研究领域(涉及期刊和会议论文)以及研究网络文章(如网络新闻报道或专题博客)领域,也说明了将可视化分析技术应用于情报研究的可行性。
将可视化分析技术应用于情报研究领域,有众多问题要解决。首先,在情报研究工具中,是以自动化分析为主,还是以可视化为主?Daniel A. Keim等人将待分析的问题分为三类,第一类是在分析过程中可视化和自动化方法可以紧密结合的问题,第二类是应用自动化分析潜力有限的问题,第三类是应用可视化分析潜力有限的问题。在研究这三类问题中交互程度对分析效率影响的基础上,Daniel A. Keim等人指出,应分析如何通过考虑用户、任务和数据集特点,来确定可视化和自动分析方法的优化组合,从而达到最佳的效果[31]。可见,要将可视化分析技术应用于情报研究领域,需要明确每类问题适用哪种组合方式。其次,情报研究领域适合使用哪些可视化交互手段?这可能包括原始分析数据、析取出的关系数据、深层挖掘的模式数据等的可视化手段,分析人员与系统交互的方式,分析过程的可视化展示等。第三,情报研究领域中的认知过程是什么样的,关注哪些问题,涉及哪些实体,在大数据环境下面临哪些认知困难,需要在哪些环节加以支持,这些困难能否通过技术来解决。此外,从现有的可视化分析技术来看,主要是将各个相关领域的技术以优化的方式整合起来,但在将来会产生一体化的可视化分析解决方法[32],这种一体化的方法可能是什么形式,又会对情报研究带来怎样的影响等等,都是在情报研究中引入可视化分析技术需要关注的。
3.2 数据挖掘
广义的数据挖掘指整个知识发现的过程,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它涵盖了数据分析和知识发现的任务,从数据特征化与区分到关联和相关性分析、分类、回归、聚类、离群点分析、序列分析、趋势和演变分析等,吸纳了统计学、机器学习、模式识别、算法、高性能计算、可视化、数据库和数据仓库等领域的技术,并可以用于任何类型的数据,包括数据库数据、数据仓库等基本形式,也包括数据流、序列数据、文本数据、Web数据、图数据等其他类型的数据[33]。
从数据挖掘的涵义看,它与情报研究有着天然的联系;从数据挖掘的方法看,有其特定的含义和实现过程,可以有效地解决情报研究的问题。例如,情报研究可以借鉴关联规则发现的成功案例——超市的“啤酒+尿布”,尝试用关联规划来分析研究主题的相关性,从科技论文与专利的关联中发现科技的转换关系等等。但从目前的情报研究成果看,许多还仅仅停留在简单的频率统计、共词计算层次上,在知识发现的过程中,这些工作仅仅是数据挖掘的数据准备,还有待于更为深入的发掘。可见,数据挖掘能够也应该应用于情报研究领域,这不仅是数据挖掘应用扩展的结果,也是情报研究自身发展的需求。此外,由于较少有专门针对情报研究领域研发的挖掘工具,现有情报分析通常借助于其他工具,不同工具的功能不同,这就导致常常同时使用好几个分析工具,如在使用SPSS进行聚类分析的同时,还使用Ucinet分析社会网络。这带来的问题是,分析缺乏完整性,可能社会网络和其他信息之间有关联,因为工具的分割性,就导致潜在模式的丢失。由此,研发适用于情报研究的挖掘工具,是必要也是紧迫的,尤其是面对大数据的挑战,智能化地辅助分析人员,减少认知压力,是亟待解决的问题。
要解决以上的问题,首先需要研究情报分析任务,分析哪些问题是可以使用数据挖掘技术来支持的,这类问题有哪些共同点、特殊性,能否对未来可能的情报分析问题进行扩展,哪些问题不适用于数据挖掘技术,原因是什么等。其次,对于某类或某个分析问题,使用哪种数据挖掘技术或几种技术的组合才能有效地解决,涉及的算法是否需要针对该问题进行适应性改造,如何评价挖掘的结果等。第三,数据挖掘出现了交互挖掘这一发展趋势,即构建灵活的用户界面和探索式挖掘环境[33],这与可视化分析在某些方面上也不谋而合,这样的趋势会对情报研究带来哪些影响,如何在这一背景下,探索情报研究工具的新发展,寻找情报分析的新模式,值得我们关注。
3.3 语义处理
语义是关于意义(meaning)的科学,语义技术提供了机器可理解或是更好处理的数据描述、程序和基础设施[34],整合了Web技术、人工智能、自然语言处理、信息抽取、数据库技术、通信理论等技术方法,旨在让计算机更好地支持处理、整合、重用结构化和非结构化信息[35]。核心语义技术包括语义标注、知识抽取、检索、建模、推理等[34]。语义技术可以为信息的深层挖掘打好基础,即通过对各类信息的语义处理,在获取的富有语义的结构化数据上使用各种数据挖掘算法来发现其中的潜在模式。数据的语义性支持了机器学习等技术的内在功能[36]。
从现有的情报研究实践和工具看,语义支持的缺失是一个普遍问题,这其中又可划分为两个层次。对于传统的情报研究对象,如科技论文、专利等,有较为成熟的分析工具,但这些工具往往缺少深层次的语义支持。例如,要分析论文的内容主题时,需要从摘要等自由文本中提取出主题信息,在数据处理时,常常无法识别同义词、近义词等,需要人工干预。一些工具虽然在语义方面做了努力,但仍然存在诸多不足,例如在形成的主题聚类结果上,缺乏有效的主题说明,自动形成的主题标签不具有代表性,需要分析人员深入其中重新判断等。这在小数据集环境下,还可以接受,当面对大数据的冲击,这种半自动化的处理方法无疑是耗时又费力的。此外,对于新型情报研究对象,如网络新闻、博客等,已有如动态监测科研机构等的系统工具,但总体来说还处于起步状态,目前较多的还是依赖人工筛选出所需信息,并整理成结构化的数据,同样也不利于大规模的数据分析。这些问题的存在,使得消除语义鸿沟(semantic gap)[37],应用语义技术成为广泛需求及必然。
将语义技术应用于情报分析,需要关注以下几方面的内容。首先,分析情报研究任务的特点,了解它的语义需求,是否存在规律性的准则以供指导分析工具的研发,这既需要原则性和方向性的准则,也需要为针对多维度划分出的各类任务给出详细的规范,例如,对微博等社会化媒体,其中既存在高质量的信息,也存在辱骂等低质量的信息,区分这些信息并筛选出高质量信息,就成为在分析社会化媒体中的语义任务之一。其次,语义资源建设问题,即在情报分析领域中,要实现语义层面上的理解,是否需要建设语义资源,如果不需要,哪些技术手段可以代替,如果需要,哪种类型的语义资源可以便捷、快速、高效地构建,并且这种语义资源应该如何构建,如何使用才能有效地服务于情报研究工作。第三,信息抽取问题。科技信息涉及众多学科的专业术语、各种科研机构、组织等,如何使用语义技术将这些信息准确地提取出来并加以标注,尤其是针对不同类型的信息源,采用什么样的抽取策略等。第四,信息整合问题,即如何使用语义技术,把不同来源的数据对象及其互动关系进行融合、重组,重新结合为一个新的具有更高效率和更好性能的具有语义关联的有机整体,以便后续分析。
4 结语
正如本文引言中所谈到的那样,大数据的理念和技术为情报学领域中情报研究的理论和实践带来了机遇,也带来了挑战。机遇巨大,挑战更大,需要我们对此有清醒的认识。本文分析了大数据背景下情报研究的若干发展趋势,总结了情报研究中值得关注的技术问题,以期能为促进情报研究的理论和实践的发展添砖加瓦。
参考文献:
[1]Big Data,Big Impact[EB/OL].[2012-09-06]..
[27]Chaomei Chen. Information visualization[J]. Wiley Interdisciplinary Reviews:Computational Statistics,2010,
2(4):387-403.
[28]Daniel A. Keim, et al. Challenges in Visual Data Analysis[C]. Information Visualization, 2006:9-16.
[29]P.Pirolli. The Sensemaking Process and Leverage Points for Analyst Technology as Identified Through Cognitive Task Analysis[EB/OL]. [2012-09-16].http://vadl.cc.gatech.edu/documents/2__card-sensemaking.pdf.
[30]John Stasko, et al. Jigsaw: supporting investigative analysis through interactive visualization[EB/OL]. [2012
-09-16].http:///fil
es/Sandbox/victor/jigsaw-VAST07.pdf.
[31]Daniel A. Keim, Florian M., and Jim Thomas. Visual Analytics: How Much Visualization and How Much Analytics?[J]. ACM SIGKDD Explorations Newsletter,2009,11(2):5-8.
[32]Aigner, et al. Visual Methods for Analyzing Time-Oriented Data[J]. Transactions on Visualization and Computer Graphics, 2008, 14(1) :47-60.
[33]Jiawei Han, Micheline Kamber, Jian Pei. Data Mining concepts and techniques third edition[M]. Morgan Kaufmann,2011.
[34]John Domingue, et al.Handbook of Semantic Web Technologies[M]. Springer Publishing Company,2011.
[35]Dieter Fensel,et mon Value Management-based on Effective and Efficient On-line Communication[EB/OL].[2012-09-17].http://wiki.iao.fraunhofer.de/images
/studien/proceedings-common-value-management.pdf#page=19.
[36]Bettina Berendt, Andreas Hotho, Gerd Stumme. Introduction to the Special Issue of the Journal of Web Semantics: Bridging the Gap-Data Mining and Social Network Analysis for Integrating Semantic Web and Web 2.0[J]. Web Semantics: Science, Services and Agents on the World Wide Web,2010,8(2-3):95-96.
关键词 大数据时代 研究生培养质量 反馈
中图分类号:G643 文献标识码:A DOI:10.16400/ki.kjdkz.2015.08.023
Postgraduate Education Quality Feedback Thoughts in Big Data Era
ZHAN Zhiyong, CHEN Mingchan, YI Xiaoxi, WANG Zhichao
(Harbin Engineering University, Harbin, Heilongjiang 150001)
Abstract: Work quality of postgraduate training feedback main body is relatively simple, strong sense of quality feedback, the feedback mechanism is not the system, outdated methods of gathering information and other issues, combined with the characteristics of the era of big data, for quality of postgraduate training feedback work thinking that the quality of graduate education the depth and breadth of feedback work will occur gradually change to adapt to the era of big data.
Keywords: big data era; postgraduate training quality; feedback
近年来,随着信息技术的飞速发展,大数据、云计算、慕课、翻转课堂、颠倒教室等信息化时代的新名词如雨后春笋般不断涌现出来,2013年被媒体称为“大数据元年”,大数据时代已经来临。数据科学家舍恩伯格提出:“现有的认知和体系是建立在稀缺数据上的成果,人们思维和工作方式必须发生变革以适应大数据时代的到来”。①在新时代来临之际,教育的各个环节面临着重新洗牌的可能。
1 大数据时代
1.1 大数据
“大数据”概念源于20世纪90年代,随着互联网技术的发展,大数据的内涵由“无法用传统方法进行分析的数据集合”逐渐转变为“具有超强决策力、洞察力和流程优化能力,与先进数据处理方式紧密相关的海量、多样的信息资产”。②在一定条件下,可通过先进计算机技术,对此类信息资产进行有目的的设计与分析,揭示隐藏其中的各类信息,为我们进行研究、决策、管理提供可靠依据。
大数据具有以下特点:(1)大量性。大数据的数据信息量巨大,有人称其起始计量单位至少是P(1000个T)。(2)价值性。大数据具有很高价值,但其价值密度低,通过先进技术在海量信息中提取高价值信息是大数据发展的关键。(3)繁杂性。大数据的类型多样,包括文本资料、网络日志、图片、音频、视频、搜索信息等各类结构化、非结构化及半结构化数据。(4)高时效性。很多大数据信息要求处理速度快,高时效性是大数据区别于传统数据挖掘的显著特征。
1.2 大数据时代
大数据时代是指基于大数据的各类信息及其相关技术发展与创新的信息时代,社会各领域的决策逐步由传统的经验决策转变为数据决策、由注重因果关系转变为相关关系。大数据时代开启全新的时代,逐步影响着我们的生活、工作和思维,并且正在深刻改变传统社会的商业、教育模式。
大数据时代具有以下特点:③(1)信息生产泛在。信息的产生无时不有、无处不在,存在人类生产生活的各个领域,大数据的生产过程以及相应挖掘技术呈指数增长。(2)信息民主公开。绝大多数的数据产生于公共开放的网络环境中,所有人可以是信息数据的生产者也可以是消费者。(3)反馈信息及时丰富。各类新型信息分析技术可对巨量数据及时分析判断,为信息反馈工作提供了无尽可能。(4)信息具有相关性。数据信息在理论上能在各个维度无限使用与传播,能在各种不同系统与应用中传递,在不同的环境中与不同数据有机结合能表达完全不同的涵义。(5)引导社会发展无限可能。如果说工业化时代使得机械力迅速增长,拓展了人类体力边界;那么大数据时代使得智力无限增长,让人类社会与处理信息充满了无尽的想象空间。大数据时代,人类社会的各个领域即将或正在发生变革,以“慕课”为代表的教育领域也正在经历一场革命。
2 研究生培养质量反馈工作
研究生培养质量是指在一定环境下研究生培养工作的各类特性总和,主要由培养过程质量(如教师授课质量、导师指导水平等)和产出成果质量即教育产品或服务的质量(如研究生科研成果质量、创新能力以及服务社会的质量等)有机组成。④研究生培养质量反馈机制指对研究生培养工作起调节指导作用的机制,即研究生培养“输出”的研究生培养质量“反作用”于研究生培养工作各环节,指导研究生培养工作的过程。
我国研究生培养单位历来重视研究生培养质量反馈工作,各个培养单位做法不尽相同,或成立研究生培养质量管理部门管理或邀请校外专业评估机构或相应管理部门开展以座谈、问卷调查等方式的基于样本数据形式的质量评价工作。目前,研究生培养质量反馈工作普遍存在以下问题。
(1)反馈主体相对单一。一方面,在研究生培养质量反馈工作中,研究生培养单位是质量反馈工作的实施者,政府、行业机构或者专业的调查机构参与较少。另一方面,在研究生培养单位中,实施培养质量反馈工作的部门主要是就业和研究生管理部门,而这些部门的职能很多,难以投入大量精力从事培养质量反馈工作。缺少社会参与、培养单位精力有限,难免出现反馈工作不科学,反馈信息不全面、不准确的现象。
(2)质量反馈意识不强。多数研究生培养单位的工作重心在研究生的过程管理以及就业管理方面,注重研究生的培养过程质量和产出成果质量,对培养质量反馈工作的重要性认识不足,未能系统全面思考研究生培养质量反馈工作,常常造成研究生培养质量反馈工作流于形式,导致反馈信息不够全面及时,无法有效指导研究生培养管理工作,研究生培养工作与社会需求脱节。
(3)反馈机制不系统。目前,各个研究生培养单位在研究生培养的日常工作中,对研究生培养质量反馈工作进行了许多有益尝试,如采取研究生评教、专家评教、座谈、问卷调查等方式来改进管理工作,但这些工作多数停留在“头疼医头脚疼医脚”的层面,各项工作相对独立,反馈结果难以有效利用,效率低下,反馈机制不成体系。往往是就业部门的反馈工作仅限就业部门使用,未能将反馈信息及时应用到研究生培养及其他相关部门,各部门间的质量反馈工作相互脱节。
(4)信息采集方式落伍。现行的信息采集方式一般为调研,是培养质量反馈工作的重要内容,现行调研工作一般采用问卷调查、座谈会以及电话调研等传统方式进行,但传统调研形式存在以下局限性:一是被调研者当时状态影响调研结果,不同环境下被调研者的状态也有不同,造成调研结果与实际情况存在误差;二是调研群体代表性不强,传统调研方法选取一定数量样本进行调研,其必然无法代表全体;三是信息调研工作量较大,信息采集费时费力,同时要对采集到的信息进行分析研究;四是信息采集量不全面,调查问卷、座谈等调研不能设计太多问题,许多被忽视的信息可能对研究生培养质量有重大影响;五是传统调研工作过分强调因果关系,不注重相关关系。
研究生培养质量反馈工作与数据紧密相关,而大数据时代则为研究生培养质量反馈工作的研究与发展提供了无限可能。
3 大数据时代下研究生培养质量反馈工作的变革方向
大数据时代的特点决定了现阶段研究生培养质量反馈工作存在的问题将逐步解决,同时,研究生培养质量反馈工作的深度与广度必然将逐步发生相应的转变以适应形势发展。
(1)反馈信息数据采集方式不断拓展。传统研究生培养质量反馈机制相关数据一般来源于调查问卷、座谈会、访谈以及相关信息统计等经典调研手段,大数据时代的数据采集工作不仅可以使用传统调研手段获取,绝大多数是从研究生的日常学习、生活信息以及身体信息中获取,将来有可能出现从研究生幼儿学会说话的时间来判断研究生的创造潜力,也有可能从研究生中学时期的习惯、爱好来判断其科研潜力。同时,以往研究生培养工作尤其是课程教学工作中,由于缺乏相应数据支撑特别是对研究生数据的全面、深入分析,研究生培养工作往往形成整齐划一的“工业流水线”,培养的是“标准件”,研究生的个性差异和创新能力培养得不到充分体现,而在大数据时代,研究生的所有学习行为都被网络“神不知鬼不觉”地采集下来,研究生培养单位依据采集的数据对培养过程实时进行动态调整,针对每位研究生的不同特点实施个性化培养。⑤
(2)数据分析统计方法不断改进。一般质量反馈工作常采用传统统计方法通过普通计算机或手工方式来处理结构化数据,而大数据时代的数据可以是半结构、非结构数据,其统计分析以相关关系为基础展开,数据分析统计方法也随着现代计算机技术的发展而不断改进。⑥
(3)研究生培养质量反馈机制逐步深化。随着大数据时代的来临,研究生培养管理过程与现代计算机网络技术的联系愈加紧密,不断发生变革,如研究生课程教学的慕课冲击、研究生学位论文的要求、研究生学位论文盲审系统的开发使用等,研究生培养管理过程的“在线化”变革必然导致相应的研究生培养反馈机制的逐步深化。同时,对于实施培养质量反馈工作的管理者来讲,应提高个人数据素养,努力学习数据分析的基本原理和方法,发现并搜集反映研究生培养各个环节运行状态和存在问题的状态数据,加强其基于数据来进行决策和采取相应措施来保证研究生培养质量的自主性。
(4)教育第三方全面介入。大数据时代,数据挖掘分析技术飞速发展,研究生培养单位已没有能力依靠自身实力对研究生培养质量的大量相关数据进行深度挖掘。而作为数据挖掘分析见长的第三方,如专业数据挖掘公司、专业研究生培养质量评估机构甚至是学校计算机网络中心必将不断开发技术、拓展业务,与研究生培养单位围绕研究生培养质量反馈工作开展全面合作,担负研究生培养质量数据的挖掘与分析工作,为研究生培养质量反馈工作提供技术支持。
(5)研究生培养工作各单元逐步融合。对于国家的教育系统来讲,研究生教育属于顶层教育,前期各层次的教育质量无不对研究生培养质量产生重要的影响,大数据时代将使得研究生培养质量反馈工作不再单纯局限于研究生培养阶段,应将整个教育过程如幼儿教育、小学、初中、高中以及大学等个层面的教育纳入其中,将其作为一个系统来通盘谋划。对于研究生培养单位来讲,研究生培养质量反馈工作不应局限在研究生管理部门,应结合研究生的招生、培养、就业乃至校友沟通等各个层面,加强研究生各层面研究生培养数据资源的整合是大数据时代研究生培养单位在研究生培养质量反馈工作的重点。
注释
① 舍恩伯格.大数据时代[M].袁杰,译.浙江人民出版社,2012.
② 杨旭,汤海京等.数据科学导论[M].北京理工大学出版社,2014.
③ 郑毅.大数据时代的特点[J].新金融评论,2012(1).
④ 占志勇,侯彦芬等.基于系统论的研究生课程教学机制探讨[J].黑龙江高等教育研究,2013(9).
(1武汉轻工大学数学与计算机学院 湖北 武汉 430023 2重庆交通大学 重庆 400074)
摘 要:针对桥梁健康监测获取海量数据却无法实时精确地监测评估桥梁结构状态的困难性,本立足数据挖掘算法理论,在Hadoop平台下运用KNN文本分类算法对桥梁结构缩尺模型加速度数据进行分类分析,采用分布式文件系统HDFS对监测数据进行存储和访问,应用Map/Reduce并行计算框架对桥梁各环境参数进行计算,并据此判断监测点属于何种工况,实现了桥梁监测海量数据的存储、访问、分类以及桥梁结构健康状况的判别,通过实验室缩尺模型工程实例验证了理论的有效性。实验结果表明,与传统的串行分类算法相比,基于Hadoop平台的并行分类算法具有较好的扩展性,并取得了基于大数据理论的桥梁监测技术研究的革新。
关键词 :Hadoop平台;大数据;KNN文本分类算法;HDFS
中图分类号:U445 文献标识码:Adoi:10.3969/j.issn.1665-2272.2015.05.036
0 引言
随着桥梁事业的蓬勃发展,多数桥梁上建立了健康监测系统,可以通过传感器获取各种环境下的反映结构响应行为的信息,期间从各个监测点收集的数据量可达到GB级,而面对海量数据却不能及时得到反映桥梁结构状态的有效信息,桥梁结构监测系统的分析与处理不能及时完成,大数据概念和大数据技术的适时出现提供了一个分析处理桥梁监测历史数据的途径。Hadoop作为一个开源的云计算平台提供了分布式文件系统HDFS和并行编程模型Map/Reduce,以其高容错性、高伸缩性等优点允许用户将Hadoop部署在大量廉价的硬件上,人们可以充分利用集群的存储和高速运算能力,完成海量数据的处理,其中包括海量文本数据的分类问题。分类算法是一种重要的数据挖掘算法,该模型通过对海量样本数据进行训练能把未知类别的样本映射到给定类别中的某一个,以此判别桥梁状态所属类别,K近邻(K-Nearest Neighbor,KNN)文本分类算法是基于训练集的文本分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。
云计算提供的海量数据存储和分布式计算能力在数据挖掘以及相关领域中是一种非常受青睐并且有效的方法,结合大数据技术和数据挖掘算法—KNN文本分类算法进行桥梁健康监测,在Hadoop平台下运用KNN文本分类算法对桥梁结构缩尺模型加速度数据进行分类分析,采用分布式文件系统HDFS对监测数据进行存储和访问,应用Map/Reduce并行计算框架对桥梁各环境参数进行计算,使用分布式文件系统Hadoop Distributed Filesystem来存储原始文档(已分类的数据)和待分类文档(监测数据),将文件读写和分布式并行计算框架MapReduce相结合实现KNN文本分类,将监测点的监测数据分到已有的工况中,并据此判断监测点属于何种工况,以便采取相关措施对桥梁进行维护,以此来探索基于大数据技术的桥梁监测分析处理的方法。
1 大数据及其应用平台
“大数据”是一个体量很大,数据类别多样的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理,主要具有数据体量巨大;①数据类别大; ②数据来自多种数据源, 囊括了半结构化和非结构化数据; ③数据处理速度快,在数据量非常庞大的情况下, 也能够做到数据的实时处理;④数据价值密度低,价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法更迅速地完成数据的价值“提纯”并通过对海量数据进行分析获得有价值的数据成为目前大数据背景下亟待解决的难题。
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台及分布式处理的软件框架,主要用来处理大量数据,它实现了MapReduce一样的编程模式和框架,能在由大量计算机组成的集群中运行海量数据并进行分布式计算。处理的海量数据能达到PB级别(1PB=1024TB),并可以让应用程序在上千个节点中进行分布式处理。以Hadoop分布式文件系统(HDFS,HadoopDistributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。HDFS的高容错性、高伸缩性等优点允许用户将Hadoop部署在低廉的硬件上,形成分布式系统;MapReduce分布式编程模型允许用户在不了解分布式系统底层细节的情况下开发并行应用程序,所以用户可以利用Hadoop轻松地组织计算机资源,从而搭建自己的分布式计算平台,并且可以充分利用集群的计算和存储能力,完成海量数据的处理。MapReduce 是大规模数据(TB级)计算的利器,Map和Reduce是它的主要思想,来源于函数式编程语言,Map负责将数据打散,Reduce负责对数据进行聚集。它的流程如图1所示。
2 K近邻文本分类算法
K近邻(K-Nearest Neighbor,KNN)文本分类算法是基于训练集的文本分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:计算一个点A与其他所有点之间的距离,取出与该点最近的k个点,然后统计这k个点里面所属分类比例最大的,则点A属于该分类。根据加权距离和判断测试样本所属的类别的具体过程如下:
假设给定有m个训练样本集D,每个样本具有n个属性,di=(σi1,σi2,…,σin),其中i=(1,2,…,m)表示第几个训练样本。
(1)设定k的值,k最近邻的数量;
(2)把测试样本表示成测试文本向量X(ω1,ω2,…,ωn);
(3)根据下式计算测试样本与训练集中所有样本的相似度:
公式(1)中di为训练样本,X为测试样本。
(4)对根据步骤(3)计算出的m个相似度进行排序,选出k个最大值,作为X的近邻;
(5)根据公式(2)收集这k个最近邻的类别,
公式(2)中X表示测试样本,sim(X,di)为相似度计算公式,y(di,Cj)为类别属性函数,即如果di属于类别Cj,那么函数值为1,否则为0。
(6)对步骤(5)计算出的值排序,将测试样本分到值最大的类别中去。
3 工程实例
3.1 实例模型
本次工程实例根据云南黑冲沟特大桥全桥作为原型建立,使用的数据是由桥梁实验室的缩尺模型上建立的监测系统收集到的,原型立面图(见图2)。
试验获得以下三种工况的加速度时间序列:工况一,跨中无裂缝,模拟无损伤情况;工况二,跨中具有0.1mm裂缝,模拟有损伤情况;工况三,跨中有0.12mm+0.03mm两条裂缝情况,模拟损伤加剧情况。
根据本次动力学试验的研究目的,确定试验的主要测试内容为模型结构关键部位加速度,该测试项目可采用压电加速度传感器进行量测,采用重锤敲击的方式,给模型提供激励,来模拟完成脉动试验,采样频率为18.8Hz,在激振器开始激振5s后进行采样,采样时间为50s,获取各个测点的加速度数据,特征选择方法采用文档频率,k取30。
3.2 文档预处理
本次工程实例的样本数据是通过缩尺模型重锤敲击获取的加速度数据,监测系统收集了不同工况下的监测数据,对损伤前即健康状况,损伤后0.1mm裂缝和损伤加剧0.12mm+0.03mm裂缝进行样本数据训练分析,获取不同的损伤情况下各个监测点的分类情况,得出每个监测点的损伤情况,实验选定0.12mm+0.03mm两条裂缝情况下采用小车激励的方式获取该工况下的加速度时程信号作为待分类数据,通过对监测数据的分类,判定其是否存在损伤。
待分类文档节点中,WCDMapper继承hadoop平台的Mapper类,并重写map方法对待分类文档进行读取,并统计每个词出现的次数;WCDReducer继承hadoop平台的Reducer类,并重写reduce方法对待分类数据进行写操作。WCDMapper类的map方法和WCDReducer类的reduce方法分别如下,处理后的待分类文档如图3所示,前面一个是数据,后一个数字是该数据出现在待分类文档的次数。后面的原始文档经过预处理后也与此相似。
由于MapReduce只输出一个结果,而每个原始文档都采用MapReduce处理会增加代码量和内存的消耗,所以本文采用Hadoop平台提供的FileSystem、FSDataInput-Stream、FSDataOutputStream类来对原始文档进行相应的读写,最后输出到文档中的内容与图4.2相似,而文件读取方式不同。最后需要将它们合并到一个文档中,采用Hadoop平台提供的FileSystem、FSDataInputStream、FSDataOutputStream类来对文件进行读写。输出的matrix文件如图4.3所示,每一行的第一个数为监测的数据,后面的数字为该数据在每个文档中出现的次数。
3.3 特征选择
根据上一步得到的文件,计算每个数据的增益值,对每一个数据的信息增益进行从大到小排序,最后把增益值最大的个特征项输出到文件。本次设计中选取的为100,输出到文件的内容如图5所示,每一行只显示1个数据。
3.4 文档向量化
原始文档和待分类文档都需要向量化,原始文档向量化之后需要归一,而待分类文档向量化之后不需要归一,所以给他们分别提供了一个向量化的类。从文件中读入特征项。参数文件存储经过特征选择后剩下的特征项。
原始文档经过向量化之后,输出到每个文档的内容不一样,图6是文档名为0向量化后的部分内容。待分类文档的向量化后不需要归一化,输出到文档的内容如图7所示。
3.5 分类
此步骤计算原始文档和待分类文档向量两个向量的夹角的余弦。最后的绝对值越大,说明夹角越小,越相似,距离越近。在训练文本集中选出与新文本最相似的个文本,这个文档中属于哪一类的文档最多,则待分类的文档就属于哪一类。map( )方法获取待分类文档的向量,reduce( )方法输出结果到文件中。分类的结果表示待分类的文档属于哪一类,也即是该监测数据来源的监测点的损坏情况属于哪一类。本次实验选定0.12mm+0.03mm两条裂缝情况,采用小车激励的方式获取该工况下的加速度时程信号,数据分类结果如图8所示,该结果显示待分类的文档属于损伤0.1mm这一类。
3.6 结果分析
在上一步中已经获得了待分类文档分类的结果,此分类结果的数据只是监测数据的一部分,而且在分类中由于KNN分类的值选取没有较好的方法以及其他影响因素,获得的结果可能有误。因此将监测点传来的数据拆分到若干个带分类文档中,同时对这些文档进行分类。分类完成之后再对分类结果进行整合分析,获得最终的有效的结果即该监测点准确的损伤情况。Map( )方法读取各个待分类文档分类的结果,并对结果汇总加以分析,获得监测点数据最后的分类结果,reduce( )方法将最后的有效结果写入文件。最后的输出结果如图9所示。
综上所述,基于MapReduce编程模型的桥梁监测信息分类技术可以有效判别桥梁状态所属类别,由于HDFS将大数据分割成了若干个blocks存储在不同的节点上,这样KNN分类算法由一个主机的运算分散到多个节点并行处理,每个节点完成T个任务,时间复杂度为O(ns)/T,其中n为训练样本的总数,s为特征属性数模,应用HADOOP平台的分布式处理框架大大降低了算法的时间复杂度。
4 结论
本文针对桥梁健康监测系统历史数据无法有效利用,无法通过海量数据实时精确地监测评估桥梁结构状态的困难性,基于数据挖掘算法理论,提出了基于大数据的桥梁健康监测信息分类研究技术的革新,在Hadoop平台下运用KNN文本分类算法对桥梁结构缩尺模型加速度数据进行分类分析,采用分布式文件系统HDFS对监测数据进行存储和访问,应用Map/Reduce并行计算框架对桥梁各环境参数进行计算,将文件读写和分布式并行计算框架MapReduce相结合实现KNN文本分类,将监测点的监测数据分到已有的工况中,并据此判断监测点属于何种工况,实现了桥梁监测海量数据的存储、访问、分类以及桥梁结构健康状况的判别,Hadoop平台下的KNN算法实现了分布式并行计算,提高了算法运行时间效率,降低了时间复杂度,通过实验室缩尺模型实验验证了方法的有效性。
存在的不足之处是值的选择,值选择过小,得到的近邻数过少,会降低分类精度,同时也会放大噪声数据的干扰;而如果值选择过大,并且待分类样本属于训练集中包含数据数较少的类,那么在选择个近邻的时候,实际上并不相似的数据亦被包含进来,造成噪声增加而导致分类效果的降低。如何选取恰当的值也成为KNN的研究热点,尚需进一步改进。
参考文献
1 黄荷.大数据时代降临[J]. 党政论坛,2012(11)
2 金鹏. 基于Hadoop的SINN文本分类算法的设计与实现[D]. 武汉:华中师范大学硕士学位论文,2013
3 李登荣.文本分类及其相关技术研究[D].复旦大学博士论文,2005
4 Samovsky M, Kacur T. Cloud-based classification of text documents using the Gridgain platform[C]. Applied Computational Intelligence and Informatics,2012(7)
5 Caruana G, Li M, Qi M. A MapReduce based parallel SVM for large scale spam filtering[C]. Fuzzy Systems and Knowledge Discovery, 2011 (4)
6 Viktor Mayer-Sch nberger.Big Data[M].杭州:浙江人民出版社,2013(1)
7 (英)维克托·迈尔-舍恩伯格,肯尼思·库克耶著.大数据时代[M]. 北京:人民出版社,2012
8 向小军,高阳,商琳,等.基于Hadoop平台的海量文本分类的并行化[J].计算机科学,2011(10)
9 (美)Tom White著. 周敏奇,王晓玲,金澈清,钱卫宁译. Hadoop权威指南(第2版) [M]. 北京:清华大学出版社,2011
10 万川梅,谢正兰. 深入云计算:Hadoop应用开发实战详解[M]. 北京:中国铁道出版社,2013
11 张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005(6)
关键词:大数据;高校应用;发展方向
1大数据概要
近年来,当人们还对物联网、云计算、移动互联网等热词感觉新颖的时候,大数据(BigData)也横空出世并呈燎原之势。大数据是一个体量大、数据类别多的数据集,并且这样的数据集不能用传统数据库工具对其进行处理。如果说传统数据库时代的数据管理方式是“池塘捕鱼”,那么大数据时代的数据管理方式则是“大海捕鱼”,大数据管理方式,不仅在数据规模、数据类型、数据模式、数据对象处理工具上和传统数据模式有着明显的差异,它还能让我们以一种从未涉足过的方式,对巨量数据进行分析,从而能帮助我们获得更有价值的产品和服务,最终形成影响社会发展的变革之力。
2高校管理中的大数据初步应用
据教育部统计截至2013年,全国共有普通本科院校879所、普通高职(专科)院校1266所、国家批准设立的独立学院287所(不含军事院校和港澳台院校),每所高校学生人数都破万,每名学生都存在学籍、选课、考试、考勤、学费、学分等各种数据;对于教师有教师基本信息、职称、论文、课件、考题等数据。故高校信息系统是数据生产大户,长期运营积累下来的数据就是高校中的大数据,合理利用这些数据,不仅可以帮助教学管理,减轻教学工作中的事务性工作,更能提高招生推广活动,改变教学领域的授课和学习模式,不论高校自身,还是社会各界,都能从高校中的大数据应用受获益匪浅。
2.1个性化学习
从孔孟时代开始,我们就提出了因材施教,个性化学习也是教育所追求的最高目标。要实现这目标,首先要了解受教育对象的长处、短处,各种特点。但目前高校扩招,一个教师教多个教学班,很难去了解每一个学生的特点实施教学,将大数据挖掘技术与日常教学相结合,通过可视化的在线学习平台,学生自主选择自己感兴趣的课程学习,就能够实现满足个性化学习的功能。学生在自主学习平台上的学习资料,交流互动信息,每个知识点不同的学习进度等,通过大数据技术对这些个性化信息的分析拓展,不仅能帮助学生完善知识结构,更能加快学生对自身兴趣爱好的挖掘和特长的培养,在整个教育信息化的大背景下,只有基于大数据技术才能更好地实现这种学习方式,充分利用大数据技术,可以为各地高校带来更具有针对性的教育方式,能够实现尽可能早的将学生的天赋创造力释放出来。
2.2教学质量评估
教学质量评估是全国每个高校定期要做的事务性工作,其目的是通过不同渠道,包括老师,同学,行政部门等不同角度对教学评估,以期发现教学工作、管理工作中存在的各类问题,并及时地通过调整教学方案等手段来改正完善,达到提高教学质量的目的。在教育评估系统中引入大数据技术,不仅从时间成本上节约,更能加强评估的科学性,增强了教育数字化建设的实效性。在教学质量评估中利用基于大数据挖掘的智能算法,我们就可以根据教师教学互动、多媒体课件的效果、学生积极性等因素中找出其中的内在联系,就能为教学评估部门提供客观的、科学的、符合实际的决策支持信息,为教师提供准确的反馈信息,使之更好地开展教学工作,提高教学质量。
2.3专业培养方向拓展
大数据技术是新兴的,但它却又发展迅速,朝夕之间,大数据技术应用到了各行各业,面对大数据带来的挑战与机遇,国内各大高校根据各个行业的大数据分析,可准确评估出未来几年社会需要的专业性人才方向,如数据采样量大,完整,还能直接分析出各个专业的需求人数,从而更好地开设专业培养方向,适当调整专业招收人数,以免再现前几年出现的入学时,专业很火爆,到学生毕业时,却又人才过剩。
2.4分析决策
一切要拿事实说话,在做重大决策时候,我们更需要用事实,用数据来参考。在实际运用中,我们通过高校业务管理方面的专家,在不考虑数据结构化问题的前提下,将理念累积的管理知识整理,并转化成数据知识,形成数据中心知识库,再利用大数据技术,对数据进行收集、分类、抽取、清洗、转换,提取出我们需要的数据,以新的组合形式储存到数据仓库中。在数据仓库的基础上,建立通用的和面向主题的分析平台,实现从不同的维度进行统计分析,最终实现为不同层次决策者们提供数据支持。
2.5心理咨询
互联网移动应用的普及,学校论坛、微博公共平台上每天都会产生主题,评论等数据,对这些数据进行科学的存储分析,可从中分析出师生的思想情况、情感走向和行为动态,再利用这些行为动态,建立师生情感模型,便可以掌握师生的心理健康程度,有针对性地加强对师生的心理辅导。目前高校信息系统数据因早期规划,数据平台不一致等问题,普遍存在数据的质和量都不高,许多高校的数据仅停留在记录保存上面,对数据很难分析和利用而想要充分利用大数据技术,提升高校的信息化水平,就必须要有保质保量的数据来源,这就要求高校业务必须和计算机技术紧密结合,并且需要不断迭代更新,跟上技术发展的脚步。目前的情况来看,高校大数据应用还存在着一些问题,还需要进一步地修正和探索。
参考文献:
[1]维克托迈尔舍恩伯格.大数据时代[M].杭州浙江人民出版社,2013