前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的云计算技术分析主题范文,仅供参考,欢迎阅读并收藏。
关键词:云计算;网络;计算机;架构
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2012)19-4590-02
对目前广泛使用的几种云技术的对比,对云计算的技术结构做了简要的总结。最后对云计算在实际发展中遇到的问题以及未来的发展趋势做了预测分析。
目前计算机技术以及网络技术的原理以及实际应用都得到了快速的发展,单个计算机的性能的提升方面仍然存在很多需要研究以及解决的现实问题。用户在使用大量的网络资源的时候,实际上是已经采用了网络的优势取代了以前个人手中资源来实现计算机性能的提升。计算机网络技术将在世界范围内实现资源的共享转换为了现实。由于网格计算的概念主要是面向应用层面的,所以在网格计算的概念被提出以来,计算机性能的提升就面临这很多亟待解决的问题,网络的用户需要将其使用的程序转换为网络共享所需要的分布式程序结构,程序员面临这更多的技术问题,技术方面的障碍导致一般的用户在应用网络资源方面存在一定的困难。
目前市场上对于高性能的计算具有强烈的需求,面向WEB技术的网络服务也具有重要的地位。自从面向WEB的技术获得成功以后,计算机网络的应用领域得到了较大程度的拓展,网络的发展使得其功能已经由简单的信息传输或者信息的转换为信息资源的共享等应用。计算机云计算就是在这样的背景中应运而生了。尽管云计算技术发展时间不长,但是云计算的思路已经涉及到了诸如分布式系统技术、集群技术、网格计算等多种技术。从这个方面来分析,云计算可以认为是上述技术的综合以及升级。随着云计算技术的不断发展以及相关理论的不断完善,以如微软的Azure ,Amazon的EC2等云计算平台为代表云计算的商业应用已经成为了现实。
1 云计算的定义
美国的Larry Ellison在华尔街日报上发表了自己对于云计算的见解,他认为计算机云技术中存在这样的现象,也就是说一般需要根据目前已经完成使用的产品来重新定义云计算。Andy Isherwood也在2008年提出,对于云计算的专业研究,几乎所有的研究者所给出的定义都存在着差别。目前对于云计算的定义的业界仍然存在较大的争议,能够实现云计算的平台也是多种多样。目前对于云计算的定义主要是根据Ian Foster等人的研究以及对于云计算的分析与总结。
1)云计算中的每一朵云都是目前计算机并行分布式系统中一种,是由一些了网络化以及虚拟化的计算机提供的同意的服务层。同事会可以对计算资源进行同步。
2)网络中用户不是基于较长的时间间隔来进行基础设施的规划使用,目前可以实现分钟级甚至是秒级来实现基础设施的规划,这样应用的好处就是避免了网络资源的浪费或者是网络资源的过载。
3) 云计算不是孤立的,云计算是一个涉及多个方面的综合概念。一般认为云计算是软件技术发展的下一个逻辑阶段。对于用户而言,最能够被理解以及接受的所谓云计算其实就是在因特网层面上的集成软件。本定义中强调了云计算网络服务的基本属性。其他一些定义则注重了网络中基础设施的虚拟化,从本质上而言这些都是对于云计算概念不同层面的阐述。
根据以上的研究分析,云计算可以定义为:云算是通过网络进行常用的服务形式,其中所有涉及到的软件系统以及硬件系统的总称。与云计算相关的概念主要包括集成技术、网络计算、超级计算机等相互之间存在着相互区分但是又存在着相互联系的基本概念。云计算中主要是以其服务形式对网络中的用户提供必要的计算机网络资源,因为这个平台可以获得比传统的集群系统具有更为广泛的优势以及规模,所以基于云计算的计算机平平所能够提供的计算机性能就很有课程超过目前使用的超级计算机。另外在灵活性以及规模等方面,云计算技术的优越性更为明显。
2 云计算发展背景
云计算的出现以及迅速发展与网络的应用紧密相连。随着Web2.0相关理论的成熟以及相关技术的现实应用,云计算已经由商量的实验性网站逐步发展到目前广泛使用的校园内网以及多种应用方面。网络的商业模式已经发生了较大的变化。以一般运行的商业化网站为例,对一个可以获得较大商业利润的大型网站继续宁维护,所涉及的方面很多。主要包含了对系统硬件的维护以及对于市场调研的分析。这样就需要一个涉及等多方面的工作团队,同时对于网站所涉及的软件系统、硬件系统要负全面的责任。网站最终的获利只是这个超大规模团队的顶端的一小部分。这种极为不平衡的特点阻碍了网站的进一步发展。目前传统的计算模型主要存在一下的困难。
1)目前服务支持平台的规模缺乏可伸缩性,无法满足用户需求的变化。当服务业务的需求规模发生变化的时候,传统的计算模型无法作出适应性的及时调整。
2)目前建立大型的底层基础设施的成本较大。一般企业或者商业组织要在短期筹备相应的运行资本也存在着一定的难度。但是商业机遇总是争分夺秒的,快速岂不的能力对于网络运营商极为重要。
3)服务商对于提供的定型服务需要进行长期的维护,因此就没有办法集中有限的资源进行新业务的开发。云计算平台具有较高的灵活性以及可靠性,网络用户可以根据目前现有的服务快速建立起许啊哦的系统。同时可以将基础设施的维护任务由计算机提供商操作。因此用户可以集中各项资源进行业务方面的操作。云计算的还具有可伸缩性,这样就可以根据业务量大小的变化进行实时的调整并降低服务成本。
大数据时代的到来和发展,为云计算的进一步应用提供了数据基础,大数据时代背景下的云计算,是一种动静状态的结合,云计算重在计算,属于动态,而大数据作为计算对象,属于静态。在实际应用过程中,大数据主要强调信息存储的能力,而云计算则注重实际计算能力。大数据对数据处理能力的需求,在某种意义上也是一种计算能力;而云计算需要在数据的基础上进行计算,实际数据是其进行计算的前提。云计算的技术关键在于“云”,通过集中各个终端的非结构性、分散性的网络数据,在云平台中进行统一处理,利用云平台中的超大量服务处理器计算各种数据[2]。云计算技术的规模相对比较大,虚拟性比较强,根据实际需求提供服务,可靠性比较高。大数据与云计算技术,是一种相互作用的关系,在大数据背景下,海量数据的处理,必须依靠云计算的虚拟化、云存储、分布式数据库、分布式数据处理等技术来实现。
2云计算技术
(1)分布式文件系统。云计算中的分布式文件系统,是Google公司根据云计算处理海量数据的过程而设计的一个特定系统。一个分布式文件系统的集群,是由一个主节点与多个从属节点共同组成,用户访问系统的途径主要是通过客户端,利用该系统完成日常的文件处理工作。在云计算中,大量的数据文件被划分为固定大小的多个数据块,在相应的从属节点中进行存储,此外,这些数据块也会在多个节点进行备份存储,避免数据丢失等问题。(2)分布式并行数据库。云计算中的分布式并行数据库的设计,主要是为大规模结构化数据的管理提供服务,这种分布式的存储系统,能够实现PB级数据以及上千台服务器的扩展。在Google的许多项目中,都有分布式并行数据库的应用,而分布式并行数据库在Google项目中的应用,在规模、时延方面的要求也有进一步的提高。分布式并行数据库的应用,为Google产品提供了高性能、灵活、有效的解决方案。(3)分布式计算框架。Google公司于2012年推出了分布式计算框架大数据计算机技术处理框架,通过优化内部数据网络计算方式,实现计算机技术挖掘的革新和计算机设备数据海量处理性能的提高。计算机的工作水平越高,网络环境的可靠性就会越高。而在计算机操作过程中,影响计算机网络处理速度的因素,主要包括软件安全问题和硬件配置水平。光纤网络的铺设情况会对计算机网络的可靠性带来直接影响,通过分布式计算框架大数据软件处理方式的编写,完成复杂计算机函数算法的革新工作。
3大数据时代背景下云计算技术对媒介发展的影响
【关键词】云计算移动通信发展前景转型
信息网络技术的发展带来了世界范围内互联网经济和通信行业的强劲振兴,以微博、web2.0和SNS等业务为代表的通信网络新形态给人们的生活工作带来了无限便利,物联网、虚拟化、三网联合等新技术领域内,芯片能力、宽带接入、无线网络等技术革新不仅极大的冲击了通信行业的发展,引导了其未来的发展潮流,且为行业的未来发展注入了新的革新动力。云计算技术作为当前最具发展前景的革命性推动力量,对移动通信行业的发展将会产生极大的影响。
一、云计算技术及其路线
1.云计算技术
云计算技术是利用大规模低成本运算单元通过IP网络连接提供各种计算和存储服务的IT技术,是互联网发展追求低成本、高效能、资源灵活分配、快速应用趋势潮流下应用而生的一种新IT系统实现技术。这种技术是一种包括计算、存储、网络、应用服务等功能的资源池系统,无论是作为商业模式和技术模式,对于移动通信领域的未来发展都有着决定性影响,尤其是现在对互联网资源、安全与应用越来越重视的今天,这种技术的实现、分布和部署将会挑战传统互联网构成,为移动通信的发展开拓更好的领域前景[1]。
据相关机构预测,全球未来几年数据中心业务将保持高速增长,年复合增长率将超过20%,其中云数据中心增速最快。2008年,虽然受金融危机影响,国内互联网数据中心增长率下滑,但仍达39.1%。目前增长速度基本恢复到近50%。我国的数据中心市场三大基础运营商占有过半江山,市场占有率在60%以上[2]。正是因为云计算市场发展如此的火爆,越来越多的通信厂商倾向于应用这种技术,不仅能够带来产业规模的扩张、升级与转型,同时还会加强与各个产业链环节的密切合作,最终形成一个完整的积极发展的良性生态产业链,成就移动通信行业的美好未来。
2.云计算的技术路线
云计算技术路线主要以大规模并行运算和虚拟IT资源池为主。大规模并行运算的典型代表是谷歌公司,在全球谷歌有超过一百万台的服务器,这些服务器每天都需要处理海量数据,为降低运营成本,更好的占领全球市场,谷歌就采用了这种云计算系统做数据存储和处理,成本的降低带来的无疑是竞争实力的增长。虚拟IT资源池主要是通过将IT资源虚拟化形成资源池,以出租的形式提供给用户使用,其中亚马逊公司推出的弹性计算(EC2)、简单存储服务(S3)等服务就是这类路线的典型代表。亚马逊应用这种技术无疑大大提升了系统资源的综合利用率,而客户只需要一张信用卡就可以使用这些资源,形成规模化、集中化效应后,在使用方面更加便捷。这种云计算服务无疑刺激了亚马逊的业务增长和收益,在2009年底,亚马逊再一次拓展了服务器数量,这无疑是云计算服务具有优势应用前景的最佳证明[3]。
二、云计算在移动通信行业的发展前景
云计算技术的出现,对于移动通信网络的发展来说意味着成本的降低、集中化和规模化效应,是未来业务创新的重要技术支柱,也是移动通信行业的发展福音。传统移动通信行业发展中有四大弊端,分别是系统利用率低、扩展能力低、系统部署周期长和性价比低,正是这四个因素,限制了通信行业的拓展与升级。竖井式的业务系统和IT支撑系统限制了不同系统间的资源交流与共享,资源利用率低、能效低,运营建设成本高。传统Scale-Up扩展方式只能通过更换设别来拓展容量,投资效益低,业务连续性受影响,且因组成设备采购、建设、布置周期长,在应对市场变化发展的灵活性上也欠佳。这些弊端造成了通信行业经营和发展的低性价比,一度使国外跨国公司垄断了我国的通信市场,国内企业竞争能力低下,整个通信行业的发展都处于缓慢的进步状态,但是云计算的出现彻底改变了这种局面,通信行业运营商系统运行效率有了革命性的变化,建设和运营成本大大降低。
云计算技术为移动通信行业的发展带来了革命性的转变,技术创新带来了新的发展机遇。IT支撑系统在通信行业中的重要地位决定了云计算缓解系统存储、处理数据压力和容量上的迅速增长等优势会吸引更多的投资,配合建设和运营成本的降低无疑将会给行业带来质的飞跃,行业将有更多的投资用于技术升级、开发、更新换代,通信行业升级和规模拓展是必然,精细化运营成为潮流。增值业务系统中,云计算技术可以让不同业务系统共享资源池,通过提高资源利用率。云计算的应用无疑会促使网络资源服务向水电服务一样变得快捷、方便,更加完善、全面的提供给用户,在满足用户需要的同时为通信行业发展创造巨大的利润。让IT资源的使用变得像水电一样方便,这不仅是移动通信行业对于未来云计算技术使用的期望,同时也是这种技术将会给我们带来的美好未来。云计算模式带来的全新服务模式,本质上可以说是计算与存储功能从桌面到网络客户端的迁移和资源的动态伸缩,本质上降低了网络服务成本,提升了运营效率,能够更好地为移动通信行业的运营商创造收益的同时,满足人民群众日益提升的网络资源服务需求,可以说,正是统一的开放的云计算业务平台的出现,让现代网络服务和移动运营商有了更好的服务于竞争武器,在运营商优势资源的辅助下,现代网络服务逐渐以共赢合作的模式为主,网络上台环境和信息化变得更加高校,更多的用户与开发者参与到这一过程中来,不仅促进了通信行业运营商的传略转型,广大网络用户也在这个转型的过程中享受到了更多优势的服务。
全球IT产业目前最热门的技术就是云计算技术,这种技术的出现和应用带来了信息产业的革新与飞跃,随着其应用领域和影响力的扩大,这一领域内的基础设施和平台建设逐渐变得越来越具于是,使通信行业运营商面临众多挑战与机遇的同时,开始了行业的转型发展。在2011年我国互联网行业举行的“云计算产业发展高层论坛”上,来自各大研究机构、通信运营商和互联网行业各环节领域的专家与学者共聚一堂,对云计算技术的未来发展前景做了讨论。他们一致认为,云计算技术不仅仅意味着一种新技术的应用,同时也会成为移动通讯行业转型与发展的利器。云计算技术所代表的未来通信技术和信息服务方式的发展趋势,使得虚拟化技术、分布与并行计算等技术不断成熟,不仅更好的扩大了用户群,提供了优质的服务,同时让互联网服务模式变为主流,引导了移动通信行业发展的趋势[5]。
云计算技术在移动通信行业的应用,不仅有利于其自身业务能力的增强,降低生产成本,提升运营效率,利用统一的平台架构和平台的开放性,从外部引入开放创新力量,形成新的生态系统,在通信行业内开展大规模的低成本、高效率网络运营服务,为云计算技术未来在移动通信行业的发展创造更好的前景。
参考文献
[1]冯毅.浅谈在云计算平台下企业电子商务的发展[J].中国高新技术企业,2011(24).
[2]王健,莫敏.云计算和个人数字图书馆[J].当代图书馆,2011(02).
[3]姚天祥,徐运红,刘双霞.云计算在中小企业的电子商务中的应用研究[J].电脑知识与技术,2011(14).
【关键词】云计算 服务器 虚拟化技术用
在人类现代化建设进程的不断拓展中,应用云计算技术进行系统远程控制,并进行信息演算,已成为整体云计算的一项重要指标形式,面对虚拟化的基层建设设施,在进行服务器内部的虚拟化科技按需模式建设上,就原有的资源能力提升限度,还需要提高服务器自身的有效利用率等。下面针对其建设的技术要求进行简要分析。
1 云计算虚拟化技术的发源
从现代信息化建设的形成模式来看,其发展应追溯到上世纪六十年代末,次啊逐渐形成,并在虚拟化的服务操作系统中,对硬件进行相应控制。在这样的控制环境下,允许其进行相应的移动等操作。而对于服务器的管理员,则通过虚拟机进行相应的操作,即可获得相应的硬件维护,而其时间主要定在周末的渗液进行定期的硬件养护工作。
在进行单内核系统的操作中,应用单一途径进行服务器管理,并完善对服务器自身利用率的相应建设,在服务器内部版本的建设方面,应用基层版本进行对比解决,同时按照相应的操作系统进行问题内部的分析,在结合虚拟化服务器建设的过程中,根据应用程序的开发性进行服务调整,并保证在单一的服务器上,能够进行相应的程序运行,对于数据的中心空间影响调整,也应建立在对系统超负荷运转作用的电荷承载控制基础上。
在进行信息服务的利用率调整上,根据全隔离状态下的安全性评定检测,同时根据虚拟化的服务保护装置进行硬件保护,并根据实际的利用形似进行多层次的保护,并结合硬件的保护作用进行工作负荷上的调整,同时保证在低碳足迹情况下的保护作用,同时根据虚拟化
的全面改革进行系统化的系统管理,并根据存储的网络空间进行安全操作应用开发。
2 虚拟化结构体系的分析
2.1 什么是虚拟化结构
就现代虚拟化的结构来看, 主要在于对数据中心的多个层次使用层次,而对于不同数据中心结构,其中最少的七层虚拟化模式,也诸如图1结构所示。
而对于服务器的虚拟化,还需要通过操作格式上进行实物与虚拟物之间的连接,并保证两者在连接过程中的各方位控制,根据软件的虚拟化平台进行综合评价,从而实现对不同层次上的信息应用。在操作中,需层层递进,并根据测试的开放目的进行整理调控,以此实现对虚拟模式结构的完整性调整。在测试的开发试用中,还需要满足图2的结构目的。
通过图2的结构进行运行操作后,即可满足实际的操作应用,并建立健全的技术控制,为后续的性能应用等,都能够提供较好的性能保障。在进行存储的虚拟化应用上,应用虚拟硬盘进行数据存档,可更有效的确保信息数据的存储应用,极大的增加了信息数据的存储量。
2.2 虚拟化体系的具体应用
在进行云计算的虚拟化运行中,根据数据中心的体系结构进行调整,不能够针对其虚拟化的本体结构进行信息分析。
在使用这一结构进行虚拟化的应用过程中,需要内阁制特定的结构构造进行逐层调控,并根据物理层以及组间的层次资源进行资源控制,并结合不同的存储层进行虚拟化技术的调配分析,并结合虚拟的资源调控逻辑进行单元分析,完成对分配层内部的虚拟化服务管理应用。在不停层次的应用管理上,通过静态与动态结构的虚拟网络创建分配,从而在基层上完成对功能创建功能的有效建设,以此来完善对基层结构的有效创建。
3 虚拟化技术的安全隐患问题
云计算技术为现代社会的发展提供了更加便利的发展空间方向,但是在这样的大环境下,自身的安全隐患,也就成为了最为主要的虚拟技术问题,在结构上,严重的威胁到了安全使用措施的自然实用性,并在资源的结构的管理中,不能更为有效的确保对虚拟服务产品的稳定性运用,对基层结构的框架保护,都有很大的影响,并且这一影响,对产品的生产规模等,都会产生较大影响。在进行安全防护应用中,其主要防护策略集中在以下几点。
3.1 核心数据的保护
为完成对网络数据的保护,就需要针对数据库的核心数据进行备份,以保证在受到外来信息的入侵过程中,能够及时的恢复受攻击前的设备数据,并在一定程度上完善对不同信息数据的有效控制。这对于信息数据的安全性管理方面,是能够极大的促进数据库更新的一项重要安防措施。
3.2 操作系统的保护措施
为保证系统操作正常,需要为主机的服务器系统进行最高等级的安全防护供应,并以此来确保整个网络的信息安全性,对外来入侵病毒引擎进行及时的查杀,从而确保云计算的虚拟操作系统的整体安全性。
3.3 外部访问保护措施
在云计算服务系统的运行中,其主要目的就在于对外部信息的访问应用,并结合内部资源进行虚拟配置调控保护,一次来建设一个较为有效的管理措施,依据远程访问实现对虚拟环境的专网连接应用,根据安全套结的数据信息应用,从而实现对不同加密信息的有效管理,并以此实现对服务器内部服务信息的满足。
综上所述,在进行现代云计算系统的安全运行中,需要结合实际的应用需求进行全面的安全体系建设,并减少因新环境下导致的严重事故发生。
参考文献
[1]李亚琼.宋莹.黄永兵,一种面向虚拟化云计算平台的内存优化技术[J].计算机学报,2011,34(4).
[2]李刚健,基于虚拟化技术的云计算平台架构研究[J].吉林建筑工程学院学报,2011,28(1).
[3]朱弘飞.邹启明.陈章进,基于虚拟化技术的云计算实验室设计与实践[J].电脑编程技巧与维护,2015(19).
作者简介
姚凯(1979-),男,黑龙江省哈尔滨市人。硕士学位。现为沈阳工业大学图书馆工程师。研究方向为虚拟化服务器。
1云计算技术
1.1云计算的概念
云计算(Cloud Computing)是一种基于internet的计算,它是在分布式处理.并行处理,网格计算等基础上提出的一种新型商业计算模型,是一种新兴的共享基础架构的方法。它是面对超大规模的分布式环境,其核心思想是通过网络将庞大的计算处理程序自动分拆成无数个较小的子程序.再交由多部服务器所组成的庞大系统计算分析之后将处理结果回传给用户。其最终目的是充分利用互联网资源。建立功能强大的计算中心。并基于此提供多种多样的计算服务,使用户能够在不同时间、不同地点便捷的享受各种服务。
对于图书馆人而言,虽可能不大理解云计算的内涵,但或多或少已经体验过或正在使用云计算服务,如googleDoes、Facebook等。重要的是理解云计算实质上是一个有关数据和运行数据计算设备范式如何转变的问题。这些问题与数字化生活始终紧紧相连。而云计算,把重点转到远离这些设备能够有效地存储数据和能够运行的应用和设备上,提供了最简单的获取数据和应用程序,这些存储在不同的地方的互联网上。但这些数据怎么放?有相应的技术保证才行,一定不是说把所有的数据放到一起才是云计算!云计算的“云”最根本的是虚拟化,是虚拟化计算!虚拟化并不是把所有东西放在一个地方才叫虚拟化。
1.2云计算在图书馆中的五大利好
1)超强的计算能力:通过一定的协调调度。云计算模式可以通过数万乃至百万的普通计算机之间的联合来提供超强的、可以与超级计算机相抗衡的计算能力。使用户完成单台计算机根本无法完成的任务。在“云”中,使用者只要输入简单指令即能得到大量信息。因为在云计算模式中,人们不是从自己的计算机上,也不是从某个指定的服务器上,而是从互联网络上,通过各种设备(如移动终端等)获得所需的信息,因此其速度得到了质的飞跃。
2)以用户为中心:在云计算模式中,相关的数据存储在“云”之中,用户可以在任何时间、任何地点都可以以某种便捷、方便、安全的方式获得云中的相关的信息或服务。虽然在“云”里有成千上万台计算机为其提供服务,但对于“云”外的用户来说,他看到只是一个统一的接口界面,用户使用云服务就如通过互联网使用本地计算机一样的方便。
3)实现绿色数据计算:人们需要监管能力更强的计算模型,来充分提高计算效率,不仅仅是计算资源的利用率,而且是从物理上降低设备能耗。云计算的出现大大加快了实现绿色数据计算的步伐。
4)降低了数据外泄的可能性:这也是云计算服务商讨论最多的一个优点。在云计算之前,数据容易被盗,而随着云计算的推广以后。用户可以把自己的数据放在“云”中,只要用户能够接人互联网就能够根据需要随时存取,为网络应用提供了几乎无限多的可能,为存储和管理数据提供了几乎无限的空间。
5)经济实惠:云计算中,用户只需花少量的钱来租用相关的云服务商所提供的相关服务即可。它可以让用户利用很少的投资获得较大的回报。不必担心自己所购买的IT产品被淘汰,因为具体的硬件配置和更新都是由云服务提供商来提供的。用户所需做的只是通过各种设备享受云服务所提供自己需求的信息、知识、服务等。
目前国外诸多图书馆组织与协会已在探讨图书馆如何使用云计算,比如图书馆使用云计算提供用户个性化和本地化信息寻求的模式?云可以节省资金和资源使图书馆利用计算机设备更有效吗?用户如何与云交互?我们的服务可能需要修改,以适应新出现的用户模式?有一点是肯定的,无论以何种方式,我们认为对图书馆计算基础设施和架构均需要改变,以便有效地利用云计算。云计算时代已经到来,图书馆需要开始思考如何调整服务,以便有效地适应用户与图书馆互动。
2云计算技术在图书馆中的潜在价值
作为一种新兴的、受到全球关注的技术。云计算技术一经推出,就得到了有关人士的推崇。目前,各有关厂商都在积极走在研制第一线,打造属于自己的云计算产品与服务。例如:IBM推出了“改变游戏规则”的“蓝云”计算平台,为客户带来即买即用的云计算平台。它包括一系列的自动化、自我管理和自我修复的虚拟化云计算软件,使的来自全球的应用都可以访问分布式的大型服务器池;Sun公司推出“黑盒子计划”为政府,企业和大学的数据中心随时提供额外的计算能力;国内杀毒软件厂商如瑞星等部署应用了自己的云计算安全平台。可以说,云计算技术也必将在作为数据中心之一的图书馆中得到广泛的应用,而图书馆也必将在即将到来的云时代中获益。
图书馆对于云计算而言.通常有两种角色:一方面是云计算的使用方、受益者,另一方面又可以做云服务的开发者、提供方。前者是作为一个应用机构,后者则是作为向读者提供服务的知识中介。
结合云计算的特点及图书馆的实际情况,云计算技术将给图书馆带来以下重大的转折旧。
1)确保图书馆服务器的正常运行。现在图书馆中的数据都集中在本馆内的服务器上,而一旦服务器出现故障,图书馆无法给用户提供正常的服务,更严重可能导致数据的丢失。在云计算模式中,“云”中有上百万台服务器,因此即使“云”中的某台服务器出现故障,“云”中的服务器也可以在极短时间内,快速将某台服务器中的数据完全拷贝到别的服务器上,并启动新的服务器来提供服务,从而使图书馆真正实现无间断的安全服务。
2)以极低的成本投入获得极高的运算能力,克服服务器访问限制的瓶颈。普通的服务器的相关硬件资源都有一定的限制,若服务器同时响应用户的数量超过了自身的限制将导致服务器的瘫痪。因此,为确保服务器内数据资源的安全性及服务器的可靠运行。图书馆对服务器的最大服务响应数量及接入终端数量等都进行了一定的限制,如果有数万用户同时使用图书馆中的电子资源,有的用户的访问将出于安全的需要而不被响应。如果图书馆想满足这部分被限制的用户的请求就不得不花费大量的资金购买更高级别的服务器。而应用云计算技术,通过支付少量的费用,图书馆就可获得云模式中百万台服务器提供的服务,用户的请求便可在毫秒的时间内获得响应,从而使图书馆以较低的成本获得较高的效益。
3)在更大程度上进行信息资源共享。通过云计算模式,相关的图书馆之间可以共同构筑图书馆的信息共享宅间,这样众多的图书馆就可以分享由大量系统连接在一起而形成的基础设施,而不必更新相关的硬件,图书馆的运行成本在大大降低的同时效率却大幅度的提高。在“图书馆云”中,通过云计算技术,可以随时地获得其他图书馆的资料,使用户的信息需求获得极大的满足。
4)降低有关的维护费用。云计算对用户端的设备要求最低,使用起来也最方便。为了确保网书馆工作正常平稳的运行,图书馆人员需要经常对图书馆的计算机、服务器等终端进行维护、升级和更新。由于云计算模式对于用户终端的配置没有限制。因此,有关的技术人员不必担心需要升级图书馆的相关硬件,因为在“云”的另一端,有专业的管理人员帮你维护硬件,这样工作人员的工作强度就会大大降低。
5)信息更新快。在传统的图书馆服务模式下,用户一般必须使用计算机才能利用图书馆的电子资源。而运用云计算模式,用户使用手机、PDA等设备也可以使用图书馆提供的电子资源服务。图书馆数据库经常在修改添加,相互合作的图书馆每天都有新的信息增加到数据库中,因此用户从图书馆数据库能检索到世界上最新的资料和信息。只需图书馆每个月按照服务类型和实际的使用星付费,如同抄水电煤气表一样,对管理者而言是完全透明的。甚至这个款项是直接从政府采购的帐户中直接划转。
3云计算技术在图书馆应用中的瓶颈问题
虽然云计算技术目前还处于商用的初级阶段.还有许多问题困扰着云计算服务提供商。随着云计算技术进一步发展,以及云计算理念被用户的广泛接受,云计算技术必将成为最为重要的基础设施,基于云计算平台的应用也将成为人们最重要的选择。作为图书馆工作人员需要认真追踪研究以下几个方面:
1)需要确认是否把整个图书馆资源放到“云”中。从理论上说,利用云计算技术,用户只需要通过本地终端就可以通过互联网使用图书馆的相关资源。但实际上,为了安全和稳定。也为了在“云”服务中断或失效时,图书馆仍然能够正常地提供相关的服务,图书馆显然不能把所有的数据资源都放在”云“中.必然要继续在本地保存一些常规的重要的数据依此来作为“云”数据的一个备份。因此,云计算模式并不会完全推翻图书馆现有的数据部署模式,而是在保留原有模式的基础上,使现有的部署模式与云计算模式进行融合,作为现有部署模式的有效补充。图书馆应对现有的数据进行整理,通过研究来确立哪些数据资源可以放到“云”中,哪些数据必须在图书馆现有的模式中予以保留,这是值得图书馆员需要认真研究的一个方面。
2)数据据位置问题。在现在运行的系统中,许多用户并不清楚自己的数据储存在哪里。用户应当询问服务提供商数据是否存储在专门管辖的位置,以及他们是否遵循当地的隐私协议。所以在建设图书馆这样的公共服务机构的数据库时,可以由国家来主导,成立专门的机构来负责“云”的建立。
3)版权问题。在云计算模式中,各个加入云计算模式的图书馆之间可以通过有关的协议共享彼此的信息资源.就像用户使用本馆的电子资源和使用他馆的电子资源一样。因此在这里带来了版权纠纷问题。因此,图书馆界应针对在云计算模式下的信息资源共享中引起的版权纠纷问题制定切实可行的方案,从而方便用户使用各馆信息资源。
4)所网络的建设问题。由于云计算也是建立在网络的基础上,所以网络的畅通与否就关系到图书馆的资源能否顺利的利用与共享。这是最基础,也是最关键的问题。
4总结
关键词 云计算;数据存储;分析;计算机
中图分类号:TP393 文献标识码:A 文章编号:1671-7597(2014)07-0071-02
近年来,云计算越来越多的出现在大家的视野里,人们给予了云计算极大的关注。云计算会代替传统的计算机算法,这一理论也被认为是未来发展的必然趋势。在传统的模式下,工作人员为了使信息进行交互,一般都会在本地进行数据的存储和处理。为了更好的保证数据调取的稳定性,企业需要购买各种硬件、软件基础设施,而且还需要对这些设施进行维护。但是由于存储和处理的数据量在不断的加大,所需要的存储空间就越来越大,这样就会大大提高企业的成本。但是这些并不是企业需要直接面对的,为了完成他们需要完成的业务,却不得不为此投入大量的成本。
随着计算机技术,信息处理技术不断的发展,人们可以不用把大量的数据技术放在自己的计算机上,可以放在别人的计算机上或者是远程的服务器上,因此企业就不需要投入大量的资金购买存储设备,完全可以通过互联网根据自己的需求找到存储在远程设备上的数据,于是云计算初步模型就出现了。
1 云计算与云储存
1)云计算。在互联网的技术条件下提供了云计算的一种技术形式,云计算可以提供动态变化的能够伸缩的并且以虚拟为特点的计算模式。“云”就是一种比喻,是一个抽象的概念,实际上是计算机和互联网在起作用。
通过云计算把大量的数据都放在计算机上,这个计算机不是指本地的计算机,而是远程的服务器,企业可以根据自己的实际需求,对计算机的存储系统进行访问,企业可以把大量的信息资源都转换到客观应用上去。也就是说,计算机只是成为了一个简单的终端,不需要进行任何的计算或者是存储,直接把主机功能交给云端。
2)云存储。在云概念的基础上延伸出了一个新的概念那就是云存储,云存储与云概念十分相似,它以分布式文件系统以及网格技术作为基础,以集群应用,借助应用软件把计算机中的各种存储设备进行有效的集中,让彼此能够协同合作。它的功能就是对外提供相关的数据存储以及业务访问。本质上说来,对于当前存储模式的创新就是云存储。云存储也是特殊的构架服务,具体来说,一些广域网或者是互联网对于应用者来说具有透明性。相关的应用程序软件是云存储的关键之处,在存储设备之间进行有机的结合,通过这些有效的软件使设备与设备之间进行服务的转变。
2 构建在云环境下的数据存储体系
在实际操作的过程中,数据存储体系包括数据中心和云服务接口以及服务协议等,数据中心是在云环境下实现数据存储的基础,由存储管理、分布式文件体系和存储备份组成。云存储设备既可以是在企业的发展过程中所专门应用的存储设备,也可是PC,这个系统的设计依据的基础是客户机和服务器模式。经过检验这些确实可以完成大量数据的存储工作,并且效果也非常理想。
1)服务器的结构。云计算的组成部分中最重要的是存储服务器架构。在云存储体系构建之前,应该首先构建云存储服务器架构,这个可以根据架构技术来实现,这些架构技术是多样化的。在NAS这个文件存储系统中,每一个节点都是一个相互独立的个体,文件是这个系统中最小的单位。在集群中,如果文件可以完整的保留,那么其数据信息也会有效的保存在集群的特定的点上,文件虽然比较多,但是会被重新定义到一些另外的节点上,这样信息就显得太过繁杂了。在实践的过程中,人们可以发现,SNA作为存储系统的一块儿,如果有某一个文件发出请求,每一个节点都会对该文件的不同数据块进行访问,它能够有效的对用户的某一种需求进行及时的处理。这种存储结构比较适合在云服务器当中使用,它可以在一定的范围内进行扩展,而且传输的效率也比较高。
2)服务器之间的数据传递。在当前的存储系统的环境下,一些存储系统可以进行数据之间的传送协议,异构的平台之间的信息可以进行有效的资源共享。在计算机的网络系统当中,程序和数据库的优化问题是需要我们共同考虑的。在使用数据库的时候,存储过程是必不可少的,它提供了一种更加高级的特性。它可以传递一些函数或者是逻辑表达方式,这样就可以帮助程序人员来处理一些比较复杂的任务。它的存储过程也比一些别的程序快很多,如果存储的过程发生在本地的服务器上,那就可以减少在执行和操作过程中的宽带传输和执行命令的时间。数据库系统可以分页显示数据,执行一个命令会产生几万种结果,这些结果是不可能一次性的直接输出到客户端上,可以采用分页显示来解决这个问题。分页显示主要有两种,一种是在数据库的查询所匹配的记录一下子存储在内存储器当中。另一个是根据用户的需求,从这些匹配的记录当中显示指定的记录。这两者是有一定的区别的,前一种是把所有的记录一次性的写到内存里,再使用分页显示,后一种是指通过指定数量的查询互相匹配的记录然后写入到内存当中,接着分页显示。这个系统使每一个要求只需要返回一个页面的数据,效率大大的提高了。
3 关于企业的存储构建方案
1)商业化的云存储系统。在一些数据领域数据库已经研发出一系列的商业化存储产品,主要建立在云存储的相关理论基础上。一些最早就致力于云存储研发的公司推出数项拥有自主知识产权的存储技术,而且还提出了云存储系统的构架方案。从用户的角度出发,在相关协议下可以实现自身数据的存储和提取。可以提供一些简单的队列服务,在一些虚拟的主机之间信息可以互相发送好接收,而且一些支持的服务可以为用户提供专业的存储接口。一些公司希望他们提出的数据库分布式的编程环境,可以适用于本公司的具体情况,还可以适用于云存储的应用开发商提出的关于存储的一些应用服务,可以起到一箭双雕的作用。
2)构建企业自身的数据中心。对于许多大型企业来说,数据的安全性是最重要的,数据中包含着许多客户的信息,这些客户的信息一定不能泄露,泄露了以后就会面临重大的信誉问题,这个时候如果选择的是租用的云存储服务的话,企业许多的数据资料都需要存储在云服务提供的云数据中心,会面临一定的风险性,所以有一些大型的企业转向一些私有的云存储的云服务提供商提供的云数据的中心,借助这个存储设备也需要大量的资金投入,它是借助私云存储提供的存储设备以及冗余备份系统,所以这种结构并不灵活。作为企业可以选择混合云存储方案,可以把与之相关的关键性的数据作为首要的存储,存到私云存储当中,对于其它的一些数据就可以存储在租用的云存储当中,借用这种存储的方法可以实现存储效用利用的最大化。
4 云计算的环境下关于数据安全问题
为了保证数据的安全性能我们可以采用加密的方式,对于加密的方法有两种:对称加密和非对称加密。实践证明,对称加密的算法还比较成熟,所以应用的范围比较广泛,这种加密的算法、加密和解密都比较容易实现,所以广泛的应用于大量的数据传输,对于非对称加密来说,可以把传统的密钥分为公开密钥和私有密钥,把加密算法和解密算法分开控制,这样可以在计算方法的复杂程度上确保其的安全性。
1)关于加密。当想要对某一个数据进行加密的时候可以通过对称加密算法密匙生成器,通过密匙生成器来随机生成含有校验信息的密匙,再通过非对称加密算法对所包含的效验信息的密匙进行加密。这样就可以把密文统一打包以后发到用户端供用户们使用,这个密文是经过加密算法处理的。除这些以外,对于一些数据量十分大的用户的数据可以通过对称的加密算法对其进行加密。但是对于一些数据量用户较小的用户可以考虑对一些非对称算法进行加密,将这两种密匙和密文数据一块儿存储起来放到云存储中心,对于那些非加密的密匙以及解密的密匙仅仅需要进行保存就行。
2)关于解密。既然可以加密处理,那么就应该对密匙进行解密,这样密码的设立才会更有意义。在对数据解密的过程中,用户首先需要对对称加密的算法进行解密,这种算法是跟非对称加密相关的。这样就可以对密匙进行还原,然后,被还原的密匙根据对称算法对所提供的数据包进行解密,这样可以把所需要的文件进行还原。两种算法需要配合使用,这样才能最大限度的发挥各自的优点,避免某一种算法的不足导致文件不能安全的进行保密。我们的目的是对数据的安全进行保密,可以通过对称密匙对所有的数据进行加密也可以利用非对称密匙仅仅对一部分密匙进行加密。这两种算法互相结合,有效地解决了云计算中所面临的安全问题。
5 结束语
在云计算环境下的数据存储技术给人们带了许多的方便,释放了个人计算机终端的数据存储任务,优化了网络系统结构。云计算环境下数据存储中把对称密匙和非对称密匙结合起来使用,为云环境下的存储技术带来了一定的安全性。这是一种解决安全问题比较可行的方法。随着科技的不断进步,云计算环境下的存储技术一定会有更大的突破,实践应用也一定会更加广泛。
参考文献
[1]李煜民,章才能.谢杰.云计算环境下的数据存储[J].电脑知识与技术,2010(5):32-34.
[2]陈凤萍.云计算环境下的数据存储技术分析[J].硅谷,2013(17):43,29.
[3]张庆华.云存储技术在视频监控中的发展与应用[J].中国公共安全(综合版),2013(17):53-54.
【工业4.0】
工业4.0是在现代智能机器人、传感器、数据存储和计算能力实现突破的条件下,通过工业互联网将供应链、生产过程和仓储物流智能连接,从而实现智能生产的“四化”:供应和仓储成本较小化,生产过程自动化,需求相应速度较大化和产品个性化。
在4.0时代,不仅制造环节的人工将得到节省(机器人为主体的自动化生产连线),前端供应链管理、生产计划(互联网接入,实施管理订单)、后端仓储物流管理(WMS+自动化立体仓库)都将实现无人化以及较低的渠道库存和物流成本。
工业4.0是德国政府提出的一个高科技战略计划。中国的工业4.0就是中国制造2025。在现代智能机器人、传感器、数据存储和计算能力实现突破的条件下,通过工业互联网将供应链、生产过程和仓储物流智能连接,从而实现智能生产的“四化”:供应和仓储成本较小化,生产过程全自动化,需求相应速度较大化和产品个性化。工业4.0的终极目的是使制造业脱离劳动力禀赋的桎梏,将全流程成本降到较低,从而实现制造业竞争力的较大化。在4.0时代,不仅制造环节的人工将得到节省(机器人为主体的自动化生产连线),前端供应链管理、生产计划(互联网接入,实施管理订单)、后端仓储物流管理(WMS+自动化立体仓库)都将实现实现无人化,以及较低的渠道库存和物流成本。回顾前三次工业革命,实际上是应用机械、电气和信息技术等越来越先进的工具逐步将人力从生产中解放,从而提高生产效率、降低生产成本的过程。
【工业4.0的关键内容】
工业4.0有一个关键点,就是"原材料(物质)"="信息"。具体来讲,就是工厂内采购来的原材料,被"贴上"一个标签:这是给A客户生产的XX产品,XX项工艺中的原材料。准确来说,是智能工厂中使用了含有信息的"原材料",实现了"原材料(物质)"="信息",制造业终将成为信息产业的一部分,所以工业4.0将成为最后一次工业革命。
【工业4.0两大主题】
1.智能工厂:重点研究智能化生产系统及过程,以及网络分布式生产设施的实现
2.智能生产:主要涉及整个企业的生产物流管理、人机互动以及3D技术在工业生产过程中的应用等。该计划将特别注重吸引中小企业参与,力图使中小企业成为新一代智能化生产技术的使用者和受益者,同时也成为先进工业生产技术的创造者和供应者
【智慧工厂】
智慧工厂是在数字化工厂的基础上,利用物联网的技术和设备监控技术加强信息管理和服务;通过大数据与分析平台,将云计算中由大型工业机器产生的数据转化为实时信息(云端智能工厂),并加上绿色智能的手段和智能系统等新兴技术于一体,构建一个高效节能的、绿色环保的、环境舒适的人性化工厂。
【智能工厂的三大技术和特点】
三大技术:
1.无线感测技术
2.控制系统网络
3.工业通信无线化
特点:
1.制造过程管控可视化。由于智能工厂高度的整合性,在产品制造上,包括原料管控及流程,均可直接实时展示于控制者眼前。
2.系统监管全方位。通过物联网概念,以传感器做连接使制造设备具有感知能力,系统可进行识别、分析、推理、决策以及控制功能。
3.制造绿色化方面,除了在制造上利用环保材料、留意污染等问题,并与上下游厂商间,从资源、材料、设计、制造、废弃物回收到再利用处理,以形成绿色产品生命周期管理的循环。
【智能生产】
智能生产是一种由智能机器和人类专家共同组成的人机一体化智能系统,它在制造过程中能进行智能活动,诸如分析、推理、判断、构思和决策等。通过人与智能机器的合作共事,去扩大、延伸和部分地取代人类专家在制造过程中的脑力劳动。它把制造自动化的概念更新,扩展到柔性化、智能化和高度集成化。
【云计算】
云计算是一个提供便捷的通过网络访问一个可定制的IT资源共享池能力的按使用量付费的模式(IT资源包括网络、服务器、存储、应用、服务),这些资源能够快速部署,并只需要很少的管理工作或很少的与服务供应商的交互。
简单来说云计算是一种未来信息技术的一种主要架构,服务云+消费端。云端通过集中的资源提供各种服务,各种终端通过互联网接入使用,而不是原来各自维护自己的基础架构。
通俗的理解云计算的“云”就是存在于互联网上的服务器集群上的资源,它包括硬件资源(服务器、存储器、CPU等)和软件资源(如应用软件、集成开发环境等),所有的处理都在云计算提供商所提供的计算机群来完成。
【云计算的特点】
1.按需即取
消费者可以随时按需使用各类云服务,快速交付,并且通过自助的方式,不需要提供商人工参与。
2.随时扩展
通过虚拟化技术,云服务提供商提供规模较大的资源池,服务资源可按需随时进行扩展和收缩。
3.按使用付费
区别于传统软硬件购置的方式,云计算采用按使用付费的模式,让企业IT从资本投资转变为更灵活的运营费用。
【云计算的基本类别】
1.混合云
客户同时使用公有云资源和私有云资源,逻辑上是一个整体,可实现内部互联,既保证了用户的私有性,又能够灵活使用公有云。
2.私有云
客户独占使用云资源池。私有云部署在企业数据中心或第三方托管场所(如电信运营商IDC机房)。
3.公有云
云资源池为所有用户共享,一般通过互联网使用。
【云计算的服务形式】
1.软件及服务
SaaS服务提供商将应用软件统一部署在自己的服务器上,用户根据需求通过互联网向厂商订购应用软件服务,服务提供商根据客户所定软件的数量、时间的长短等因素收费,并且通过游览器向客户提供软件的模式。
2.平台即服务
这是一种分布式平台服务,厂商提供开发环境、服务器平台、硬件资源等服务给客户,用户在其平台基础上定制开发自己的应用程序并通过其服务器和互联网传递给其他客户。
3.基础设施服务
IaaS即把厂商的由多台服务器组成的“云端”基础设施,作为计量服务提供给客户。它将内存、I/O设备、存储和计算能力整合成一个虚拟的资源池为整个业界提供所需要的存储资源和虚拟化服务器等服务。
【大数据】
21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了物联网的边界和应用范围,各种数据正在迅速膨胀并变大。
大数据是一种规模大到在获取、管理、分析方面大大超出传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。如果将大数据比作一个产业,那么这种产业实现盈利的关键在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
【大数据的4V特征】
1.体量(volume):非结构化数据的超大规模和增长,总数据量的80~90%,比结构化数据增长快10-5-倍,是传统数据仓库的10-50倍。
2.多样性(variety):大户数的异构和多样性,很多不同形式(文本、图像、视频、机器数据),无模式或者模式不明显,不连贯的语法或句义。
3.价值密度(value):大量的不想管信息,对未来趋势与模式的可预测分析,深度复杂分析(机器学习、人工智能等)。
4.速度(velocity):实时分析而非批量式分析,数据输入、处理与丢弃,立竿见影而非事后见效。
【大数据与云计算】
云计算的模式是业务模式,本质是数据处理技术,数据是资产,云为数据资产提供存储、访问和计算。当前云计算更偏重海量存储和计算,以及提供的云服务,运行云应用,但是却反盘活数据资产的能力,挖掘价值性信息和预测性分析,为国家、企业、个人提供决策和服务,是大数据核心议题,也是云计算的最终方向。
从技术上来看,大数据和云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
云计算(Cloud Computing)是一种新兴的共享基础架构的方法,通过云计算技术可以将巨大的系统池连接在一起以提供各种IT服务,并可以按需提供资源、收取费用等,因此云计算也被看做是一种新型的资源利用模式。从技术角度看,云是一个包含大量可用虚拟资源(例如硬件、开发平台以及I/O服务)的资源池,这些虚拟资源可以根据不同的负载动态地配置,以达到更优化的资源利用率。这种资源池通常由基础设施提供商按照服务等级协议(SLA,ServiceLevel Agreement)采用用时付费(PPU,Pay-Per-Use)的模式开发管理。云计算使得超级计算能力通过互联网自由流通成为了可能,企业与个人用户无需再投入高昂的硬件购置成本,只需要通过互联网来购买或租赁计算力。
很多因素推动了对云计算的需求:从IT资源利用的角度来看,建设云计算这种超大规模IT资源池可以简化用户使用,降低IT资源的平均成本;从业务角度讲,移动应用、实时数据流、SOA、Web搜索、开放协作、社会网络和移动商务等新应用急剧增长,需要利用大规模的云平台进行支持;特别是对超大规模数据进行数据挖掘与分析的需求,直接推动了云计算的产生和发展。
2 电信行业中的数据分析业务
电信企业是典型的数据密集型企业,保存有海量的用户呼叫数据、WAP与GPRSEI志以及其他业务系统日志等。正确地分析这些数据从而获得有用的知识,能够使电信企业更好地向用户提供服务、发现更多的商机,同时可以分析市场状况,以便于制定营销策略、调整资费策略。因此,数据挖掘技术在电信业中有重要的应用价值。
但进行此类数据挖掘,需要投入大量的金钱和人力,用于购置、维护硬件设备以及购买相应软件。这主要是由于,电信行业中产生的经营日志数据巨大,一般技术无法处理。以话单数据为例,一个较大规模城市每月的数量可以达到50GB,对于大型直辖市,这个数字可能超过1TB。如此大的数据量,传统的数据库工具无法负荷,必须采用专用数据挖掘与分析工具,例如SASEnterprise Miner、SPSS Clementine、IBM IntelligentMinet等,而这些软件一般需要花费百万以上的年费。
不过,尽管这些数据挖掘工具价格昂贵,挖掘效果却仍有待提高。首先,传统数据挖掘工具基本都实现了常见数据挖掘算法,例如文献[2―4]中讨论了基于这些算法的客户流失预测分析方法,然而这些算法的实现都是传统的内存驻留式,所处理的数据也是结构化的数据(通常是某种数据库软件的固有格式),对于非结构化数据无能为力(例如原始日志)。其次,当数据集很大时,建立模型所需要的时间往往很长,所采用的机器往往是小型机等高端设备,虽然投入很大,但处理效果仍受制于单个主机的性能,无法通过分布式方式实现并行处理。
云计算技术可以弥补传统数据挖掘成本高、性能差的缺陷。通过云计算技术,即可以利用已有设备搭建分布式、高性能、可伸缩的数据分析中心,从而节省设备投入和软件投入成本,提高执行效率,为构建低成本、高效率的数据挖掘与分析系统提供了可能性。Hadoop则是构建此类系统的热门技术。
3 Hadoop云计算平台
Hadoop是Apache组织支持的一个开源软件,是Google云计算理论GFS、Map/Reduce、Bigtable的一个开源实现。Hadoop最早作为开源搜索引擎项目Nutch的基础平台而开发,随后成为一个独立的项目而发展。
Hadoop可以使用廉价Linux PC机组成集群运行各种应用,同时保持系统的稳定、高效。它能使编写和运用处理海量数据的应用程序更加容易,其核心组件有3个:一个是HDFS,分布式文件系统,可以提供高效、稳定的分布式存储,隐藏下层负载均衡、冗余复制等细节,对上层程序提供一个统一的文件系统API接口;一个是HBASE,一个大型的分布式数据库,这个数据库不是关系式的数据库,而是一个巨大的按列存储表格,可用来分布式存储半结构化的数据,例如日志数据等;Hadoop系统中最重要的组件则是Map/Reduce分布式处理组件。
Map/Reduce是一个编程模型,用以进行稳定、高效、超大数据量的分析计算。它将一个任务分成很多更细粒度的子任务,这些子任务能够在空闲的处理节点之间调度,使得处理速度越快的节点处理越多的任务,从而避免处理速度慢的节点延长整个任务的完成时间。Map/Reduce模型将分布式运算抽象为Map和Reduce两个步骤,其中Map是把输入Input分解成中间的Key/Value对,Reduce则是把Key/value合成为最终输出。
开发者只需要实现Map和Reduce函数的逻辑,然后提交给Map/Reduce运行环境,计算任务便会在计算机集群上自动、并行地调度执行。运行环境负责分割输入数据、调度任务、自动处理运行过程中出现的机器失效问题,以及协调不同节点之间的数据通信。很多分布式数据运算可以抽象为Map/Reduce操作,图1描绘了Map/Reduce框架的基本工作流程。
4 基于Hadoop的电信业务数据分析系统
基于Hadoop云计算技术,可以构建低成本、高可靠性、高性能的数据分析系统,这在电信行业具有很大的应用价值。本文以“客户流失预测”业务为例,来说明如何基于Hadoop构建实际应用系统。系统主要实现如下基本功能:
(1)用户流失预测;采用现有最为基本的客户流失预测方法;
(2)用户流失原因分析:基于经验值的客户流失原因分析;
(3)自动化数据处理和基于Web的可视化界面。
图2是基于Hadoop构建的实际数据分析系统的架构:
整个系统运行在分布式Hadoop平台之上,数据可通过HDFS进行分布式存储,并通过Map/Reduce机制进行作业调度和分布式处理。由于Hadoop是利用分布式技术对数据进行存储的,因此可承载的数据量将随着集群规模的增加而增长,理论上可存储PB级的数据,非常适合存储电信业务责任编辑:左永君zuoyongjun@rn日志等海量数据。
在Hadoop平台上,开发者只需要编写数据预处理业务逻辑和算法即可,不需要处理分布式计算中的调度、消息等底层逻辑。编程语言基于Java或Python等脚本语言,开发非常方便。通过合适的数据挖掘模型对话单数据进行分析,可以得出用户流失预测概率。在数据挖掘算法方面,流失预测一般采用分类算法如Logistic回归模型对数据进行处理。这种处理一般有三个过程:
(1)数据的预处理(ETL)过程;对原始话单等数据进行预处理,对数据进行压缩、转换和必要的计算, 通常需要较多的步骤才能完成;而传统的数据挖掘中,时间开销最大的步骤,即是预处理过程。
(2)数据训练过程:对已知离网或流失数据进行运算,需要利用预处理后的海量数据进行复杂运算。
(3)概率预测过程:利用训练所得参数。对当前话单数据进行预测,以分析目前用户离网、流失的可能性,并对特定用户群进行筛选、报告等。
云计算技术通过可靠的分布式处理,将传统的单机操作并行化,大大加快了预处理的效率,可以使上述过程更加快捷地进行。
客户端采用基于浏览器的SAAS模式提供分析结果的可视化服务(图3),即预测结果可以通过简洁的Web界面进行查看,并通过图形化和报表等直观方式,向用户展示分析结果。
5 基于Hadoop的数据分析系统的优势
如前所述,传统的流失预测系统存在成本高、效率低、系统可靠性和可扩展性差等问题,利用云计算技术,则可以有效地解决这些问题。基于Hadoop的数据分析系统的优势体现在以下方面:
(1)吞吐量大、运算速剧央、可伸缩性佳
使用云计算技术,实现分布式计算,极大提高了系统吞吐量和运算速度。例如客户流程分析模型中分类预测方法中的相关算法,包括分类预测算法、ETL操作等均基于Map/Reduce实现,并以一种可靠容错的方式并行处理TB级别的数据集。系统可以有效统合多台服务器资源共同进行计算,不会因通信、协调等机制而限制多台服务器发挥作用。其效果可通过系统测试数据体现。
(2)稳定性高
Map/Reduce模型提供了容错、调度机制,保证系统的健壮性。在设计Map/Reduce时,研究人员考虑了很多大规模分布式计算机集群进行含量数据处理时所要考虑的关键问题:容错处理保证了节点失效的情况下计算任务仍能够正确执行;操作本地化保证了在网络等资源有限的情况下,最大程度地让计算任务在本地执行;任务划分的粒度使得任务能够更加优化地被分解和执行;对于每个未完成的子任务,Master节点都会启动一个备份子任务同时执行,无论初始任务还是备份子任务处理完成,该子任务都会立即被标记为完成状态,通过备份任务机制可以有效避免因个别节点处理速度过慢而延误整个任务的处理。
(3)经济、绿色、廉价
基于混合模型的并行二元分类预测方法是基于Map/Reduce机制实现的,所以其只需要普通的PC机组成集群就可以对海量的用户数据进行流失预测分析;而SAS、SPss等工具用的是IBM等商业机器,只能处理少量数据,无法对千万亿级用户展开大规模数据挖掘。因此,相比于SAS、SPSS等工具,本系统具有成本低廉、可扩展性强的优点。
(4)易用性
系统可以通过Web方式使用,较为方便。可通过项目总结出流程化的快速搭建方式,以指导兄弟单位根据需要搭建相似系统。其效果通过试用,以研究报告和文档方式体现。
参考文献
[1]Vaquero L M, RODERO2MER INO L, Caceres J, et al. A break in the clouds: Towards a cloud definition[J]. ACM SIGCOMM Computer Communication Review,2009,39(1): 50-55.
[2]Hung S Y, Yen DC, Wang H Y. Applying data mining to telecom chum management[J]. Expert System with Application,2006,31(3): 515-524.
[3]Wei C P, Chiu I T. Tuning telecommunications call detail to churn prediction: A data mining approach[J]. Expert System with Application,2002,23:103-112.
[4]郭明,郑惠丽,卢毓伟,基于贝叶斯网络的客户流失预测分析[J],南京邮电大学报:自然科学版,2005,25(5):79-83.
[5]Ghemawat S, Gob IQFF H, Leung P T. The Google file sys2tem[C]//Proceedings of the 19th ACM Symposium en Operating Systems Principles. New York: ACM Press,2003: 29-43.
【关键词】云计算 云服务 高校教学 资源共享 数字化
随着当前教育改革持续推进,教育发展与信息技术的结合也日益密切,以云计算为代表的数据服务在当前高校数字化校园建设中占据主流,有利于促进高校教育资源的可持续发展。云计算与高校教育网络的联合使得以“云服务”为主要代表的形式通过在线“云端”服务遍及到广大师生中间,配合高校管理信息化趋势,构建崭新的资源共享模型框架,为高校教育服务,也是高校目前数字化、信息化教育资源网络环境构建的一种重要尝试方向。下面我们以云计算在高校数字化校园建设中的具体应用为例进行探索研究。
一、云计算介绍
云计算的出现离不开大数据时代优势,在现代社会,数据作为一种传递信息的服务形式能够为他人活动提供各种便利,比如上网查询资料、资源共享、数据收集与整合等,数据传递的各类信息都对人们的生活产生深刻的影响,这种影响力得到贯彻的途径即数据服务,可以说,云计算是大数据时展到一定阶段必然会出现的产物。云计算本质上是数据服务,也可以进一步理解为虚拟化服务和桌面云服务,即通过云计算理念将桌面作为服务形式提供给用户,可以说是SaaS(软件即服务)内容的一个重要构成部分。这种服务的优势在于安全性能更佳、硬件成本和管理成本降低,能够实现快速部署,支持功能强大,管理简单,容灾能力强,业务连续能力佳,用户所需花费更低。
云计算的出现为高校整合教育资源提供了崭新的途径与方法,云计算技术参与构建教学资源网络平台将会优化广大师生的网络学习环境和资源共享环境。将云计算应用于高校资源库的建设有利于为教学模式创新提供强有力支持,提升教学资源利用率和利用水平,为现代教育信息化理论的丰富和实践提供宝贵经验。作为以服务为核心思想的大数据时代,采用云服务成为了发展主流,其显著的优势使得能够在高校信息化进程建设方面提供切实保障。比如云端数据的储藏,不仅有效节省了空间资源,通过建立权限不一的云端服务平台实现资源的高度整合与共享。云端提供的软件服务将无数软件置于服务器,解决了各种标准和协议的网络准入,并且可实现多人网络协作使用,这种数据服务促使桌面云服务有了更好的发展空间与市场。新时期云计算、云服务的出现满足了广大用户多元化、多层次的网络需求,个人定制服务成为主流,这种更加人性化的设置和服务无疑将会促使资源网络的构建变得更加普遍和强势,用户通过个人账号即可享受高质量的数据服务。
二、云计算与高校教育的结合
云计算与教育结合已经成为当前主流,以云服务为代表的数据服务在近年来和众多教育机构进行了联合实践。比如美国的北卡罗纳州,西蒙公司在美国格雷汉姆小学进行了云计算项目的尝试,满足校内教学资源共享和数字化学习需求,为超过六百余名的师生提供了虚拟桌面云服务,在为他们提供丰富的学习材料的同时,构建了高效共享的资源网络,师生们无论身处何地,都可以通过计算机访问虚拟桌面服务。国内,众多高校也与网络公司进行了云计算合作项目,比如北京师范大学的“教育大发现”就是一个典型的云服务工具,它通过利用google、维基、好看簿等免费云服务工具将其与校内资源共享平台相连接,形成了一个高质量的学习研究社区,成功为校内教学科研提供了优质服务。当前教育领域与数据服务的高度结合促使越来越多的结合实践将重点放在了教育研究与云计算、云服务的结合上,学校方面将个人信息处理迁移到“云”上的倾向越来越强,这不仅仅是教育信息化发展过程中的战略性眼光和前瞻性实践,同时也是对云计算时代潮流的把握,是探索崭新教学方式、资源建设和共享的重要步伐,是利用信息技术辅助教育的关键举措。
三、云计算在高校教学资源网络构建中的应用
云计算与高校教育资源服务的结合带来众多优势,比如当前积极提倡和推广的高校教学资源网络的构建。作为当前数字化建设重要课题,对于高校而言,云计算的应用能够降低学校软硬件建设成本,提升资源建设和使用质量。要知道,云计算对客户端要求并不高,仅需要普通的上网配置就可以实现众多服务,无需频繁对硬件设备进行更新换代,应用成本大幅度降低,普及频率大幅度提升。这种以云服务、桌面虚拟服务等为主要形式的服务,可以随时随地展开学习活动,降低了教学对空间环境的限制,学生通过电脑、手机、PDA等就可以在线查看教学资源,也可以将学习任务带回家,被储存在云端的数据可以随时获取。云端数据存储相较一般个人资源存储在安全性上更加有保障,专业高效的安全存储无疑是最佳选择,不需要担心数据的损坏或丢失等问题,更有利于实现数据的共享。目前国内已经有不少企业和教育机构选择了这种信息服务形式,数据服务与教学资源网络构建的结合将其众多优势服务于教学,利用其强大的协同互补能力提供共享网络构建,将个人乃至高校置入同一个资源网络“云”服务中,实现真正意义上的大范围的资源共享。
就目前来说,云计算环境下高校数字化教学资源网络的建立还面临着不少问题,比如教学资源分布不均、更新速度慢、共享程度低、维护建设成本高等,这些都困扰着高校教学资源数字化网络环境的建立。从这些问题入手,应用数据服务优势从多方面予以解决,是高校加快、加强数字化建设的必然途径。从总体架构上来看,国家教育部当前筹建的“互联网应用创新开放平台”是高校教学资源网络模型环境建立的最佳依托,根植于学校自身信息化建设成果,结合统一身份认证平台和众多门户网建设服务,从存储层、业务处理层和服务层分别入手,完成环境建设。高校教学资源网络模型架构见图1。
国家教育部筹建的创新平台为高校应用创新和资源共享提供了良好的基础,高校通过依托这个平台的优势来完成自身的教学资源网络模型环境建设,将会事半功倍。这个专业化的平台服务层面上将会广大用户提供一站式的资源下载、上传、共享等服务,利用分布式只能处理技术完成业务处理并快速响应大量用户的服务申请,利用数据库技术和NOSQL(非关系型数据库)技术完成海量资源的存储。通过崭新数据平台服务于教学,利用数据交换的方式获得基础用户数据,以平台为用户出入口,提供资源浏览、共享和下载服务,并且对注册账号拥护提供个性化服务,将平台与学校门户系统相结合,利用统一身份认证系统进入教学资源网络,从而构建起优质的服务环境。目前来说,教学资源平台的云计算环境可采用Hadoop作为基础软件,采用关系型数据库服务于用户基础数据和教学资源管理,NOSQL技术加上分布文件系统,不仅降低了对软硬件的要求,且容错性高,尤其适合超大数据集的应用需求,高访问量数据交换,解决数据服务、桌面云服务等面临的通信协议解决难等问题。
比如根据高校需求购买高质量的优势教学资源,直接入库,在导入属性标志后放到资源平台上供用户使用,或者整理网上免费资源,整合筛选成优质资源提供下载服务,或者依托高校本身强大的科研师资力量自主开发打造特色教学资源,发挥广大师生的教学潜力。在资源展示方面,可参考优质门户网站,设计优质界面,提供便捷服务,方便师生应用索引,通过设置导航、搜索、热门资源、宣传推荐、评价、个性化与管理等多个模块提升广大师生用户体验,打造优质的学校教学资源网络模型,切实提供多样化的优质服务发挥数据服务的优点,加快高校教学信息化建设进程。利用云计算技术服务于高校教学资源整合与共享,能够使得资源管理和利用变得更加高效便利,不过目前这种探索还处在初级阶段,需要深入分析风险问题的基础上解决资源协调、信息安全和资费收取等问题,为信息化进程和水平的进一步提升提供保证。
总之,高校数字化校园的建设离不开云计算的应用,发挥云计算优势建立优质高校教学资源网络,有助于充分、合理、高效的整合资源服务于教育,加快完成信息化、数字化,打造新时代特色高校教育模式,利用越来越成熟的云服务技术切实服务于广大师生。
参考文献:
[1]林伟伟,齐德昱.云计算资源调度研究综述[J].计算机科学,2012,39(10).
[2]张鑫.在云计算环境中搭建安全的数字化校园平台[J].新乡学院学报:自然科学版,2012,29(6).