公务员期刊网 精选范文 大数据技术范文

大数据技术精选(九篇)

前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的大数据技术主题范文,仅供参考,欢迎阅读并收藏。

大数据技术

第1篇:大数据技术范文

关键词:大数据 数据挖掘 方法

中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2015)04-0222-01

1 大数据时代数据挖掘的重要性

随着互联网、物联网、云计算等技术的快速发展,以及智能终端、网络社会、数字地球等信息体的普及和建设,全球数据量出现爆炸式增长,仅在2011年就达到1.8万亿GB。IDC(Internet Data Center,互联网络数据中心)预计,到2020 年全球数据量将增加50倍。毋庸置疑,大数据时代已经到来。一方面,云计算为这些海量的、多样化的数据提供存储和运算平台,同时数据挖掘和人工智能从大数据中发现知识、规律和趋势,为决策提供信息参考。

如果运用合理的方法和工具,在企业日积月累形成的浩瀚数据中,是可以淘到沙金的,甚至可能发现许多大的钻石。在一些信息化较成熟的行业,就有这样的例子。比如银行的信息化建设就非常完善,银行每天生成的数据数以万计,储户的存取款数据、ATM交易数据等。

数据挖掘是借助IT手段对经营决策产生决定性影响的一种管理手段。从定义上来看,数据挖掘是指一个完整的过程,该过程是从大量、不完全、模糊和随机的数据集中识别有效的、可实用的信息,并运用这些信息做出决策。

2 数据挖掘的分类

数据挖掘技术从开始的单一门类的知识逐渐发展成为一门综合性的多学科知识,并由此产生了很多的数据挖掘方法,这些方法种类多,类型也有很大的差别。为了满足用户的实际需要,现对数据挖掘技术进行如下几种分类:

2.1 按挖掘的数据库类型分类

利用数据库对数据分类成为可能是因为数据库在对数据储存时就可以对数据按照其类型、模型以及应用场景的不同来进行分类,根据这种分类得到的数据在采用数据挖掘技术时也会有满足自身的方法。对数据的分类有两种情况,一种是根据其模型来分类,另一种是根据其类型来分类,前者包括关系型、对象-关系型以及事务型和数据仓库型等,后者包括时间型、空间型和Web 型的数据挖掘方法。

2.2 按挖掘的知识类型分类

这种分类方法是根据数据挖掘的功能来实施的,其中包括多种分析的方式,例如相关性、预测及离群点分析方法,充分的数据挖掘不仅仅是一种单一的功能模式,而是各种不同功能的集合。同时,在上述分类的情况下,还可以按照数据本身的特性和属性来对其进行分类,例如数据的抽象性和数据的粒度等,利用数据的抽象层次来分类时可以将数据分为三个层次,即广义知识的高抽象层,原始知识的原始层以及到多层的知识的多个抽象层。一个完善的数据挖掘可以实现对多个抽象层数据的挖掘,找到其有价值的知识。同时,在对数据挖掘进行分类时还可以根据其表现出来的模式及规则性和是否检测出噪声来分类,一般来说,数据的规则性可以通过多种不同的方法挖掘,例如相关性和关联分析以及通过对其概念描述和聚类分类、预测等方法,同时还可以通过这些挖掘方法来检测和排除噪声。

2.3 按所用的技术类型分类

数据挖掘的时候采用的技术手段千变万化,例如可以采用面向数据库和数据仓库的技术以及神经网络及其可视化等技术手段,同时用户在对数据进行分析时也会使用很多不同的分析方法,根据这些分析方法的不同可以分为遗传算法、人工神经网络等等。一般情况下,一个庞大的数据挖掘系统是集多种挖掘技术和方法的综合性系统。

2.4 按应用分类

根据数据挖掘的应用的领域来进行分类,包括财经行业、交通运输业、网络通信业、生物医学领域如DNA等,在这些行业或领域中都有满足自身要求的数据挖掘方法。对于特定的应用场景,此时就可能需要与之相应的特殊的挖掘方法,并保证其有效性。综上所述,基本上不存在某种数据挖掘技术可以在所有的行业中都能使用的技术,每种数据挖掘技术都有自身的专用性。

3 数据挖掘中常用的方法

目前数据挖掘方法主要有4种,这四种算法包括遗传、决策树、粗糙集和神经网络算法。以下对这四种算法进行一一解释说明。

遗传算法:该算法依据生物学领域的自然选择规律以及遗传的机理发展而来,是一种随机搜索的算法,利用仿生学的原理来对数据知识进行全局优化处理。是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。这种算法具有隐含并行性、易与其它模型结合等优点从而在数据挖掘中得到了应用。

决策树算法:在对模型的预测中,该算法具有很强的优势,利用该算法对庞大的数据信息进行分类,从而对有潜在价值的信息进行定位,这种算法的优势也比较明显,在利用这种算法对数据进行分类时非常迅速,同时描述起来也很简洁,在大规模数据处理时,这种方法的应用性很强。

粗糙集算法:这个算法将知识的理解视为对数据的划分,将这种划分的一个整体叫做概念,这种算法的基本原理是将不够精确的知识与确定的或者准确的知识进行类别同时进行类别刻画。

神经网络算法:在对模型的预测中,该算法具有很强的优势,利用该算法对庞大的数据信息进行分类,从而对有潜在价值的信息进行定位,这种算法的优势也比较明显,在利用这种算法对数据进行分类时非常迅速,同时描述起来也很简洁,在大规模数据处理时,这种方法的应用性很强。光缆监测及其故障诊断系统对于保证通信的顺利至关重要,同时这种技术方法也是顺应当今时代的潮流必须推广使用的方法。同时,该诊断技术为通信管网和日常通信提供了可靠的技术支持和可靠的后期保证。

参考文献

[1]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(01):146-169.

第2篇:大数据技术范文

关键词:大数据 Hadoop Spark Spark 流

中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2015)09-0000-00

大数据远不止大量的数据(TB)和处理大量数据的技术,它以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务[1]。然而面对庞大的数据来获得有价值的信息是一个巨大的挑战。为了克服上述困难,近几年来推出了Hadoop、PureData和Exadata等多种大数据系统分析平台,以Hadoop平台最为突出,深受用户的欢迎。但是随着应用的不断深入,Hadoop暴露出了它的局限性。主要体现在以下几方面:第一,操作过于单一,仅支持Map和Reduce两种操作;第二,迭代计算效率较低,尤其在机器学习和图形计算方面[2]。 2013年底由Apache 软件基金会提出的Spark框架技术较好地解决了这些问题。

1 Spark技术架构

1.1 Spark设计思想

Spark是一种基于HDFS的并行计算架构。主要思想是通过一种新的作业和数据容错方式来减少磁盘和网络的I/O开销 其核心技术是弹性分布式数据集(RDD),是指在一组存储计算机中的只读数据集合,这个数据集合可以在分区对象丢失后进行重建[5]。也就是说RDD的元素不一定需要存储在物理介质中,相反,一个RDD的处理进程包含了如何从可靠的数据存储中去获取足够的信息来对这个RDD进行处理。如果RDDS的任务节点失败,总可以进行重建[3]。

1.2 Spark系统架构

与MapReduce不同,Spark并不仅仅局限于编写map和reduce两个方法,它为用户提供了更为强大的内存计算模型,使得用户可以通过编程将数据读取到集群的内存当中,这样可以快速在内存中对数据集进行多次迭代,支持复杂的数据挖掘算法和图计算算法使用Scala语言开发,以Mesos作为底层的调度框架,可以和 Hadoop和Ec2紧密集成,直接读取HDFS或S3的文件进行计算并把结果写回HDFS或S3,是Hadoop和Amazon云计算生态圈的一部分,项目的core部分代码只有63个Scala文件,执行效率高效。Spark主要由四个模块组成:Spark SQL、MLlib、Spark 流和GraphX。Spark SQL为了兼容主流关系型数据库系统(RDBMS)可以允许用户编写SQL和HQL两种脚本执行查询,其核心组件是JavaSchemaRDD,它是一个类似于RDBMS的一个Table,由Row和Schema对象来描述Table中行对象和列的DataType。

2 Spark运行模式

2.1 Spark任务调度方式

Spark的运行模式有多种,主要由SparkContext的MASTER环境变量所获得的值来决定,有些模式还需要程序接口来配合辅助决定。但概括起来,Spark运行都以Spark-Context为总调度驱动程序,负责应用程序的资源分配,期间分别创建作业调度和任务调度两级模块。作业调度模块是基于阶段的高层调度模块,每个Spark 作业计算通常有多个阶段,每个阶段分解为一组任务集,以任务组的形式提交给底层任务调度模块来具体执行实际计算任务,任务调度模块负责启动实际任务,监控和汇报任务运行情况。如果分配任务成功,SparkContext会将应用程序代码给指定的执行者完成一个或多个任务[4]。

2.2 Spark运行模式类型

Spark的运行模式,归纳起来有六种。

(1)Local[M]。该模式使用 LocalBackend 调用TaskSchedulerImpl 实现。LocalBackend 响应Scheduler的receiveOffers请求,根据可用CPU Core的设定值[M]直接生成WorkerOffer资源返回给Scheduler,并通过Executor类在线程池中依次启动和运行Scheduler返回的任务列表。

(2)Standalone。该模式使用SparkDeploySchedulerBackend调用TaskSchedulerImpl来实现 ,而SparkDeploySchedulerBackend同时继承了CoarseGrainedSchedulerBackend。是一个在Akka Actor上实现的粗粒度的资源调度类,在整个Spark Job运行期间,监听和拥有注册给它的Executor资源,比如接受Executor注册,状态更新,响应Scheduler请求等,并且根据现有Executor资源发起任务流程调度。

(3)Local-cluster。伪分布模式实际上是在Standalone模式上实现的,也就是在SparkContext初始化的过程中在本地启动一个单机的伪分布Spark集群,后面的执行流程与Standalone模式相同。

(4)Mesos。该模式主要根据颗粒度大小来区分,粗粒度的CoarseMesosSchedulerBackend继承了CoarseGrained SchedulerBackend,相对于父类额外做的工作还要实现MScheduler接口,注册到Mesos资源调度的框架中,用于接收Mesos的资源分配,在得到资源后通过Mesos框架远程启动CoarseGrainedExecutorBackend,以后的任务交互过程和Spark standalone模式一样,由DriverActor和Executor Actor直接完成。 细粒度的MesosSchedulerBackend直接继承SchedulerBackend,但同样实现了MScheduler接口,完成Mesos资源调度框架中的注册,接收Mesos的资源分配。不同之处是在接收资源分配以后,MesosSchedulerBackend启动的是远程Executor,通过在远程执行命令来启动MesosExecutorBackend,直接执行对应的任务。

(5)Yarn-standalone。Yarn-Standalone模式相对其它模式有些特殊,需要外部程序辅助启动应用程序。Client通过Yarn Client API在Hadoop集群上启动一个Spark App Master,Spark App Master首先为自己注册一个Yarn App Master,再启动用户程序,然后根据Client传递过来的参数,Spark App Master通过Yarn RM/NM接口在集群中启动多个Container运行CoarseGrainedExecutorBackend往CoarseGrainedSchedulerBackend注册。后面的任务调度流程跟其它Cluster模式类似,不再述说。

(6)Yarn-client。该模式的SparkContext运行在本地,适用于应用程序本身需要在本地交互的情景。这种模式下SparkContext在初始化时首先启动YarnClientSchedulerBackend,然后再调用客户端包远程启动一个作业作为Spark的App Master,相对于Yarn-standalone模式,此模式不再负责启动用户程序,而只是启动Backend便于跟客户端本地Driver进行数据传递,后面的任务调度流程跟其它模式类似。

3 Spark应用现状及发展

目前SPARK已经构建了自己的整个大数据处理生态系统,如流处理、图技术、机器学习、NoSQL查询等方面的技术,并且是Apache顶级项目。虽然Spark对内存要求较高,推出时间较短未经过实践考验,但伴随着大数据相关技术和产业的逐步成熟,继Hadoop之后,Spark技术以集大成的无可比拟的优势,发展迅速,将成为替代Hadoop的下一代云计算、大数据核心技术。可以预计2015年下半年在社区和商业应用上会有爆发式的增长。

参考文献

[1] K. Shvachko, K. Hairong, S. Radia e R. Chansler. The Hadoop Distributed File System[C]. IEEE 26th Symposium on Mass Storage Systems and Technologies, 2010.

[2] Spark: Lighting-fast cluster computing[EB/OL]. http:///.

[3] M. Hirzel, H. Andrade, B. Gedik, et al. IBM Streams Processing Language: Analyzing Big Data in motion[J]. IBM Journal of Research and Development.2013,57(7):1-7.

[4] T. Chardonnens, P. Cudre-Mauroux, M. Grund ,et al.Big data analytics on high Velocity streams: A case study[C]. IEEE International Conference on Big Data, 2013.

第3篇:大数据技术范文

关键词:大数据时代;数据挖掘技术;应用

大数据是对全球的数据量较大的一个概括,且每年的数据增长速度较快。而数据挖掘,主要是从多种模糊而又随机、大量而又复杂且不规则的数据中,获得有用的信息知识,从数据库中抽丝剥茧、转换分析,从而掌握其潜在价值与规律。所以大数据时代下的数据处理技术要求更高,要想确保数据处理成效得到提升,就必须切实加强数据挖掘技术教学工作的开展,才能更好地促进数据处理职能的转变,提高数据处理效率,优化学生的学习成效。以下就大数据时代下的数据挖掘技术教学做出如下分析。

1大数据时代下数据挖掘技术的基础教学方法分析

数据挖掘的过程实际就是对数据进行分析和处理,所以其基础就在于数据的分析方法。要想确保分析方法的科学性,就必须确保所采用算法的科学性和可靠性,获取数据潜在规律,并采取多元化的分析方法促进问题的解决和优化。以下就几种常见的数据分析教学方法做出简要的说明。一是归类法,主要是将没有指向和不确定且抽象的数据信息予以集中,并对集中后的数据实施分类整理和编辑处理,从而确保所形成的数据源具有特征一致、表现相同的特点,从而为加强对其的研究提供便利。所以这一分析方法能有效的满足各种数据信息处理。二是关联法,由于不同数据间存在的关联性较为隐蔽,采取人力往往难以找出其信息特征,所以需要预先结合信息关联的表现,对数据关联管理方案进行制定,从而完成基于某种目的的前提下对信息进行处理,所以其主要是在一些信息处理要求高和任务较为复杂的信息处理工作之中。三是特征法,由于数据资源的应用范围较广,所以需要对其特征进行挖掘。也就是采用某一种技术,将具有相同特征的数据进行集中。例如采用人工神经网络技术时,主要是对大批量复杂的数据分析,对非常复杂的模式进行抽取或者对其趋势进行分析。而采取遗传算法,则主要是对其他评估算法的适合度进行评估,并结合生物进化的原理,对信息数据的成长过程进行虚拟和假设,从而组建出半虚拟、半真实的信息资源。再如可视化技术则是为数据挖掘提供辅助,采取多种方式对数据的挖掘进行指导和表达[1]。

2大数据时代数据挖掘技术教学要点的分析

2.1数据挖掘技术流程分析

在数据挖掘教学过程中,其流程主要是以下几点:首先做好数据准备工作,主要是在挖掘数据之前,就引导学生对目标数据进行准确的定位,在寻找和挖掘数据之前,必须知道所需数据类型,才能避免数据挖掘的盲目性。在数据准备时,应根据系统的提示进行操作,在数据库中输入检索条件和目标,对数据信息资源进行分类和清理,以及编辑和预处理。其次是在数据挖掘过程中,由于目标数据信息已经被预处理,所以就需要在挖掘处理过程中将其高效正确的应用到管理机制之中,因而数据挖掘的过程十分重要,所以必须加强对其的处理。例如在数据挖掘中,引导学生结合数据挖掘目标要求,针对性的选取科学而又合适的计算和分析方法,对数据信息特征与应用价值等进行寻找和归纳。当然,也可以结合程序应用的需要,对数据区域进行固定,并在固定的数据区域内分类的挖掘数据,从而得到更具深度和内涵以及价值的数据信息资源,并就挖掘到的数据结果进行分析和解释,从结果中将具有使用价值和意义的规律进行提取,并还原成便于理解的数据语言。最后是切实加强管理和计算等专业知识的应用,将数据挖掘技术实施中进行的总结和提取所获得的数据信息与评估结果在现实之中应用,从而对某个思想、决策是否正确和科学进行判断,最终体现出数据挖掘及时的应用价值,在激发学生学习兴趣的同时促进教学成效的提升。

2.2挖掘后的数据信息资源分析

数据信息资源在挖掘后,其自身的职能作用将变得更加丰富,所以在信息技术环节下的数据挖掘技术随着限定条件的变化,而将数据挖掘信息应用于技术管理和决策管理之中,从而更好地彰显数据在经济活动中的物质性质与价值变化趋势,并结合数据变化特点和具体的表现规律,从而将数据信息的基本要素、质量特点、管理要求等展示出来,所以其表现的形式十分丰富。因而在数据挖掘之后的信息在职能范围和表现形式方式均得到了丰富和拓展,而这也在一定程度上体现了网络拟定目标服务具有较强的完整性,且属于特殊的个体物品,同时也是对传统数据挖掘技术的创新和发展,从而更好地满足当前大数据时代对信息进行数据化的处理,并对不同种类业务进行整合和优化,从而促进数据挖掘技术服务的一体化水平。

2.3大数据背景下的数据挖掘技术的应用必须注重信息失真的控制

数据挖掘技术的信息主要是源于大数据和社会,所以在当前数据挖掘技术需求不断加大的今天,为了更好地促进所挖掘数据信息的真实性,促进其个性化职能的发挥,必须在大数据背景下注重信息失真的控制,切实做好数据挖掘技术管理的各项工作。这就需要引导学生考虑如何确保数据挖掘技术在大数据背景下的职能得到有效的发挥,尽可能地促进数据挖掘技术信息资源的升级和转型,以大数据背景为载体,促进整个业务和技术操作流程的一体化,从而更好地将所有数据资源的消耗和变化以及管理的科学性和有效性,这样我们就能及时的找到资源的消耗源头,从而更好地对数据资源的消耗效益进行评价,最终促进业务流程的优化,并结合大数据背景对数据挖掘技术的职能进行拓展,促进其外部信息与内部信息的合作,对数据挖掘技术信息的职能进行有效的控制,才能更好地促进信息失真的控制[2]。

3数据挖掘技术在不同行业中的应用实践

学习的最终目的是为了更好的应用,随着时代的发展,数据挖掘技术将在越来越多的行业中得以应用。这就需要高校教师引导学生结合实际需要强化对其的应用。例如在市场营销行业中数据挖掘技术的应用这主要是因为数据挖掘能有效的解析消费者的消费行为和消费习惯,从而利用其将销售方式改进和优化,最终促进产品销量的提升。与此同时,通过对购物消费行为的分析,掌握客户的忠诚度和消费意识等,从而针对性的改变营销策略,同时还能找到更多潜在的客户。再如在制造业中数据挖掘技术的应用,其目的就在于对产品质量进行检验。引导学生深入某企业实际,对所制造产品的数据进行研究,从而找出其存在的规则,并对其生产流程进行分析之后,对其生产的过程进行分析,从而更好地对生产质量的影响因素进行分析,并促进其效率的提升。换言之,主要就是对各种生产数据进行筛选,从而得出有用的数据和知识,再采取决策树算法进行统计决策,并从中选取正确决策,从而更好地对产品在市场中的流行程度,决定生产和转型的方向。再如在教育行业中数据挖掘技术的应用,主要是为了更好地对学习情况、教学评估和心里动向等数据进行分类和筛选,从而为学校的教学改革提供参考和支持。比如为了更好地对教学质量进行评估,就需要对教学质量有关项目进行整合与存储,从而更好地促进其对教学质量的评估,而这一过程中,就需要采取数据挖掘技术对有关教学项目中的数据进行挖掘和处理,促进其应用成效的提升[3]。

4结语

综上所述,在大数据背景下,数据挖掘技术已经在各行各业中得到了广泛的应用,所以为了更好地满足应用的需要,在实际教学工作中,我们必须引导学生切实加强对其特点的分析,并结合实际需要,切实注重数据挖掘技术的应用,才能促进其应用成效的提升,最终达到学以致用的目的。

作者:何智文 邓伦丹 单位:南昌大学科学技术学院

参考文献:

[1]李平荣.大数据时代的数据挖掘技术与应用[J].重庆三峡学院学报,2014,03:45-47.

第4篇:大数据技术范文

关键词:大数据 ORACLE 压缩技术

中图分类号:TP3 文献标识码:A 文章编号:1671-7597(2013)11-0000-00

近两年来,大数据(big data)概念越来越引人瞩目,它被用来描述和定义在当前信息爆炸时代所产生的海量数据和与其相关的技术发展与创新。大数据时代对人类对海量数据的驾驭能力提出前所未有的挑战。如何管理这些迅速膨胀的海量数据,也成为每个数据库厂商必须面对的问题。本文介绍的是ORACLE的表/表空间压缩技术,这是ORACLE数据库在大数据环境下极为实用的一个属性。随着企业数据的爆炸性增长,很多决策支持系统和数据仓库对磁盘空间的需求也在急剧增长。目前很多大中型企业里,TB级甚至PB级的数据仓库已经越来越普遍。Oracle从9iR2 开始,提供一种表/表空间压缩技术,用以减少磁盘开销,节约存储空间,并在某些情况下获得查询性能的提高。

1 Oracle的压缩技术

Oracle的压缩技术实际上从8i就出现了,提供简单的索引压缩;到9ir2时,可以进行表级别的压缩,但只能对批量装载操作(比如直接路径装载,CTAS等)涉及的数据进行压缩,普通的DML操作的数据则无法压缩。Oracle 10g增加了对LOB的压缩,但并未解决压缩的写操作问题;从Oracle 11g开始,使用了"基于数据块的批次压缩技术",也就是说数据的压缩并不在执行DML语句时即时发生,当一个数据块开始写入数据时,插入的数据并不被立即压缩,这个时候对性能是没有影响的,对数据块的压缩动作发生在数据块即将被写满时,这样可以保证大部分DML语句的效率,从而真正支持了各种DML语句也能够用于OLTP环境(insert,update等)。

2 常用的压缩命令

下面列举一些常用的压缩命令。

2.1 表级别的使用

可以在建表时指定压缩属性,也可修改已有表的压缩属性。

create table tab1 compress as select * from user_tables;

create table tab2(cust_idnumber,cust_name varchar2(200))compress;

alter table tab3 move compress;-- 修改现有表为压缩表

alter table tab3 move nocompress;-- 解压已经压缩的表

如果要对分区表的不同分区设置压缩属性,我们可以在创建分区表时设置,也可等到需要对某个分区进行压缩时再设置。

Create table test(cust_id number,cust_name varchar2(200)) partition by range(cust_id)

partition P1 values less than (10000) compress,

partition P2 values less than (20000) compress,

partition PMAX values less than (maxvalue) );--

该命令表示P1和P2为压缩属性,PMAX则没有设置压缩属性。

Alter table test modify partition PMAX compress;--

该命令表示将PMAX分区设置为压缩属性。

2.2 表空间级别的使用

可以在建表空间时指定压缩属性,也可将现有表空间转换为压缩表空间。和其他存储参数一样,COMPRESS属性也具备一些继承特性。当在一个COMPRESS属性的表空间中创建一个新表时,这个新表从该表空间继承COMPRESS属性。需要注意的是,该属性只针对在该表空间建立的表,通过"alter table tab1 move tablespace test"方式移到该表空间的普通表和在该表空间用默认方式建立的索引,都不具备压缩属性。

create tablespace ETL datafile '/oracle/data03/oradata/stkhxf/test01.dbf' SIZE 500M default compress;--创建表压缩空间

alter tablespace ETL default compress;-- 将非压缩表空间转换为压缩表空间

alter tablespace ETL default nocompress;--取消表空间的压缩

2.3 索引的使用

除了表可以压缩之外,索引也同样可以压缩,当索引键值的重复率很高时,可以考虑压缩索引。注意,如果是主键索引或惟一约束索引,则无需压缩。

我们可以在建索引时进行指定:create index IDX_1 on tset(cust_id)compress.

也可以将现有索引转换为压缩属性:alter index IDX_2 rebuild compress.

2.4 通过数据字典查看对象是否被压缩

select owner,table_name,compression from dba_tables ;--查看表

select table_owner,table_name,partition_name,compression from dba_tab_partitions; --查看分区表

select owner,tablespace_name,def_tab_compression from dba_tablespaces;--查看表空间

select owner,index_name,compression from dba_indexes; --查看索引

大部分情况下,使用压缩技术对数据库性能提升是有利的。Orecle采用智能算法的压缩技术尽量降低写操作的负载,被压缩的数据可以存贮在更少的数据块中,这样就降低了磁盘空间使用。对一个压缩属性的表或索引的全表扫描和索引区间扫描所需要读取的数据块更少,减少了磁盘IO,查询可以更快完成。其次,由于需要处理的数据块减少,CPU搜索和处理数据块的时间会降低,同时需要读入内存的数据块也减少了,内存的资源消耗也随之降低。再次,由于数据压缩和解压是Oracle内部的行为,外部网络可以仅传输被压缩的数据块,这样也有效降低了网络负载。

3 结束语

从Oracle11g开始,没有什么是不可压缩的。Oracle数据库提供的高级压缩技术可以压缩所有类型的数据--无论是规范的结构化数据(数字、字符)、非结构化数据(文档、电子表格、XML 和其他文件)还是备份数据。不仅降低了所有数据类型的磁盘空间需求,还提高了应用程序性能,增强了内存和网络效率。在这个大数据时代,对使用Oracle数据库的企业的DBA和开发人员来说,了解并掌握Oracle针对海量数据的数据压缩技术,是一件极其迫切而重要的需求。

第5篇:大数据技术范文

赏花灯是元宵节的重要习俗。游人如织的灯会现场哪个灯最受欢迎?人流量太大会不会影响市民赏灯拍照?这些问题在今年的贵阳市观山湖灯会上都得以轻松解决。贵州移动创新运用大数据技术导航,引导广大市民科学安排观灯路线,轻松赏灯。

面对喷薄而来的大数据发展浪潮,贵州移动努力思考如何抓住大数据带来的机遇,让大数据技术为“我”所用。如今,贵州移动已与大数据“激情相拥”,迸发火花。

一方风生水起的热土

2014年3月1日,在北京召开的“贵州・北京大数据产业发展推介会”上,贵州向世界发声――凭借独特的环境和资源优势,打造具有战略地位的国家西部大数据聚集区和国家云计算产业的高地。

贵州发展大数据产业的信心和魄力成就了不一样的“贵州速度”,这一点与“快人一步”引领行业发展的中国移动高度契合。中国移动作为全球最大的基础电信运营商,拥有骨干网络和国际带宽出口,具备雄厚的资金储备及强大的基础设施建设能力,在IDC数据中心领域建设上拥有先发优势。中国移动将IDC数据中心作为解决大数据领域中“数据放哪儿”这个大难题的重要途径,对IDC数据中心的分布有着完整的战略规划。

在贵州境内,中国移动自2007年开始建设数据中心以来,先后在贵州金阳(现贵阳市观山湖区)、贵州花溪和贵州贵安分别建设三个数据中心节点,形成了以金阳数据中心、花溪数据中心和中国移动(贵州)大数据中心(即贵安数据中心)为核心的链状布局,进一步强化了数据的安全与稳定性。

其中,2015年底投产的中国移动(贵州)大数据中心投资超过20亿元,占地约275亩,机房有效面积19万平方米,可实现装机容量2.1万架,工程分三期进行。目前,一期工程已经基本完工,4.6万平米(约6个半标准足球场大小)装机容量3000架,陆续有国家部委、省内厅局、大型移动互联网企业等单位入驻或准备入驻。

三场华丽惊艳的亮相

2015年,中国移动(贵州)大数据中心全面入驻贵州贵安新区,在贵州省政府的统一组织下,相继赴北京、深圳、上海等地进行招商推介。“震撼!”参观了中国移动(贵州)大数据中心展区后,众多企业“大佬”纷纷发出感叹并给予极高评价。

中国移动(贵州)大数据中心凭借更优质的网络、更周到的服务、更安全的保障、更专业的团队、更丰富的产品、更海量的用户和更低廉的成本七大优势在推介会上惊艳全场。该中心以国际一流的Tire4为标准,以规模化、集约化、标准化和绿色节能环保的建设运营理念,为企业提供IDC存储、云计算等7大类服务,并提供现代化的办公附属楼,监控调度、10000O的仓储中心等完善的配套服务,是立足西南、辐射全国、面向全球的新一代数据中心。

根据客户对机房环境的不同要求,中国移动(贵州)大数据中心可为客户提供三重尊享定制化服务:整体机楼级定制服务;专用机房级定制服务;机柜级定制服务。专属团队全程监控,提供7X24小时售前、售中、售后的殿堂级服务。以历年国家安全考核中始终保持第一的信心和信誉,提供高性能、高稳定、高可靠的信息安全保护。

决定大数据中心运营成本和服务价格的关键因素在于其能耗。不满足于地缘环境带来的低能耗优势,中国移动(贵州)大数据中心在节能技术上煞费苦心,勇敢挑战1.3及以下的PUE(数据中心总设备能耗)值。在贵州,超过95%的时间,室外常温水即可满足数据中心机房设备降温,不需再额外辅助降温。中国移动(贵州)大数据中心采用水循环散热模式,将冷媒带出的热量,通过热交换管和室外低温水池进行热交换,以达到散热目的,极大地降低了数据中心运营成本。

在推介会现场,中国移动贵州公司总经理芈大伟刚分析完8亿客户资源可能产生的经济价值,台下的众多企业负责人便“骚动”起来,“大数据来了,我们的转型不能再等了”。

云计算实现大数据导航

2009年起,贵州移动就对云计算进行探索,建设并运营了贵州省内第一个公有云,由此开始面向省内外各类客户,在主机托管、云服务和大数据分析三个层面开展与大数据相关的业务和合作,先后在“互联网+健康”“互联网+教育”“互联网+智慧园区”“互联网+智慧媒体”“互联网+金融”等领域取得重大突破和成绩,成为回答大数据是“什么”和“干什么”的成功案例。

贵州移动“互联网+智慧园区”立足于对区域大数据的挖掘,研发区域人群流动热力图、商业最优选址模型、国际(国内)流动性分析,旅游景区人群分析等应用。通过热力图,可以在最短时间内,以最简单的方式,发现区域人群密度的变化情况,甚至可以知道人群迁移路线,有效预测未来一段时间区域人群的变化,甚至可以发现突然出现的高密人群聚集点。

在今年的贵阳市观山湖灯会上,贵州移动结合灯会现场情况采用了大数据人群热力地图抓取技术,抓取灯会现场周边移动基站的现场手机信号源,通过精准计算,实时将灯会现场总人数,各出入口人数,甚至每一盏灯前的观灯人数精准的统计反映到监控平台。用户可以通过客户端及时掌握现场情况并合理安排自己的赏灯路线。灯会人流量监控系统是贵州移动运用现有的数据资源,提供的一个集数据采集、处理、展示于一体的人流量监控及预警服务平台,这些数据不仅为游客提供了及时的向导,还为管理部门应对突发事件及游客引流,提供了全方位的信息支撑。

“大数据”服务惠民生

作为发展大数据产业的先锋,在“大数据”惠民方面,贵州移动做了许多积极的探索。

在新农合信息化项目启动前,贵州超过30%的县、35%的乡(镇)、近70%以上村医疗单位的基本医疗管理和新农合报补管理还停留在纸面作业阶段。为此,贵州移动联合贵州省卫计委共同开发了贵州新型农村合作医疗信息系统,目前已经稳定运行超过6年,为全省3000多万农民、5000多个医疗机构和网点积累了疾病诊疗信息、用药信息、报补信息等数以亿计的数据。实现了贵州山区居民便捷就诊、即时报补、异地报补,实现了农合资金的信息化监管,解决了精确扶贫(医疗)、智能审核、一键清算等难题。随着数据的不断积累,贵州移动可以通过贵州新型农村合作医疗信息系统了解到在特定条件下,区域疾病的变化趋势,为卫生管理部门对医药卫生资源的配比决策提供最有效的支持。

已经读五年级的吴江和妹妹跟着年迈的爷爷奶奶一起生活,父母在深圳打工,每隔两年才回家过一次年。“看到同学和爸爸妈妈在一起时就特别的羡慕,也觉得很孤单。现在有大数据每天将收集到的信息通过网络视频反馈给他们,拉近了和爸爸妈妈的距离,感觉他们就在身边。”这是贵州移动将留守儿童问题作为“互联网+教育”的实践方向,取得以“留守儿童大数据关爱系统”为代表的实践成果。

安全监管用之有道

贵州移动设立了专职的“网络和信息安全中心”,并连续几年在国家相关部门的信息安全检查和评比中获得好成绩。

以贵州移动大数据服务2016年贵阳市观山湖元宵灯会为例,从数据和信息的安全保障要求入手,对本次灯会大数据信息进行了严格的脱敏数据稽核,剔出可能涉及的个人信息以及其他与本次灯会无关信息。简言之,所采集的数据是数据的聚合,不是个体的隐私数据,这些聚合的数据只服务于灯会,而不会用作他用。

第6篇:大数据技术范文

一、大数据技术

大数据技术是一种新型技术,其应用领域比价广泛,并且取得一定的成绩。大数据技术在实际的应用过程中,根据各个领域的需要,大数据技术也不断在更新,以适合现代社会发展的需要。大数据技术主要用数据挖掘、数据分析领域中,能对数据进行科学整理、处理、提高数据的利用效率,互联网+时代,各个领域工作基本都离不开网络,网络时代数据量增多,如何科学有效的进行数据处理,提高数据的利用效率,这是需要解决的问题,大数据技术的产生,对数据的处理起到重要作用。

二、大数据技术应用前景

大数据技术是一种新型技术,具有广泛的应用前景,尤其在数据分析领域中,对提高数据的利用效率起到重要作用。大数据技术的进一步发展应用,对科技的交叉融合发展也有着促进意义。科技交叉融合是现代科技发展的需要,现在很多问题利用一种技术不能实现,需要多种技术结合使用,促进科技水平进一步提升,符合现代科技发展的需要。科技人才是企业发展的重要因素,尤其企业发展需要应用型高级技术人才,在互联网+时代,大数据技术方面的人才尤其缺乏,这也是大数据技术具有广泛的应用前景重要因素。

现在各个行业在发展的过程中都需要复合型的高级技术人才,大数据技术的实际应用对促进其它行业的发展起到重要作用,大数据技术具有良好的应用前景,对现代实际的应用型思想起到重要作用。大数据技术在其它行业中的应用提供了技术支持作用,大数据技术对促进其它行业的技术更新与改革起到重要作用,大数据技术在实际应用过程中根据其它行业发展的需要,需要在技术上不断更新,优化环境,完善其职能,为企业行业发展提供技术保障。大数据技术在实际的应用过程提升,符合大数据技术的发展需要。大数据技术在具体的应用过程中,根据各个领域的需要,大数据技术需要不断完善技术,以适合现代各个行业发展的需要,大数据技术能为其发展提供技术支持。

三、大数据技术在高校非计算机专业中的应用进行

(一)大数据技术在电子商务中的应用

电子商务在互联网+背景下得到快速发展,为高校电子商务专业的发展提供了机遇和挑战,电子商务专业在大数据技术作用下需要积极进行教学改革,以适合现代电子商务专业发展的需要,电子商务专业课程体系构建需要符合现代电子商务产业发展的需要。在电子商务体系内发挥大数据的优势,能有效建立完整的商务监督体系,企业决策机制以及运作模式也要依托大数据技术的信息处理功能。电子商务产业的职业岗位能力涉及到大数据知识,电子商务专业在课程构建的过程中需要把大数据相关知识纳入课程体系中,能为学生职业岗位能力提升起到保障作用。大数据技术的实际应用对提升电子商务专业建设,教学模式改革,教学内容整合,教学手段提升等都起到重要保障作用。

(二)大数据技术在会计领域中的应用

大数据技术在会计领域中的应用,对促进会计行业改革,高校会计专业教学改革都起到重要作用,同时完善会计专业人才培养方案,对提升学生职业技能起到重要作用。会计的职业岗位能力涉及到海量数据,会计信息化时代大数据技术的应用对提高会计的工作职能起到重要作用,符合现代大数据技术的应用需要。大数据技术在会计领域中的应用,尤其在会计信息系统建设中的应用,对提高数据挖掘、数据分析、数据处理能力的提升起到重要作用,会计行业涉及到数据很多,数据的种类、数据的形式都是多样化,利用大数据技术处理数据比传统的方式大大提高了工作效率,为会计行业的改革起到重要的技术支持作用,符合现代会计领域中的应用需求。总之,大数据技术在非计算机专业中的应用对促进其教学改革起到技术支持作用,大数据技术是一种新型技术,其具有广泛的应用,大数据技术在高校非计算机专业中的应用是专业发展的需要,也是社会发展对高校专业改革提出了新要求。大数据技术尤其在数据挖掘、数据分析、数据处理等方面起到重要作用,适合互联网+时代,高校非计算机专业发展的需要。

【计算机硕士论文参考文献】

[1]我国大数据应用现状与发展趋势分析[J].李亭亭,赵英豪.电子商务.2016(06).

[2]探讨大数据技术在疾病防控上的应用[J].黄文莉.电子技术与软件工程.2016(06).

[3]基于CitespaceⅢ的大数据研究的可视化分析[J].姜俊锋,丁香乾,侯瑞春,曲丽君.计算机与数字工程.2016(02).

第7篇:大数据技术范文

关键词:计算机软件;实际应用;大数据时代

一、计算机软件技术的基础理论与发展历程

随着改革开放的到来,我国计算机软件技术得到了国家大力扶持,短短的几十年中,技术不断改革创新,使得这项技术发展前景十分广阔。在不断完善技术理论体系的基础上,技术概念与技术层面都得到了充分的优化。云时代的来临、大数据的发展都在不断影响现代人的日常生活,得到了越来越多人的重视。同时社会上也涌现了更多的专业人员和人才来处理各项数据以及管理数据库。人们已经离不开没有互联网的生活。不可否认,互联网已经成为二十一世纪新型技术的重要产物,作为世界的主流技术,互联网得到了越来越多人的关注,用户量每年都在翻倍增长。互联网运用在经济发展过程中,推动了经济的持续增长,与此同时,随着用户数量的不断增长,大量的数据也在此过程中得以收集和保存。有研究数据显示,一年需要处理的数据已经是一个庞大的数字,需要用亿T来计量,如此庞大的数据预示着需要更专业的人才以及更高效的技术来统计和处理这些海量数据。由于在某些特定情况下无法使用数据收集及管理的相关技术,为了使决策力、发现力以及流程优化力得以保障,大数据技术应运而生,在大数据的背景下,海量数据的发展前景也更为广阔光明。数据运用的关键构成部分包括数据获取、数据生成周期和数据处理等,为了培养更加多的优秀技术人才来处理如此庞大的大数据,计算机软件技术也应随之大大提升来符合更为严格的要求来配合技术人员的使用。

二、大数据时代下的计算机软件技术

(一)大数据背景下的计算机软件技术问题

人无完人,人都会犯错,计算机也是如此,计算机的精准性并不是绝对的,在对数据进行计算和分析时也会产生一定的偏差。随着人们对完美的追求和对试验的精准要求,任何一点由于计算机技术导致的误差都是对计算机的一个否定,这也是不合格的象征,并且也意味着计算机迎来了全新的挑战与机遇。虽说计算机没有生命,但其智慧有时甚至高于人类,人类专业技能与计算机软件技术是共同发展的,彼此相互学习共同进步,由于人类的专业水平的提高,计算机软件技术也在不断进步和提升,例如在国际围棋大赛中“AlphaGo”最终战胜了围棋冠军李世石,足以证明人类的技术已经可以达到“超越人类本身”这样的状态。在发展过程中计算机技术由于运作,影响了很多因素的正常运转,为了实现各部分共同和谐工作,计算机面临攻击和整改。在大数据时代的大背景下,数据的种类和数量不断增加和变得繁琐,信息安全问题成了首要数据问题,计算机的短暂崩溃、存储功能的失灵都可能造成大量数据的流失与泄露。黑客和病毒对我们来说并不陌生,如果说计算机是生命体,那么黑客就是入侵的抗原,需要人为研究出的“反入侵”抗体来消灭。而随着科研人员技术水平的不断提升,病毒也在进化,病毒对“反入侵”程序产生了抗体,而人类的技术也随之精进,就像狼捉羊,可以提升羊的奔跑速度一样,科研人员切实着手,提高了数据的安全性。

(二)大数据时代下计算机软件技术的实际应用

1.信息安全技术

信息安全问题已然成为一大民生问题,每个人在传输文件或数据时都会存在这样一个心理:信息会不会被窃取。为了解决这个问题,维护个人与企业的利益,提高生产发展效率,让大数据的有利部分更加突出,运用计算机软件技术可以大大减少信息被窃取的几率,提高数据信息的安全性。

2.云储存

现如今的文件数据越来越大,手机内存也从最初的8G上限增加到上限512G,互联网与计算机结合创新出一种“云储存”技术,可以高效的解决内存不够这个问题。云技术将文件整体化为“目录”形式储存进云盘中,当我们需要寻找云盘中的某一文件时,只需要将“目录”整体下载下来即可使用,真正实现了随时随地随身“文件夹”。计算机软件技术的人性化为人们日常生活提供了更多地便捷服务,高效的实现数据文件的管理与存储。

3.虚拟化

实践总有成功和失败,失败意味着牺牲和资源的浪费,为了规避这个问题,计算机软件创新出了模拟技术,通过对现有物质和条件进行分析和预判,结合数据库的数据资料,制定出接下来的发展轨道和计划,并且随着计算机技术的不断发展,实验误差在逐渐降低,甚至可以达到零误差。无论是城市规划还是科研实验,通过使用计算机软件技术不仅可以节省大量时间,只需要通过计算机试验便可得到想要的结果,还可以节省大部分资源,避免浪费。

第8篇:大数据技术范文

【关键词】大数据 疾病防控

被喻为"未来的新石油"的大数据,正成为继云计算、物联网之后信息技术领域的又一热点《华尔街日报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的三大技术变革。大数据技术已经开始应用到各行各业。在给人类社会带来海量信息和巨大变革的同时,大数据技术在疾病防控上的应用引起了人们越来越大的兴趣。

1 大数据的定义

从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。

大数据的特点有四个层面:

(1)数据体量巨大。从TB级别,跃升到PB级别;

(2)数据类型繁多。如网络日志、视频、图片、地理位置信息等等。

(3)处理速度快,1秒定律,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。

(4)高价值,只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报。业界将其归纳为4个“V”――Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值)。

大数据,其影响除了经济方面的,它同时也能在政治、文化、卫生等方面产生深远的影响,大数据可以帮助人们开启循“数”管理的模式,也是我们当下“大社会”的集中体现,三分技术,七分数据,得数据者得天下。数据有了,但如何驾驭这些海量数据,将它们应用于疾病防控工作方面,挖掘数据的核心价值,这就是我们疾控人员研究的方向。

1.1 大数据技术应用的必要性

传统疾病预防控制的方式最大的不足在于实时性上,但疾病的防控抢的就是时间。如果能在疾病流行前即预测到疾病的发展态势,加强对疾病的预防,就能达到最大限度保障群众健康的目的。现在,利用大数据技术对疾病传播进行更先进的监控与控制成为了可能。

1.2 大数据技术应用实例

(1)谷歌已在疾病预测防控上已经走出先例,那么我们先来看下谷歌的谷歌流感趋势(Google Flu Trends,GFT)的工作成果,从中窥视疾病预防控制的大数据未来。

2008年,谷歌上线“谷歌流感趋势”项目,该项目开始预测流感传播。

2009年在美国的H1N1爆发几周前,谷歌成功预测了H1N1在全美的传播范围,具体到了州还有特定地区,判断非常及时,令美国公共卫生机构以及全美大为震惊,疾控中心通常只能在流感爆发一两周之后才可以做到,而谷歌的及时性让全美侧目。

这是真正第一次利用搜索引擎大数据对疾病控制的预测尝试,谷歌因此也获得巨大殊荣。

(2)2014年4月2日,清华大学在京宣布,该校将联合国内医疗设备生产企业启动基于大数据的公共卫生项目国民“健康云数据”计划,预计3年内完成数据平台建设,并为远程健康管理、疾病预防等提供支撑。这也是大数据技术服务于公共卫生领域的个案,这个项目将有效提升疾病早期预防等服务的针对性。通过对大规模数据的整理分析,可以在疾病早期防控和阻断疾病产生根源方面产生更积极的作用。

2 大数据在疾病防控的应用方向

2.1 提前确定一定规模的未知疾病,为疫情控制争取时间

无论传统检测还是历史数据统计都是无法监测到任何没有临床症状的病例的,这些经验在医院的临床经验中都为0。但大数据却可以做到这件事,通过医院的共享信息、疾病监测系统网络报告数据以及各类网络监控引擎指定地区的用户的频繁搜索关键词,可以检测到某个地区已经出现了诸如不明原因的肺炎,某地餐馆让多少人出现呕吐腹泻等异常状况……然后再通过与疾病控制中心的病毒库中的病毒分析,寻找吻合的病毒,进行比对分析然后将其找出,为判断疾病赢取时间。换句话说,有了大数据后,疾病预防可以真正在第一时间内去判断出疫情的病毒源,进而为控制争取时间。当前的科技下,疫情的发生是谁也无法控制的,我们目前唯一能够控制的就是及时制止其传播的范围,而大数据则是目前唯一的也是最佳的途径。

2.2 判断人员流向,控制疫情

在疫情发生后,虽然国家可以第一时间控制住当地疫情,但是人员流动则是无法控制的。现在利用网络技术可以做到,比如A地突然爆发了传染病,而此时根据大数据的监控就能监测到传染源区人员的主要流向地是B地与C地,于是疾控中心就拿出对应的医疗技术和对应的治疗药品以及疫苗来防治,第一时间赶到B地与C地,将一切药物准备就绪并为当地人接种疫苗,这样一来就减少了盲目的广撒网式的全面布局情况,通过网络技术上提供的人员流动数据,让控制疫情在效率上大幅度提升。

2.3 治疗药物和疫苗的迅速研发

在疫情发生后最重要的事情就是研发对应药物,传统的做法是一个小范围的研发,然后用传统的交流方式,但是有了大数据就不可同日而语。在病人的治疗中,所有药物的使用数据以及用户的病情数据都将全部联网,当机器检测到发现某种药物(通过读取录入的药物数据)对病人的病情(通过读取录入病人健康的关键指数后的数据)有部分效果后,将会迅速纳入研发的决策范围,为研发部门提供有用参考,为研发对抗疫情的药物以及预防疫情的疫苗,提供全网的大数据的支持。

2.4 建立疾病防控监测预警预报机制

未来通过大数据技术在疾病防控的预警预报应用方面,不仅仅只是有关部门的决策者能够收到,而是全民都享有的福利,从而保障更多人的安全。比如当你去出差时,网络会在你的手机上提前通知你,你将要去的地区有食品安全问题,再比如第一时间通知你,你所在的地区有流感地区的人群大量流入,让你及时做好预防工作以及接种疫苗等等。

3 面临的困难和挑战

谷歌虽然在09年的预测上做出了漂亮的成绩,但是在2013年的2月谷歌流感趋势被媒体大量批评,原因就在于其数据总是偏高于真实的流感数据。

谷歌出错的原因有很多,比如谷歌的搜索算法调整会间接影响到用户习惯,再比如谷歌的推荐搜索以及相关性推荐也会影响用户的搜索结果,此外搜索某个关键词的用户也不一定是患病用户,再加上运营商的地理位置判断等问题,使得谷歌出现算法过度拟合的情况,将噪声当成了信号,导致其结果的不准确性。

4 对策与建议

大数据是云计算的具体化,且正在成为一个国家最重要的国家社会资源,对大数据的获取和利用能力正成为软硬兼备的真实力。因此,对于大数据在疾病预防控制上应用的研究可以由政府为主导,搭建基于云计算的安全、可靠、准确大数据平台,再引入社会力量建设各类疾病预防控制专业信息服务平台,面向公众提供疾病预防专业、权威咨讯。

困难从从,但机会与挑战并存,我们要加快大数据技术研究,将其应用于疾病防控,最大限度地保障人民的身体健康。

参考文献

[1]马家奇.公共卫生大数据应用[J].中国卫生管理信息杂志,2014(04).

[2]于石成.大数据视角下的卫生统计工作[J].医学信息学杂志,2013(10).

[3]高汉松,基于云计算的医疗大数据挖掘平台[J].医学信息学杂志,2013(05).

[4]于石成.全球疾病负担研究-大数据分析应用实例[J].医学信息学杂志,2013(09).

第9篇:大数据技术范文

作为中国最大的瓶装水生产商,农夫山泉股份有限公司(简称农夫山泉)的IT应用系统中,每天都要产生大量的数据。在认识到这些数据的巨大潜在价值后,农夫山泉想要对这些海量数据进行分析,来为企业的运营和业务等提供决策支持。但由于数据量太大,农夫山泉股份有限公司在对这些数据进行分析时,遇到了一些挑战。例如,农夫山泉每次结账前都需要做运费对账,运费计算涉及的层面非常广,里面的逻辑计算十分复杂。系统通常需要24小时来运行这个运费报表,有时候甚至生成不了这张报表。这样的速度导致农夫山泉每个月财务结算都要推迟一天。

不过,在实施了SAP HANA系统后,现在这张运费报表只需要37秒就可以生成,和之前相比,运算速度提高了2335倍。

传统数据库技术的瓶颈

这一堪称奇迹的进步背后,正是内存计算技术发挥了至关重要的作用。顾名思义,内存计算技术,实质上就是CPU直接从内存而非硬盘上读取数据,并对数据进行计算、分析。“这项技术是对传统数据处理方式的一种加速,是实现商务智能中海量数据分析和实施数据分析的关键应用技术。”SAP公司全球数据库解决方案亚太区技术总监卢东明说道。

事实上,作为数据库领域一项创新的技术,内存计算的出现,对于数据库市场带来了巨大的冲击。在卢东明看来,过去20年,数据库技术的发展其实陷入了瓶颈之中。由于少数数据库厂商对市场的绝对垄断,导致它们疏于数据库技术方面的创新。

但在处理传统的在线交易处理(OLTP)应用时,这种创新瓶颈的问题并没有得到完全的体现。因为,OLTP系统主要是对发生的业务进行实时记录,处理的主要是大量简单、小规模、同时发生的交易。因此,对于数据挖掘和分析的需求并不是很大。

但随着大数据的出现,企业对于在线分析处理(OLAP)应用的需求越来越强烈,也就是说,企业对于海量数据的挖掘和分析越来越重视,而且,更为关键的是:他们需要实时的分析和挖掘。

在这种情况下,传统数据库技术的瓶颈被放大:由于传统的数据库技术是将数据存储在硬盘上,需要进行计算和分析时,再将数据从硬盘调用到内存中。在处理海量数据时,这种方式无疑会耗费大量的时间,很难做到实时计算。

速度成为最大优势

而内存计算技术,则是将需要分析的数据全部存储在内存之中,并在内存中进行大量的数据分析和计算。这样,对于海量数据的分析速度将得到大大的提升。

举一个例子:如果过去装修一个房子,需要到现场去测量,然后回去准备所需的材料打造成家具。HANA的理念是无需再移动数据。也就是说,可以就地取材,就在数据所在位置开始测量、开始建造。

显然,这样的优势是更灵活、反应更快。因此,内存计算非常适合处理海量的数据,以及需要实时获得结果的数据。比如可以将一个企业近十年几乎所有的财务、营销、市场等各方面的数据一次性地保存在内存里,并在此基础上进行数据的分析。当企业需要做快速的账务分析,或要对市场进行分析时,内存计算就能够快速的按照需求完成。

通过上述的分析,不难看到内存计算技术的最大优势:速度。这一点,对于大数据应用显然十分关键。比如,在银行业,大数据可以应用与信用卡防盗、防欺诈等方面。但如果数据的分析处理时间需要一两天甚至一周,那么对于银行而言,显然已经没有什么意义。他们需要的是系统能够对数据进行实时的处理和分析,为银行的相关工作人员提供实时的告警。

“内存计算技术在大数据时代将会有十分广阔的应用空间。采用内存计算技术,企业的海量数据处理能力将会得到几倍甚至几十倍的提高,也就意味着企业业务响应速度的大幅提升,这种提升所带来的价值是显而易见的。”卢东明分析道。“因为,在很多行业,如果一直能够比竞争对手快一点,那无疑就会在市场上取得明显的竞争优势。”

此外,内存计算还可以模拟一些数据分析的结果,实现对市场未来发展的预测。例如,可以帮助用户在事情没发生前假设各种场景,然后进行分析,以预测将要发生的事情。

SAP的HANA是内存计算技术应用的典型代表。通过采用内存计算技术,HANA在大数据领域表现抢眼。

文章开头提到的农夫山泉,是SAP内存计算技术在中国的第一个客户,在应用HANA之后,农夫山泉所有的销售数据都加载在HANA中,进行分析和计算,而且,其分析和计算在几秒钟内就可以完成。“在它原来的平台之上,不可能把所有的历史数据完全加载计算。如果非要计算也可以,但分析的周期可能是以年为单位。”卢东明说。在卢东明看来,随着大数据应用的普及,内存计算技术的应用空间将会越来越广泛,甚至有可能改变数据库市场的“游戏规则。”

当然,内存计算技术也并非完美。例如,在内存增大的情况下,散热问题如何处理?此外,目前大部分病毒都是针对内存展开攻击,如果未来内存计算技术大量普及,那么信息安全又该如何保证?

不过,随着内存计算技术的发展,相信这些难题都将会被逐步解决。而其在海量数据处理和分析方面的优势,将会随着其与更多行业应用的结合,被进一步放大。

来自于用户端的状况也表明,内存计算将成为未来一个主流的方向。Gartner称,在2012年,10%的大型和中型组织在一些容量的数据中采取了内存计算。到2015年,这一数字将会增长到35%。“内存计算市场将在未来两年实现大幅增长,”Gartner副总裁兼分析师Massimo Pezzini说:“我们每一天都发现更多的人采用内存计算”。

相关热门标签