前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的大数据迁移方案主题范文,仅供参考,欢迎阅读并收藏。
迎接大数据时代
惠普在大数据市场的战略是分别从产品和服务两个方面帮助客户迎接大数据带来的挑战。
在产品方面,主要通过业界熟知的自然语言分析平台Autonomy IDOL、高性能数据分析平台Vertica、通用日志管理平台ArcSight等组成。而在服务方面,惠普推出了大数据咨询服务。这些咨询服务包括:为大数据管理制定整合IT战略的惠普大数据基础设施变革经验研讨会;规划并部署大数据系统基础设施的Hadoop企业规划服务、实施服务以及参考架构实施服务;帮助客户应对大数据中的风险和挑战,以及其对安全、合规以及业务连续性造成影响的惠普大数据保护与合规分析等。
简化云部署和云管理
云计算是惠普所说的IT新型态之一,也是惠普重点投资领域,惠普推出的基于OpenStack技术的HP Cloud OS就是惠普在云计算领域的最新动作。这一开放且可扩展的云技术平台将为惠普融合云通用架构奠定基础,将使企业客户能够在私有云、公有云和混合云环境中提高负载迁移能力,简化安装并提升生命周期管理水平。
惠普的私有云整合解决方案CloudSystem和登月系列服务器(MoonShot服务器)将首先内置HP Cloud OS技术,来为客户提供包括横跨混合云基础设施的突发功能在内的更优部署选择。此外,惠普还计划将HP Cloud OS技术集成到面向混合云的云管理平台——惠普云服务自动化中。
惠普还推出了Sandbox版HP Cloud OS,使客户能够评估并了解OpenStack的使用方法。这将有助于开发新负载,并将当前负载迁移到云环境中。
推动存储转型
基于统一的技术平台来支持存储、备份以及归档,惠普推出了一体化的存储架构。在惠普世界之旅上新亮相的固态优化全闪存惠普3PAR StoreServ系统,主打在确保企业弹性且不增加数据中心复杂性的前提下,提供高性能和低延迟的产品表现;惠普StoreOnce虚拟存储设备(惠普StoreOnce VSA)更是一款惠普在软件定义存储领域的创新之作,它能让小型站点缩减高达65%的备份成本。
此外,惠普还推出磁带库新产品StoreEver MSL6480,该产品能以适中的价格提供用于长期数据保护的企业级功能,它可以从小规模开始自如扩展,提供行业领先的性能、可扩展性和密度,实现3.5 PB的单个库容量及高达每小时60.4 TB的性能。
打印及移动产品亟待重振雄风
从全球看,PC市场的萎靡不振给IT厂商带来太多挑战,业内努力寻找创新。惠普的做法是,新推出的产品和解决方案立足在“可帮助企业节省时间和资源,从而提升生产效率”。
惠普正式了两款全新的PC/平板二合一产品—— HP SlateBook x2和HP Split x2;在“智”触控产品方面,惠普全新的一体电脑和消费类笔记本电脑产品皆采用了智能十点触控显示技术,此次全新亮相的HP Pavilion11 TouchSmart 是惠普第一款小尺寸、全性能的触控笔记本产品;针对倡导的“多”系统理念,惠普新一代产品采用了Windows、Android等不同操作平台,使消费者可以根据个人实际应用特点从中挑选最贴切自身需求的产品。
EMC Isilon:横向扩展 性能突出
大数据存储不是一类单独的产品,它有很多实现方式。EMC Isilon存储事业部总经理杨兰江概括说,大数据存储应该具有以下一些特性:海量数据存储能力,可轻松管理PB级乃至数十PB的存储容量;具有全局命名空间,所有应用可以看到统一的文件系统视图;支持标准接口,应用无需修改可直接运行,并提供API接口进行面向对象的管理;读写性能优异,聚合带宽高达数GB乃至数十GB;易于管理维护,无需中断业务即可轻松实现动态扩展;基于开放架构,可以运行于任何开放架构的硬件之上;具有多级数据冗余,支持硬件与软件冗余保护,数据具有高可靠性;采用多级存储备份,可灵活支持SSD、SAS、SATA和磁带库的统一管理。
通过与中国用户的接触,杨兰江认为,当前中国用户最迫切需要了解的是大数据存储有哪些分类,而在大数据应用方面面临的最大障碍就是如何在众多平台中找到适合自己的解决方案。
EMC针对不同的应用需求可以提供不同的解决方案:对于能源、媒体、生命科学、医疗影像、GIS、视频监控、HPC应用、某些归档应用等,EMC会首推以Isilon存储为核心的大数据存储解决方案;对于虚拟化以及具有很多小文件的应用,EMC将首推以VNX、XtremIO为核心的大数据存储解决方案;对于大数据分析一类的应用需求,EMC会综合考虑客户的具体需求,推荐Pivotal、Isilon等一体化的解决方案。在此,具体介绍一下EMC用于大数据的横向扩展NAS解决方案——EMC Isilon,其设计目标是简化对大数据存储基础架构的管理,为大数据提供灵活的可扩展平台,进一步提高大数据存储的效率,降低成本。
EMC Isilon存储解决方案主要包括三部分:EMC Isilon平台节点和加速器,可从单个文件系统进行大数据存储,从而服务于 I/O 密集型应用程序、存储和近线归档;EMC Isilon基础架构软件是一个强大的工具,可帮助用户在大数据环境中保护数据、控制成本并优化存储资源和系统性能;EMC Isilon OneFS操作系统可在集群中跨节点智能地整合文件系统、卷管理器和数据保护功能。
杨兰江表示,企业用户选择EMC Isilon的理由可以归纳为以下几点。第一,简化管理,增强易用性。与传统NAS相比,无论未来存储容量、性能增加到何种程度,EMC Isilon的安装、管理和扩展都会保持其简单性。第二,强大的可扩展性。EMC Isilon可以满足非结构化数据的存储和分析需求,单个文件系统和卷中每个集群的容量为18TB~15PB。第三,更高的处理效率,更低的成本。EMC Isilon在单个共享存储池中的利用率超过80%,而EMC Isilon SmartPools软件可进一步优化资源,提供自动存储分层,保证存储的高性能、经济性。第四,灵活的互操作性。EMC Isilon支持众多行业标准,简化工作流。它还提供了API可以向客户和ISV提供OneFS控制接口,提供Isilon集群的自动化、协调和资源调配能力。
EMC Isilon大数据存储解决方案已经在医疗、制造、高校和科研机构中有了许多成功应用。
方案点评
EMC Isilon是一个强大但简单的横向扩展NAS方案,适用于希望投资数据管理而不是单纯存储的企业。当初,EMC将收购来的分布式数据仓库软件厂商Greenplum的软件与Isilon存储组合成了EMC最早的大数据解决方案。用户既可以分开选择Greenplum软件或Isilon存储,也可以选择由Greenplum软件和Isilon存储组成的一体机解决方案。现在,Greenplum软件虽然已归Pivotal公司,但EMC是Pivotal的经销商与合作伙伴,Greenplum与Isilon存储的组合方案并不会因此受到影响。
HDS UCP:统一平台 应用优化
HDS中国区解决方案与专业服务事业部总监陈戈认为,大数据存储应该是一个解决方案:“大数据解决方案是由基础架构的各部件组成的,包含数据存储、计算和分析,而存储是此架构中的一部分。”
大数据的存储类型与传统的存储类型有一定区别:在大数据存储中,更多的应用是一次写、多次读,读得更多是大数据存储的一个特点,而在传统的数据存储中,读写是随机的,由于每个应用不同,其读写的比例也是随机的;大数据存储需要具有横向的可扩展性,并可支持多种接口、多种数据访问协议,便于不同数据进入这个大数据平台。
谈到中国用户在大数据存储应用中最迫切的需求是什么,陈戈认为,中国用户最迫切的需求是如何逐步实现大数据应用,即用户从现有的模式如何过渡到大数据,如何更好地利用大数据进行经营分析。
大数据的经典定义可以归纳为四个“V”,但企业不可能一步到位实现四个“V”,这需要一个循序渐进的过程。海量的、多种类型的数据是一次性全部载入到大数据中,还是通过现有的平台进行数据初选,再导入到大数据平台中,是两种不同的实现途径。“先通过现有平台进行数据初选,再导入到大数据平台,这种方式更适合于客户逐渐实现大数据,可以缩短用户实现大数据应用的时间。”陈戈表示,“大数据主要是非结构化数据。用户可以使用基于对象数据存储的HCP,利用其独特的元数据采集和智能工具,对非结构化文件数据进行管理,实现智能的自动化,这有助于对数据进行深度分析,帮助客户从单一系统中存储、共享、同步、保护、保存、分析和检索文件数据,减少垃圾数据,进而为大数据分析建立一个良好的基础。”
谈到用户在大数据应用中遇到的主要障碍,陈戈表示,一方面,应用软件本身的智能程度是否能满足行业应用需求,应用软件是否已经成型,大数据人才是否具备等,是让大数据应用落地的关键;另一方面,如何抽取数据,放在大数据平台中进行相应的计算是另一个关键问题。
HDS可为所有数据提供单一、可扩展的虚拟化集成平台。HDS推出了“三步”云战略,从基础架构、内容和信息三个层面帮助客户解决目前所遇到的问题。具体来看,通过“基础架构云”,HDS可以帮助客户进行虚拟化和集成管理,实现数据中心的整合;在第二层的“内容云”当中,HDS可以按需提供内容,更可以不受应用限制地进行数据搜索和集成;在第三层的“信息云”中,针对所有数据类型,HDS在其存储平台中融入了分析功能,使客户可以从数据信息中获取洞察力。
HDS提供的UCP for SAP HANA集成了基于大量数据集的创新和内存分析技术,并提供实时的洞察力,从而使当前的信息驱动型企业可以加快其商业决策的速度。陈戈介绍说,UCP for SAP HANA解决方案结合了HDS刀片服务器技术、企业级存储系统和业内领先的网络组件,在这样一个集成的、高性能的硬件平台上可以快速交付SAP下一代内存计算技术。全球已有超过200家客户在使用HDS和SAP的大数据解决方案。
方案点评
其实,HDS的“三步”云战略也可以看成是其大数据战略。HDS借助以UCP为核心的大数据平台,可以帮助企业用户构建从基础架构到内容归档和搜索,直至信息提取和分析的全面、高效的大数据解决方案。HDS的“信息云”直接与大数据相关。UCP是一个集成了计算、存储与网络的一体化平台,它既可以提供像一体机一样的整合性、简单性,又可以提供灵活的选择,连接第三方的设备组件。HDS还通过与包括SAP在内的众多大数据分析类的合作伙伴合作,针对行业定制优质的大数据解决方案。
HP StoreAll :快速部署 极速搜索
中国惠普有限公司企业集团存储产品部存储架构师张楠向记者表示,大数据存储是一套解决方案,应该能够对大数据的Volume、Velocity、Variety和Value四个方面提供全面的支持。
第一,大数据存储要支持海量级的数据存储,比如具有PB级的存储能力。第二,大数据存储要支持更高的存储速度,支持10Gb甚至更高的网络连接。第三,大数据存储要支持数据的多样性,如图片、文本、视频、音频等。第四,大数据最重要的是价值的体现,而为了实现这一点,存储本身应该具备快速、智能的数据检索能力。“在存储的最底层提供最直接、快捷的数据检索。这一过程简单说就是,将上层的数据挖掘工作下移,充分利用存储强大的处理能力和数据识别能力。”张楠举例说,“比如,在秒级的单位内对数据进行极速的搜索, 从几千万甚至上亿个文件中找到目标数据。”
另外,模糊查询能力也是大数据存储不可缺少的功能。智能的模糊查询将为大数据平台提供更加便捷的存储服务能力,使得存储更像一台智能的高速计算设备。
目前,很多中国用户在存储厂商的引导下,片面追求存储的大容量和高性能,而忽略了大数据存储本身应该提供的其他额外属性。中国用户在实施大数据的过程中经常遇到的障碍有以下两方面:第一,无法将存储与大数据平台进行对接;第二,无法充分利用大数据存储的价值,也很难将其运用到实际的业务中。张楠表示,究其原因,主要在于有些大数据存储产品没有开放的接口协议,或没有针对用户的大数据场景进行特别优化,也没有用户容易接受的易用的管理方式等。
惠普在大数据方面可以提供软硬结合的解决方案。惠普在收购Autonomy公司之后,将其软件与惠普的硬件平台进行了整合, 形成了一套完整的大数据解决方案。张楠介绍说,在存储方面,惠普拥有像StoreAll这样的大数据存储平台。借助HP StoreAll硬件平台,用户除了可以实现海量数据的存储和高速数据访问以外,还能实现高级的数据检索功能,对特殊文件进行快速定位。同时,结合HP Autonomy软件的特性,惠普还引入了模糊查询、智能语义库等概念,可以帮助企业用户通过存储底层为上层业务带来所需的大数据业务价值。
如今,闪存不仅在大数据领域,而且在Tier 1存储市场同样占据着十分重要的地位。对于大数据平台来说,闪存可用来提升存储的存取速度,降低I/O的响应时间等。针对那些I/O压力十分明确的大数据平台, SSD可以发挥其效果, 提升存储的整体性能。但是,SSD并不是万能的。因为大部分的数据都是非结构化的,而非结构化数据对I/O的响应要求远远没有对带宽的需求大,所以,让用户花数倍的价格购买SSD存储在目前来看还是比较困难的。从目前情况看,引入闪存的大数据解决方案还不是很普遍。
方案点评
惠普在大数据方面收购了两个软件公司Vertica与Autonomy,然后将它们的软件与原有的硬件平台进行整合,针对结构化和非结构化的数据都可以提供针对性的解决方案。惠普在将大数据软件与存储硬件结合上也进行了尝试,其中一个成功的例子就是HP StoreAll大数据存储平台。HP StoreAll具有以下特点:横向扩展,最大可以扩展到16TB;集成HP Autonomy搜索引擎,可以快速搜索,实现实时大数据的价值;内置对OpenStack的支持,可快速部署;支持文件和对象类型的数据存储。
NetApp:统一架构 无限扩展
如今,企业若想获得成功,就必须想方设法应对具有前所未有的复杂性、高性能的海量数据,并尽可能地管理这些数据,从中发掘更大的商业价值。
对于国内用户来说,无论企业的规模和数据量大小如何,运用大数据的关键在于,企业是否把大数据作为一个真正的工具,去体现企业的差异化,从而提升竞争力。随着越来越智慧的企业信息化的发展,IT不再是束缚企业发展的瓶颈,而是真正地融入了企业自身的业务中。越来越多的公司将大数据成功地运用于企业的商业模式。例如,在欧美,很多企业已经着手将大量资源投放在大数据领域。反观国内,在金融领域,有为数不少的企业通过大数据的分析工具来分析金融的走势,实现风险管理,进行信用卡的追踪等。此外,像零售、制造、电信等行业也已在尝试利用大数据分析工具为企业营销和决策提供支撑。
无论企业现在是否正在使用大数据工具,企业都应全面地考虑自身未来发展的需求,选择一个厂家的平台与之共同发展,这可以有效避免因数据和应用迁移带来的麻烦。
在大数据方面,NetApp能够帮助企业实现数据管理,应对业务挑战的极限,将以数据为导向的洞察转化为有效行动。若想将数据转化为商机,仅仅提升管理能力是不够的,需要彻底转变数据和业务之间的联系模式。NetApp可以帮助企业用户持续管理数据,迅速把握意料之外的新商机,永久保存所有数据,并在灵活、开放的存储平台之上打造属于企业自己的大数据解决方案。
NetApp提供了可高效处理、分析、管理和访问大规模数据的大数据解决方案。NetApp的解决方案组合可划分为分析、带宽和内容三个主要用例,这被称之为大数据的“ABC”基本要素。
具体来看,分析(Analysis)是指针对极大数据集的高效分析。NetApp分析解决方案就是帮助用户深入了解和利用数字世界,将数据转化为高质量的信息,以及提供关于业务的更深入见解,从而帮助企业做出更好的决策。
带宽(Bandwidth)是指适用于数据密集型工作负载的性能。此类解决方案着重于为速度非常快的工作负载提供更高的性能。高带宽应用包括高性能计算(能以极快的速度执行复杂的分析)、用于监控和任务规划的高性能视频流、媒体和娱乐领域中的视频剪辑和播放。
内容(Content)是指无限的安全数据存储。此类解决方案着重于满足可扩展的安全数据存储需求。内容解决方案必须支持存储的无限扩展能力,以便企业可以根据需要存储任意多的数据,并能在需要时找到所需的数据。
NetApp致力于通过一系列解决方案来提供高性能的运算和大数据的应用。2013年11月,NetApp再次更新了E系列家族产品,推出E2700和E5500。该系列产品采用可轻松扩展的设计,适用于要求99.999%的可靠性且稳定、高性能的工作负载。
用户在采购大数据存储产品时,需要注意以下五个方面的问题:大数据存储必须具有向上扩展与向外扩展的能力;架构必须是针对工作负载进行优化的,具有实时处理能力;具有整合的数据保护功能;保证7×24小时运行不中断,可在线进行容量扩展,实施数据迁移等;可以实现服务的自动化。
方案点评
NetApp的技术优势集中体现在其统一存储平台上,从入门级产品到企业级产品,全部基于同一个体系架构和操作系统,不仅部署和使用方便,而且升级和扩展非常简单。当初,NetApp收购LSI Engenio,其中一个重要的原因就是为了大数据。2013年,NetApp不断更新E系列产品线,推出E2700和E5500等。E5500可以支持高IOPS混合工作负载和数据库、高性能文件系统和带宽密集型流等应用,可确保数据的高可用性、完整性和安全性。
曙光XData:高度集成 贴近行业
关于大数据存储,目前业界没有一个通用的定义。曙光信息产业股份有限公司总裁助理兼存储产品线产品总监惠润海从曙光大数据平台和解决方案角度,概括出大数据存储的主要特征。
首先,大数据存储必须支持全类型数据, 包括结构化、半结构化和非结构数据,实现统一数据支持。
其次,存储性能上,一方面,大数据存储要支持海量数据,并且要在保证数据可靠性的基础之上,实现容量与性能的线性扩展;另一方面,为了实现大数据的价值,批处理和实时处理两种措施都需要高性能的数据访问获取能力。
最后,在系统达到一定规模之后,系统的易用性和可管理性也是不可或缺的。
从应用角度来说,目前中国用户在大数据存储应用中最迫切的需求,是如何真正实现用户数据的价值,如何驱动业务发展,实现决策和运营。“从系统构建层面说,要实现数据高性价比的存储和管理,同时满足数据服务的相关需求。”惠润海表示。
针对用户对大数据存储的需求, 曙光推出了像大数据一体机这样的全类型数据分析型产品,同时还基于该产品构建了基于行业的解决方案,以帮助用户实现大数据落地。
“除此之外, 我们还提供了大数据统一数据中心解决方案, 涵盖了像主攻事物处理的DS900、DS800,以及针对文件存储的Parastor等存储产品。我们基于这些存储产品构建了大数据运营管理平台。”惠润海介绍说,“曙光的优势不仅在于可以提供全面的产品支撑,更重要的是能够提供数据生命周期过程服务支持。目前,我们提供的免费维保期限为5年。”
曙光开发了针对不同行业和应用场景的大数据存储解决方案。以金融行业为例,目前国内四大行的应用系统每年产生的非结构化数据量已达到PB级,结构化数据也以百TB计。面对如此大量的数据,如何存储、管理、利用和盘活它们呢?惠润海认为,只有通过商业智能和高级分析应用解决方案才能将数据的价值最大程度地发挥出来。
针对金融行业用户的需求,曙光开发的XData大数据解决方案利用优化的大数据处理技术,对文件管理、历史数据查询和数据分析类应用等进行深入研究,为数据爆炸式增长带来的海量数据存储及分析应用提供高可靠的解决方案。
曙光金融行业XData大数据解决方案采用曙光自主研发的SN-MPP并行数据库,同时结合大数据处理事实标准Hadoop,并充分考虑了多方面的数据收集,加入ETL工具和连接驱动器,提供了类SQL的接口,还和现有金融业务系统进行对接。
针对金融行业历史数据,XData大数据解决方案在方案设计上主要考虑了数据的安全性、历史数据高效导入、快速访问与分析报表。曙光金融行业大数据解决方案立足于基础平台建设,同时切实贴合金融行业用户需求,提供了优质的软硬一体化解决方案,为用户一揽子解决了部署、业务移植开发等技术难题,帮助用户跨过应用门槛。
云计算IT行业的大趋势,越来越的企业开始考虑或者着手部署云计算。不过,业内人士提醒,作为一种新的部署和利用IT技术的方式,云计算对数据中心的基础设施有着较高的要求,换而言之,如果还是采用传统的数据中心基础设施,是很难满足部署云计算的要求的。
“云计算的典型特点是高密度负载以及灵活地动态调度,这就要求数据中心的基础设施能承受这种高密度负载的灵活迁移。”施耐德电气IT事业部全球数据中心副总裁Paul-Francois Cattier告诉记者,传统数据中心由于没有考虑这么高密度的负载,所以在供电能力和制冷能力上常常难以满足需求;同时,在管理手段上也不支持负载在数据中心范围内自由调度。
另外,传统数据中心在电能利用效率过低,通常PUE值会在2.2,而一个设计良好的数据中心其PUE值可以降到1.3,甚至1.1。
“降低电能消耗,提高用电效率,是对新一代数据中心或者说云时代数据中心的基本要求。这既是社会责任,也是降低数据中心运营成本的必然选择。”Paul-Francois Cattier说,相关研究表明,在数据中心的整体运营成本中,电力成本可能占到40%-50%,如此之高的占比提醒我们降低电能消耗的重要性。
什么样的数据中心可以满足云计算的要求?对此Paul-Francois Cattier认为,数据中心必须具有如下特征:
1. 标准化。新一代的数据中心一定是采用各种标准化的组件,符合各种国际标准。只有这样才能保证快速部署,比如,集装箱式数据中心只要几周就可以快速构建起来。
2. 高密度。云计算是一种集中化的部署方式,要在有限空间内支持高负载,刀片式服务器等高密度设备是必然选择。
3. 模块化。数据中心要满足动态的需求,必须具有一定伸缩性。同时,为了节省投资,最好能边成长边投资,而模块化就是最好的选择。另外,模块化还能提高可靠性和节电。
4. 集中化的管理。传统数据中心IT设备与基础设施是由不同的人分开管理的,通常,IT设备由IT部门管理,而基础设施则由基建部门负责。以虚拟机在不同机柜中的迁移为例,传统的IT管理工具通常只关心那个机柜中是否有合适的IT资源,而实际上,如果某个机柜中如果制冷能力不够,即使它还有冗余的计算能力也不适合增加新的负载。
“如今,这个问题已经引起了厂商的关注,包括施耐德电气旗下的APC在内一些厂商已经推出了集成化的管理工具,为云环境的管理提供了很大的方便。”Paul-Francois Cattier说。
====以下简讯===
首款本土化设计桌面虚拟化产品面世
10月27日,在VMware公司主办的VMware中国用户大会上,福建升腾资讯有限公司与VMware正式联合业内首款专为中国客户量身定制的桌面虚拟化解决方案——升腾CT Vision,全面满足本土市场虚拟化桌面终端管理需求。升腾CT Vision是双方自2010年10月达成战略合作伙伴关系以来,充分利用各自在瘦客户机产品研发、桌面虚拟化方面的优势,共同推出第一款专为中国用户设计的桌面虚拟化产品,也是目前业内外设支持最好的桌面虚拟化产品。
Sybase ASE 15.7正式上市
日前,SAP旗下的Sybase公司的全新版本的企业数据管理解决方案Sybase ASE 15.7正式上市。作为SAP Business Suite商务套件的基础,ASE 15.7不仅为SAP客户提供了一个强大的数据库支持,也可以让现有的Sybase ASE客户方便地采用最新功能和优化特性,而不需要升级数据库。更为重要的是,具有全新先进压缩功能的ASE 15.7还可以节省磁盘空间、提高并行硬件的性能和可扩展性,有效管理非结构化数据。强大的功能足以应对大数据时代对数据处理性能、类型、安全等方面的挑战。新版ASE有5大重大改进,包括面向存储的优化、应用程序开发效率提升、诊断与监测的提升、增强的安全管理和性能提升。
Oracle NoSQL数据库支持大数据应用
甲骨文公司日前宣布,Oracle NoSQL数据库即日起可以在Oracle技术网下载。Oracle NoSQL数据库是Oracle大数据产品线的关键组成产品之一。Oracle NoSQL数据库能够帮助客户以动态架构轻松管理大量数据,例如博客数据、传感器和智能电表数据、个性化数据收集以及社交网络存留的数据。此外,甲骨文公司还将提供一款新型集成设计系统,即Oracle大数据机(Oracle Big Data Appliance),该系统可以对Oracle NoSQL数据库以及其它Oracle大数据产品进行优化。Oracle大数据机将于2012年第一季度面市。
Infor 10 为企业软件注入新体验
Infor日前宣布推出Infor10和Infor10 ION软件套件。Infor10具有消费者级用户体验和完整行业应用特性,Infor10 Workspace是Infor10的前端,旨在提供一个消费者级用户体验并改变普通企业用户的工作方式;而Infor10 ION软件套件是一个能够改变企业软件管理方式的轻量、中间件技术,作为Infor10的核心,ION连接并集成了Infor和非Infor的应用程序,并在一个常见的格式和库里存储信息。
SUSE基于OpenStack的云基础设施解决方案
SUSE公司于近日宣布,其开源、云基础设施解决方案的初步开发快照已。SUSE公司正在通过增加在商业上得到支持的工具,帮助客户快速轻松地构建私有云基础设施来扩展其解决方案产品包。该公司的SUSE Cloud是业界第一个经过充分配置的、基于OpenStack Diablo的可供公众使用的软件设备。它还是SUSE开源、开放标准、厂商无关的云基础设施解决方案首个快照。依靠SUSE Enterprise Cloud Infrastructure这样的开放解决方案,客户可在私有云基础设施的跨物理和虚拟环境中具有更强大的视程,从而使资源得到更好的利用、使业务更加高效。
Nimsoft服务台提供托管的IT服务管理
Nimsoft日前宣布,Nimsoft服务台作为一款基于SaaS模式的创新型解决方案,在亚太市场中被客户广泛采用。这款独创的SaaS解决方案自推出伊始,来自服务提供商和企业客户的需求持续显著增长。
Nimsoft服务台是一个纯粹的SaaS多租户解决方案,用户可通过一个自助服务门户获得广泛的能力,包括提交变更请求、请求服务、报告事件,并利用一款知识管理引擎来立即解决各种常见问题。同时,这种可按需定制的解决方案提供了基于ITIL的工作流程,以及多年的最佳实践知识。 2010年3月,CA Technologies收购了Nimsoft。
百年伊顿创新为本
端到端的云计算解决方案
福建工程学院的目标是搭建一个支持大数据应用的云平台。福建工程学院信息科学与工程学院副院长邹复民说:“云平台会更加易于管理,可以提高硬件的利用率和可靠性。云计算更富有弹性,使得CPU、内存和整个处理集群得以即时扩展。我们面临的挑战是,要创建一个既可靠又易于管理的云平台。”
福建工程学院考虑了众多厂商的方案。“戴尔的解决方案具有很好的性价比。”邹复民介绍说,“经过测试,戴尔的解决方案能够可靠地支持VMware vCloud Suite软件,确保云计算解决方案的稳定和高性能。”
福建工程学院最终采用了端到端的戴尔整合云平台,包括服务器和交换机。借助戴尔企业部署服务团队的支持,福建工程学院部署了采用英特尔至强处理器的戴尔 PowerEdge M620刀片式服务器,每台服务器配置128 GB内存,运行VMwarevSphere Hypervisor 5.5。这些刀片服务器和戴尔网络MXL10/40GbE交换机同时配置在戴尔PowerEdge M1000e模块化刀片柜内。戴尔交换机可以支持云环境中每台物理服务器上的大量虚拟机。借助10/40GbE网络进行连接,数据移动得更快。
福建工程学院一开始就看到了戴尔整合解决方案的优势。邹复民说:“戴尔网络MXL交换机使用10GbE链路进行连接,性能相当出色。选择戴尔网络MXL交换机的一大好处是,可以减少连接到核心交换机的接口数量。MXL交换机提供了更大的带宽和更高的可靠性。未来,我们还可以轻而易举地基于戴尔网络MXL交换机的结构进行扩展。”
在存储方面,福建工程学院部署了具有数据分层功能的、采用英特尔Xeon处理器的戴尔Compellent SC8000存储阵列,其性能和无缝扩展能力可以满足福建工程学院的应用需求。邹复民介绍说:“未来,我们还可以在Compellent SC8000中增加一个优化的闪存层。戴尔Compellent解决方案的灵活性可以满足我们长期存储的需求。”为了使云基础架构变得更完善,福建工程学院还部署了采用英特尔至强处理器的戴尔PowerEdgeR730和R720服务器,用来支撑网站和一个独立的校园信息云计算平台。
实时分析交通信息,减少拥堵
如今,福建省政府和居民拥有出行的实时数据,政府部门可以使用这些信息来改善交通管理。福建省大约有12万辆汽车安装了GPS装置,平均每30秒就上传一次车辆的位置、速度等数据。这些数据连同主要交通路口的视频监控数据,源源不断地进入云平台。该云平台通过研究前一天的数据来分析公众的驾驶模式,比如分析出租车的行程和最受欢迎的路线等。邹复民说:“我们通过戴尔端到端云平台,正在帮助福建省制定其智慧城市的交通策略。这些数据展示了人们使用道路的方式,有助于政府制定相应的交通政策,从而解决车辆急速增长的难题。”
云平台的数据主要通过两个计算集群进行分析和处理:其中一个集群运行ApacheSpark开源软件,是一个可以对大型数据集群进行复杂分析的计算框架;另一个集群则运行创建内存数据池的Pivotal GemFire。两个集群均运行在云平台的虚拟机上。Apache Spark软件每天处理大型数据集群的信息,ArcGIS软件管理地理信息数据。这些服务器每30秒便对海量数据流进行一次处理。服务器内存数据库存储的数据不超过10分钟,一旦超过10分钟,数据便会被迁移到戴尔Compellent阵列。Compellent阵列的可用容量为83TB,目前已经使用了40TB。邹复民表示:“校园网中的大多数应用程序已经迁移到云平台上。学校只剩下几台物理服务器,主要运行Oracle数库。”
更好地支持智慧城市建设
关键词:经营分析;数据仓库;大数据;云计算
中图分类号:TP311.13
1 研究背景和意义
随着移动互联网时代的到来,三大运营商的业务重点正在从话音、数据业务向互联网业务转变。这种转变将对经营分析系统带来迫切的需求。一方面,日益严峻的竞争环境要求经营分析系统分析粒度更加细化,为前台客户发展、客户保留提供更为细致的分析结果;另一方面,随着业务模式的转变,海量的互联网数据需要纳入分析范围,这两方面的因素决定了未来几年经营分析系统的规模和处理性能将超常规发展。因此,经营分析系统传统的高端小型机+磁盘阵列的建设模式已难以适应移动互联网时代企业发展的要求,亟需寻找低成本、高性能的演进方案。
2 云计算与大数据
自Google提出云计算概念以来,已使得IT行业发生了巨变。最近一年来,大数据概念迅速兴起。大数据的兴起说明数据已成为重要的资产,谁拥有更多数据、更善于使用数据,就能吸引用户、产生价值,在未来IT行业发展中占据竞争的主动。
大数据技术与云计算的发展密切相关,大数据技术是云计算技术的延伸。大数据技术涵盖了从数据的海量存储、处理到应用多方面的技术,包括海量分布式文件系统、并行计算框架、NoSQL数据库、实时流数据处理以及智能分析技术等。云计算为大数据提供了发展的可能,大数据是云计算绝佳的业务领域。
大数据技术为运营商带来绝佳的转型机会。除应用于传统企业运营管理分析外(如战略分析、竞争分析、运营分析、流量经营分析、网络管理维护优化、营销分析),还可利用积累的数据,为用户提供内容服务,例如根据对用户上网行为的分析,为用户推荐应用商店软件、IPTV视频节目等。因此三大运营商应抓住机会,发力完善扩充运营分析系统,盘活庞大的数据资产,拓展业务领域。而这种转型,需要现有的数据仓库向云计算架构演进。
而就技术来说,目前应用与大数据领域的云计算技术主要包括MPP(大规模并行处理)数据库与Hadoop技术。
3 云计算MPP数据仓库关键技术分析
随着大数据时代的到来,传统的数据仓库系统已无法满足性能和成本两方面的挑战。而廉价的x86设备通过分布式并行处理软件集群实现了低成本、高性能的解决方案。虽然传统交易型数据库在向x86云平台迁移过程中仍有许多问题难以解决,但在分析型数据领域,由于其数据操作多为连续读写,业界已有较多x86云计算MPP数据库解决方案,构建价格低廉的基于x86平台的云数据仓库已成为现实。MPP云计算数据仓库关键技术如下所述。
3.1 数据库SharedNothing集群架构
面对大数据量的处理,MPP是数据仓库的必然演进方向。并行数据库架构方式主要包括SharedDisk和SharedNothing两种。
SharedDisk架构指数据库集群中每一个CPU使用自己的私有内存区域,通过内部通讯机制直接访问所有磁盘系统。其主要特点为高并发、高可用性。但其存在资源争用问题,当为大数据量处理增加更多的CPU时,因为增加了对内存访问和网络带宽的竞争,系统反而有可能减慢。
而在SharedNothing集群中,每一个CPU都有私有内存区域和私有磁盘空间,而且2个CPU不能访问相同磁盘空间,CPU之间的通讯通过网络连接。其主要特点为,支持大数据量处理高并行、低并发、低可用性。当事务数量不断增加时,SharedNothing体系可通过增加额外的CPU和内存来数据库稳定增长,从而可以保证每个事务处理时间不变。同时,SharedNothing在运行过程中降低了竞争资源的等待时间,从而提高了性能。
就其适用场景而言,当应用代码量很大、相关数据量比较小时,SharedDisk更加适合这种典型的OLTP应用;如计费系统。而当相关数据量很大、而应用代码并发量很小时,由于SharedNothing架构可将单一大任务分解为多个小任务、同时在多个节点处理,通过并行缩短任务处理时间,从而大大提升系统性能。因此SharedNothing架构是云计算数据仓库的必然选择。
3.2 列式数据库
列式数据库是以列相关存储架构进行数据存储的数据库,主要适合于批量数据处理和即席查询。相对应的是行式数据库,数据以行相关的存储体系架构进行空间分配,主要适合小批量的数据处理,常用于联机事务型数据处理。
列数据库在数据仓库、商务智能领域应用中有着先天的优势:独特的存储方式,能够迅速的执行复杂查询;列数据库的压缩技术,更是能为数据仓库、商务智能应用中巨大的数据量节约存储成本;列数据库先进的索引技术也大大提高了数据库的管理,其优势详见下表,可见列式数据库是云计算数据仓库的不二选择。
4 运营商经营分析系统演进方式探讨
如前所述,随着移动互联网的快速发展,三大运营商如想在竞争中占据鳌头,则其经营分析系统应快速跟进,提升性能、扩大容量,抓住行业变革的机遇,采用云计算技术构建海量数据分析平台,实现数据的价值化。因此,经营分析系统应在近期快速搭建企业统一云计算分析平台。
就平台搭建方式而言,可采用MPP数据库与Hadoop技术结合的方式。MPP数据库用于处理结构化数据和大批量分析任务,实现对经营分析系统核心数据仓库的接管和替代;而Hadoop适合处理非结构化数据与NoSQL数据,适应小粒度高并发数据处理场景,应用于ETL等子系统,与云计算MPP数据仓库形成互补,充分提升数据仓库的处理能力。
4.1 MPP数据库建设方式建议
从业界主流的两种云数据仓库技术路线来看,一体机方案虽然性能较高,但其无法支持在线平滑扩展,在业务灵活性方面受限;且其硬件为专有硬件,容易形成对特定厂家的绑定;产品价格普遍较高,较传统建设方式优势不明显,随着未来数据量的激增,必将对企业产生较大的成本压力。
而软件数据库管理系统技术路线则在灵活性方面占据优势,可随着未来业务的变化在线扩展系统;其硬件支持标准x86设备,未来建设选型空间较大,系统总体投资较低;在未来使用大云HugeTable时,标准的x86硬件也可平滑利旧。因此,运营商应尽早引入基于软件数据库管理系统的云计算数据仓库产品,一方面降低系统建设成本,另一方面通过系统迁移部署及早积累经验,规范应用软件,为未来全面转向云计算数据仓库做好准备。
4.2 落地实施建议原则
由于云计算数据仓库技术较为前沿,在通信行业落地案例极少,缺乏可借鉴的建设经验;而经营分析系统已逐渐由后台决策支持系统转变为支撑前台业务发展的生产系统,出于保证系统稳定性考虑,在从现有经营分析系统向云平台迁移时,应审慎、分阶段实施。
另一方面,现有经分系统运行压力已非常大,新业务需求层出不穷,系统能力扩容迫在眉睫。结合两方面考虑,云计算数据仓库落地建议以“分流减压、可用验证、渐次替换”分步实施方式进行。
5 结束语
云计算技术在大数据处理方面已具备较好的实践基础,可满足运营商经营分析系统低成本、高性能建设的需求,及早探索云数据仓库的建设,近期将有助于其在移动互联网时代占据竞争优势。远期则可以在经营分析系统基础上,搭建大数据分析平台,通过自己采集、第三方提供等方式汇聚数据,并对数据进行分析,满足在线广告、电子商务等行业的数据分析需求。
参考文献:
目前,客户正在迅速部署分析应用来提高业务洞察力,并将ERP、分析和数据库等关键工作负载向云计算平台迁移,而x86系统是许多企业的第一选择。X6 架构对于内存需求较大的应用来说,能够提供三倍的可扩展内存容量(与其他x86系统相比),以支持云计算和大数据分析。新一代X6 架构具备以下特性:
X6采用 eXFlash 内存通道存储。这种存储安装在非常靠近CPU的内存插槽上,能够提供 12.8 TB的极速闪存容量,从而缩短延迟,提高以大数据分析为代表的应用性能。X6 可缩短数据库操作的延迟时间,还可以通过减少或取消所需的外部 SAN/NAS 存储单元而减少存储成本;
X6采用模块化、可扩展的设计,是能够支持多代 CPU的x86架构,可以降低采购成本。X6 具有适应未来技术发展的稳定性和灵活性,用户可基于当前系统进行灵活扩展,并在日后进行升级,快速装机和配置模式能够简化部署和生命周期管理。
X6能够帮助客户把基于云的交付模式扩展到关键业务领域。X6的内存和存储特性能够提高虚拟机性能,支持应用的SaaS交付。具备自主自愈功能的 CPU 和内存系统能够主动识别潜在故障并采取修复措施,旨在保证应用正常运行时间。此外,向上集成的模块设计便于系统管理员利用虚拟化工具执行管理任务,从而降低系统管理成本和复杂性。
湖北联通IT系统的演进就颇有代表性。湖北联通的核心BSS系统从联通创建至今一直沿袭着传统的架构模式:Unix小机加高端存储阵列。为了满足业务增长需求每年不断地扩容改造,但在当前架构下的扩容总是属于被动地满足应用升级的需求,即便如此,依然会在高峰时感觉紧张。
在云计算浪潮袭来,湖北联通注意到云计算的优势开始尝新求变。湖北联通从2010年开始探索云架构,去年上半年基本完成了对整体系统平台和应用进行了充分改造,初步构建了基于IaaS架构的BSS核心系统。同时,湖北联通还做了一个大胆尝试,基于x86服务器加开源kvm构建资源池来支持其Web业务。
湖北联通的这段经历其实江西电信也经历过。作为中国电信最早进行云计算项目试点之一,江西电信在更早些时候就已经建起了一个有2台大型主机、数十台x86服务器构成的IaaS云,在这个云平台上,江西电信建起了横跨三个数据中心的两朵云(即公共云和业务云)。
江西电信云计算项目主要负责人柳立峰博士告诉本报记者,其尝试云计算的一个目的,解决服务器和存储设备利用率低的问题,提高IT系统灵活性,另一个更长远的目的是为电信企业找到新的“钱途”。“比如,手机搜索、计算资源出租以及一些智能化应用等新业务形式都需要云计算平台来支撑。”他说。
江西电信和湖北联通商在IT建设上的这些变化正是整个电信运营IT变化的一个缩影。近年来,云计算以及以通用服务器取代传统高端小机成为很多电信运营商和大型企业非常关注的话题,而敏感的IT厂商显然已经注意到这种变化,推出了自己对应的服务和解决方案。
“今年1月份,我们了Symantec 4.0战略,其核心之一是我们会把自己的技术重新整合来去推动整个的IT架构的变革,即推动IT行业从传统的IT架构向云计算、移动化等新的IT架构迁移。”赛门铁克大中华区技术支持部总监李刚告诉计算机世界记者。
很显然,在移动化、大数据、云计算等新技术的推动下,IT行业向一个全新的架构演变:移动终端成为用户访问企业信息重要的信息入口,改变了很多新的业务模式,直接推动IT系统的变化;大数据系统的出现使得原来的架构成本太高、灵活性不够的弱点越来越明显。在这种背景之下,人们开始探索新的解决方案,而像x86服务器、通用的存储设备等通用硬件和开源软件由于成本优势,也开始进入规划者的视野。
今年年初,EMC重新调整了管理团队,任命了一位新的全球CIO Vic Bhagat,而原来的CIO Sanjay Mirchandani则被调到EMC新成立的公司Pivotal Initiativ,同时继续支持EMC快速增长市场。有趣的是,Vic Bhagat来自通用电气并在那里工作了20多年的时间,而通用电气正是Pivotal的股东之一。
对于EMC这样靠云计算与虚拟化解决方案每年收入上百亿美元的公司来说,它的全球CIO从来都不仅仅负责传统CIO的工作。作为新CIO,Bhagat同时还是企业服务业务执行副总裁,其职责涉及EMC的信息技术、全球卓越中心、全球企业服务(GBS)以及间接采购组织。
“如果要把这四个层面的工作按照关注度进行排序的话,我首要关注的肯定是全球卓越研发中心,通过对组织架构的重新调整,让全球研发中心变得真正全球化,能够专注EMC的核心研发;其次是EMC的内部IT架构,让现有架构跟上新的技术浪潮,并且成为EMC最新技术优秀样板;第三个是全球客户服务,第四是采购。”Bhagat强调,在这四项工作当中,重要的是找到其中重复或者效率不高的地方加以优化和自动化,提高整个组织架构的效率。
以EMC全球研发体系为例。Bhagat认为过去每个研发中心从某个角度讲都各自为战,也存在着一定的竞争关系。这半年来他听到不少业务开发部门强调“我主要是跟中国合作”、“我主要是跟以色列合作”或者“我主要是跟印度合作”之类的话。
“当然,这种模式也还可以。”Bhagat停顿了一下说,“但这样会影响EMC真正从全球层面看待自己的研发体系――每个国家研发中心的知识产权以及他们的核心技术。所以我将把EMC所有的研发中心塑造成一个整体团队进行合作,让所有EMC的业务部门、开发部门和整体的卓越研发中心,形成一个长期、良好的模式。”
说到EMC的四大卓越研发体系――中国、爱尔兰、以色列和印度,总会提到每个国家研发团队独特的价值和特性,而针对每个团队的工作特点给他们布置不一样的工作。如今,Bhagat更强调的研发体系的全球性工作网络,“除了原来主要关注的国家之外,让不同的研发中心之间也能互相进行支持与合作。这更多的是一个合作的平台,而不是竞争的平台。”
Bhagat认为自己在四个领域都接收了非常优秀的团队,但挑战主要来自于人才。“我希望在我周围都是一些比我更聪明、更优秀的人才,只有这样,才能把我的工作做得更好。但是怎么去找到这些聪明又优秀的人才,对我来讲还真是一个非常大的挑战。”Bhagat认为工作当中的热情很重要,“如果员工真的很有激情,对公司的各种战略方向都很认同的话,不仅会给管理层带来很大信心,客户和整个市场对公司的信心也会大增。我最愿意跟团队讲的一句话就是――当你每天早上醒来的时候,应该感到非常兴奋地去工作,因为你知道每天跟你一起工作的人都是一样聪明、热情的一群人。”
过去几年,EMC原有的基础架构在云计算以及虚拟化方面得到了很大的提高,包括以服务的方式提高IT的价值,对整个IT架构进行虚拟化,以及将分布在世界各地的数据中心进行整合以提高效率。比如,EMC公司内部是EMC私有云产品的第一个用户,在自己公司获得成功后,EMC也将这些经验和产品推广到全球客户。“在通用电气,我作为CIO更多是做后台的工作――提供应用、IT架构、支持业务系统,更多是公司内部层面上。但在EMC,CIO有两个很重要的职责,除了保证整个公司内部的IT基础架构能够满足业务的需求外,还要在外面真正面对客户,让客户了解EMC的产品,我们自己是怎么使用自己的产品的。”
对非结构化数据进行存储,除了考虑易用性、性能和安全因素以外,还要考虑与智能挖掘相关技术相结合。
大数据要求用户不仅要对传统商业智能软件进行改造,还要对企业已有的业务系统基础架构进行改造。
大数据面临的最大挑战是大规模、实时的关联性分析。对于存储来说,高吞吐、低延迟的要求会越来越高,内存、闪存的重要性也会越来越高。
中国石油研究院总工程师赖能和表示:“我们拥有9万个CPU、25PB存储。在油气勘探数据处理方面,我们面临的主要挑战是数据量和计算量非常大,数据来源单一,处理流程非常复杂,单个文件的容量就达100TB。我们对存储的投资已超过了服务器。”
中国的大数据应用已经起步。记者采访了金融、互联网、教育、制造等行业的一些敢于“吃螃蟹”的用户。
精准营销效果佳
大数据最先从互联网行业兴起,互联网企业在大数据应用方面的一些成功经验值得其他行业借鉴。以携程旅行网(CTRIP)为例,它的大数据应用目前正处于快速发展阶段,已经在很多方面进行了有益尝试,包括细化网站平台的流程,优化业务运营,支持业务成长的决策,解决部分传统方法难以解决的具体问题。携程旅行网高级副总裁、研发中心总经理叶亚明(Eric Ye)给记者举了两个例子:在饭店推荐和航班查询方面,携程就利用其数据精细化工具来计算业务的投资回报率(ROI);携程还通过机器学习的方法识别用户,进一步改善针对用户的推荐结果,解决“查询不到匹配酒店”等难题。
利用大数据为企业决策提供支持或者实现精准营销是企业中常见的大数据应用。东方航空公司就是一例,它开展大数据研究和应用已经有很长时间,并且采购了大数据一体机专门解决大数据的相关问题。目前,东方航空公司的大数据应用主要集中在营销业务领域,包括渠道分析、航线分析、航班后期走势分析、航线上客速度分析等。在东方航空公司,大数据处理和分析的益处显而易见,它能提供更准确、更实用、更全面的数据分析和展现,形成统一的营销数据分析门户,更好地为东方航空公司营销的各个环节提供决策支持,使精准营销成为可能。
中国传媒大学高性能计算中心主任鲁永泉博士和他的团队近年来一直致力于打造中国首个动漫产业的云平台,并且已经了VSO虚拟工作室平台。此平台集虚拟工作室、动漫渲染、在线交易等众多功能于一身,是真正能够落地的动漫云平台。据鲁永泉介绍,他们已经将大数据用于动漫云平台,平台的主要功能是对动漫云的用户行为进行分析,为运营人员制定更加精确的营销和服务策略提供支持。
追求高性价比
为满足大数据的应用需求,存储平台究竟应该如何搭建呢?不同行业的用户针对不同应用会进行不同的搭配。携程已经建立了一个具有一定规模的Hadoop集群,其大数据应用就基于此集群。“为这个集群选择相应的存储方案时,我们综合考虑了I/O吞吐性能、性价比、计算密集型还是存储密集应用型等诸多因素。”叶亚明介绍说,“目前,我们标准的存储配置是基于SATA硬盘,配合JBOD、数据倾斜调整、机架感知等可靠技术的应用,实现存储和计算的优化。面对一些特殊应用,我们还会采用不同的内存存储,如HBase节点中的内存比例会稍高,而Hive/PIG等节点中的内存比例则有所调整。”
东方航空公司对于大数据存储的要求很明确,不仅要性能卓越,可扩展性强,还要实现安全保护,能够实时响应,实现负载均衡等。东方航空公司下一步将考虑引入对非结构化数据的处理。针对非结构化数据的存储,东方航空公司除了会考虑易用性、性能和安全性等因素以外,对于与智能挖掘相关的技术也十分关注。东方航空公司选择大数据解决方案秉承的原则是:业务驱动,信息技术引领,追求更高性价比。
目前,南华期货股份有限公司在大数据方面的应用还不够深入,但数据的采集和积累是其一直坚持在做的重要工作。南华期货积累的数据主要包括两年以上的全市场逐笔Tick行情数据、近10年的主力合约分钟数据、全部客户的交易和结算数据、详细的网络访问日志等。“我们的大数据应用主要集中在针对高端客户的数据服务和有针对性的交易指导方面。接下来,我们还会依托实时交易数据分析,向客户推送有针对性的咨询服务等。”南华期货股份有限公司总经理助理顾松表示。
谈到大数据对存储的需求,顾松表示,核心需求主要体现在容量、可靠性和速度三方面。针对不同的应用,上述三个需求重要性的排序也会有所变化:比如在逐笔Tick行情数据处理中,重要性的排序是可靠性、容量、速度;在网络访问日志中,重要性的排序为容量、速度、可靠性。顾松特意强调了存储可扩展的重要性:“当前,我们为每个应用都估算了具有一定冗余的存储容量,所以可扩展性的重要性并没有凸显出来。不过随着应用的发展和后续数据迁移、备份需求的增加,存储的可扩展性和重复数据删除等技术就会显得更加重要和必要。”
长安汽车股份有限公司副总裁马军最想找的是懂算法的人,希望依靠更先进的算法实现数据的自动抽取,从而提升数据采集和分析的效率。他认为,公司现有的存储平台不会成为瓶颈。
鲁永泉也表示,其动漫云平台对存储没有特别的要求:“大数据意味着大存储,而能够满足大数据需求的存储,比如HDFS等的设计理念不再强调单个存储的可靠性,而是强调利用建立副本等软件的方式来确保数据的安全。至于性能方面,大型分布式系统的单个存储节点的性能高一点固然很好,但其实对整体性能的影响不大,反而需要在网络优化方面多下些功夫。”
容量、性能同步扩
华为跨界到IT领域,其重要的资本就是在网络领域多年积累的自主研发能力和过硬的产品品质,而华为最擅长的无阻塞交换网络技术也让华为在服务器、存储和大数据解决方案的开发中显得游刃有余且特色鲜明。华为OceanStor 9000大数据存储系统在标准性能评估机构SPEC的SPECsfs2008基准测试中再次刷新记录,其性能领先友商产品3倍多。参与测试的华为OceanStor 9000的配置为100个节点,在NFS网络共享协议环境下的性能达到5030264 IOPS,位居业界第一。同时,OceanStor 9000的横向扩展架构保证了系统的线性扩展能力,在不中断业务的情况下,每增加一个新节点,容量和性能即可线性增长。