前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的数据管理主题范文,仅供参考,欢迎阅读并收藏。
据IDC统计,2010年,全球共生成了超过1泽字节(ZB)或100万拍字节(PB)的数据。2014年,预计该数字将增长至每年72ZB,其中一部分来自机器生成的数据。随着程序化贸易与金融交易系统以及智能电表和其它智能仪表的使用量不断增加,加之智能手机和平板电脑生成的大量呼叫详细记录(CDR),机器生成的数据正呈大幅增长态势。
与此同时,非结构化数据(如图像、音视频文件等)和半结构化数据(如电子邮件、日志等)的日益增长进一步增加了管理的复杂性,尤其是在确定最高效和最可靠的采集、保护、组织、访问、保管和防御性删除所有这些重要信息的方法之时。随着越来越多的企业被要求保管来自电子邮件、文档、富媒体文件等各种来源的数据,保管和保留数据的需求正变得日益复杂。
跨越大数据备份与归档断层
对于很多企业而言,备份和归档功能是在一个信息管理总战略中分别加以部署和管理的“孤岛”。鉴于很多原因,这样做并不明智。多个互不相干的硬件和软件产品通常负责管理这些数据孤岛,从而产生了必须加以保护和保管的重复的信息副本。除此之外,要求搜索和保管数据的法规压力通常也会催生更多的孤岛。最糟糕的情况是:无限延长信息资产的保留期,因为人们不能充分了解企业正在保存什么。
因此,大数据对话中的这两个要素之间产生了一个断层。Gartner指出,备份可以补充归档,反之亦然;但传统上,备份管理员和信息架构师没有共同语言,而且大多数工具和技术也只是为了满足这两种需求之一。
虽然备份和归档的目的不同,但它们的功能却类似:它们都创建原始数据的副本,用于恢复或保管等目的。鉴于此,Gartner等公司预测,能够整体地看待备份和归档功能将有助于大幅降低成本和提升风险管理水平。随着企业开始寻求可减少备份和归档副本并协调两者数据访问策略的解决方案,备份与归档融合这一概念正在兴起。
结成数据融合统一战线
考虑到预算和资源的短缺,虽然这并非因为管理层对信息管理或数据管制缺乏兴趣,秘诀似乎应该是“事半功倍”。实现这一目标的一个方法是统一备份和归档功能,但这需要组建跨职能团队,以确保满足所有利益相关方的业务需求。
首先,我们应该更好地了解应用、用户和关键业务流程访问数据的需求以及如何在数据的生命周期内使用它们。这需要负责数据恢复和发现的业务和IT利益相关方开展合作和协作。该团队应该审视用于移动、复制、分类和访问的数据,从而达到以备份、保留、恢复、发现和处理为目的的所有策略和做法。
初期审查的另一个结果通常是,突然意识到多个数据复本无处不在:在物理和虚拟服务器上,在公司各处的员工的计算机和移动设备上。我们不仅可以利用重复数据删除功能有效和高效地消减冗余数据复本的数量,而且可以获得一大好处:利用一个硬件和/或软件备份与归档通用基础设施。
将数据整合到单一数据存储单元中、可消除冗余副本和孤岛的单一数据存储库理念在很多方面都极具吸引力。一种能够采集数据、然后将其用于数据保护和保管目的的整体方法是将正确的数据交到正确的人手中的关键,后者可将这些数据转变为对于企业更加有意义和更能付诸实施的信息。
部署一个综合信息管理战略可对企业的各个层面产生深刻影响,其中也包括IT以外的领域。尤其是,企业团队将能通过点击“依法保留”的搜索结果,对内容进行保管。另一个好处是:通过消除冗余数据复本、及早获得对于证据的新的认识,降低诉讼风险和成本,同时确保捕获所有重要的案例数据,并运用一种具有针对性的方法减少所要审阅的数据量。
运用融合数据管理控制成本和风险
数据增长、有限的预算和资源正使得备份与归档融合成为当今最流行的发展趋势之一。CommVault的Simpana OnePass功能是业内首个基于一个一体化数据采集和通用基础设施的备份、归档和报告融合解决方案。它能够让您利用零足迹归档功能应对文件和电子邮件大幅增长的问题,并且不会增加任何管理费用。有了Simpana OnePass技术,您将能更好地管理您的信息,从而获得情报、降低成本和运营复杂性。
三种传统数据管理工作流与 Simpana OnePass 功能的比较
Simpana OnePass功能将数据管理整合到单一操作之中,让企业能够:通过单一操作扫锚、采集、备份和归档数据。将备份、归档和报告所需的总时间减少50%。减少对业务环境的影响,并提升服务器性能,将源端冗余数据最多减少90%。
CommVault Simpana管理的所有数据保存在ContentStore中,它是一个可扩展、与硬件无关的虚拟存储库,提供一个智能索引,可帮助用户找到他们所需的信息。IT企业可以使用ContentStore Mail减少技术支持部门的工作量。ContentStore Mail是一个微软插件,提供针对ContentStore中归档邮件的自助预览和检索功能。借助Simpana OnePass和ContentStore,企业可以优化归档和备份数据的采集、保管、处理和发现,从而满足各项合规要求。
利用一体化能力增强数据可见性、改进数据管理和减少存储足迹,优化文件和邮件的法律取证和审查,管理成本和容量,同时实现性能目标。
-EMILY WOJCIK
Emulex高性能NetFlow生成器
Emulex公司日前宣布推出新EndaceFlow3040 NetFlow 生成器。它是专门为高密度万兆以太网(10GbE)设计制造的,可以100%准确地生成最多4条以太网链路的NetFlow,链路速度最高可达每秒10Gb(10Gbps) 。这种高性能可以加快关键安全和网络问题的检测、识别和故障排除速度,提升企业数据中心的网络无故障正常运行时间,降低运营支出(OPEX)。
Doyle Research实验室首席分析师Lee Doyle表示:“随着越来越多地采用最新的数据中心技术,如10GbE、服务器虚拟化和软件定义网络,企业发现在自己网络中实施虚拟化变得越来越困难了。更严重的是许多原先在1Gbps速度下工作良好的工具,根本无法扩展到10Gbps环境。这种情况预示企业对于新环境下的安全监控、取证和网络性能管理等任务只能使用专门设计用于10Gbps或更高速度网络虚拟化的工具来完成。”
随着企业应用环境变得越来越复杂,NetOps和SecOps人员正在寻找新的方式来提高自己网络的可视性,从而确保网络安全、保证以网络为中心的应用高性能运行,以及检查网络是否符合服务水平协议(SLA)。现有的10GbE NetFlow生成器只能提供10GbE链路的取样数据,具备生成NetFlow功能的交换机和路由器也是如此。而且,用交换机和路由器生成NetFlow会影响它们的性能,特别是在发生拒绝服务攻击的时候。这种取样NetFlow无法提供解决重要网络问题所需的可视性。通过提供非取样NetFlow,EndaceFlowTM 3040可以在10GbE的网络环境中提供全面的可视性。
惠普 “IT新型态”基础设施管理平台
10月28日,惠普宣布推出业界首个面向惠普融合基础设施、以消费级IT产品为设计灵感的基础设施管理平台——惠普OneView。该平台可简化支撑数据中心所有流程的最基本步骤,让IT部门显著改善运营,同时降低成本并减少导致宕机的人为错误。
服务技术的发展,专业技术人员的大量涌入以及业务复杂性的增长,导致业务需求与传统IT供应间的差距日益加大。当前,许多企业不得不以过时的管理工具来交付并管理IT。
惠普OneView专为惠普BladeSystem、惠普ProLiant Generation 8(Gen8)和惠普ProLiant Generation 7而设计,采用领先的服务器和软件技术,可提供单一管理平台,加强整个数据中心IT部门的协作和沟通。
惠普OneView拥有直观的用户界面和简化日常任务的自动化智能特性,能够提高IT管理员的工作效率。将最常见的数据中心流程(包括如部署、升级、迁移和排除故障)从几小时或几天缩至几分钟。
例如,在16个服务器上配置管理程序,传统工具需要2小时50分钟的管理时间,惠普OneView只需要14分钟。回收虚拟局域网络,传统工具需要480个步骤,2小时以上,而使用惠普OneView只需4个步骤,30秒的管理时间。
惠普亚太及日本地区工业标准服务器与软件副总裁兼总经理Stephen Bovis表示:“社交媒体、IT消费化和不断变化的人口结构正在改变我们的工作方式,促使企业不得不应对其需求与传统IT供应之间越来越大的差距带来的挑战。当前基础设施的管理模式依然停留在旧时代,惠普OneView是从根本上变革数据中心内基础设施管理整体方案所迈出的第一步。”
LSI闪存解决方案
LSI公司日前宣布推出集成VMware虚拟化软件支持的LSI Nytro XD应用加速存储解决方案。该款带VMware支持的Nytro XD解决方案可将PCIe闪存卡与专门针对虚拟化环境而设计的智能主机缓存软件相结合。
虚拟化在企业中普遍存在,但可供IT部门部署的虚拟机(VM)数量却经常受到限制,其原因在于硬盘存取缓慢会引起存储I/O瓶颈问题。LSI Nytro XD解决方案可显著提高IOPS性能和虚拟机密度,有助于消除虚拟化环境中的存储瓶颈,而且对现有基础架构的影响也是最小的。
LSI Nytro XD解决方案可将访问最频繁的“热”数据智能地缓存到低延迟PCIe闪存存储器中,从而加速虚拟机中运行的应用的性能。LSI Nytro XD解决方案能够快速简便地与VMware vSphere、vCenter 和vMotion实现集成,并可通过本地VMware管理实现对系统管理的透明化。
LSI NytroXD解决方案为客户带来的优势包括:
·智能地将热数据自动缓存到PCIe 闪存存储器上,以更低成本加速现有SAN、DAS和NAS(仅VMware)存储设备的性能。
·虚拟机密度提高3倍,可实现服务器整合,减少机架空间需求,并降低功耗、制冷及许可成本。
·提高CPU利用率,使闲置的CPU支持更多的业务应用。
这一年电商价格大战时,不少小家电制造业面对网络渠道商的强硬降价策略,不得不采取自损毛利跟进降价,但苏泊尔没有盲目跟进,而是根据BI系统当日报表中呈现的各项相关毛利数据分析,选择部分品类去跟进促销。
这种应对策略有效地避免了企业陷入价格战后造成的多输局面,使苏泊尔既避免了客户的流失,又守住了市场和利润。
除此之外,报表中还会反映出采取相应措施的信息,比如当某个区域的品类达成率降低到60%以下,报表中会做出分析,给出一系列可采取的措施,相关负责人就可以马上行动。针对竞争对手随时推出的促销政策,报表也做出一系列分析并给出解决方案,为迅速调整营销策略提供“数据弹药”。
“每天打开电脑就能够看到实时的数据,对做具体业务的管理者非常有意义。想看哪个数据,想控制哪个节点,随时都可以看到并进行管控,这个是管理时效性的价值。” 苏泊尔副总裁王丰禾说,现在BI系统已经成为苏泊尔50多个高管每天必看的经营指南。
通过国际并购快速发展的苏泊尔走的是传统民营企业的管理模式,虽然苏泊尔旗下四大事业部,六大生产基地和各地分公司很早就使用了SAP管理系统。但由于没有统一的流程和规范,而且手工操作的项目过多,导致报表的数据汇总速度慢,准确度不高,直接影响高层的分析与决策,并使工作管理效率低下,不能对瞬息万变的市场进行快速反应。苏泊尔信息中心现任IT总监王波举例说:“比如成本分摊,这个基地可能将费用记在某个科目,而另一个基地可能就记在了另一个科目上。”
为了获得准确的数据、支持公司高层的分析决策,也为了让SAP管理系统发挥其应有的作用,2009年,苏泊尔开始对已有的SAP系统进行优化。2010年,王波从GE进入到苏泊尔,担任这一项目的主要负责人。王波认为,IT要体现业务价值,IT战略的制定不仅要关注业务需求,还要关注行业发展。他判断苏泊尔的竞争关键在于小家电在渠道和终端上的投入。他在正式启动SAP项目前作了充分的调研,并规划了以SAP为中心,结合CRM、BI的总体IT战略规划。
王波确定此次优化项目要达到的目标有三:一是保证基层数据的准确,形成有效的管理支撑;二是做到流程规范,一般的业务流程要做到80%一致,财务管理流程则是100%一致,以支撑集团的标准化管理;三是针对业务复杂度,系统管理的灵活性必须提高,并且系统能支持上百亿元的销售规模,实现T+1月结,T+2出管理快报的目标。
王波在系统布局上不仅从企业内部管理考虑,同时考虑和渠道的协同效率,终端信息收集和反应速度等,并将这些数据整合到BI进行分析。现在BI系统可以出每天的销售日报、损益日报,多维度的分析为事业部及总部管理层提供了强有力的决策依据。
苏泊尔的IT服务系统从前端的数据采集、店面管理,一直到CRM、商业智能分析,已经拥有了一套完整的管理链条。
【关键词】MySQL;缓存;查询
在数据库中,用户可能多次执行相同的查询语句。为了提高查询效率,数据库会在内存在划分一个专门的区域,用来存放用户最近执行的查询,这块区域就是缓存。因为内存的运行速度要比硬盘快的多。为此通过缓存机制,就可以提高查询的效率。当用户下一次再执行相同查询时,就可以直接从缓存中获取数据,而不用到硬盘中的数据文件中去读取数据,也可以省去相关解析的工作。
1.数据管理的应用
并不是在任何情况下数据管理都能够起到应有的效果。如果企业有一个不经常改变的表并且服务器受到这个表的大量的相同查询时,数据管理才能够起到不错的效果。通常情况下,针对Web的应用,效果会比较明显。如现在在数据库中有一张产品信息表。企业的用户需要通过网页来查询产品的信息。如果在系统设计时,默认查询的结果是显示最近一个月交易过的产品信息。那么每次用户按默认情况查询产品信息时,将都会从缓存中获取信息(如果相关的信息没有被更新过)。此时系统查询的速度就会比较快。
如果企业有一个不经常改变的表并且服务器受到这个表的大量的相同查询时,笔者就建议大家启用数据管理机制。在启动之前,可以先使用命名来查询现在系统缓存是否开启。如果查询的结果是YES的话,那么就说明系统中已经开启了数据管理机制。
只有当数据库里已经有了足够多的测试数据时,它的性能测试结果才有实际参考价值。如果在测试数据库里只有几百条数据记录,它们往往在执行完第一条查询命令之后就被全部加载到内存里。
2. 使用数据管理的方式
并不是在任何情况下,数据管理都会起到改善查询的效果。在以下几种情况,数据管理机制的效果并不会很大。
一是查询所涉及到的表会经常更改。如在一个进销存管理系统中,可能会有产品与销售记录两张表格。产品表一般不怎么会更新,而销售记录表就可能每分钟都会发生变化。此时对于销售记录表来说,采用缓存机制就不会起到多大的效果。因为根据缓存的工作原理,当某个表被更改后,其对应的数据管理的相关条目就会被清空。
二是查询缓存不使用与服务器方便些的语句。根据B/S或者C/S架构,可以将相关应用分为服务器断和客户端两类。在使用数据管理时,数据库管理员要考虑到,在MySQL数据库中,查询缓存并不适用于服务器方所编写的查询语句。当数据库管理员正在使用服务器方编写的语句时,要注意到这些语句并不会应用缓存技术。
三是查询时使用缓存的两个基本条件:所采用的查询语句完全一致。不仅包括查询的字段,也包括查询的条件。如果用户查询一个产品信息表,使用了查询条件,只查询最近一个月新建的产品信息。显然此时查询的结果是查询的子集,应该可以使用数据管理。数据库仍然会先重新解析SQL语句,然后从硬盘上的数据文件中去获取数据。
数据类型的大小也会影响到基础表的大小。如对于MEDIUMINT和INT两个数据类型,其都可以用来保存整数型的数据,只是其能够保存的精度不同而已。
用户在查询语句中,使用了自定义函数、自定义变量或者因引用了系统数据库中的表,那么缓存机制可能会失效。
3.提高数据管理的使用效率
通过数据库的合理设计,可以提高缓存的使用效率,扩大缓存的使用领域。具体的说,数据库管理员可以从如下几个方面出发。
⑴根据数据变化的频率来分解表
如现在有产品基本资料与产品最新库存两部分内容。在不考虑缓存的情况下,可以将产品基本资料与产品库存放在同一个表中,然后通过其他作业来更新这个库存数量。如此的话,在前台界面中,就可以直观的反映出产品的库存数量。但是从缓存的设计角度来看,这么操作并不是很合理。因为产品信息相对来说不怎么会变化,而库存数量却经常在发生变化。如果将他们放在同一张表上,由于库存数量的不断更新,数据管理中的内容就会不断被清空(与产品信息表相关的数据管理)。此时如果很多用户要查询产品的描述、规格(他们可能并不关注产品的库存),那么他们就无法使用数据管理。因为缓存中没有相关的数据(由于库存数量不断变化而被清空)。
遇到这种情况时,数据库管理员就可以将库存数量与产品基本信息存放在两张不同的表上,然后通过关键字来进行关联。这么做的好处就是库存数量更新并不会影响到产品基本信息表所对应的数据管理(他们是两张表)。从而提高产品信息查询时的缓存命中率。
⑵采用默认条件的查询
在上面的分析中笔者谈到,要两条完全相同的SQL语句才能够使用缓存。条件不同或者使用的字段不同,数据库系统都不会使用缓存来进行查询优化。
采用默认条件的查询来提高缓存命中率。如在设计产品信息查询这个功能,可以考虑默认查询全部信息或者指定某个固定的条件。如此就可以提高缓存的命中率。而不要在不同的用户界面设置不同的默认值。某些应用系统,为了提高界面的友好性,会给用户提供一些个性化设置的参数,以保存用户的个性化内容。此时虽然可以提高界面的人性化,但是显然会降低数据管理的命中率。遇到这种情况时,数据库管理员就需要在人性化设计与系统的查询性能之间进行均衡。
不同的应用针对同一个表格的相同查询,其查询语句最好相同。如现在对于产品信息,即可以通过产品信息窗口进行查询,也可以根据报表来查询。此时其对应的后台表格是相同的。只要其执行的查询语句相同、并且在这段时间之内数据库表格没有发生变化,那么系统就可以从缓存中获取数据。在实际工作中,窗体与报表往往是有不同的人设计与开发的。不同的用户之间要统一SQL语句的书写规范。项目管理员要根据实际情况来制定相关的规则。
⑶提高缓存空间大小来提高数据库的缓存使用率
当数据管理满时,新的数据会覆盖旧的数据。在这种情况下,即使查询的语句相同、表格也没有发生变化,数据库系统仍然要从硬盘上的数据文件中去获取数据,所以,应该增加服务器上缓存的空间。
总之,MySQL提供了TCP/IP、ODBC和JDBC等多种数据库连接途径,提供用于管理、检查、优化数据库操作的管理工具。利用MySQL技术可以很好地对系统的缓存进行管理,提高了查询的效率,提高缓存的使用率,灵活的缓存可以说不仅大大减轻了服务器的压力,而且因为更快速的用户体验而方便了用户。
参考文献:
[1]《php+mysql完全学习手册》黄桂金,清华大学出版社,2008-6.
[2]《mysql高效编程》王志刚,人民邮电出版社,2012-1.
[3]《php+mysql动态网站开发指南》杨智宇,科学出版社,2008-6.
关键词:数据管理 数据库技术 发展
数据管理包括数据的分类、组织、编码、存储、检索和维护等,数据管理技术的发展与计算机硬件、软件的发展及计算机应用的范围密切相关。迄今为止,计算机数据管理技术的发展经历了四个阶段:
一、人工管理阶段
这一阶段是指20世纪50年代中期以前,一般公认世界上第一台计算机于1946年诞生,这期间,计算机主要用于科学计算,其它工作还没展开。硬件方面:还没出现可直接存取数据的存储设备,主要依靠磁带、卡片和纸带来读写程序和数据。软件方面:操作系统还没产生,也无专门的数据管理软件,主要依靠机器语言和汇编语言编程。由于没有专门的数据管理软件,我们将这一阶段称为—人工管理阶段。该阶段的特点是:
①数据不保存。计算时数据与程序一起输入内存,运算处理后将结果数据输出,随着计算任务的完成,数据空间随着程序空间一起被释放。
②数据服务应用。数据处于从属地位,一组数据对应一个程序(应用)。数据与程序不独立。
③数据组织依靠人工。数据的存储结构、存取方法、输入输出等必须由程序员自行设计与安排。
二、文件系统阶段
20世纪50年代后期~60年代中期,计算机不仅用于科学计算也开始大量用于信息管理。随着数据量的增加、数据的存储、检索和维护问题成为紧迫的需要。硬件方面出现了磁盘等直接存取存储设备,软件方面产生了高级语言和操作系统。操作系统中的文件系统是专门管理数据的软件。数据结构和数据管理技术迅速发展起来。这一阶段的数据管理有以下特点:
①数据可长期积存。对数据的维护与使用提供了可能。
②文件形式多样化。有索引文件、链表文件和直接存取文件等。但文件之间相互独立,数据之间的联系要通过程序构造。
③数据相对独立。数据可被多个程序重复使用。
④数据的存取基本上以记录为单位。
随着数据管理规模的扩大,数据量急剧增加,文件系统显露出以下三个不足:
①数据冗余。由于文件之间气管联系,造成每个应用程序都有对应的文件(数据),势必会造成同样的数据在多个文件中同时存储。
②数据不一致。由于存在数据冗余,在对数据进行更新操作时,就要通盘考虑,稍不谨慎,就可能造成同样的数据在不同的文件中不一样。
③数据联系弱。数据文件相对独立,要通过程序来构造它们之间的联系。
三、数据库系统阶段
20世纪60年代后期,计算机应用于管理的规模更加庞大,数据量急剧增加,同时多种应用、多种语言互相覆盖地共享数据集合的要求也越来越强烈。仅对文件系统及功能加以扩充已不能满足需要。其时,计算机硬件、软件有了进一步的发展。硬件方面:磁盘技术取得重要进展,大容量、高速存取磁盘相继推出,且成本下降。软件方面:出现了统一管理数据的专门软件系统――数据库管理系统(DBMS)。这些都为数据库技术的产生提供了良好的物质条件和理论基础。数据管理技术进入数据库系统阶段的标志性三大事件为:
⑴1968年美国国际商用机器公司IBM(International Business Machine)公司推出了IMS(Information Management System)系统,该系统支持的是层次结构数据模型。
⑵1969年美国数据系统语言协会CODASYL(Conference On Data System Language)下属的数据库任务组DBTG(DataBase Task Group)公布了若干报告(称为DBTG报告),提出了网状结构数据模型。
⑶1970年起,IBM的研究员E·F·Codd发表一系列论文,提出关系模型,奠定了关系数据库的理论基础。
概括数据库系统管理数据的方式具有以下特点:
①采用数据模型表示数据结构。用数据模型描述数据本身的特点和数据之间的联系,且这种联系通过存取路径(指针)来实现整体数据的结构化。由于数据不再面向某一特定的应用,而是面向整个应用系统,因而数据冗余明显降低,实现了数据共享。
②具有较高的数据独立性。数据库体系结构分成用户逻辑结构(外模式)、整体逻辑结构(概念模式)、物理结构(内模式)三级。数据物理结构的改变不影响整体逻辑结构、用户逻辑结构及应用程序,即达成数据的物理独立。而整体逻辑结构改变,不影响用户逻辑结构,以达成数据的逻辑独立。
③为用户提供了方便的口。用户可以使用查询语言或命令操作数据库,也可以用程序方式来操作数据库。
④提供完善的数据控制功能。数据库系统提供四方面的数据控制,以确保数据的安全与完整:
■ 并发控制:确保多用户同时存取数据时的数据完整性。
■ 数据库恢复:有意或无意造成部分或全部数据破坏后能恢复到某一已知正确状态。
■ 数据完整性:确保数据的正确、有效、相容。
■ 数据安全性:防止不合法使用造成数据的泄露和破坏,保证数据的安全和机密。
四、高级数据库技术阶段
这一阶段起始于20世纪80年代初,其主要标志是分布式数据库系统DDBS(Distributed DataBases System)和面向对象数据库系统OODBS(Object-Oriented DataBases System)的出现。
①分布式数据库技术
分布式数据库技术是传统的集中式数据库技术与网络技术融合的产物,其基本特征:一是异地节点通过数据通信网络互连;二是数据的物理分布性和逻辑整体性;三是本地自治与全局应用相结合。
②面向对象数据库技术
面向对象的数据技术是传统集中式数据库技术与面向对象程序设计技术结合的产物,其特点为:一是面向对象的数据模型能完整描述现实世界的数据结构,能表达数据之间的复杂联系,如嵌套与递归;二是具有面向对象技术的封装性和继承性,提高了软件的可重用性。
除此之外,数据库技术与其它新兴技术的结合产生了许多新的领域如:
并行数据库;主动数据库;知识库;多媒体数据库;模糊数据库;工程数据库;空间数据库等。
有理由相信,数据库技术通过不断完善和提高,它会朝着支持更大规模、更快速度、更广泛的应用等方向发展。
参考文献:
[1]刘升,曹红苹.数据库系统原理与应用,清华大学出版社,2012.
大数据管理与大数据应用都离不开大数据技术,但更离不开大数据人才。没有人才,再先进的设备只能是“豪华摆设”;没有人才,再先进的技术也只能是“纸上谈兵”。因此,推进大数据管理,除了需要培养一大批优秀的IT人才外,还迫切需要培养一大批大数据人才———数据管理师、数据分析师,造就一批数据科学家等高端人才。因为只有他们才能驾轻就熟处理海量的信息,并从中挖掘出“数据财富”。此外,面对全体员工传播大数据知识,普及大数据技术,培训大数据技能,奠定推进大数据管理的群众基础和技术基础,同样也是一项长期而艰巨的任务。
二、构筑大数据管理“一站式”工程,建设“大数据管理智库”新平台
1.加强内、外部数据的“一站式”管理。对企业来说,数据无处不在,无时不有,究其来源,无非企业内部和外部两个渠道。内部数据的活水源头是各单位、各部门、各专业的统计报表提供的数据;外部数据一方面是国家管理部门、行业管理部门、权威机构等的统计数据,另一方面是来自互联网、移动互联网、各种传感器等信息感知和采集终端采集的数据。这些数据,日积月累,最终“百川归海”,汇成大数据的海洋。大数据时代,企业通过建立“大数据管理智库”,打破渠道的边界,把不同来源的数据整合在一起,实施一站式管理,让数据时时刻刻为企业提供服务。2.注重数据挖掘环节的“一站式”管理。企业数据挖掘过程也是数据发现和梳理的过程,其有4个重要环节:采集、存储、分析、预测。企业建立了“大数据管理智库”,对这4个环节实施一站式管理,可以大大“提纯”数据价值。首先是尽可能采集异源甚至是异构的数据,去伪存真,多角度验证数据的全面性和可信性。其次是要用到冗余配置、分布化和云计算技术,分类、过滤和去重,减少存储量,同时加入便于检索的标签。第三是将高维数据降维后度量与处理,利用上下文关联进行语义分析,从大量动态而且可能是模棱两可的数据中综合信息,导出可理解的内容。第四是将数据分析后预测出的结论应用到企业中去。3.突出价值链上数据的“一站式”管理。企业价值链可以分为基本增值活动和辅增值活动两大部分。基本增值活动,即一般意义上的“生产经营环节”,如材料供应、成品开发、生产运行、成品储运、市场营销和售后服务。这些活动都与商品实体的加工流转直接相关;辅增值活动,包括组织建设、人事管理、技术开发和采购管理。价值链的每一个环节都有相伴而生的数据。过去这些数据处在分散状态。大数据时代,企业通过“大数据管理智库”平台,对这些数据实施一站式管理,有利于每一个环节的价值再创造和价值链的增值。
三、构筑大数据管理“一体化”工程,打造“大数据管理融合”新生态
HLR用户数据查询流程如图1所示。图1HLR用户数据查询流程(1)用户数据管理子系统的DPUPGW(1)用户数据管理子系统的DPUPGW发送查询指令至DSG,DSG(DataServiceGateway)根据DCI(DSCallInterface)消息中的路由键信息选择对应的DRUCluster,再根据负载均衡选择一个DRU(DataRoutingUnit)节点,然后发送DCI消息给该节点。(2)DRU节点根据DCI消息中的路由键信息查找对应的DSUCluster,分析后得出消息的操作类型为数据查询,根据负载均衡算法把消息发送到DSUCluster中的一个节点。(3)DSU(DataServiceUnit)节点查询本节点数据并组装响应消息,发送响应消息给DRU节点。(4)DRU节点返回操作结果给DSG。
2、HLR用户数据修改流程
HLR用户数据修改流程如图2所示。(1)DSG根据DCI消息中的路由键信息选择对应的DRUCluster,再根据负载均衡选择一个DRU节点,然后发送DCI消息给该节点。(2)DRU节点根据DCI消息中的路由键信息查找对应的DSUCluster,分析后得出消息的操作类型为数据修改,把消息发送到DSUCluster中的Master节点。(3)DSUMaster节点修改本节点数据成功后,发送复制消息给同一个Cluster中Slave节点,并等待其响应消息。(4)DSUSlave节点收到复制消息,修改本节点数据成功后,发送响应消息给Master节点。(5)DSUMaster节点发送响应消息给DRU节点。(6)DRU返回操作结果给DSG。
3、HLR用户数据开户流程
HLR用户数据开户流程如图3所示。(1)DSG根据DCI消息中的路由键信息选择对应的DRUCluster,再根据负载均衡选择一个DRU节点,然后发送DCI消息给该节点。(2)DRU节点根据DCI消息中的路由键信息查找对应的DSUCluster,分析后得出消息的操作类型为数据开户,把消息发送到DSUCluster中的Master节点。(3)DSUMaster节点发送路由更新消息给DRUMaster节点。(4)DRUMaster节点修改本节点数据成功后,发送复制消息给同一个Cluster中Slave节点,并等待其响应消息。(5)DRUSlave节点收到复制消息,修改本节点数据成功后,发送响应消息给Master节点。(6)DRU返回操作结果给DSUMaster节点。(7)DSUMaster节点修改本节点数据成功后,发送复制消息给同一个Cluster中Slave节点,并等待其响应消息。(8)DSUSlave节点收到复制消息,修改本节点数据成功后,发送响应消息给Master节点。(9)DSUMaster节点发送响应消息给DRU节点。(10)DRU返回操作结果给DSG。
4、结束语
【关键词】云计算;云数据管理;技术
中图分类号: C37 文献标识码: A 文章编号:
一、前言
云计算和云数据管理技术越来越受到人类的重视,目前科技越来越发达,云计算和云数据的管理技术成为了科技研究的热点问题之一,云计算作为一个新兴的技术,已经和云数据管理一起,为人类的文明作出了进一步的贡献。
二、云计算概念
云计算(cloud computing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象。狭义云计算指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。它意味着计算能力也可作为一种商品通过互联网进行流通。
三、云计算的关键技术
1虚拟化技术
虚拟化技术是指计算元件在虚拟的基础上而不是真实的基础上运行,它可以扩大硬件的容量,简化软件的重新配置过程,减少软件虚拟机相关开销和支持更广泛的操作系统方面。通过虚拟化技术可实现软件应用与底层硬件相隔离,它包括将单个资源划分成多个虚拟资源的裂分模式,也包括将多个资源整合成一个虚拟资源的聚合模式。
2分布式海量数据存储
云计算系统由大量服务器组成,同时为大量用户服务,因此云计算系统采用分布式存储的方式存储数据,用冗余存储的方式(集群计算、数据冗余和分布式存储)保证数据的可靠性。
3海量数据管理技术
云计算需要对分布的、海量的数据进行处理、分析,因此,数据管理技术必需能够高效的管理大量的数据。云计算系统中的数据管理技术主要是Google的BT(BigTable)数据管理技术和Hadoop团队开发的开源数据管理模块HBase。
四、云数据管理系统(CDMS)基本原理
虽然 GFS、HDFS、S3 等分布式文件系统较好地解决了云计算中海量数据的组织问题,能够高效读写“云端”海量数据,但对于结构化数据的管理仍需要借助专门的数据管理系统。 两者之间的关系或分工,类似于操作系统中负责文件组织的文件系统和负责结构化数据管理的数据库管理系统(DBMS)。 云数据管理必须有效地解决云计算中大数据集的高效管理、海量数据定数据的快速定位等问题。Google 的 BigTable、Hadoop 的 HBase、Sector/Sphere都是目前相对比较成熟的云数据管理系统。BigTable 是 Google 为有效管理大规模结构化数据而设计的分布式存储系统,例如数千台服务器的上 PB(petabytes)级规模的数据。
1 BigTable 原理
BigTable 在很多地方与数据库很类似, 使用了很多数据库的实现策略。 但不支持完全的关系数据模型,而是为客户提供了简单的数据模型。 BigTable 对数据读操作进行优化,采用列存储的方式,提高数据读取效率。 BigTable 的基本元素包括行 (row)、 列族 (column families) 和时间戳(Timestamps)等。 其中,行关键字可以是任意字符串(目前支持最多 64 KB,多数情况下 10~100 字节足够),在一个行关键字下的每一个读写操作都是原子操作(不管读写这一行里有多少个不同列), 这样在对同一行进行并发操作时,用户对于系统行为更容易理解和掌控。 列族由一组同一类型的列关键字组成,是访问控制的基本单位。 列族必须先创建,然后能在其中的列关键字下存放数据;列族创建后,族中任何一个列关键字均可使用。时间戳可以由 BigTable 来赋值,表示准确到毫秒的“实时”或者由用户应用程序来赋值。 不同版本的表项内容按时间戳倒序排列,即最新的排在前面。 为了简化对于不同数据版本的数据的管理,对每一个列族支持两个设定, 以便于 BigTable 对表项的版本自动进行垃圾清除。用户可以指明只保留表项的最后 n 个版本,或者只保留足够新的版本(比如只保留最近 7 天的内容)。
SSTable 提供一个从关键字到值持续有序的映射,关键字和值都可以是任意字符串。 块索引(block index)存储在 SSTable 的最后,用来定位数据块。 Chubby是 BigTable 采用的一个高度可用的持续分布式数据锁服务。 每个 Chubby 服务由 5 个活的备份构成,其中一个为主备份并响应服务请求。 只有当大多数备份都保持运行并保持互相通信时,相应的服务才是活动的。 当有备份失效时,Chubby 使用 Paxos算法来保证备份的一致性。
2 、HBase 原理
HBase是 Hadoop的子项目,是目前比较成熟的云数据管理开源解决方案之一。 HBase 采用与 Bigtable 非常相似的数据模型。 用户存储数据行(data row)在一个标识表(labelled table)中,一个数据行有一个可排序的主键或分类键 (sortable key) 和 任 意 数 量 的 列 (column)。 表 是 疏 松(sparsely) 存储的 ,因此用户可以根据需要给同一表中的不同行定义各种不同的列。 每张 HBase 表的索引是行关键字(row key)、列关键字(column key)和时间戳(timestamp)。 如图 3所示, 每个值是一个很难解释的字符数组, 数据都是字符串,不区分类型。
列名字的格式是“:”,都是由字符串组成,每一张表有一个族(family)集合,这个集合是固定不变的, 相当于表的结构, 只能通过改变表结构来改变。 标识(label)值相对于每一行来说都是可以改变的 。 Hbase 把同族里面的数据存储在同一个目录下, 而 Hbase 的写操作是锁行的,每一行都是一个原子元素,都可以加锁。 所有数据库的更新都有一个时间戳标记,每个更新都是一个新的版本,系统会保留一定数量的版本,这个值是可以设定的。 用户可以选择获取距离某个时间最近的版本,或者一次获取所有版本。Hbase 遵从如图 4 所示的简单主从服务器架构, 每个Hbase 集群通常由单个主服务器 (master server)、 数百个或更多区域服务器(region server)构成。 每个 Region 由某个表的连续数据行组成,从开始主键到结束主键,而某张表的所有行保存在一组 Region 中。 通过用表名和开始/结束主键,来区分不同的 Region。 区域服务器主要通过 3 种方式保存数据:Hmemcache 高速缓存, 保留的是最新写入的数据;Hlog 记录文件,保留的是提交成功了,但未被写入文件的数据;Hstores 文件,数据的物理存放形式。
3 、Sector/Sphere 原理
参考文献[43]还从通信协议、数据传输协议、程序设计模 式 、 安 全 模 型 等 方 面 对 GFS/BigTable、HDFS/HbaseSector/Sphere 进行了比较 。 Robert L Grossman 等在设计并实现 Sector/Sphere的基础上,利用数据发掘应用进行了性能方面的实验。
五、云数据管理技术分析
在新兴的云计算数据管理领域Google的BigTable,MapReduce和亚马逊的Dynamo技术针对云计算海量数据的问题和应用特点有了很多创新,综合来看未来云计算数据管理主要包括以下几个层次.其总体架构如图6所示:如图6所示云计算数据管理层次分为4层,分别为:数据组织与管理,数据集成与管理,分布式并行处理,数据分析.最终实现对非确定性数据的管理与集成,为用户提供高效的查询等服务.
六、结束语
通过分析和研究,我们发现,云计算虽然成为了人们热捧的新技术,但是它和云数据都面临着很多的挑战,未来需要我们对云计算和云数据的管理作出进一步的分析和探讨,以便于更好的使用这两个新兴的技术。
参考文献
[1]吴吉义,傅建庆,张明西,平玲娣 云数据管理研究综述[J].电信科学. 2010(05)
[2]周傲英,金澈清,王国仁,李建中.不确定性数据管理技术研究综述[J].计算机学报. 2009(01)
关键词:Web;浏览器;PDM
中图分类号:M14 文献标识码:A文章编号:1009-3044(2008)28-0092-02
Web Technology and Product Data Management Study
LIU Xia-lai
(Chengdu Precision Optical Engineering Research Center, Chengdu 610041, China)
Abstract:PDM takes a technology, it is depends on the IT technology to realize the enterprise optimization management efficacious device, is product which the scientific management frame and the enterprise realistic question unifies, is the computer technology and the enterprise culture union one product. The modern enterprise enterprise's PDM solution and the Web superiority (Web node's extendibility and easy maintenance, Web technology's unique union-like distribution pattern and so on) to unify in together. This article outlines Web the product data management technology, introduced the Web technology and PDM development PDM simply, production background, PDM network environment.
Key words:Web; Browser; PDM
1 引言
Web技术是Internet网上衍生的一套服务技术.在作者看来,Web技术以及Internet/Intranet所欲达到的目标与PDM技术有着惊人的相似之处。Internet本身从ARPANET网起家经NSFNET发展到今天,其上已连接100多万个网络,上千万台主机,其目前的发展越来越使人们看到它的确在改变着人和人交流的方式,改变着人们工作、生活和学习的传统方式,并以Internet/Intranet为母体衍生出一系列相关的Web技术,使得人们更能够充分利用和开发Internet/Intranet的潜力。
2 Web技术与PDM的发展
2.1 PDM的定义
随着网络、数据库技术的发展,以及客户机/服务器与面向对象技术的应用,最近几年PDM技术得到了突飞猛进的发展。从狭义上讲,PDM仅管理与工程设计相关的领域内的信息,而从广义上讲,它可以覆盖到整个企业中从产品的市场需求分析、产品设计、制造、销售、服务与维护等过程,即全生命周期中的信息。因此,对于PDM可给出如下定义:
PDM是以软件为基础,是一门管理所有与产品相关的信息(包括电子文档、数字化文件、数据库记录等)和所有与产品相关的过程(包括工作流程和更改流程)的技术。它提品全生命周期的信息管理,并可在企业范围内为产品设计与制造建立一个并行化的协作环境。
2.2 PDM的功能和目标
PDM系统的功能日趋强大,它的主要功能有以下几个方面:
1) 电子仓库和文档管理
电子仓库是PDM的核心,它一般建立在关系型数据库系统的基础上,通过权限控制来保证数据的安全性和完整性,并支持各种查询与检索功能。通过面向对象的数据组织方式,允许用户迅速地访问全企业的产品信息,而不必考虑用户和数据的物理位置。
2) 产品结构与配置管理
产品结构和配置管理也是PDM的核心功能之一,可以对产品结构、配置信息和BOM(bin of material)进行管理。
3) 工作流程管理
工作流程管理,它用来定义和控制数据操作的基本过程,并对已建立的工作流程进行运行、维护、控制工作状态以及对工作历史过程进行记载,使产品数据与其相关的过程有机地结合起来。
4) 分类及检索功能
PDM系统需要管理大量的数据,为了较好的建立、使用与维护这些数据,PDM系统提供了快速方便的分类技术。
2.3 PDM的发展
产品数据管理技术的应用不同于CAX等单元技术,不能拿来即用。它是一种平台技术,是一个框架。它是对企业的设计、生产等管理进行了一定程度的抽象。对应于具体的应用环境,必须对其进行针对客户的定制工作,即将客户的具体环境和数据填充到产品管理数据系统中,置于PDM的管理之下。而且,定制工作具有相当大的工作量。目前基于C/C++这种与硬件平台相关的PDM产品必然对环境的适应性较差,而企业中的网络必然存在着各种硬件与软件并存的情况,这无疑是产品数据管理面临的一个问题。
2.4 WEB技术的与PDM的结合
基于Web的分布式PDM的关键技术包括:数据库技术、Web技术。
1) 数据库技术
PDM的主要目标就是有效地管理数据,以实现数据共享,要实现这一目标,首先必须解决数据存储的问题。目前,数据存储主要有两种形式:一种是以文件形式保存数据,另一种是以记录形式将数据存放于数据库中。
2) Web技术
PDM系统作为一种应用框架,其对开放性与可扩展性的要求与Web的开放性体系结构是相互补充的。应用Web技术可以使PDM系统在异构环境下使用,扩展PDM的功能,并支持异地和异构环境下的设计、生产与管理。
3 基于Web的产品数据管理技术
3.1 WEB的B/S三层体系结构
系统在开发过程中将采用WINDOWSNT作为操作系统,在企业局域网内进行开发,然后扩展到Internet。系统可伸缩性以及信息共享程度高,开发周期短,见效快。
系统开发中,主要利用JSP技术为模具企业设计完成B/S模式的注塑模具产品数据管理系统。开发环境为:客户端装有WINDOWSNT操作系统和IE浏览器,服务器端装有WINDOWS NT Server操作系统,Web服务器采用TOMCAT,数据库服务器采用SQL Server2000,数据库驱动程序采用JDBC,主要开发工具为Jbuilders,Develop2000,Dream weaver等。
3.2 基于WEB的PDM技术的优越性
1) 用户接口友好
用Web技术开发客户端软件更便于用户使用。Web化的DPM系统与其他系统相比只需最少的培训,系统实施的总成本也因此而减少。简单便宜的Web浏览器能让企业中更多的人使用PDM系统,使他们能方便地在线访问企业庞大的信息库。
2) 更大的适用性
随着计算机数量的急剧增多,使用Web浏览器作为PDM的用户接口能取得巨大的成本效益。此外,使用Web浏览器还能排除在每台计算机上安装和维护客户端软件的必要。
3) 供应链的有效链接
Web化的PDM系统对供应链的有效链接也有很大的优越性,易于改善供应各环节之间的协作。
4) 分散企业的有效联合
Web化的PDM系统容许分散在各地的项目小组同时工作于同一个项目,每小组能够查看由不同地区甚至不同国家的其它小组输入的信息,这种协作使企能以最小的代价把它的专业人员聚在一起来完成项目,这种在世界范围内延展项目小组的能力使企业能充分利用不同地区的时差进行24小时工作。
4 结束语
产品数据管理(PDM)以其强大的功能与易用性受到广大企业的青睐。基于Web的PDM系统的体系结构研究:首先分析了传统C/S模式和PDM系统的一般结构,随着Web技术的广泛应用,PDM系统的体系结构也要发生相应地变化以适应企业的需求,由此产生的基于Web的PDM系统,介绍了该系统的优越性,并详细分析了其结构特点及实现的关键。
参考文献:
[1] 童秉枢,李建明.产品数据管理P(DM)技术[M].北京:清华大学出版社.2000:82-143.
在测井曲线的加载中,要求具有单独的程序,并要具有菜单,每个模块应该能够对应一个菜单项,并且在曲线加载的过程中,要具有取消按钮。测井曲线的文件查询,井号列表应用的是树形方式,其中一级节点表示的是盆地,二级节点表示的是一级构造,三级节点表示的是二级构造,四级节点表示的是井号。查询结果要能够以表格的形式来显示。在测井曲线的文件下载界面中,测井曲线文件信息要能够以表格的方式来进行显示,每一个记录之前都必须要求具有复选款,并可以根据实际需求对其进行勾选,既可以进行单选,又可以进行多选。测井曲线的回放,在其回放界面中,应用TAB方式对相关窗口进行分隔,并要求每个回放的图像都能通过点击TAB来进行切换,在图像上,可以通过鼠标实现曲线的选取及放大、缩小。
二、系统特性
系统要能够保证测井曲线能够转换成为统一的LAS2.0格式,并且在转换过程中,其要能够具有异常处理功能,对于由于缺乏关键信息,导致不能成功转换的相关的测井曲线文件,要对其所缺乏的关键信息予以指出,在曲线的查询、下载过程中,对其工作效率具有一定的要求,并要求在五秒钟之内将查询结果予以返回,要求一百条测井曲线的下载时间不能超过两分钟,系统在实际运行过程中,要能够实现LAS2.0格式文件的回放功能,在对曲线特性处理时,要保证其能够满足测井曲线的实际展示要求。
三、DelphiVCL技术原理
Dephi是一个融合了可视化组件库功能、集成开发环境功能、现代编程语言的编程软件,其基本类库是可视化组件库Vi-sualComponentLibrary,其具有操作方便、可扩展性强、封装纯粹的优点,即使是一个非常复杂的Win32API,在对其进行VCL封装之后,其使用起来也是比较方便的,其能够支持类、过程及函数的嵌套,可以在一个过程中生命一个类或者是一个过程,其对于事件具有完整的支持与封装,通过对事件对象进行有效的声明,能够将任意的外部事件源绑定于VCL控件中,并且在Delphi的VCL中,还具有较多的伪API,其能够为软件开发工作提供大力的支持。由于VCL具有非常好的可扩展性,这会极大的方便控件编写工作,并且可以实现任意ActiveX控件的导入导出,并且其具有平台无关性,可以在其他操作系统中直接应用。所有的VCL组件可以划分为可视组件与非可视组件两种类型,通常情况下,可视组件主要是继承TWinControl,非可视组件主要是继承自TComponent。
四、油田测井曲线数据管理系统的总体设计
系统的主要功能模块表现为:用户管理模块、测井曲线展示模块、测井曲线解析模块、测井曲线查询下载、测井曲线加载。系统工作过程中的总体流程主要表现为:测井曲线文件加载、测井曲线文件查询、测井曲线文件下载、测井曲线文件回放。
五、结束语