公务员期刊网 论文中心 正文

机房精细化管理及运维工作原则分析

前言:想要写出一篇引人入胜的文章?我们特意为您整理了机房精细化管理及运维工作原则分析范文,希望能给你带来灵感和参考,敬请阅读。

机房精细化管理及运维工作原则分析

1前言

为扎实做好数据机房运维管理工作、保障人民银行的正常履职,人民银行数据中心按照机房精细化管理及科学运维的工作思路对提高数据机房制冷效率、优化设备布局、设备功率监控及加强电气化火灾防控等方面进行了深入研究并提出了合理的实现方案,旨在强调用技术手段加强管理,在提高数据机房业务连续性保障能力的同时降低能源消耗和运维成本,积极探索提升人民银行IT风险管理整体水平的有效手段。在上述研究过程中,摸索并验证了大型数据中心精细化管理的若干工作原则,现整理归纳如下,以飨读者。

2大型数据中心精细化管理的若干工作原则

2.1细化监控颗粒度

数据中心机房的精细化管理体现在环境温/湿度精确监控、机房制冷;M评估及制冷效率提升、设备功率实时采集、机柜空间合理利用、故障过程暂态波形记录及火灾风险防控等各个方面,数据积累的越多、监控颗粒度越细则越有利于总结规律和发现问题,也越有利于及时准确地对相关内容进行调整以达到最优效果。目前人民银行分支行中尚有不少机房对设备运行功率的监揑只达到配电柜一级,配电柜后端每个机柜的用电功率数据都无法获得,更不能对机柜内部每台IT设备进行功率实时监控,故机柜空间和空调制冷量的高效利用更是无从谈起。所以,只有把精细化管理思想切实贯穿到机房运维的方方面面,才能使机房整体的运行更加高效、更加安全可靠。

2.2提倡科学运维管理工作方式

在数据中心机房运维管理工作中,维保计划编制、设备冗余配置、设备摆放位置选择、空调分组及通风地板通风重调整等都是在科学分析的基础上确定的,对于大型数据中心而言,甚至现场值班人员的人数和专业搭配乃至巡检路线的规划都是可以通过运筹学原理进行方案最优化选择的,机房运维管理尤其是基础设施运维管理工作是一项科学性很强的工作,每—项决策都不能凭借拍脑门、想当然。近几年数据中心机房行业蓬勃发展,然而机房总能耗高、空调制冷效率低、机房内设备摆放不科学、设备功率无法监控、高水平专业技术人员紧缺等问题却是普遍问题、共性问题,这也是科学运维观念不强导致的历史问题。所以在专业知识集合程度高的数据机房从事运维管理工作一定要提倡科学运维的工作方式,主动学习机房管理所需的通风、消防、水循环、供配电、网络、建筑结构、环境监控、项目管理等各方面知识,以严谨的、科学的态度对待每一项运维工作,才能使机房的可靠性和安全性得到不断提升。

2.3重视机房制冷和气流组织优化

在调研中发现仍有少数分支行的数据机房存在不区分冷热通道、设备摆放没有规律等不重视机房制冷和气流组织的问题,这样的机房短期内可能不会发生温度超标的情况,但是随着机房内设备的増多、功率密度的增大,其后期非常有可能出现局部热点问题。对机房制冷和气流组织粗放式管理,不仅制冷量利用效率低,造成能源无端浪费、机房能耗PUE值居高不下,而且无法使运维人员准确掌握机房各区域的设备摆放能力,导致无法制定合理的机房区域使用规划,严重制约机房的可持续发展能力。

2.4强调以电气火灾防控为重点

电气火灾占我国火灾总数的三分之一以上,我国面临的火灾形势非常严峻。对于数据中心机房而言,电气火灾是灾难性的风险,机房区域内火灾必然影响IT设备的运行,对于银行、证券等行业而言,数据中心机房火灾导致的损失是不可估量的。配电系统三相不平衡易引发火灾,谐波含量超标易引发火灾,机房接地效果不良易引发火灾,这些都属于电气火灾的范畴。而机房空气湿度太低导致静电容易聚集并放电引发火灾,电源插□距地面太近易受周围空调水管漏水浸入导致短路起火等间接引发电气火灾的问题亦需警惕。所以电气火灾的风险防控并不只是做好供配电系统巡检就万事大吉了,数据中心机房的火灾风险管控一定是以电气火灾为重点的综合管控,每一个可能引发火灾的细节都应认真辨识并及时进行处置,这样才能最大限度地降低数据中心发生火灾的可能性。

2.5积极引入先进技术与设备

冷通道封闭技术、机房气流模拟技术、极早期空气采样装置、电气化火灾智能监控系统、故障录波装置、高频UPS主机、智能PDU、模块化机柜、有源滤波器、即插式母线槽系统等技术与装备,都是能够提高数据中心机房基础设施设备安全运行水平且能节约大量人力成本的技术与设备,机房管理人员应根据机房的实际情况和面临的具体问题积极引入类似的技术手段或设备。所以在机房日常运维管理过程中应关注主流设备厂家的最新产品及行业的最新技术发展动向,还可以针对具体问题邀请厂家专业工程师到现场进行技术交流,通过这样的方式加强与最新技术的接轨。

2.6避免发生系统性故障

数据中心机房基础设施主要包括配电系统、空调及水循环系统、UPS及蓄电池系统、柴油机系统、环境监控系统和消防系统等几大相对独立但又相互关联的系统,一定要根据机房实际情况深入分析各系统的薄弱点,避免发生系统性风险。比如,依靠水系统蒸发散热的机房一旦循环水泵或管道主管路出现问题,则可导致机房温度升高继而引发丨T设备大面积宕机,再比如,供配电系统长时间三相不平衡可能产生变压器或开关故障并导致区域性停电。及时发现并规避系统性故障,可以有效控制事故严重程度和影响范围,对提高数据中心机房安全性十分重要。

2.7关注隐性风险

数据中心机房内的空气温度、湿度及含尘浓度指标对基础设施设备和IT设备都非常关键,虽然这三项指标是现行国家标准《电子信息系统机房设计规范》(GB50174-2008)中规定的有关机房空气质量指标的明确要求,但对机房安全运行而言这几项指标却并不是全部:空气中二氧化硫、二氧化氣及臭氧可以腐蚀电路板和电子元器件,可以引发设备宕机或信息传输错误等问题。目前国内对数据中心机房内的类似腐蚀性气体浓度标准尚无强制要求,但是应该留意针对这些项目检测、治理的最新发展动态,将有效的措施及时应用到人民银行总行和分支机构数据中心运维工作中,严防类似的隐性风险给机房带来危害。

2.8打造稳定可靠的运维团队

对于数据中心机房而言,不论其基础设施设备配置有多先进,不论其环境监控系统功能有多完善,机房安全可靠运行的根本支撑点仍在于机房运维管理人员的工作积极性和业务水平,只有在运维管理工作中积极承担、主动探索并不断学习提升自己的工作能力,才能发现深层次风险并提前预防和消除风险。应做好机房运维人才梯队建设及培养规划,鼓励运维人员参与技术研究和学术交流活动,大胆尝试新的管理思路和技术手段,培养运维人员发现问题和科学分析问题、解决问题的能力。只有具备了人员稳定、技术过硬的机房运维队伍,才能为保证机房的安全可靠运行打好坚实基础。

3结语

提升机房安全可靠运行保障能力、降低机房运维成本是国内大型数据中心面临的严峻挑战,是建设‘‘绿色机房”的必经之路。人民银行数据中心在不断提升机房运维管理工作水平的过程中摸索、总结了机房精细化管理及科学运维的一些经验与大家分享,希望我们的浅见薄识能为银行业数据中心在机房管理方面提供参考与借鉴,同时希望与大家共同推进整个银行业数据中心的转型发展。

作者:肖鑫 单位:中国人民银行金融信息中心

相关热门标签