前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的运维管理主题范文,仅供参考,欢迎阅读并收藏。
经研究,在整个IT产品的生命周期中,采购和建设阶段只占全部时间和成本的20%~30%,而运营阶段则占了整个时间和成本的70%~80%,由此可见IT系统运营管理的重要性。然而,在过去相当长的一段时间内,医院的IT信息部门更关注信息系统的建设和应用,而对该系统的运维管理则缺乏相应的重视和研究。大多数医院虽然设立了信息中心或计算机中心来负责系统维护,但维护手段仍停留在较为初级的被动受理和解决故障阶段,缺乏完善的维护管理流程,没有设立明确的运营维护工作的考核指标。部分医院甚至仅委派一名或两名技术工程师负责全部IT系统的维护工作,管理者很难真正了解其IT维护管理水平的高低,进一步改进的方案也就无从谈起。这种停留在初级阶段的系统维护方法,显然无法适应医疗IT应用系统日新月异的建设水平。
IT服务管理领域的标准ITIL
谈到IT运维管理,我们先来了解一下有关ITIL的基本知识。在上世纪80年代末,英国政府商务办公室OGC(Office of Government Commerce)开发出了ITIL(Information Technology Infrastructure Library)的最初版本,ITIL在面世之后,迅速从英国扩展到了全球许多国家。目前,ITIL已经取得了全球IT服务管理领域的广泛认同和支持,成为了IT服务管理领域事实上的标准,目前全球有数万家企业在应用ITIL。
从实践中总结而来,是ITIL最大的特点,最初的ITIL版本就是一系列IT最佳实践的总结。因此,ITIL不是采用先设计整体框架再细化各部分这种“自上而下”的方式开发出来的,与其他的标准有很大的区别。ITIL的最初版本中包含了十个以上的流程组,而后,OGC通过对最初版本的整合,消除了重复和不一致的地方,了ITIL v2版本,共包含7个体系:服务支持、服务提供、实施服务管理规划、应用管理、安全管理、基础架构管理及ITIL的业务前景,这就是被广泛引用的ITIL框架(见下图)。
由于本文讨论的是医院的IT运维管理,不可避免地借鉴了ITIL体系中的许多概念。但需要说明的是,ITIL仅仅是为IT服务管理提供了一个框架和准则,而其本身并非产品,应用ITIL也无需系统支持。参考和借鉴ITIL体系,建立和健全适合医院自身实际的IT运维管理体系,才是我们的目的。本文的重点在于讨论对医院IT运维管理体系的建立,对ITIL本身就不再多介绍了。
当前医院IT运维工作存在的问题
当前,医院的IT系统运维工作通常由信息科或计算机中心等部门来负责。在部分信息化建设步伐较快的医院,已经有专职的技术人员来负责IT系统的运营与维护,部分大医院维护人员人数已经不少,但以下问题仍在医院的IT运维工作中普遍存在:
1. 维护工作以“被动式服务”为主
主要体现在对IT系统的维护往往是在问题发生后,IT维护人员类似“救火队员”一样赶去抢修故障,缺乏主动性的预防式服务,这种维护模式下IT维护部门往往依赖一些技术水平高的“救火英雄”,而忽视了如何从管理的角度去预防问题的发生,结果就是一些本来可以避免的故障反复发生,给医院的业务带来阻碍。
经研究数据表明,IT系统发生的故障,只有20%是因为软件、硬件或环境(网络、电力等)因素造成,而有40%的原因是缺乏管理流程造成的。例如未经测试的变更,或是系统高负荷运转等原因造成,另外40%的原因是由于人员操作失误、备份或安全方面的疏忽所导致。也就是说在IT系统发生的问题中,大多数的问题是可以通过管理来避免的。
2. IT部门与业务部门的沟通不畅
对于使用IT系统的业务部门来说,关心的是业务不中断,IT系统能够安全稳定的运行,而IT管理部门往往是以技术为中心,这样如果在业务部门产生对IT系统的使用需求或者是发生故障时,IT部门往往会将注意力放在技术环节上,而忽略了对方的业务目标。一个简单的例子是,当业务部门由于设备故障(例如台式机)而影响业务时,IT运维部门首先要做的不是解决故障,而是需要清楚恢复业务的时限,如果是恢复时限要求很高的问题,那么IT维护部门可能首先要做的可能不是去解决故障,而是更换一台备用电脑来保障业务在最短时间内恢复。做到这一点就要求IT部门与业务部门有一套共同的沟通语言,这一点在后面讲到服务级别管理时再详细讨论。
3. 不能量化评估IT部门工作的绩效
IT运维部门的绩效往往难以考核,产生的原因是由于未能制定有关IT运维工作的考核指标,日常的IT运维工作通常都由繁琐细微的事情组成,如果没有对关键事件进行记录,没有对各项工作的目标进行事先约定,那么对IT运维工作的评价只能够凭感觉,没有业务部门与IT部门都认可的标准,既谈不到准确评估,更谈不到改进与提高。
建立IT运维管理体系
以上提到的一些问题,在许多医院中都普遍存在。想要解决这些问题,提高医院的IT运维管理水平,需要做的工作很多,需要医院IT部门有计划、分阶段地进行,逐步建立适合医院自身IT水平的运维管理体系。
建立医院IT运维管理体系,至少应该包括四项基本内容:IT运维考核指标(KPI,Key Performance Index);服务台;服务级别协议(SLA,Service Level Agreements);IT基本服务流程。
1. IT运维考核指标
IT运维考核指标是医院IT运维管理体系的核心,只有建立了科学的考核体系,才能对IT运维工作的结果进行量化评估与考核,发现不足,进行改进。IT运维考核指标是针对整个IT运维部门而制定,考核的是IT运维部门的整体绩效,指标的设定应该包含对IT运维工作结果、部门及人员发展、财务等几个方面的考核,我们在这里重点讨论一下应该如何设定IT运维工作结果的考核指标。
IT运维部门的主要职责一方面要对IT设备及系统进行维护管理,保障其良好运行,另一方面要响应业务部门的需求,解决业务部门提出的问题。因此对IT运维工作的KPI设定主要分为IT系统运行水平和IT技术支持水平两大类。在这里对这两大类的常见考核指标做一些介绍,供医院IT部门参考。
(1)IT系统运行水平KPI
通过对IT系统运行水平KPI的考核,可以考察IT运维部门的维护水平,这类指标常见的有:
系统中断时间,指由于软硬件或外界环境原因引起的关键应用系统的业务中断时间,考核周期通常以月或年为单位,而具体目标的设定可根据各自医院应用系统的数量、运行水平来制订,例如:系统中断时间
故障发生次数,指IT系统的故障发生次数,考核周期通常以周或月为单位。例如:故障发生次数
网络安全性,保障网络信息安全是运维工作的重要目标,对网络安全性的简单考核可以用考核周期内网络信息安全问题的发生次数来进行,如果要做更科学的考察,可以根据不同等级的安全问题设立网络安全性指数。
故障业务影响率,这一指标是考察发生的所有故障中,影响业务的故障所占比例,计算公式为影响业务的故障总数/故障总数。
(2)IT技术支持水平KPI
与第一类指标不同,技术支持水平KPI主要考察的是IT运维部门的技术支持和服务水平,重点考察IT部门是否能够及时响应业务部门的申告与要求,服务水平是否达到了业务部门的期望。
故障解决达标率是指在目标时间内解决的故障数/全部故障数。对于不同级别的故障,事先都设定好了目标解决时间,这一指标考核的是在预计时间内解决故障的比例,这比简单考核故障解决率更能反映IT运维部门对业务部门的支持情况。
平均故障解决时间是指所有故障的解决时间之和/所有故障次数。这一指标反映的是IT运维部门解决故障的能力,与第一个指标组合使用,可以更全面地反映IT运维部门的技术服务能力。
客户满意度是指IT运维部门的客户是业务部门,对医院来说就是使用信息系统的各个科室,服务水平的高低最终要反映到用户的主观感知上,因此设立一个主观感知指标是非常必要的。这一指标可以通过对业务部门的满意度调查问卷来实现。
以上3个指标是对IT运维支持水平最常见的考核指标,这类指标还有很多,例如故障响应及时率、故障解决超期时间、重复故障发生率等等。如何设定考核指标,关键是要符合医院的IT管理战略目标和IT管理重点,合理设定不同指标以及所占权重,使得KPI考核能够达到促进IT运维管理的目的。
2. 服务台的职能
对建立IT运维管理体系来说,服务台在其中扮演了非常重要的角色,是建立IT运维服务体系必不可少的一环。我们这里说的服务台并非是一个简单的设立了热线电话的值班员,它有几项最基本的职能:
服务台为用户提供了IT部门的单一联系点,确保用户通过服务台可以找到支持人员,也就是说确保了服务的可达性。
服务台对所有用户请求进行记录,并监控后续处理过程,直到问题解决。这就保证了前面提到的IT运维指标体系中,所需要的数据都有权威依据,如系统中断时间、故障解决达标率等。
服务台作为IT部门的首次联系点,可以过滤掉不相干的问题,并处理掉常见问题和简单问题,而将处理不了的复杂问题再转给IT后台部门,这样就保证了IT的技术支持部门不会被简单的问题所打扰,可以集中精力处理专业性的问题。
建立服务台遇到的常见问题是业务部门在遇到故障时,都习惯于直接找自己熟悉的IT工程师解决,而不愿意找服务台帮助,解决此问题要求IT部门向业务部门大力宣传服务台的好处,同时也要大力改进服务台的服务能力,比如服务台直接服务的水平,响应的时间等。
3. 服务级别协议
服务级别协议(SLA,Service Level Agreement)的含义是IT部门对业务部门的服务承诺,定义了各种服务类型所要求满足的服务质量。SLA的特点是用业务语言描述,而不是用技术语言进行描述。例如,对于故障处理,在SLA里可以将故障分为三类:影响业务的紧急故障、对业务使用存在隐患的严重故障及普通故障。然后分别对这三类故障定义响应时间和解决时间,例如紧急故障要求10分钟响应,1小时解决,而普通故障则要求30分钟响应,3个工作日解决。
只有在有效的服务级别管理被建立的条件下,IT部门才能更加清楚他们被期望提供什么和可以提供什么,因此才能够更好地计划和管理所提供的服务。
4. 建立基本运维管理制度流程
IT运维部门应该建立一系列基本运维管理制度和流程,以确保IT运维部门的基本任务得以实现。IT基本运维制度流程主要包括故障支持流程、IT变更流程、IT日常维护管理制度、重大事件应急管理流程以及IT安全管理制度等。这些基本运维管理流程的建立,是确保SLA能够实现的制度保证,可以使IT部门在向业务部门提供服务时,能够按照标准流程进行,从而保证服务的确定性,并能够比较容易地发现服务中存在的问题,进行改进和提高。
IT运维管理外包的基本情况
以上简要介绍了建立IT运维管理体系的基本概念及方法,最后再介绍一下关于IT运维管理外包的基本情况。
IT运维管理外包是近年来的新生事物,在欧美许多国家,将IT系统的运维工作外包给专业的公司已经比较常见,在国内,部分行业也已经开始进行这方面的尝试。实际上IT运维管理外包这种模式非常适合于医疗行业,主要原因在于:
1. IT运维管理是一项非常复杂和专业的工作。对于医院来说,IT管理并非其所擅长的领域,即使投入很多精力,也很难在短时间内见到成效。而专业的IT外包公司则具有丰富的经验,可以在短时间内帮助医院把IT系统的维护管理工作提升到较高的水平。
【关键词】运维车间;分散;立体式培训管理网络
1.引言
电力企业运维车间员工工作地点分散,且其三班倒的运转模式给工区各项集训、调考、工作布置等各项工作的开展带来较大困难;另外,设备的快速更新及企业变革带来的复合型人才需求使培训管理工作急待一种更有组织、更具规模性的管理突破。现根据保供运维工区现状针对运维车间培训管理工作进行简要的分析。
2.运维工区现状及员工培训存在的问题
工区现有运维员工255人,平均年龄41岁,呈老龄化趋势。第一学历大专及以上的18人;后续学历大专及以上163人,其余为中专及以下学历。共设13个运维班,所辖138个变电站分布在22个县市,其中3个班组采用“长白班”模式,10个班组采用“三班倒”运转模式。主要负责所辖站运行、维护工作。一般采用集中培训、班组培训与自主培训的方式。
因其工作的特殊性,员工培训存在三个较为突出的问题。一是工作地点分散、三班倒的运转模式给工区各项集训、调考、任务布置等各项工作的开展带来较大困难。二是培训起不到应有的效果。因倒班方式的限制,工区集训只能组织休班成员参加,连续几天的工作后,休班员工有很多生活中的事务要处理,参加集训时会产生抵触情绪,所以培训效果不佳。三是设备的快速更新及电力企业“运维一体”带来的复合型人才需求同样使培训管理工作急待一种更有组织、更具规模性的管理突破。
3.针对上述问题的相应解决方法和措施
更新运维车间培训管理模式,建立“立体式”培训管理网络,并辅助相应的激励机制,通过推动专业管理网络的有效运转、知识共享,全面提升运维员工各项技能,强力组建“一岗多能”的复合型人才队伍。
(1)三维“立体式”培训网络的建立
“立体式”网络培训,由三个维度空间组成。
一维:是由工区培训主管牵头组建的由工区领导、各专业管理、技术员组成的培训网络;二维:是由工区各专业管理牵头建立本专业管理网络;三维:由各班组培训网员牵头将本班组各专业管理网员组建为班组级培训网员。
(2)明确目标、细化指标,实施指标体系
将培训专业必须实现的两个核心指标:应培送培率100%、全员培训率100%,分解为各个工作项目的时间节点及质量控制要求,实现目标值量化,同时为保证各个量化值的实施和实现,绘制指标体系图,将可量化指标与实际工作紧密吻合,不断改进思维、改进方法。
(3)建立岗位规范,明确责任分工
机制的建立需要文件制度、目标、激励机制等坚实基础的支撑。首先依据各岗位规范,在《培训管理》中进一步明确各维度培训网员的培训职责及分工,为培训工作的顺利开展提供组织保证。
(4)有效运用“三个维度空间”夯实员工专业技能
在健全的“立体式"培训管理网络中,各维度培训网员积极发挥自身价值,以工区培工为总牵头人,各专业管理为专业培训项目负责人,制定符合工区实际的培训计划和项目,并组织实施;以培训专责为总策划人,各班组培训员为督导推进人,定期督导并推进培训计划的落实;以各专业专责为总教练员,各班组相应专业管理网络成员为实施推广员,通过工区级的专家培训和班组级的落实推广,切实做到学以致用。通过三维立体培训网络的实施,进一步提升培训效果,同时助推专业管理网络的有效运转。
1)“一维”阶梯式培训,减小员工技能差异
“立体式”培训“一维”培训带头人——工区培训专责,首先要针对培训工作中发现的诸如电网新设备、新技术对运维员工的要求越来越高,统一组织的培训没有针对性,员工技能提高缓慢的问题,组织“一维”网员(专业管理及班组技术员)在认真分析素质胜任力和岗位能力的基础上,评估员工工作的差异性能力,根据其结构特点划分技能梯队;工区各专业管理(“二维”培训牵头人)将运维专业培训项目分模块,如:电力基础知识及变电站值班员技能鉴定、倒闸操作及异常、事故处理及现场把控、综自保护专业管理及班组管理、智能电网及数字化变电站五个模块,并对应列出培训计划,利用培训计划的纲领性进行最有针对性的培训,员工技能等级得以快速提升。
2)“二维”专业培训,夯实技能基础
“立体式”培训“二维”培训带头人--各专业管理,结合本专业特点及日常工作中发现的技能弱点制定有效的培训计划上报培训专责,培训专责组织实施,并组织各班组级专业网员采用抽调考的方式进行培训效果评估。专业性的培训,即能够有效的培养专业能手,又能够有效推动专业管理网络有效运转。
例如:工区主管可靠性、及PMS的两位“二维”专业牵头人--运维管理,针对可靠性、PMS系统的应用及日常填报过程中发现的问题,组织本专业班组级网员,采用每周一通报、一讲解的方式进行点滴式贯彻培训,收到良好的效果--多名在省公司竞赛中均取得了优异成绩。
3)“三维”班组培训,固化专业技能,夯实安全基础
“立体式”培训“三维”培训带头人--各班组培训网员组织本班组各专业管理网员,将从专业管理那里汲取的专业知识,结合班组倒班特点、所辖设备特点、人员特点开展针对性的集训、现场培训、现场模拟事故处理等,在现场培训过程中直接发现每位员工的技能短板,现场指导,有效解决了因倒班带来的培训漏项的问题,更能够起到“查缺补漏”、逐个提升的效果。目前各运维班组在结构性缺员的情况下,各项工作均能够有效开展。
(5)完善管理文件,固化良好做法
在“立体式”网络培训实施过程中,不断完善管理文件,如将各维度培训网员的工作要求、时间节点纳入文件。通过不断的修订、执行、检查再修订的PDCA循环,工区培训管理文件日益完善,为培训工作的有序开展进一步奠定了基础。
(6)建立培训检查、激励机制,激化各级网员及每位员工进步能量
各项工作的稳固开展和不断提升均离不开互查交流这一重要环节。“立体式”三维训管理要求班组专职培训网员每月开展培训自查、整改;工区培训管理按《运维工区工作检查管理》5.6条及附录F培训管理月度工作检查,每月至少抽查3个班组,限期整改,班组整改完毕后反馈,工区组织复查、收存及时发现问题,调整培训方式,提炼推广典型经验,确保员工技能有效提升。
机制激励是一种手段,也是推进培训工作的重点,工区将各维度培训网员培训工作与绩效考核管理挂钩,建立专业管理年度绩效合约、培训专业一线员工积分指标库。
并在此基础上建立班组培训对标管理,细化培训考核实施细则,每季对标,并结合对标结果、普调考、竞赛结果填报月度绩效考核表上报劳资管理,工区进行沟通交流后列入月度绩效考核。从各角度激发员工培训热情,强化进步能量。
4.结语
通过对运维工区培训工作现状的分析发现:员工培训效果与工作方式、企业环境存在很大得联系,而有效的“立体式”培训网络管理是运维车间实现知识共享、快速提升员工各项技能的有效途径。
参考文献:
[1]电力职工教育培训[Z].电力职工教育编辑部.
关键词:运维管理 ITIL IT
中图分类号:TP315 文献标识码:A 文章编号:1674-098X(2016)10(b)-0065-02
1 IT运维管理现状
IT运维管理是指单位IT部门采用相关方法、手段、技术、制度、流程和文档等,对IT软硬件环境、IT业务系统和IT运维人员进行的综合管理。当前,IT运维管理对象主要包括:对网络设备、服务器设备、操作系统运行状况进行监控和管理;对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理;对系统和业务数据进行统一存储、备份和恢复进行管理。
随着IT部门面临日益复杂的IT基础架构,以及多厂商、多品牌、多地域和多人员的管理,如何持续运营成为制约IT服务的瓶颈,于是“重采购、轻运维”与“重建设、轻管理”正成为制约中国众多企业与组织实现IT能力突破的主要障碍。ITIL即IT基础架构库(Information Technology Infrastructure Library),是英国商务部开发的一套针对IT行业的服务管理标准库,旨在解决并纠正这些可能出现的弊端。目前ITIL已成为IT服务管理的业界标准,被纳入ISO20000质量管理体系。从2002年开始,ITIL在内开始受到越来越多的关注。目前,国内IT服务管理研究与应用正处于发展期,与国外很多国家相比还有很大的差距。随着IT技术不断发展,国内在IT服务管理与ITIL方面的研究与应用也逐渐增多。
2 基于ITIL的IT运维管理主要流程
基于ITIL的IT运维管理主要包括如下核心流程。
(1)事件管理。事件管理是指在出现任何不符合标准操作,且已经引起或可能引起服务中断和服务质量下降的事件时,尽可能快地恢复服务的正常运作,避免其造成业务中断,以确保最佳的服务可用性级别。
(2)问题管理。问题管理就是尽量减少服务基础架构、人为错误和外部事件等缺陷或过失对客户造成影响,从根本上解决问题,即让事件不再发生,或者即使发生也有很好的应对措施。
(3)变更管理。变更管理是使用标准方法和规程来快速有效地处理所有对IT基础架构组件包括硬件、网络、软件、应用、环境、系统及相关文档等进行的增加、修改或移除操作,以减少事件对服务的影响。
(4)配置管理。配置管理是识别和确认系统的配置项,记录和报告配置项状态和变更请求,检验配置项的正确性和完整性等活动构成的过程,为其他流程提供准确的信息。
(5)管理。管理的目的是为了保证一组经过测试后导入实际运作环境的新增的或经过改动的配置项的成功,主要应用于大型的或关键硬件、主要软件及打包或批处理等情况。
3 基于ITIL的IT运维管理流程设计
基于ITIL的IT运维管理系统一个关键技术在于运维管理的流程设计。当前,有很多开源工作流引擎能够支持基于ITIL的IT运维管理流程设计,如JBPM、Activiti 5、OSWorkflow、Enhydra Shark等。
其中,JBPM(Java Business Process Management)是基于Eclipse图形化插件和基于Web的流程设计器,可采用JBPM工作流引擎来设计基于ITIL的IT运维管理流程,如事件管理流程、问题管理流程、配置管理流程、变更管理流程、分管理流程等。JBPM覆盖了业务流程管理、工作流、服务协作等领域的一个开源的、灵活的、易扩展的可执行流程语言框架。JBPM是一款开源的工作流产品,采用的是一种轻量级的XML结构的流程描述语言JPDL(JBPM Process Definition Language)。JPDL使用直观的流程语言以图形化的方式来表示业务流程。一个业务流程可以被看作是一个UML状态图,详细定义了这个状态图的每个部分,如起始、结束状态,以及状态之间的转换,通过图型化的流程定义,直观地描述业务流程。
图1给出一个事件管理流程设计示意图。
4 结语
文章主要阐述基于ITIL的IT运维管理主要流程,并采用JBPM工作流引擎来设计基于ITIL的IT运维管理流程,通过流程管理来简化IT部门繁琐的业务,把维护人员从救火队员中解救出来,规范运营管理,从而实现业务流程化、流程自动化、服务规范化。
参考文献
[1] 文必龙,赵晶浩,张璇,等.IT系统运维管理研究[J].计算机系统应用,2013(3):1-5.
[2] 迟大洋.基于ITIL的中国人寿IT运维管理系统的设计与实现[D].大连理工大学,2015.
[3] 刘雅薇.基于SOA架构的IT运维监控管理系统的设计与实现[D].天津工业大学,2014.
1.流程步骤说明
(1)建立配电运维一体化体系。体系建设工作是一项长期而艰巨的任务,后期的应用、推广是重中之重,应用的效果是配电运维一体化体系建设是否发挥成效的最终体现。
(2)明确设备维护产权和职责分工。规定部门之间配电业务运维分界与职责,其中包括责任设备、倒闸操作、工作票签发、故障抢修业务、工程业务等方面的业务。运行班组和操作班组业务整合,人员合并,统为运维班组。
(3)建立配电运维员工培训体制。配电运维一体化对员工素质提出更高的要求,需要运行维护的复合型人才,既需要具备操作人员的专业技能,亦需要运行的综合知识分析能力。常态化的培训机制是班组正常运作的保证。
(4)制定配电运维一体化的规章制度。配电运维班组负责原操作班组和运行班组的综合业务,因此原单一模式的班组规章制度不再适应新的业务模式。需要重新定义其管理标准、工作标准、安全标准。
(5)反馈分析和完善。定期开展配电运维一体化工作会议,对工作中存在的问题进行分析评估和分析总结,根据配电运维一体化中所出现的问题,听取意见,对相关制度进行评估、修订和完善。
2.保证配电运维一体化实施的重点工作
(1)调整专业管理模式。
①界定部门的运行设备维护产权与职责。一是配电运检中心负责城区高低压公用设备,责任设备操作、工作签发、故障抢修,配电工程建设管理工作。二是营销部负责用户专用设备,督促客户履行客户自有产权设备维护责任,责任设备操作、工作签发及故障抢修,组织开展一户一表工程,营销技改大修工程的建设管理工作。三是客服分中心负责市郊供电所高压公用设备,市郊低压公用设备,督促客户履行客户自有产权设备维护责任,责任设备操作及工作签发,市郊供电所单台配变停电倒闸操作,责任设备的故障抢修,组织市郊公用配变台区及低压线路的改造、青赔工作。
②运行班组和操作班组业务整合。一是将运行班组、操作班组两个班组整合成配电运维班组,在机构设置层面实施配电运维一体化。配电运维班组统一管理线路巡视、运行维护、设备倒闸操作、维护类检修等业务。二是配电运维人员复合型技能。配电运维一体化要求运维班组人员不仅需要具备倒闸专业技能,而且需要具备管理线路的综合能力,在线路巡视过程中能识别出设备缺陷或定位出故障点及故障原因,自行完成消缺质量控制和验收管控。
(2)建立配电运维员工培训体制。配电运维员工的培训是实施配电运维一体化的人力资源保障,科学论证岗位需求,制定相应的培训内容和培训方式,构建一个完整的、标准化的、科学的培训体系,提升配电运维人员的综合技能素质,建立以安全为基础的生产运营新模式。
(3)建立安全管控机制。安全是配电运维一体化的前提。配电运维班组建立运维岗位责任制,加强培养安全意识,更新安全生产管理模式,运用技术、管理手段实行现场管控。在管控方面,要做到综合考虑分析现有的维护业务,明确工作中运维人员的安全职责,制定配电运维一体化实施细则,稳步促进维护人员分批向运维人员转变。
二、评估与改进
1.专业管理的评估方法
一是每月组织运维班组长进行安全生产汇报,总结分析生产运行中出现的问题,通过操作和监视一体化,检验运维一体化故障率是否下降,操作能力是否加强,定位故障源和停电时间是否缩短。二是每年针对运维一体化各部门职责和员工职责设置、设备产权界定进行审核,广泛进行分析评价,考察其是否明确、合理。三是每月对员工队伍的工作业绩、工作能力、工作态度等指标进行量化考核,与绩效挂钩考评,并落实奖惩措施。
2.专业管理存在的问题
(1)班组间业务差异性。操作班组需要有较强的专业性技能,而运行班组需要有较强的综合性知识。班组人员对其他班组的工作只熟悉原理和流程,跨班组解决复杂问题的能力较弱。实施配电运维一体化要求人员需要较全面的技能素质,因此培训一名运维员工需要较长周期。
(2)工作量增大,风险加大。与传统运行检修模式相比,配电运维一体化运维人员同时负责操作与运行,没有相对细化的分工,人员兼任倒闸操作和检修,失去了班组间的安全监督。劳动量的加大,也在一定程度上增加了工作安全风险,工作时间加长,若没有相应的补偿措施,员工开展配电运维一体化的意愿则会变弱。
3.改进方向或对策
(1)培训与实践并行。配电运维一体的主要任务与核心工作内容和开展有针对性的培训是配电运维一体化实施的关键。原操作员工和运行人员经过配电运维技能培训后,按适当比例汇编成运维班组,通过互帮互学、结对子提升员工技能。
关键词:网络运维;云计算;管理模式
中图分类号:F279.23 文献标识码:A 文章编号:1001-828X(2013)12-0-02
一、云计算的概述
1.云计算的概念。云计算是由一些传统计算机的技术与现代的网络技术结合起来的新的科技产物,其技术包含了网络计算、效用计算、虚拟化等等,云计算可以用网络将很多成本较少的计算功能体组成一个计算能力强的计算系统。过去的二级网络中,运维工作所采用的交流方式包括电话、邮件、QQ等,这些交流方式也只是实现了对点形成的沟通,而云计算则是由互联网助其实现操作,形成一种网状的联系方式。要使得网络的运维向云计算的方向模式不断发展,必须先找到有利于自身发展环境的互联网,除了具备网状网以外,还要有高速率。
2.提出云计算的社会背景。长久以来,网络的运维工作都存在了一些疑团并没有得到解决,虽然它在工作中的绩效和指标运行都比较良好,但是其专业性压力过大,任务也十分繁重,给人们造成了心理压力,这些方面在过去都长期存在。
(1)工作任务繁重。据相关资料统计[1],一些监控的值班人员每天平均需要接听到的电话数量都达到了惊人的80多个,相关的设备故障处理有55宗,客户投诉平均也达到15次,用户需求量的增加,数据不断增大,使得网络不断需要调整扩充,不得不时常对传输专业以及数据或增值的专业进行改造。这种膨胀的现象增加了大量的业务,产生了巨大的维护压力。
(2)支撑力量较弱。随着科技的发展,网络逐渐从核心专业转向数据专业,又逐渐形成了网管专业,但是运维工作逐渐集中化,这让很多企业用以维护的设备减少,维护发挥的作用也越来越弱。随着维护压力的不断增加,很多的企业不得不采用网络运维来支撑这种现状。
(3)维护力量不平衡。我国在网络运维的支撑力量上不平衡,例如广州和深圳经济科技较发达等地方支撑队伍壮大,支撑力量比较强,工作的先进经验并没有能够第一时间传达到比较弱的地区,所有的研究成果也无法及时的进行推广和应用,浪费了投资,使得成果和社会效益骤减。
二、任务重大原因分析
对目前我国出现的这种现象和问题进行分析,并结合多方面的资料显示以及头脑风暴法,本文通过鱼骨图的形式做了相关的剖析,具体情况如下图1所示。
如图1所示,可知目前影响我国在网络运维方面的支撑工作中,具体的相关因素有时间安排不当、沟通手段不足等十四点,采用投票的选择方式,选取了占据其百分之八十五的三个非常重要的因素,这三个因素分别是支撑力量不对称、省份和城市之间沟通不力以及支撑的技术水平有限,无法有效利用分析,具体情况如下图2所示。
这些存在的问题被发现以后,选取其中的三点做主要的讨论分析,将网络运维的管理模式确定好,从而推动城市一体化策略的进展,实现最终的目标(具体情况见下图3)。研究重点是找到更合理更有效的管理模式,将管理的方法和沟通的手段进行彻底的改变,从而使得工作的可变化性和操作性更简便,数据更准确。
三、管理模式相关的方案实施分析
1.创新沟通模式,传递信息。针对存在的问题,需要探讨在网络运维中沟通方式的构建,以及不同地方的企业在沟通方式中可采用的单个节点或者是分区域网状网的方式进行沟通,这两方面都属于运维云计算管理中的基础。和传统的邮件、电话等沟通方式相比,当前正发展的城市间交流平台、经理或人员的交流方式,都可以完全突破了省界的限制,使人们体会到了信息的快速性给生活和工作中带来的便利[2]。因此,在网络的运维工作中,建立网状网,可以有效地提升各项技能,可以快速地复制各种维护工具,可以迅速地传递先进的经验和技术,从而不断提高工作效率。
如果碰到节点较多的情况,那么可以采取分区域的沟通方式效果会更好。一般环境下,企业都是由人员、设备等环境因素组成,信息的传播需要共享,在同一区域内构建创新性的交流渠道,可利用IN POOL得以实现。一定区域内信息的构建在高速公路的工作中是比较重要的一个问题,同时也组成了区域内云计算和管理的前提[3]。利用这种形式信息在区域内的传播会更加高效,在各个节点之间都可以实现共享。
2.云管理可转变运维管理模式。云沟通作为基础逐渐深化云管理,因此,可以通过IT中的相关理论理解云管理模式的转变。
(1)只在区域中构建云管理并不能实现目标,满足要求,必须考虑到区域之间的不同产生不同的差异。在这里我们可以把优势的节点当作一个区域来看待,与其他节点相结合,逐渐形成了云管理的初步模型。但是要注意,区域与区域间必须有一定的差异性,这可以为工作预留很大的提升空间,从而将挪出来的空间从事比较擅长的领域。此外,差异性还可以避免资源被重复利用,提供资源利用的效率[4]。这种差异性和同质化可以形成完美的融合,共同实现资源共享,这一点便是云模式下带来的优势,基础模型如下图4所示。
(2)在同一区域中的网状网可以构建信息化的高速公路,这说明云计算管理模式的运用可能性增大。而在IT行业中,这种模式的核心是通过互联网的运用,整合资源从而调度了强大的功能。在确定了互联网中的云管理以后,再确定其涉及到的软件方面。
3.打造云系统,加强一体化。要促进建设手段的深化,实现业务、应用、数据以及技术框架等四方面的主体应用,因此,云系统的打造有几种方式可以实现:(1)将面向设备以及网络向业务和客户的方面转变,提升支撑能力;(2)由专业网管转向综合网管,平衡综合化的发展模式;(3)引入技术的服务平台,分离应用与服务的平台;(4)引入包括虚拟化、云计算等,提升网络功能;(5)推动专业的转型,提升综合管理的能力[5]。
虚拟化工作组的成立,可以强化各部门之间关于接口工作的关系,加强之间的协作与互动,从而整合企业的整体力量,大幅度提高工作效率。
四、云计算管理初步成果的实现
在IT领域中引入虚拟技术,不但可以节约成本,还可以有效提高工作效率。虽然我国目前的云计算技术还处在发展的初步阶段,但是在移动公司的不断探索中,已经有了一定的成果。
1.加强互动,保障信息的传递。这一方面能对公司的相关信息和人员形成监控,同时还可以复制相关的技术和经验,使其更有效率地进行传递,加强了领域之间、公司之间以及各部门之间的交流互动,有利于打造覆盖全省的网络微云IN POOL池。
2.能够解决力量分散的现状,充分发挥集体的优势。连接省市之间的交流协作,提升管控能力,清晰划分省市之间的网管支撑系统建设,对系统的管制进行合理的分工,使部署和复制的机制快速建立。
3.能够有效建立有关云管理的运作机制。在云计算模式的创设和搭建过程中,利用云管理IN POOL池以及网管的一体化支撑实现长效的机制运作,不但可以有效缓解了运维工作中的压力,还可以提高工作效率,借助网络一体化的平台,充分支持运维支撑工作的进行。
参考文献:
[1]惠普将助力运营商“云”试点建立云管理平台有望明年2月商用[J].通信世界,2010,11(12):46.
[2]红帽虚拟化[J].让虚拟化、云管理由繁化简.通讯世界,2010,12(11):57-58.
[3]鲁松.计算机虚拟化技术及应用[M].机械工业出版社,2010,15(07):23-24.
【关键词】:变电运维; 管理;控制;
中图分类号:F407文献标识码: A
前言
当今社会变电运维工作是必须认真施行的一个工作项目,对于变电运维管理中危险点的分析更不容忽视。变电运维中工作人员的安全压力也很大。运维值班员应将变电运维中的误差降到最低。就目前我国电力行业的发展情况来看,变电运维管理工作是当前所有行业人士必须要认真对待的一个工作类型,工作人员要认真对待变电运维管理中出现的每一个危险点,这就使得我国电力行业的工作人员的工作压力越来越大。在变电运维维护中,任何不规范的行为都可能影响到电网的安全以及稳定运行,甚至会造成重大安全事故。
一、谈论变电运维管理中的危险点
1.1变压器操作时存在的危险点
工作人员在进行变压器的操作之时,一定要仔细认真,一旦出现疏忽,很可能引发重大的变电运维安全事故,造成不可挽回的经济与人身损失。一般来讲,在操作变压器时可能出现的危险点主要有两个类型。其一,在对空载的变压器进行切合操作的时候,会有可能出现操作过电压的现象,这样一来,就会使得变压器的绝缘受到一定的威胁,危险点从此而来。其二,如果变压器的空载电压的数值不断变大,就会引发变压器的绝缘遭到破坏。出现第二种危险点,所以,在这样的情况之下,工作人员在进行变压器的操作时一定要仔细认真。
1.2母线倒闸操作时的危险点介绍
在电力运行过程当中,倒闸操作是一个重要的操作工序,而母线倒闸操作是这个重要的操作工序中的关键环节,如果工作人员在进行操作之前没有做好相应的准备,不能按照相关规定进行操作,就会使得其出现危险的可能性大大增加。在母线的倒闸操作过程中,一共会出现三种类型的危险点:其一,带负荷的拉刀闸的现象可能在这个过程当中出现,其二,因为继电保护或者自动装置的切换而出现错误而产生误动的现象,会给电力的运行带来安全威胁,其三,空载母线在进行充电的过程当中,电感式电压互感器会与其它的装置产生串联现象,影响电力的安全运行。如果这些危险点得不到有效的管理与控制,就会成为电力运行的阻碍,还会引发电力运行方面的安全事故,其威力不可小视。
1.3直流回路操作时出现的危险点介绍
直流回路的操作是变电运维人员最常会进行的操作,但就是这种经常进行的常规性操作,也存在一定的危险。一旦工作人员没有以正确的方法进行直流回路的操作,就很有可能使一些行动装置和保护装置出现一些误动作,这样一来,便增大了电力运行出现安全事故的机率。所以,工作人员在进行直流回路操作的工作过程当中,一定要以相关的规定为标准严格规范自己的操作行为,切实降低电力安全运行事故发生的机率。
1.4天气异常存在的危险点
电力的运行很容易受到天气因素的影响,一旦天气出现了异常,就会使得电力运行管理中的事故发生率大大提升。比如说,如果电力运行过程中,其充油设备的油面低于标准高度,这种情况如果发生在寒冷的冬天,就会使导线出现过紧的现象。如果在火热的夏季,充油设备的油面高于标准高度,导线就会出现过松的现象。如果出现大风天气,电力运行所用到的线就很容易被风吹乱,发生互相缠绕的现象。大雾的天气当中,闪络现象会时有发生。雷雨天气里,接地就会出现故障,这些都要使电力运行管理中的危险点数量增多。正是因为如此,在电力运行的管理当中,一定要懂得未雨绸缪,做好防范工作,使电力运行可以适应各种天气条件。
二、电力运行管理的有效策略
2.1工作人员应加强对电力操作设备的检查
变电设备是电力运行管理中的重要管理对象,只有加强对变电设备的管理,才能使工作人员在第一时间了解到电力设备的动作规律,电力设备实时的运行情况,这些信息对于工作人员实现对电力设备的有效控制与管理都有着重要的作用。虽然电力设备的检查工作十分重要,但在实际的工作过程当中,一些变电站的工作人员并没有做到这一点,使得许多电力运行中的危险点没能够在第一时间被发现,使电力的运行存在着许多安全隐患。这样一来,就使得加强对电力运行设备的检查工作十分重要,只有这样,才能在要根本上降低电力运行事故的发生机率。
2.2重视经验,切实做好预防工作
一般来讲,电力运行的许多安全事故并不是很好掌控的,所以,就工作人员一定要加强对以往经验的学习与吸收,在以往的经验当中找到可以吸收利用的教训,以此来降低危险事故的发生机率。这就需要变电站的工作人员,要对安全监管部门的安全事故通报进行仔细的阅读与学习,对已经发生的事故的事故原因进行分析,把从中获得的经验与自己的工作实际相结合,提出具有针对性的安全事故预防措施,对同一类型的事故进行防范,并进行更多的思考,延伸到其它事故类型。
2.3加强继电保护工作质量
电网运行的安全屏障有许多,而继电保护工作就是其中比较关键的一个,一旦继电保护的水平没有达到标准水平,就很有可能引发电力运行的安全事故。所以,在日常的工作当中,电力行业一定要使继电保护工作,使每一个继电保护装置在最好的状态下工作。三个管理与三个检查是继电保护工作中的准则。所谓三个管理就是指压板、控制保护设备以及直流系统的保护,降低误动作的发生机率,使电力运行工作顺利进行。所谓的三个检查,就是指停电后,关电后和事故跳闸后的检查,在做好这些管理与检查工作之后,电力运行的安全事故发生率也会大大降低。
2.4提高电力行业工作人员的素质
要想实现电力运行管理水平的提高,要先实现电力行业工作人员的整体素质,改变电力行业工作人员工作能力不对等的现象。所以,在日常的工作当中,电力企业的负责人要定期或者不定期地组织工作人员进行专业培训,提高工作人员的专业技术水平,加强工作人员的综合素质。另外,还要注意加强不同的变电站之间的经验交流,吸取更多的教训,使安全事故的防范工作做到最好。
结语
因此,在变电运维管理工作中及时进行危险点分析与控制能够提高变电运维中值班人员的安全意识,增强自我防护能力,使得变电运维工作能够安全有效地进行,将危险造成的损失降到最低。
参考文献
[1]袁晓杰.浅谈变电运维管理工作[J].北京电力高等专科学校学
1、电力营销IT运维管理现状
为了实现智能化、自动化、人性化营销服务需求,国内供电企业IT信息化系统建设正处于高速发展的阶段。电力营销、生产、人力资源管理等主营业务系统也逐步向系统化、网络化方向发展。目前,很多供电企业所建立的电力营销IT监控运行系统和IT服务管理系统,基本上沿用常规面向设备服务的管理体系,没有现代智能营销直接面向服务对象的运维体系。常规面向设备服务的运维管理模式,很难从整体系统较多对整个营销业务系统的可行性、可用性、以及健康状况进行动态测评,也就很难将用户人性化服务有效考虑其中,无法实现面向电力用户的业务服务水平进行动态两户评估分析,从而造成营销运维管理长期处于“被动”局面,在系统功能结构、数据处理等方面均已不能满足现代日益扩展的面向电力客户人性化服务的营销运维管理工作需求。因此,结合电力企业营销运维管理实际情况,整合现有的营销监控运行和服务系统,从网络化、系统化、人性化等方面强化营销运维系统的分析应用功能,进而实现全面面向电力用户服务的集中运维管理体系,对电力企业而言就显得非常必要[1]。
2、电力营销IT运维管理体系主要实现功能
电力营销IT运维管理体系,是指电力企业营销管理部门,通常采用相关的运行维护管理方法、技术手段、规章制度、操作流程、以及文档资料等的优化,通过IT运行环境(包括运维管理硬件环境、网络环境、高级功能应用软件环境等),实现对营销业务系统和运维人员进行综合系统管理。电力营销IT运维管理体系在构筑过程中应从以下方面进行考虑:
(1)设备的运维管理:对网络设备、服务器设备、PC电脑、计算机辅助设备等的运行工况状况进行动态监控运行和维护管理;
(2)应用软件的运维管理:对营销过程中各种高级应用软件如:数据库、操作系统、WEB浏览器、邮件、以及营销系统中各种通用或特定的服务监控软件系统进行运行维护管理;
(3)数据运行管理:对系统运行数据、业务数据、操作事件等信息,进行统一的存储、备份、以及恢复等管理;
(4)业务信息管理:对营销事件中发生的各种信息数据、系统运行工况、业务流程、业务操作完整性、以及业务办理实施全过程,进行动态监控与管理;
(5)系统运行安全管理:针对电力企业营销过程的行业特点、运行维护系统安全、环境安全、数据信息安全、管理权限保密控制等进行安全管理;
3、“主动式”营销运维管理模式构建
3.1优化营销业务服务流程优化营销业务运维管理服务流程是为了规范运行管理和检修维护操作技能流程,既要根据营销运维管理制度实际功能需求,建立完善可靠、科学合理的营销业务运维管理服务流程。通过营销业务运维管理流程的优化改进,可以使日常的运维管理工作更加流程化、系统化,使运维管理人员角色更加清晰化,从而有效提高营销业务问题的解决速度和质量,使整个运维管理体系中信息数据的相关技术和信息资料更加畅通和透明,使实际营销服务信息更为完整化、灵活化。营销业务运维服务流程,涉及到整个营销业务的事件管理、问题管理、配置管理、变更管理、以及管理等五个核心运维管理业务流程。在“主动式”营销运维管理模式建立过程中,要充分结合国家电网公司“两级三线”的可靠运维体系模式,根据营销业务实际功能需求,通过梳理优化运维业务、工作票、操作票等与营销业务服务相关的运维管理流程,确保整个营销服务业务运维流程能够按照国家电网公司相关技术标准进行建设运行[2]。
关键词:企业;IT运维;管理模式;研究;策略
中图分类号:F27
文献标识码:A
doi:10.19311/ki.1672.3198.2016.28.027
信息技术的快速发展,让企业对于IT运维服务管理工作不断提出新的挑战。IT运维服务管理模式为企业提供可靠了的保障,为信息工作的发展铺平道路。随着社会经济的快速发展,企业的新华化也进入了一个新的时代,不仅企业IT规模随着企业的发展而庞大,企业的信息化需求也在向自动化、多元化和层次化发展,为了保证企业的业务工作能够安全、可靠、快速的展开,企业开始使用各种管理手段和技术手段进行提升。
1 企业IT运维管理的现状及存在的问题
第一,由于地域和行业的不同,所以企业的IT运维管理模式也存在一定的差异。有的企业在管理中习惯使用传统的运维模式,而有的企业则喜欢应用先进的企业运维管理模式。第二,即使在同一个企业,由于级别的不同,所以其管理方式也存在一定的差别。但是整体来讲,我国大多数企业的IT运维管理都存在以下问题。
1.1 IT运维管理的服务导性没有得到重视
随着经济时代的发展,企业的规模也在日益壮大,在对IT运维管理提高要求的同时,管理也变得越来越复杂。企业的IT运维管理为什么总是会出现问题,因为企业的IT运维管理缺乏整体性的管理,只注重事中管理和事后管理,从而忽视了IT运维管理的服务导向的重要性。针对这种现象,则需要在IT运维管理中,重视对企业IT运维管理的全局性规划,促使企业的组织能力得到有效的提高。
1.2 IT运维管理的体系不健全
IT运维管理有着较为广泛的范围,由于大多数企业的IT部门不是按照IT基础机构的功能划分的,就是按照企业业务的模块进行划分的,所以企业在日常的IT运维管理中,既没有办法对IT服务人员的工作进行考核,也无法监督IT服务人员处理故障的效率及质量。其次,往往企业IT的运维管理在出现问题时,并不是单一环境出现问题,只有企业的多个部门相互协作才能解决问题的关键,由于企业IT运维管理过程的职责不清及体系不健全,所以导致企业各部门经常出现互相推卸责任的现象。
1.3 运维管理的流程缺乏保障体系
企业的IT管理部门不仅要确保企业信息系统在运行时的安全、稳定及可靠,还要利用强大的信息系统为业务部门的各项决策提供有效地支持。但由于IT管理人员往往会出现为了处理突发事件,从而忽视了主动服务的现象。
1.4 运维管理缺乏长期的规划
大部分企业的IT运维管理由于偏重于对“硬平台”的建设,忽视了“软平台”的管理和维护,导致运维工作人员在客户满意度考核中评价较低,而相关部门的责难也会打击工作人员的积极性。尤其企业网络建设缺乏这种长期的规划和对于复杂IT系统的运维管理经验,导致企业IT运维管理停滞不前。
2 提高企业IT运维服务管理能力的有效措施
2.1 在ITIL视野下建立适合企业的IT运维架构
传统的运维管理架构相对于IT运维管理架构来讲相当简单,其在碰到运维方面的问题时由运维负责人分配工作,这样的运维方式在企业初期阶段简单高效,但随着企业规模的不断扩大,以及计算机信息技术的普及应用,传统运维模式就会受到耗费人力、物力,并且处理问题的效率也较低以及工作量比较大等不利的因素影响,所以,企业为了能够高效率的运维管理,就需要改换为新的IT运维模式。IT运维管理有三个优点,第一,其不但为企业提供了稳定、高效、可靠的网络管理平台,而且也为企业的各个应用系统的正常运行提供了强有力的保障。第二,能够快速解决客户端的运维故障,为客户提供了满意的服务。第三,IT运维管理在为企业节省人力的同时,提高了处理网络故障的工作效率。基于IT运维管理的这三个优点,所以企业在IT运维管理方面不断寻求创新以及不断提高要求。
其次,企业的领导需要结合ITIL思想的指导作用,建立相应的信息化工作领导小组,并且其小组的成员必须是企业信息化职能部门,专门负责IT运维管理的决策管理与协调所有IT运维的工作。
2.2 建立职责相应的奖惩制度及运维工作考核标准
企业各部门的岗位工作方式都不相同,有的员工做着现场维护的工作,有的干着远程处理的工作,所以,不同岗位的工作所承担的责任以及所享受的待遇也不相同,但是,企业要给予员工在职责和待遇方面要与其职位相应,因此,企业应当推出与工作职责相应的奖罚及晋升制度,以激励员工的成长进步。其次,由于IT运维管理的各个岗位的工作方式不一、技术水平不同,因此要对运维人员的工作进行量化,并通过一系列分析运维数据制定严格的考核标准,激励员工不断提高服务水平和服务质量。
2.3 企业结合组织节后,建立并明确运维管理的流程
传统运维管理模式对企业IT部门是按应用开发、网络管理以及系统控制等专业进行工作划分的,其工作也是按照水平层面进行管理的。但是新的IT运维管理系统则是按照专业和技能对企业各部门进行工作分工的,比如,一线专门负责解决处理IT运维管理中最基础的问题,二线则负责解决处理IT运维管理中最难、最复杂的故障,而经理则需要对IT运维管理进行全面把握和疑难问题的解决。这样根据企业的实际情况,对结构进行优化,建立各个系统的的运营架构,使各个部门既相互独立,又互相联系。企业只有对组织结构进行调整,明确企业IT运维管理的具体流程,即使企业的IT系统出现了问题,仍难能够第一时间联络相关负责人,解决问题。
2.4 建立IT运维各系统的管理办法
IT运维管理模式和设备预知维修模式一样,同样注重预知维修。IT运维管理模式也能够根据监测系统和日志记录系统发现异常现象,并且能够通过检测系统将故障在萌芽的状态下解决。现代企业管理比较依赖于IT运维服务管理模式,所以对IT运维服务管理模式的要求也不断提高,比如,某大型企业的MES、ERP、IC卡等应用系统,要求必须实行二十四小时工作,如果不实行实施工作,那么如果某一个应用系统中出现任何一个小故障都会给企业造成巨大的经济损失,因此,降低信息系统出现的故障率对于企业来讲是非常重要的。
2.5 建立并且完善IT运维服务管理各系统的文档资料
由于网络的不稳定性,即使企业IT运维服务管理各系统的资料再详细,也有出现故障的可能,故障处理不好的话还会导致数据丢失,而维护好文档资料对IT运维服务管理工作有着重要的意义。文档资料在整理的时候除了要清晰、全面,同时还需要满足“动态更新”和“高质量材料”两个原则,如果资料的动态没有得到及时的更新,对事情对产生不利的因素,影响对事情的判断;一份高质量的资料能够让一个新人在完全不了解公司情况下,通过资料能清晰的了解公司的现状,因此建立并完善的各系统的文档资料管理对于IT运维管理非常重要。
3 总结
多数企业为了实现优化生产程序、提高工作效率以及减少对管理的成本,都选择使用IT运维服务管理模式,IT运维服务管理模式,在帮助企业实现以上要求的同时,企业也对其提出了更高的要求标准,企业IT运维服务管理模式既要有一个完整、清晰的运维架构及合理的工作流程,同时更要注重企业的管理工作及制度,只有这样,IT运维服务管理模式才能够更好的服务企业。究竟未来的IT运维管理会得到怎样的发展,我们不得而知,但是不可否认的是,我国企业的运维管理意识还有待于普及,相信而随着信息化进程的快速发展,IT运维管理一定会有广阔的发展空间。
参考文献
[1]徐健,孙永.基于ITIL构建企业IT运维服务管理体系[J].微型机与应用,2014,(10):97.101.
近年来,国内外各企事业单位都十分重视信息化建设,把加快信息化建设作为提高生产经营管理水平、促进业务流程优化、加强内部控制、提高决策质量和效率的重要手段。结合中国石油发展战略和业务需求,中国石油出台了统一的“十一五”信息技术总体规划,F5(企业信息系统管理)项目便是“十一五”信息技术总体规划中的一项,目标是建立集成的监控管理平台和统一、完善的运维管理体系,提高中国石油信息技术基础设施的可靠性和性能,从而保证中国石油各业务系统的高可用性,彻底改善IT服务的管理水平,提高客户满意度,降低IT服务支持成本。
被动的传统IT运维管理
市场研究机构Gartner调查发现,在导致IT基础设施出现故障的原因中,源自技术或产品方面的因素其实只占了 20%,而因为运维管理方面的原因则占到80%,可见IT系统运维及管理是相当重要的。企业每年对IT部门投资都不少,但是得到的效益却没有体现,问题仍然时常发生,感觉好像所有的投入都打了水漂。
企业的IT运维部门是一个吃力不讨好的部门,因为IT运维就是在后台默默地保证信息系统的正常运行,只有在问题发生的时候才想到还有IT部门的存在。这种现象是由于IT运维管理还处于传统模式,即无相应的运维监控软件或者是仅仅单独使用某项监控软件而没有联合使用。这种传统的IT运维管理是被动的管理,是孤岛式的管理,是与业务应用没有联动的管理。
1.被动管理
传统的IT运维管理是救火式的管理。通常是用户先于IT人员发现问题,然后再找到IT部门要求解决问题。这是由于传统的IT管理采用人工方式管理基础设施,网络管理是从各种IT基础设备出发的,仅仅是保障各类IT设备如服务器、数据库、存储设备、交换机等等基础设施的正常运行。
不采用任何管理软件,仅仅靠运维人员定期轮询,或者执行某项命令来检查设备,在系统规模较小时,只要参与运维的技术人员足够负责,人工运维方式是可以满足日常运维需要的。但是,当应用系统达到一定的规模后,这种运维方式的弊端就暴露出来了。轮询一遍要花费几个小时,这样,轮询周期越长也就代表越需要更久才能发现故障。这种被动式管理IT导致有了问题不能及时发现。
2. 无关业务、孤岛管理
有些企业虽然采用某一种或几种监控软件来监控IT基础设施,但这些监控软件都各自独立运作,没有进行对业务的整合监控。如果用户投诉业务应用不畅通,很难定位故障源,到底是网络、应用程序、数据库还是其他后台系统出了问题,或者是各部门踢皮球,都说自己所负责的设备正常?
好一些的IT主管会把各个部门集合到一起开会,讨论问题根源。传统的IT运维管理方式是各类设备的管理各自为政,丝毫没有关联性。处理故障不便于追根溯源。每个人的精力有限,在专业应用系统赖以生存的各基础设施支撑单元上很难做到专、精、准的多面手角色,加之由于管理范围的界定和监控手段的限制,运维人员很难直接判定问题是出在基础网络、系统服务器、数据库还是应用系统自身,故障难以定位将直接导致业务恢复时间的推迟,影响业务系统的正常运行,大大降低服务质量。
将IT运维与业务相关联
IT运维是在后台默默地保证各项业务应用系统的正常运行。IT运维工作是无形的,怎样把这种无形的运维变为有形、甚至量化,这就要把IT的运维与业务相关联。传统的IT运维管理中,基础设施的运维工作不能和业务相结合,仅仅是在设备管理的层面上。这就导致IT管理的成绩没有体现。想想看,如有业务应用不正常,那网络或者服务器之类的任何一种基础设备的正常运行又有什么用呢?业务应用是“1”,设备是“0”,没有了正常通畅的业务应用,那其他的都是空谈。只有在业务应用畅通的前提下,基础设施管理才有意义,才能体现IT运维管理的价值。
因此我们需要帮助企业IT:部门了解用户使用感受,关联真实用户感受和系统性能,指导问题事件定位和原因诊断 。
企业信息化发展过程首先是基础架构建设阶段,这个阶段主要是采购一些硬件和应用软件。随着采购的不断扩大,企业的IT组件不断完备,IT系统初具规模,这就产生了IT运维和管理的要求,即网络和系统监控(NSM)阶段,监控网络连通性和系统可用性,此阶段主要还是对IT设备的监控。随着企业业务日趋复杂,IT系统进一步扩大,这时就产生了对IT服务流程进行管理的需求,上升到第三阶段,即IT服务管理(ITSM)的阶段。以上三个阶段都是IT间接产生业务价值的阶段,对业务的顺畅起辅助监控的作用。
企业业务系统对IT系统依赖的不断增强,企业开始关心IT服务对业务带来的影响,强调从业务目标角度出发来管理IT,也就是到达第四个阶段――IT与业务融合的阶段,即BSM(Business Service Management,业务服务管理)阶段。企业可以根据业务目标对IT服务进行调整,以确保IT能够支持业务目标,从而直接产生业务价值(如图2所示)。
如今各类重要的IT应用系统相继在中国石油发挥着举足轻重的作用,所以IT应用系统的可用性尤其重要,例如ERP、OA、邮件、门户等各类重要的系统如果出现中断,都会给企业造成大量的经济损失,所以除了需要对各类应用系统部署冗余的设备以备保证其高可用性,同时也需要对应用系统进行监控和管理,并且进行关联管理。业务系统的可用性是由底层的各类基础设施的状态所决定的,因此建立一个有效的业务模型,将与某个业务相关的底层IT基础设施关联起来,该业务模型能够有效地定位故障根源。这样ERP的管理员只需要关心ERP业务的可用性,而没有必要去关注每台主机的性能参数和启动的进程,不但大大节约了运维时间,而且也提高了运维效率,使故障持续时间大大缩短了。
基于BSM的IT运维
当前中国石油IT运维管理的需求就是从业务出发,建立基于BSM解决方案的新型IT运维。
新型的IT运维管理系统要做得到的就是基于BSM架构的业务管理。
首先,要实时掌控最终用户对IT服务的使用体验,根据制定好的SLA(Service Level Agreement,服务等级协议)来管理业务服务的质量,这样就可以根据业务影响和SLA来对IT服务进行管理。
其次,通过端对端的应用交易时间测量,实现业务要求端对端的可见性;从最终用户的角度,来测量业务服务的响应性能,主动帮助运维人员在第一时间发现问题,以便在问题对用户造成不利影响之前,及时得到隔离、诊断和修复,把它们对业务的干扰降到最低。
第三,提供业务服务、应用及底层IT系统构架部件之间的映射关系。这种解决方案通常会基于一种称为CMDB(Configuration Management Database,配置管理数据库)来实现。通过服务依存关系映射技术,来展现业务服务、应用和底层IT系统构架部件之间的动态关系,这样就增进了对各种IT元素的掌控和理解。
第四, 借助业务服务与IT基础设施的依存关系,对告警事件进行管理。当IT系统的组件产生告警时,结合收集上来的底层的IT系统告警事件,对它们进行过滤、关联、聚合,根据对业务服务影响的严重性,来进行排序处理。
传统意义上的CMDB是服务流程中的一部分,是ITIL中最重要、最核心的概念之一,在以业务为核心的IT运维中,CMDB也是业务建模的主要工具。CMDB通过自动发现工具收集和一定范围的IT基础架构基础信息,包括配置项和关系,建立IT基础架构模型;并通过端到端的业务服务拓扑图来可视化展示业务系统所有部件和关联关系。
把这四方面的功能整合起来,从最终用户的角度来衡量业务影响和风险;自动发现业务服务、应用和底层IT系统构件,并建立依存关系;理解用户感受,监控用户业务响应时间 ,在用户受影响之前发现问题,以求满足下列功能:
1. 通过基于角色的业务视图,提供业务流和服务的可见性;
2. 从最终用户的角度来衡量业务影响和风险;
3. 设置和检测业务过程的SLA,了解应用性能对业务的影响;
4. 24×7小时端到端监控,从浏览器到后台实时监控所有交易;
5. 理解用户感受,监控用户业务响应时间 ,在用户受影响之前发现问题;
6. 主动发现和按优先级管理关键业务问题;
7. 通过自动把业务和底层运营信息建立关联来缩短平均问题修复时间;
8. 自动发现业务服务、应用和底层IT系统构件,并建立依存关系;
9. 通过联合的CMDB,来为IT环境提供一个“统一的真实数据”视图,这样就可以为用户提供一个主动的、以业务为中心的BSM解决方案,帮助用户极大地改善业务服务的性能和可用性,降低服务突然中断带来的风险。
提升IT部门的作用
以前,IT运维部门救火队式的混乱状况导致无法判断IT运维总体表现的好坏。而IT部门又是公认的成本中心,这就导致了在很多企业中IT部门总是承受着很多批评,IT人员的工作热情也不高。