前言:想要写出一篇引人入胜的文章?我们特意为您整理了业务IT基础运维能力建设实践探究范文,希望能给你带来灵感和参考,敬请阅读。
摘要:本文通过分析当前数据中心IT基础设施运维现状和发展趋势,对比IT运维和IT运营的差异,从技术、流程、工具等方面阐述了面向业务的IT基础运营能力建设,即在IT运维能力基础上通过各项能力创新,逐步提升自动化、智能化运维能力,并在保证数据中心稳定、安全、合规的前提下,进一步提高运行效率、降低资源投入、提升运维管理的智能化运维管理水平。
关键词:IT运维;IT运营;系统画像;系统健康度
当前,金融行业正处于数字化转型的关键时期,伴随着云计算、大数据、人工智能、区块链等新兴技术的逐步成熟与深入应用,银行业不仅风控体系更加完善、业务流程更加优化、产品供给更加丰富,同时基于以客户为中心的发展理念,还实现了精准营销、智能客服、智能营销等精细化服务,进一步提升了客户体验与风控水平。在此过程中,高质量的IT基础设施运维能力发挥了至关重要的作用,如果数据中心的IT运维保障能力难以匹配业务发展要求,将严重影响客户体验和业务办理效率,甚至最终导致客户资源流失。因此,持续提升IT运维能力是所有数据中心运维管理人员需不断关注和思考的问题,同时IT运维能力建设也是数字化转型的一个重要内容。
一、金融业数据中心运维现状分析
随着我国信息化建设的不断加速,各行各业都在此过程中实现了巨大的效率提升,尤其对于金融行业来说,更是经历数次变迁打造现代化数据中心,逐步实现了IT日常运维管理的流程化、制度化、规范化、工具化。然而,传统数据中心主要关注应用的稳定性、数据的安全性和运行的可靠性,而对资源利用率、节能高效等问题考虑较少,特别是随着数据中心规模的扩大和功能的日趋多样化,数据中心可靠性的提升以及维护管理成本的降低成为了新的挑战。在此背景下,云数据中心凭借资源共享、资源动态调整、绿色环保、高自动化和高可用性等特点,为金融机构的数字化转型提供了全新选择。与传统的数据中心相比,云数据中心具有资源共享、资源动态调整、绿色环保、高度自动化和高可用性等特点,而随着金融数字化转型的逐步深入,实现数据中心日常运维工作的自动化、智能化已然是云数据中心发展的主要趋势,同时也成为提升IT运维能力的强烈诉求。此外,随着移动互联网金融业务的繁荣以及场景化业务的增加,业务部门也对数据中心提供的IT运维能力提出了更高要求,不仅强调业务连续性、系统稳定性以及客户体验,也更为关注IT基础设施交付效率、新业务需求投产上线的响应速度等内容,从而促使数据中心急需持续提升IT运维能力以满足日渐增长的业务需求。
二、IT运维转变趋势
面对上述挑战,数据中心的运维管理工作正逐步从IT运维向IT运营转变,不仅更为强调安全和稳定,同时也进一步拓展了高效、节能等内容,即在保障数据中心系统正常稳定运转、业务正常开展的同时,还要保证数据中心运转高效、终端客户业务体验良好以及运营效益的提高。与此同时,当数据中心从IT运维转型到IT运营,配套的技术、流程、工具等也同样要有所转变。例如,技术领域将逐步淘汰大型机和小型机,开始向PC服务器和虚拟化转变,基础资源则是向IaaS、PaaS的云化资源发展,且应用程序的部署架构更为强调集群化、低耦合,以及更为关注IT基础资源的交付效率与投入产出效益。同时,标准流程的日常工作将逐步向自动化流程转变,而事件和变更管理在确保安全稳定的基础上,也更为注重应急处置、问题定位、事件处置和分析效率等内容。此外,在配合自动化运维工具逐步实现规范化、标准化的前提下,IT运维更加强调配置中心和“监-管-控”等日常自动化工具的融合联动与信息共享,并更为强调自动化、智能化的应急处置,以逐步提高日常的运维工作效率。
三、面向业务的基础运维能力建设
面向业务的IT基础设施运维是指按照一体化的运维思路,通过整合现有日常运维工具打破相互隔阂,实现工具之间的互联互通,使各个工具模块的信息数据实现共享,共同服务和支撑业务的稳定高效运转。面向业务的IT基础设施运维框架如图1所示。面向业务的IT基础设施运维通过对配置中心、监控平台、流程管理平台、操作平台、应急响应平台等进行整合,将可基于其内在的关联性及借助数据挖掘、深度学习等手段,为业务运维管理活动、基础设置指标变化趋势、事件定位、问题根因分析、告警自愈等提供综合辅助,从而有效减轻IT基础设施运维人员的工作量、提高日常运维工作效率、降低日常运维工作难度。此外,该框架还可在应急事件处置时辅助开展问题定位和根因分析,并使运维人员更为准确地掌握业务交易量的变化情况,及时做好资源规划和容量管理。实践中,该框架基于基础运维工具和数据挖掘技术,通过对应用系统各个维度的信息数据进行有机组合,同时结合系统管理员的运维经验和事件问题总结,按照一定的算法权重将运维数据进行数字化,可形成应用系统在某一维度上的数值反馈。此后,再根据业务系统从变更事件、资源容量、监控环境、交易数据、网络流量、日志信息等各个维度进行综合打分,将形成一个基于应用系统运行健康度的数字画像,最终再结合实际运维经验设定各个维度权重,即可得到一个业务系统的健康度得分。应用系统健康度画像如图2所示。以某一个典型的日常运维场景为例,当前,数据中心业务系统之间的关联性越来越强,甚至一个系统可能与数十个其他业务系统通过微服务、接口、中间件等形式相互访问或者进行数据交互,并最终在IT基础设施上体现为一个TCP/IP连接通信。对此,通过采集网络设备的连接通信关系以及网络流量,借助配置中心CMDB的相关信息,将可根据IP地址、通信端口实现访问关系的资源化映射,从而获取应用系统之间的访问关系,然后结合网络连接数和网络通信流量进行分析挖掘,即可判断出这种关系的强弱以及业务交易情况的变化,进而在事件发生时准确、高效地评估出系统关联拓图2应用系统健康度画像示意扑关系以及业务影响情况,形成系统间的网络拓扑图。最终,通过根据各个关联系统的健康度来评估交易链路各个环节的监控情况,将能够有效为监控平台、容量管理平台、应急处置等基础运维工具提供辅助支持。上述场景的各个环节都是依托于现有日常运维工具层的基础运维数据,然后通过有机整合各个工具来实现数据共享,同时借助大数据和机器学习等技术挖掘运维数据的潜在价值,并对应用系统的健康情况进行实时在线的自动化描述,以反映其在各个维度上的健康状况,最后再反作用于日常运维工具,实现数据中心提效、增速、减投入的运营目标。综上所述,本文通过描述数据中心运行模式的发展轨迹及日常运维工作现状,总结分析了面向业务的IT基础设施运维所代表的差异和变化,及其对IT基础设施运维提出的全新要求。在此基础上,农业银行顺应金融数字化转型的发展趋势,整合并借助自动化、智能化的技术手段实现了所有运维工具的互联互通与信息共享,以更高效地响应业务需求和保障运维计划实施,最终在实现自动化、智能化运维的同时,切实保障了数据中心的业务连续性、稳定性和安全性。
作者:耿辉 张乾尊 谢广斌 程戈亮 陈林 王晓华 单位:中国农业银行数据中心