前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的网络运维服务培训主题范文,仅供参考,欢迎阅读并收藏。
系统运维工程师需要熟练掌握硬件维护知识与技术手段,熟悉计算机操作系统、交换机等知识,能及时解决问题与故障,以下是小编精心收集整理的系统运维工程师工作职责,下面小编就和大家分享,来欣赏一下吧。
系统运维工程师工作职责11.负责城市视频监控系统前端系统的巡检、调试工作;
2.负责城市视频监控系统前端系统故障的判断与排除;
3.负责一般性网络、监控等技术问题的咨询工作;
系统运维工程师工作职责2负责ERP等应用系统的安装、配置、升级,保障系统正常运行;
负责ERP等系统的日常技术支持,系统异常处理;
负责ERP等系统的数据备份;
负责编写ERP等系统有关的操作和培训文档;
负责公司内部业务需求调研,流程梳理、方案规划并实施ERP等系统二次开发;
系统运维工程师工作职责31、orcale数据库日常管理及优化
;
2、NC系统需求收集、整理及分析、问题处理;
3、NC系统报表收集、整理及分析;
4、NC基础数据维护、;
5、OA系统的维护;
系统运维工程师工作职责41、负责公司测试环境和生产环境的Linu_Uni_服务器维护管理工作,保证测试和生产环境的稳定运行;
2、负责公司特定线上产品的安装、部署、更新、监控、日常运行维护;
3、负责公司服务器及日常系统维护、优化,保证系统的稳定,负责应用系统上线安装、调试、优化、备份、故障处理与跟进;
4、负责公司实施和维护项目的服务器支持工作,解决生产和测试环境中出现的故障或问题,同时提供数据备份、性能监测优化等方案;
5、负责监控全网站线上所有服务器与应用,系统状态监控,故障受理,常见故障处理与分析及反馈,报表统计等工作。
系统运维工程师工作职责51.负责协同MES系统的上线实施及上线后的运维、优化工作,确保产线的正常运行;
2.负责协同ERP系统的上线实施及上线后的运维工作;
3.负责公司日常桌面支持(包括常规办公设备及网络故障排除)。
4.负责相关工作文档资料整理、修订及领导安排的其他相关工作。
系统运维工程师工作职责61.负责计算机软硬件安装、配置、升级、故障诊断及日常维护;
2.负责其他IT设备(打印机,NAS,网络通信设备等)的选型、供应商对接与日常运维等;
3.负责公司OA以及钉钉系统用户管理,应用配置,流程配置,表单设计等日常应用运维;
4.负责新入职员工电脑办公软件,邮箱,OA系统,共享盘等必备软件的初始化工作;
5.负责信息化系统与相关硬件的使用培训,操作注意事项宣导等工作,建立良好的信息化环境;
系统运维工程师工作职责71:负责相关故障、应急问题的排查处理,整理故障;
2:负责网络监控和应急反应,以确保网络系统724小时的持续运作能力;
Abstract: The quality issue of IT operation and maintenance services has drawn increasing attention of customers and service providers. The service quality improvement can start from the research and analysis for customer needs and the status of services, through the analysis for the service quality problems and their root cause, to find the most effective way to solve the problem. Quality improvement using project-oriented approach to manage and implement, through the project plan and start meeting for formal confirmation of quality improvement objectives and their implementation and management methods, can effectively ensure the quality improvement work smoothly. IT service management system construction is the focus and fundamental to improve the quality of service, according PPMT implementation framework to define the specific content of management system, and fundamentally improve IT operation and maintenance service quality.
关键词: IT服务管理;运维服务管理;服务质量改进;管理体系建设;PPMT实施框架
Key words: IT service management;operation service management;service quality improvement;management system construction;PPMT implementation framework
中图分类号:C931.2;C932.2 文献标识码:A 文章编号:1006-4311(2013)23-0168-04
0 引言
当前,国内已经步入“服务经济”的发展阶段,以现代服务业为主导的现代产业体系也逐步建立起来。信息化在提升企业的运营效率和核心竞争力的同时,也使企业对信息化的需求和依赖程度不断提高,而IT运维服务作为现代服务业的重要组成部分,为企业信息化提供了强大的支撑。因此,IT运维服务越来越受到各级政府和各类企业的重视。在IT运维服务业蓬勃发展的同时,IT运维服务的质量问题也引起了相关客户和服务提供商的关注。
笔者有幸参加了W公司所承接的广州市某信息中心网络平台与IT设备维护项目(以下简称本项目)的IT运维服务质量改进工作。在提供本项目的服务过程中,W公司收到了客户方领导层对服务质量的严重不满和投诉。笔者作为公司后端的IT服务管理咨询顾问,受命启动专门针对本项目的IT运维服务质量改进项目(以下简称本质量改进项目),着手改进其服务质量并提高客户满意度。本文将笔者在本质量改进项目中的主要实施方法和过程进行介绍和展现,希望能够给同样关注IT运维服务质量的同行们一点启发和帮助。
1 对客户需求与服务现状的调研和分析
任何服务质量的改进都是源于对客户需求的高度关注和对服务现状的调研和分析[1]。笔者在介入本项目之初,就将重点工作放在对客户需求的调查了解、以及对IT运维服务现状的调查与分析两个方面。
通过与客户方和前端一线服务团队的充分交流、以及对服务情况的现场调研,并在此基础上进一步调阅和分析了本项目的招标文件、投标文件、项目合同书等关键资料,笔者了解到W公司在IT运维服务提供过程中主要存在以下四个方面的不足,需要进行重点质量改进,以尽快提高用户的服务体验和客户满意度。
①没有为客户提供针对三年服务期的一整套目标明确的工作计划和时间表;没有帮助客户理清和优化IT服务管理业务流程;在日常服务过程中没有认真落实IT资产管理办法,没有为客户提供一套定制的IT资产管理系统软件并有效使用起来,最终导致客户的IT资产失去应有的管理,过去一年中IT资产数据基本没有与实际情况同步变更,目前整个IT资产数据不全不实。②客户需要对全区电子政务网络提供系统化的诊断和保养,解决目前该网络可靠性不高、上网速度慢的隐患,这项工作一直没有开展;客户强调提供服务的应当是一个有技术梯度的专业网络团队,而不仅仅是一名前端服务工程师。③提供服务的IT服务工程师技术能力不足,一个故障要反复上门几次才能解决,服务只能依赖于个别技能较好的服务工程师。④每月例会上客户提出的服务目标和要求尽快改进的重大问题基本无法实现,计划和执行情况的检查工作没有开展,用户的真实需求没有上传到公司,造成公司的决策偏差。
上述四个方面的问题,可以通过运维服务计划和实施方案、资产普查、IT资产管理系统软件的定制开发与应用、专业网络团队的诊断和保养、知识管理和业务培训、团队管理、问题管理、会议管理等方法分别予以解决。但是,如果只是采取“头痛医头、脚痛医脚”的方法解决眼前的问题,也很难真正解决客户在未来可能遇到的其它问题,只有充分挖掘上述四个方面问题的根源,从根本上解决导致这些问题的本质原因,才能真正保证以后的服务能够充分满足客户的需求。因此,笔者对造成上述问题的根本原因进行了分析,发现这四个方面的问题,主要来源于两个方面:一是W公司对客户需求的理解偏差和沟通不畅,二是W公司没有一整套严格的标准化的IT运维服务规范和管理制度。由于沟通不畅和需求理解偏差,所以客户的重点需求没有得到应有的重视和实现;由于缺乏标准化的IT运维服务规范和管理制度,所以需求理解偏差没能及时发现和纠正、计划和检查没有开展、不能发挥团队能力。而这两个方面的最根本原因,则是W公司没有真正建立科学的标准化的IT运维服务管理体系。因此,笔者将本质量改进项目的工作重点放在IT运维服务管理体系建设方面。
2 质量改进项目的工作计划与项目启动
在明确了本质量改进项目的工作重点以后,在着手开始质量改进工作之前,首先要得到客户和W公司双方领导的确认,以保证质量改进项目的工作能够真正实现对运维服务质量的改进目标。因此,笔者在前期调研和分析基础上,草拟了《运维服务质量改进工作计划书》,在征求双方领导和运维服务团队负责人等主要项目干系人的意见并获得通过后,召开了“运维服务质量改进工作项目启动会”。启动会上有客户方领导、W公司高层领导、运维服务团队负责人(包括运维服务项目经理和W公司运维服务中心项目总监)、运维服务质量改进项目负责人(笔者)和其他项目干系人到会参加。通过项目启动会的召开,将本质量改进项目的项目目标和工作范围、项目组织结构(如图1所示)、主要项目团队成员和分工、项目工作内容和工作方式、项目进度计划等内容进行了讨论和确认,从而正式将质量改进工作以项目化运作的方式确立下来,并使本质量改进项目的目标和范围得到各方面的正式确认,从而为质量改进工作的顺利开展创造了一个良好的工作环境和管理基础。
根据项目启动会上确定的质量改进工作计划书,本质量改进项目的总体目标包括完善运维服务管理体系建设、IT资产与运维管理系统软件的定制开发、IT资产普查与资产数据库的建立和维护、网络诊断和优化及其整体解决方案的提供、加强对IT服务工程师的服务规范和服务技能的培训、进一步完善运维知识管理和知识库、对用户提供常用软件使用和常见故障处理的培训等七个方面。在这七个方面的总体目标中,第一个目标“IT运维服务管理体系的建设”是重点,其它六个目标在完成相应的工作任务后,都要将其工作内容形成规范和制度,并集成到IT运维服务管理体系中去,从而保证W公司在今后的IT运维服务过程中、以及其他的IT运维服务项目中,能够始终保持改进后的服务质量,并使本项目的经验得以固化和重复使用。因此,笔者将本质量改进项目的工作重点集中在“IT运维服务管理体系建设”这个目标上,其他目标的实现则根据任务类型由其他项目干系人分工负责。例如,“IT资产与运维管理系统软件的定制开发”由W公司软件研发中心负责人负责完成;“IT资产普查与资产数据库的建立和维护”和“对用户提供常用软件使用和常见故障处理的培训”由运维服务项目经理负责完成;“网络诊断和优化及其整体解决方案的提供”由W公司运维服务中心二线专家团队负责、“加强对IT服务工程师的服务规范和服务技能的培训”和“进一步完善运维知识管理和知识库”由W公司运维服务中心后端的IT运维服务管理咨询团队负责。这样分工负责后,质量改进项目的七个目标就得以落地执行。
3 IT运维服务管理的实施框架与体系建设
在IT运维服务管理体系建设工作中,首先需要确定一个科学的IT运维服务管理实施框架。目前实施IT运维服务管理的较成熟和普遍的方法是ITIL最佳实践[2]和ISO 20000国际标准。综合企业再造理论[3]、多层BPR实施体系结构[4]和技术管理咨询的PPT模型,IT运维服务管理的规划与实施,需要从作业流程(Process)、组织架构(People)、管理与评估系统(Management)、IT技术和工具(Technology & Tool)、企业文化和观念(Culture)这五个方面进行考虑[5];一般情况下,可以从前四个方面(即PPMT实施框架)实施IT运维服务管理,然后逐渐向第五个方面(即企业文化)渗透(如图2所示)。因此,在本质量改进项目的IT运维服务管理体系建设中,笔者采用PPMT实施框架进行服务管理体系的设计和实施。
根据PPMT实施框架及项目需求,本质量改进项目的IT运维服务管理体系建设的主要内容包括IT运维服务管理业务流程及其配套的数据表单和统计报表的设计、运维服务管理组织结构及其岗位职责的设计、运维服务规范和管理制度的建立、IT资产管理及运维服务管理系统软件的设计与开发等四个方面,在完成上述四个方面的设计以后,再将设计结果在IT运维服务项目过程中实施和应用。在设计和实施时,均要遵守“作业流程组织架构管理与评估系统技术和工具企业文化”的先后顺序。
4 IT运维服务管理体系建设的具体内容
根据W公司与客户的项目合同及其招标文件要求和投标文件承诺,在本质量改进项目中的IT运维服务管理体系建设可以从本项目的IT运维服务范围和服务方式与服务级别、运维体系框架和各服务管理工作流程、运维服务组织结构及岗位职责、相关服务规范和管理制度、相关数据表单的格式设计与填写说明、相关统计报表的格式设计与数据来源、IT资产管理和运维服务管理系统软件的需求分析与设计说明等七个方面进行展开。在这七个方面的设计过程中,要兼顾考虑吸收本质量改进项目的另外六个目标在工作中形成的规范和制度,将其经验和成果集成到IT运维服务管理体系中来。
4.1 IT运维服务范围和服务方式与服务级别一般是由招标文件的要求和投标文件的承诺所决定的,然后再结合IT运维服务提供商(例如W公司)的管理水平和服务质量现状进行设计和规定。
4.2 运维服务体系框架主要对所有的运维服务管理流程及其相互之间的关系进行总体规划和说明,并通过服务管理流程关系图对各流程的前后衔接关系进行描述和说明;然后通过各服务管理工作流程的详细流程图对各工作流程在各种情况下的处理规则进行描述和说明。在本项目中的运维服务管理流程,主要包括服务级别管理、IT资产管理、日常工作管理、常用服务流程、备件管理流程、桌面运维流程、网络运维流程、其他工作流程等八个方面,每个方面又包括多个服务管理流程,总共包括21种管理流程。究竟应当包括哪些流程,应当根据具体运维服务项目的实际情况和客户需求,结合ITIL最佳实践和ISO 20000标准进行梳理和设计。
4.3 运维服务组织结构一般由IT运维服务提供商和客户双方参与本项目的人员组成,一般可以分为一线、二线、后台支持、第三方支持等四个级别;运维服务项目经理一般介于一线和二线之间,作为一线服务团队的管理者,同时也是二线服务团队的成员之一。在确定了服务组织结构后,再根据所设计的各运维服务管理流程的需要进行岗位分工,再根据岗位分工确定各个岗位的职责;通常可以分为客户方管理人员、运维服务项目经理、服务台、服务工程师、配置管理员和服务助理等岗位或角色。
4.4 相关服务规范和管理制度一般是指在IT运维服务管理流程以外、无法或不便于通过流程方式进行规范的管理制度和相关规定。它作为运维服务管理流程的有效补充,使IT运维服务的提供过程实现进一步的科学化和标准化。在本项目中的相关服务规范和管理制度主要包括服务台工作规范、日常运维服务规范、网络运维服务规范、资产普查工作规范等方面。其中服务台工作规范又包括服务热线接听规范、故障判断技术规范、事件类别判断方法、事件优先级判断方法、服务单回访规范等;日常运维服务规范又包括上门维护服务规范、备件库管理规范、运维档案管理规范等;网络运维服务规范又包括网络设备日常维护规范、网络安全运维规范等;资产普查工作规范又包括普查工作组织架构、普查人员上门服务要求、普查准备工作、普查工作注意事项、普查数据检查标准、普查数据录入和统计规范等。具体应当包括哪些服务规范和管理制度,也没有一定之规,主要根据具体项目的实际情况和服务管理需要而制定,制定者需要具备一定的项目管理、服务管理和质量管理的基本知识和经验。
4.5 相关数据表单的格式设计主要是根据各运维服务管理流程的需要,在某些服务管理流程的某些环节需要工作人员填写相应的数据表单,则根据该环节和整个流程的需要、以及后期统计报表采集数据的需要进行表单内容和格式的设计。在本项目中的数据表单包括了常用数据表单、备件管理表单、桌面运维表单、网络运维表单、资产普查表单和其他表单等六大类。其中常用数据表单包括服务单、用户投诉处理单、收款服务单等;备件管理表单包括备件借用登记表、备件清单、备件出入库登记表等;桌面运维表单包括设备采购验收单、设备采购汇总表、设备采购明细表、资产报废登记表、资产报废意见书、供应商维修设备回执单、设备维修回执单、设备维修报价单、设备采购报价单、升级换件登记表、用户入网申请单等;网络运维表单包括网络故障报告、网络系统端口登记表、配线间钥匙借用登记表、网络巡检报告表等;资产普查表单包括资产登记表、资产普查汇总表、资产普查明细表、资产标签等;其他表单包括知识库表单、配置变更登记表、日报检查问题记录表等。
4.6 相关统计报表的格式设计主要是根据IT运维服务管理的各种管理需要,从各服务管理流程和相关数据表单及数据库等数据源中采集数据,从而对需要生成的相关统计报表的格式和数据来源进行设计,其主要目的是供运维服务团队的管理者和客户方管理人员了解运维服务状况,并据此进行服务管理。在本项目中的统计报表主要包括服务单统计报表、故障报修统计报表、硬件故障统计报表、网络故障统计报表、软件故障统计报表、服务质量统计报表、资产统计报表、服务费用统计报表、运维服务周报和月报表等九大类,在每个大类中又包括多种具体的统计报表,共计有45种统计报表需要进行格式设计和说明。
4.7 IT资产管理和运维服务管理系统软件是对前述的服务管理流程、服务组织结构、服务规范和管理制度、数据表单、统计报表等内容的固化,通过计算机软件系统的方式将其固化到计算机程序中,从而保证这些管理规则的严格执行。因此,对该系统软件的需求分析与设计应当在前述各个方面的设计基础上进行,同时兼顾今后可能存在的变革,并适当考虑软件系统的灵活性进行系统分析和设计。根据本项目的具体需求,其IT资产管理和运维服务管理系统软件的功能模块主要包括个性化视图、事件管理、网络运维管理、资产管理、运维档案管理、厂商资料管理、知识库、统计分析报表、用户意见反馈、系统管理等。
5 项目实施结果与结论
笔者根据本文前述的实施方法和过程,对本项目的运维服务质量进行化化和改进。由于本项目的服务质量对客户和W公司双方都有较大影响,所以本质量改进项目得到了双方各级领导的重视和大力支持,从而较顺利地完成了质量改进工作任务,取得了预期的质量改进效果。
本质量改进项目的成功实施,验证了笔者在实施过程中所应用的项目化管理和实施方法、PPMT运维服务管理实施框架、IT运维服务管理体系建设的主要内容等,在IT运维服务管理及其质量改进中是行之有效的。IT服务管理体系的建立,使服务提供商“建立起一套持续改进的机制,使自己能不断地发现问题、解决问题”[1],从而从根本上解决了服务质量问题。这对关注IT运维服务管理及其服务质量的其他同行们,无论是客户还是服务提供商,均具有一定的参考价值和借鉴意义。
参考文献:
[1]戴颖达.质量管理实务教程[M].北京:科学出版社,2009.
[2][荷兰]Jan van Bon.IT服务管理——基于ITIL的全球最佳实践[M].章斌,译.北京:清华大学出版社,2006.
[3]李福海.管理学新论[M].成都:四川大学出版社,2002.
关键字:济宁广电、运维、外包
中图分类号: F407 文献标识码: A
进入到2014年,随着三网融合的推进,未来的竞争优势不仅体现在网络本身的质量上,更体现在运维体系对市场、客户、服务的全面支撑能力上。因此对于有线电视网络公司来说,运维仍然是我们排列在第一位的日常工作。
山东广电网络有限公司济宁分公司全面负责济宁市有线广播电视网络的规划、建设、维护和运营。广电网络覆盖市中区、任城区、高新区和北湖度假区,共21个乡镇(街道),约38.6万居民户。2012年县级网络整合工作已全部完成,业务覆盖12个县(市、区),有线电视用户超90万户,宽带用户超1.2万户,随着网络的整合,网络和网络运维有了巨大的改变,由过去内容单一的模拟电视维护逐渐转变成对数字电视整转网络、宽带IP城域网、接入网的维护,相应的维护手段和操作也发生了相应的改变,这就对维护人员提出了更高的要求。
最近公司正在探讨将维护外包的事情,作为一名普通员工,我想提出一点自己的看法。
首先,我们要分析一下运维外包的优劣点。优点,外包队伍保障力量建立快,维护响应速度与效率提高;易于控制成本;易于控制自身人力规模;运维部人员可以腾出手来做一些更核心维护,减轻内部人员的工作压力。缺点,外部成本高;运维工作的网络质量与服务质量的管控难度较大;内部技术人才储备不足;对外依赖性较大,对外包市场的成熟度要求较高。现在外包队伍主要还是原来有线电视的维护队伍,他们对于IP城域网的维护几乎没有任何经验,这是一个亟待解决的问题。
其次,相对于其他的电信运营商,广电网络公司受到原来事业单位体制的约束,运维能力和其他电信运营商不可同日而语。我们网络管理和运维规范机器极其缺乏,更谈不上运维外包方面的管理规范了。对维护的外包主要集中在末梢部分,包括EOC局端、EOC终端、机顶盒等,这对维护人员能力的要求提高了很多,我们应选派人员进入外包单位,进行全方位的教育、培训和扶持,使其能在较短的时间里树立起广电网络的维护理念,掌握维护技能,提高管理水平,在较短的时间内适应广电网络的维护要求。
为了加强职业教育与企业的联系,提高专业教师实践水平,培养“双师”型专业骨干教师,学校安排专业教师暑期到企业实践活动。我作为计算机专业教师,有幸参加了上海中软计算机系统工程有限公司系统架构师岗位的企业实践工作。专业教师下企业锻炼是提升教师综合素质的重要举措。教师通过下企业锻炼,了解企业生产、经营全过程,提高动手能力,为专业建设与中职培养目标做好市场调研。转眼间,两个月的企业实践已经结束,现将企业实践所见、所闻、所得总结如下:
一、实践时间:2019年7月1日—2019年8月30日
二、实践基地简介
上海电子信息职业教育集团和上海中软计算机系统工程有限公司共建的教师企业实践基地自2013年以来已连续六年成功组织实施了教师企业实践培训活动。六年中上海中软实践基地共接待了来自上海信息技术学校、上海市工程技术管理学校、上海新闻出版职业技术学校、重庆安全技术职业学院、云南楚雄技师学院等20所院校,共计38名学员教师参与了企业实践活动。
上海中软基地为上海市中等职业学校信息技术类专业教师提供互联网应用设计师、系统集成架构师等企业实践岗位,旨在满足教师的企业实践需求,使教师通过岗前培训、原厂商技术知识培训、优秀项目的实地观摩学习、先进设备的参观、实体项目的参与和顶岗实践、学习成果的交流、总结与评审等实践内容,缩短教师理论知识与实际应用之间距离,提升教学内涵。
参培教师通过了解企业工作规范,将相关理念融入到学生培养过程中;了解新技术的发展趋势,进行专业教学知识的更新;及时掌握本专业、学科发展的前沿动态及实际应用情况,努力提升教师的创新、实践能力;通过感受企业文化,了解职业素养,让教师贴近职场,了解企业对人才的需求,将实践的成果转化到课堂教学中去,有效改进教学内容及方法,促进专业教学改革及专业人才培养。
三、实践岗位
系统集成架构师,岗位实践具体内容:
1)参与项目方案的设计或者实施,了解理论知识是如何在系统集成架构设计和部署中体现的,了解理论知识是如何实现项目需求功能;
2)与企业实训集成团队共同探讨,结合最新网络技术、虚拟化技术、软件技术和教师多年教学经验,形成更适合院校的专业发展的成果;
3)参加公司、厂商、合作培训机构举行的技术交流会和产品展示活动,了解新技术以及未来的发展趋势。
四、实践目的和内容
1、实践目的
目的主要是进行现场观摩、上岗操作,熟悉相关专业领域的新知识,切实感受日常教学活动和企业对职工专业素质要求之间的差距,为在日后的教学工作中更好地发挥教学能动性、积极促进教学改革具有深远的现实意义,为计算机专业下一步的专业课程教学做准备。
2、实践内容
本次企业实践我申报的是系统集成架构师项目,项目包含三个阶段,分别是网络工程、虚拟化建设、网络安全。
首先是第一阶段的学习,带教师傅周寅生针对系统架构中最基础的网络工程,给我做了培训。我所实践的工作地点是上海市税务局临江计算机机房,首先周老师带我熟悉了网络架构。
培训内容切合主题,周老师作为企业工程师,对网络工程有很深入的见解。上图中VRRP协议在政府机关的应用是我双项目的学习目标,这个内容是我的学习重点。配合生动幽默的讲解,让我很快的进入状态,结合自己的所学将其应用到网络工程中去。培训中我们学习了网络工程的特点是明确设计目标、详细设计方案、根据权威的设计依据、完备技术文档、完善实施机构。了解网络工程各个层次的专业定位,以及网络工程师需要具备的组织和实施工程的能力,与不同用户进行沟通的能力,独立解决问题的能力及很强的团队协作精神。最后总结了网络系统的集成步骤分别是规划、设计、实施、验收。通过这几次培训,我掌握了网络项目实施中的各个元素,了解了各个知识点如何对应企业当中的岗位,从中总结出更有针对性的教学方案。
网络工程中运维工作具有举足轻重的地位,只有良好的运维才会产生良好的用户体验,下面我着重对运维工作进行总结。通过对实践岗位运维工作的学习,我发现网络运维更适合我们职校学生去胜任,它要求有较高的动手能力,这点恰恰符合我们中职学生的特点。日常运维工作主要包括终端部分和网络部分,终端部分包括客户端电脑的硬件排障,系统及应用软件层面的维护,客户端外设打印机等设备的安装,互联,运维,协助排除税务专网终端电脑系统及生产环境下使用故障,抽查并更新各单位终端资产统计,信息及安全统计,制定终端应用故障Q&A等。网络部分包括接入层,汇聚层网络交换设备,物理链路层信息点维护,内外网用户接入问题,协助服务器维护,核心网络设备维护,网络设备巡检工作。日常运维工作琐碎复杂,如何进行工作绩效,运维工作的数据统计与分析就尤为重要了。
通过对工作内容的量化数据分析,可以直观的反映出工作状态,对今后的工作安排可以合理的安排人力配置,此部分内容需要中职生格外重视,光是有技能是不够的,还要学会工作方法与技巧。
接下来,在经历两周第一阶段网络课程的实践学习后,我们进入第二阶段虚拟化的课程学习。整个学习过程贴近实际,带教师傅周老师从虚拟化的基础架构介绍到虚拟化的实施过程,并为我们展示了服务器虚拟化的架构界面以及虚拟化在实际当中的应用。由于参加学习的各位老师,或多或少都接触过虚拟化。学习过程中,老师们踊跃提问,积极讨论。针对实际需要,向企业专家咨询。通过这一过程,真正的将理论转换为实际。培训完成后,企业专家还热心的给我们提供了很多虚拟化方面的资料,让我们能更深入的学习。我通过这次培训,大概的了解了虚拟化的配置过程,在接下来的实践中,我准备自己动手创建虚拟服务器,将所学转化为成果。
在接下来的培训中,师傅给我们部署了一个网络实践的虚拟环境,并提供了多种类的网络设备的配置方案,让我们进行了网络配置的实践。演示过程,我们结合行政管理学校虚拟化环境的搭建与维护的实施方案,进行了讨论,效果明显。此外,大家对师傅部署的这样一个实践环境,非常感兴趣,希望将这样一个环境作为虚拟实训环境应用到教学中去。这个虚拟实践平台eve-ng,部署在liunx环境底下,其中的实训设备主要是CISCO及华为。所有的网络设备都是使用真实的设备系统运行的,效果更接近于真实环境。师傅给我们提供了大部分的网络设备系统,便于我们实现虚拟网络部署,检验我们的网络实施方案是否可行。通过实训,我们即学到了网络部署方案的撰写及实施,又认识并学习了一个网络实训平台,对今后的工作起到了更好的促进作用。
最后,就是第三阶段的网络安全的学习,企业师傅带我熟悉了企业中日常防护网络攻击的方法,如:arp病毒查找攻击源主机的方法,稽查一局网络事件应急预案V1.1等。
不可否认,网络是把双刃剑。在现今社会,网络越来越普及的情况下,各类网络犯罪日益增多。网络安全不得不引起人们的重视,作为从事信息化管理的人来说,更是工作重点。近期国家安全部提出的等级保护制度,就是网络信息安全的一种监管措施。
本次实践活动,正好给我们提供了这样一个平台,让我们深入企业,了解安全防护的各项知识。分别从系统安全及网络安全对我们进行了培训。在系统安全方面,企业专家整体描述了安全防护的必要性及安全防护的种类。最后,在两类常用于服务器部署的系统中,演示了安全加固的一些实践操作内容。非常实用,很有针对性,整个过程涉及到攻与防。从演示中,我们学到了服务器安全加固的必要性及操作方法,收获很大。
在网络安全方面企业专家根据不同学校的实际情况,对目前常用的几类安全设备进行了分类讨论。总结出不同设备在安全防护中的作用,以及部署的必要性。让我们更加直观的了解网络安全的重要性,在今后的各类项目建设中,安全将成为我们首要考虑的因素。
总结这段时间的实践学习,感触最深的就是,企业的先进技术以及规范的管理理念。一个好的企业,要能成功,一定要有规范的流程,成熟的项目实施经验,完善的管理,合作无间的团队。而我作为计算机教师,同时兼任信息中心的工作,在今后的项目实施中,可以借鉴企业学习到的经验,更好的、规范的管理项目实施。此外,围绕本次实践活动的成果目标,我将总结学习到的知识,跟随项目工程师,将虚拟化的技术应用到教学当中。为学校的信息化建设尽一份力,为学校的信息化教学尽一份力。
五、实践体会
本次实践项目目前都已经圆满结束,整个过程虽然有点苦,有点累,但收获良多,通过这次培训,我开阔了眼界;思考问题能站在更高的境界;许多疑问得到了解决或启发;业务素质得到了进一步的提升。有几点体会如下:
1、企业文化应和职业学校校园文化对接,企业文化的目的,就是要在企业内部倡导和营造一种积极健康、活泼和谐的精神氛围,职业学校的校园里也需要这种精神氛围,应该让学生提前感受到企业文化,通过校园文化感受到企业员工工作纪律性要求和工作态度的严谨作风,使学生在校园内就能在一定程度上了解、熟悉并认同企业文化。企业文化也是培养学生形成良好职业素养的一条重要途径,为今后在企业的立足和发展奠定基础。
2、学生的技能应与企业要求对接,通过这次企业实践,使我了解到职业学校学生在校所掌握的知识与企业需求仍有较大的差距,计算机是一个高速发展的行业,物联网、大数据、人工智能等新的技术手段无时无刻不在影响和改变人们的生产和生活,这就要求我们的教学设备和相关技能要赶上时展的需求,课本上的知识远远不能满足现代行业、企业发展的要求,更多要求学生在专业知识的基础上能够学会应对社会发展的变化。
【关键词】网络设备 主动运维服务能力 双机切换演练 数据中心
1 网络设备切换演练的工作描述
1.1 工作方案制定
数据中心阶段性的开展信息系统切换演练,其中包括硬件、软件、基础设施,网络设备切换演练即是其中一项重要内容。由于网络设备属于基础设施范畴,是信息系统的数据传输的经脉,影响面广,因此,这项工作的开展准备工作成为重中之重,网络运维团队精心研究切换演练工作的具体内容、范围、方案以及具体实施步骤,严格把关每一个环节,做到切换演练工作开展时不慌、不乱、沉着、按部就班。
网络设备的切换演练,与网络架构、具体设备戚戚相关,针对不同的网络架构、不同的具体设备,设计出标准的基线方案,针对牵涉业务系统的不同,制定完善相关的演练方案及实施步骤。目前数据中心网络设备种类多、品牌杂,包括路由器、交换机、负载均衡器防火墙等,每一种类网络设备品牌多达数种。网络设备的切换演练可以划分为多次实施,划分区域、划分设备、划分业务系统。根据方案设计思路收集设备信息、理清网络拓扑、梳理业务、应急方案、备品备件以及厂家支持等,诸多准备工作保障切换演练工作顺利实施,同时运维流程、运维管理、运维技术、运维制度得到有力提升。
1.2 工作目标
通过网络设备切换演练工作检验信息系统的软硬件的稳定性、高可靠性、业务不中断性、健壮性以及冗余模式下系统有效性,运行环境潜在隐患无法藏匿,并对切换演练过程中出现的各类异常进行制定相应措施,对发现的问题及时整改,确保设备发生故障时双机冗余切实有效,达到主动演练、主动发现隐患、主动排查问题,为主动运维提升服务能力添砖加瓦。具体内容如下:
(1)确保实时业务访问连续性。切换演练时,达到业务透明无感知,使得业务连续性得到保证。
(2)确保服务器集群正常使用。服务器集群中不管是HA还是RAC,切换演练工作可使得各种切换机制正常工作,确保应用数据、后台数据正常传输,生产业务不受影响。
(3)确保灾备数据备份不中断。数据库、存储上存储的数据能实时同步到灾备中心,保障数据传输稳定可靠。为生产主中心数据提供有力支撑和保障。
2 网络设备切换演练工作内容
2.1 相关组织机构
数据中心阶段性的切换演练,不论是应用软件、主机存储、数据库集群,还是网络设备、电力基础设施相关切换演练,都具有严格的组织体系,任何一个层面切换演练,都需要其他相关专业组织进行配合支持,因此演练工作需要缜密的组织体系结构、完整的运维管理制度、详尽的实施方案以及强大的运维支持服务团队,以保证网络设备切换演练工作顺利进行。
2.2 切换演练相关流程
制定切换演练工作流程是切换演练工作开始之前的一项重要工作,不容忽视,对切换演练整个工作的开展具有总体把控指导作用。结合切换演练工作实施步骤、运维技术保障团队、业务验证以及应急措施。确保演练工作有序进行,确保演练工作结束后生产安全稳定运行。流程如图1所示。
2.3 切换演练具体内容
如前文所述,网络设备属于基础设施范畴,牵涉范围广,双机主备模式、虚拟化模式,原则上切换演练对生产不具有影响,演练的目的就是发现隐患,为了避免影响范围扩大,切换演练可以划分为多次实施,划分区域、划分设备、划分业务系统进行工作实施。网络架构可分为核心区、汇聚区、接入区、广域区,可以按照区域进行分批次进行切换演练,如按照边界路由器、局域网核心区、局域网汇聚接入区三个批次进行切换演练。网络设备种类品牌具有多种,按照网络品牌进行切换演练,有利于厂家支持协调,一些数量少的某种网络设备,可以集中进行切换演练。按照业务系统进行切换演练,有利于应用软件开发厂家运维支持协调,一些业务系统共用网络设备,可以安排在同一批次进行切换演练。上述几种切换演练策略都具有一定的合理性,前提是在可控范围内将切换演练工作有序顺利完成。
网络设备切换演练工作,网络运维管理员的角色影响至关重要,当冗余网络设备进行启停操作时,网络管理员需及时对网络状态、网络配置进行核查,如网络收敛状态、网络链路状态、网络路由状态等,还需要协调厂家支持、协调其他专业组进行配合验证业务是否正常。一旦发现切换过程发现诸如硬件损坏、网络中断、业务中断等问题,切换演练工作的首要任务是恢复生产,及时记录相关现象,便于事后进行详细分析并得出结果,进而找到问题所在以及进行问题整改工作。每一项操作均验证无误后方可进行下一步操作。
每一批次网络设备切换演练结束之后,将演练结果汇报给领导,对于发现的隐患进行整改,形成相关文档进行留存。至此,切换演练整个工作才完成。
3 网络设备切换演练的总结与改进
3.1 网络设备切换演练运维管理成效
通过网络设备切换演练工作加强巩固运维管理体制,结合实际操作演练,解决日常运维管理中存在的技术弱点和管理缺点,使得信息系统各个层面,包括应用软件层面、主机资源层面、基础设备层面、第三方技术支持层面有机统一协作,相互协调,共同提高运维保障能力以及运维技术团队的技能,确保银行信息系统平稳运行。
运维团队技术的提升。任何一个企业的运维工作只有运维制度没有运维技术支撑,犹如船无舵手。运维技术不仅体现在某种网络设备的熟悉程度,而且体现在运维态度。在整个切换演练过程中,每个环节都强调操作谨小慎微、双人复核。技术能力再过硬也抵不过一个粗心大意,对突发性问题的定位、分析以及解决,既不影响生产的稳定运行,也不影响整个切换演练的时长局限。演练过程中突发问题的发生,对运维团队技术以及抗压能力的考验极高,这也是运维团队技术的考验和提升的过程。
运维团队水平的提高。信息系统不仅仅只有软件应用的存在,从基础设施到上层软件应用,任何一个环节都不能出现问题,只有各个层面各个专业有机协调配合,才能将信息系统这个“人体”保持“精力充沛,健康成长”,特别是数据中心近年来发展迅速,成立两地三中心,一体化运维渗透到各专业之间,更是渗透到各专业内部。一旦信息系统出现故障或者问题,各中心各专业组积极配合,共同分析问题,解决问题。通过切换演练,使得各个层级的运维团队协作能力得到提高,在遇到故障后能及时解决问题。
信息系统隐患的发现。切换演练的目的即是发现信息系统的隐患,对发现的隐患制定相应措施,进行相应整改,解决安全隐患,确保双机设备在设备故障发生时,及时切换,提升信息系统运行水平。
3.2 网络设备切换演练中存在的问题及改进
演练方案需要进一步完善。在日常运维管理工作中,出现许多方案、实施步骤、应急方案,切换演练也针对性的形成演练方案、实施步骤、应急方案,如果使其更具有实用性,那么切换演练的方案结构、内容、策略以及验证方式需要进一步完善修订,使其成为切换演练工作中一个标准模板方案,亦可作为知识库,供日常运维查阅。
运维团队的技术素养需要进一步提升。阶段性的切换演练提高了运维团队的技术素养,但是处理分析问题的能力尚需要进一步提高,不仅包括团队专业知识,还包括协作能力、实战经验等。积极组织培训,培养主动运维意识和能力,面对信息系统运维工作中出现故障时,能尽快梳理故障,整理思路,发现故障点,且能在最短时间内解决问题。对发现的问题以及分析解决问题过程,进行积极的总结,得出一套经验知识库,提高主动运维服务能力。保障信息系统安全平稳运行。
关键词:ITSM; 流程优化;网络管理
中图分类号:TP311 文献标识码:A 文章编号:1671-7597(2014)01-0130-01
1 IT服务管理的基本理论分析
IT服务管理(ITSM):是指对满足业务需求过程的IT服务的服务质量的实施和管理。 ITIL是实现IT服务管理的一种方式,而ITIL的核心内容是流程。优秀的流程在规范业务运作的同时,也在不断的总结和固化优秀的经验,从而能够提升企业的核心竞争力。
2 优化的条件与薄弱环节分析
2.1 实施流程优化的条件
1)理论研究基础充分。ITSM可变被动服务主动化,优秀的IT管理服务可以做到提前预测在网络运维中可能会出现的问题,从而达到预先处理问题的目的,而实现这一目标的关键在需要IT管理工具支撑的同时,更需要规范的流程和人员的技能支持,而这也是实现ITSM的关键所在。从1999年ITIL引入中国至2007年更全面合理的ITIL V3正式,融入了IT服务管理领域当前的最佳实践,并首次引入了生命周期的概念,通过全面质量管理应遵循的PDCA模型,持续不断地循环改进,从而保证ITIL持续的生命活力。
2)有修订和完善了标准与规范。标准化方面可参考国家标准、行业标准或企业内部标准,为网络运维实现流程管理体系提供了标准和理论基础。
2.2 现有流程的薄弱环节
1)对于流程的认识和理解不足。很多企业网络建设较早,网络基础建设基本完成,已进入提升完善阶段,正处于关注技术也重视管理的阶段。虽然现在有流程,但和很多成功案例的ITIL理论和流程相比,流程规划还存在的一定距离。
2)流程建设的不完善。随着业务的发展,很对企业都面临这项目组人员流动性较大的问题,对于新进员工来说,如果没有较完善较新的流程,对于业务走向不明,容易造成降低了工作效率,并浪费了人力的,这是因为ITIL理念没有深入人心。
2.3 实施ITIL管理的价值
实施ITIL管理,保证IT流程与业务流程的统一,可使IT服务提供者为客户提供更好的服务,建立更加融洽的工作关系。起到支持业务的作用,在整体上可以提高业务运营的质量:通过提供高质量的IT服务,帮助业务人员更好的掌握信息,提高工作效率。
3 实施流程优化
一般的企业信息系统管理项目建成后,所有的系统使用一个运维平台,在使用上利于管理,但由于使用部门各不相同,情况不同,使运维平台流程不够详细,这就需要组内流程的补充,两者结合,可形成较为完善的流程管理体系。
3.1 编制流程体系建设方案
网络运维可以根据流程面向对象,进行不同层次、不同详细程度的流程设计将流程分成3层,组间流程、组内流程、业务基本操作。每一层次以“业务服务管理”为导向,按照业务应用分工进行设计,参照ITIL,结合已成功的最佳实践,规范各个服务流程。
3.2 确定流程模版
流程三要素:输入、活动、输出。并且具有可度量(measurable能考核)、明确结果(specific results)、交付给客户(delivers to customers)、对于一个特定事件的反应(responds to a specific event)。
1)组间流程。很多业务是需要多个部门协作完成,部门之间的工作接洽点和各阶段工作时长要明确,以免发生扯皮现象。
2)组内流程。根据业务发展,企业会新增很多小部门,新增小组往往没有梳理组内流程,这一部分是优化的重点,每一个小组根据业务不同,根据组内实际情况,梳理流程。
3)业务基本操作。在优化组内流程的同时,需要详细规范业务基本操作,这样既可以防止由于人员流动的带来的知识流失,也可以防止由于不同人不同操作习惯带来的失误,新进员工可直接参照基本操作进行业务操作,快速上手,节约老员工带徒时间等。
3.3 梳理制度、岗位职责
1)组间流程。调研组间工作内容、分工、衔接点、时间分配、流程关键点、使用表单等,根据以上信息进行流程编写。
2)组内流程。①梳理业务范围。各小组对工作内容及规章制度进行全面梳理,梳理工作任务清单,形成全面的业务文件梳理表 ,达到没有遗漏、重复的工作,使任务清晰明确,有前瞻性。对于一个小组流程梳理要经过单独梳理和综合梳理两个过程;②绘制流程图;③文字描述。流程图确定后,进行文字描述工作,文档格式统一,对流程适用情况进行说明,岗位职责描述、资源配置、管理岗位流程清单、流程网和风险控制文档进行编制;④表单优化。随着工作情况的变化,一些表单已经不适合现在的业务,需要进行优化或新造。
3)业务基本操作。网络中常存在的业务,例如账号开通、日常巡检等,可以进行标准化规定,要梳理基本操作流程,利于新进员工学习及操作规范,减少疏漏。
3.4 流程审核
每一个流程梳理结束后,都要进行审核,审核是否满足法律、法规、标准以及内外部状况,防止流程官僚化,脱离实际,同时确保流程覆盖整个组的业务范围。对于不合理的流程要进行修改。
3.5 流程培训
对于流程建设工作来说,不光要有制度,还要提高制度的执行力,把执行制度的落实作为一项重点工作来抓,抓出亮点、抓出实效,使制度的约束作用、规范作用得到最大程度的发挥,推动制度管理水平实质性的提高。所以流程通过审核后,需要进行培训,根据不同的流程面向对象,组织培训,使按流程办事的理念深入人心。
3.6 流程提升
根据ITIL理论,流程是闭环系统因为他们利用自加固和自修正的行动来提供面向系统的变更和转换。对流程的每一次观察、总结和后评估,都是企业管理水平的自我提高和自我完善。在流程的使用过程中,如果有流程的变更,通过审核后,可进行变更。
4 结束语
本文简要分析了流程体系在网络管理过程中的应用,其内容主要包括网络运维流程优化的条件与问题分析、流程优化的原因及流程模版、梳理制度的过程,在流程梳理完成后,如何编制流程、审核流程、培训及提升。
参考文献
[1]陈宏峰,张亮,黄新峰,黄爽.ITIL V3白皮书[M].上海:翰纬IT管理研究咨询中心,2007:14-15.
[2]吴泽童.基于ITIL的任务管理流程研究、设计和流程成熟度评估[D].中山大学,2009.
分布式网络管理
如今,服务于企业自身业务发展的自主网络体系日益扩张,结构更加复杂,呈现出地理分布广、接入方式多、对网络性能要求高等多层次化需求。
如果整个网络的运行过度依赖于一个网管中心,那么,一旦网管中心发生故障就容易导致整个网络管理的无序,甚至瘫痪。所以,这种过度集中式网络管理的模式不适于对大规模网络进行实时性要求较高的监控与管理。在这种大背景下,网络管理的层次化分布部署势在必行。
分担负载
明晰责权
大型行业均以省、市、地州或行政大区划定了与其业务特性相符的配套网络架构和管理体系。在这种多分布、逻辑架构复杂,且广域特性涉及BGP(边界网关协议)、OSPF(开放式最短路径优先)、多域、单域等多种环境下,要想在单个管理中心实现有效的监控,是不太现实的。数据采样间隔过大时,不能实时反映性能数据的变化趋势,并及时做出应有的反应; 相反,采样间隔过小,面对大型、复杂的网络又会造成管理信息的交换消耗大量的带宽和计算资源,成为系统的I/O瓶颈,造成存储空间的急速增加。例如,在某行业的大型网络实际运维中,用户发现采样间隔由10分钟变为5分钟后,数据量每天递增了20GB。
因此,依据行业的业务特点和网点的分布情况,CIO需考虑地理环境的优势、运维人员的技术支持能力、网络链路资源及机房场地、交通便利条件等诸多因素,选择与企业业务规模相对称的区域级别的网络运维管理中心。各分支机构依据就近接入、统一管理的原则接入网络运维管理中心。这样大量节省了长途链路的资费,提高了相应的互连带宽,各分支机构也有了技术支持后盾。
由于这种网络管理的层次化划分,加上软件产品对分布式部署的支持,可以有效地将事件和性能数据过滤和归并,通过制定一定的管理策略,把有限的管理信息用于向总运维调控中心汇聚。这样,各区域网络运维中心有效地分担了网络管理对细节因素的追踪,同时又能使总运维调控中心具备宏观的视野,从而顾全整个业务体系的正常运转。
从单一的集中式管理走向层次化分级管理是网络管理发展的一大进步,大型网络从一个大的星形结构逐步过渡到层次化星形结构(树形结构),甚至网状结构,其优势是非常明显的。层次化管理模式明确了运维管理的关注点和与之相应的职责,网络有广域、局域之分,那么管理也必定有差异。
采购分布式网管系统
五项注意
在大型行业的运维管理中,运维管理中心往往设立在总部机关所在地,其运维重点在于关注广域链路的通断、长途链路利用率、双链路负载均衡、路由抖动、时延等保证关键业务全网通达的技术参数性能。而各分支机构的日常运维事项又与楼层交换、用户终端、网内异常流量审计等内容密切相关。那些诸如楼层交换设备、用户端故障、局域网内流量异常、病毒局部侵扰等并非广域运维关心的重点。因此,合理的层次化分级管理会有效地处理好这种管理范围和职责的划分。利用现今网络管理软件对分布式部署的全方位支持,管理员可在局域范围内把网管工作做细,也可通过过滤策略把关键信息上传到运维管理中心,从而把控全网细枝末节的网络健康状态,保证关键业务的顺畅运行。这种分级化管理的方案选型应关注如下几点。
分布式网管在分支机构进行部署时,不宜求全求大,宜求精求实,最好采用统一的系统平台, 避免各自为政采购大型软件,最后因无实施能力导致搁置。在实际情况中我们不难发现,由于网络建设并非同步进行,而且缺乏统一的实施标准,许多信息部门虽然很有预见性地采购了网络管理配套软件,但由于未考虑它的实施难度和基层技术人员的运维技术水平,导致采购的大型网管软件并不能发挥其产品宣传所能达到的实际运维功能。所以应在一个大的整体策略下,通过集中评测甄选适合本企业统一部署实施的管理软件。
应加强基层技术人员的技术和管理策略培训,并同步进行配套管理策略和制度建设。通过标准化的流程策略和相关制度约束,保证网管策略自上向下地有效贯彻。
企业采购的软件无论是商品化软件或者自主二次开发的平台,应考虑支持分布部署策略和事件上传过滤、归并机制。实际网管实施过程中,告警事件不是报不出来,而是报得太多,“狼来了”喊多了就没人相信了。这在采用了邮件、短信、声、光、电等多种报警模式的情况下尤显突出。做好告警事件的有效归并,不但能减少告警事件量,而且便于故障根源的快速判断和响应。
总运维控制中心应具备基于业务视角的监控运维管理手段。依据关键业务的特性将相关监控管理技术指标用一个维度综合计量,加快故障根源的快速定位与分析,规避“眉毛胡子一把抓”的无序状态; 也能有效避免出现业务故障时,相互推诿责任的现象。
配套行政手段需落实到位,仅靠单纯的技术手段,管理策略并不能完全落实。需建立有效的机制,落实督促管理策略。分布式管理,并不意味着放任自流,而是要通过有效的机制使网络管理工作更加有效。
在规模不是很大、网上业务应用不是很多的企事业单位,可采用分布式管理模式,在数据采集的及时性、技术细节的把控和响应上都会有较好的保证,而且能起到相互冗余的作用。
集中式网络管理
在层次化分级网络管理的基础上,随着网络管理外延的逐步扩充,基于业务的运维管理模式,特别是基于数据大集中的管理模式,又作为一种新亮点凸现出来。
在传统的分布式处理模式下,业务信息分布在不同地理区域的内部服务器上,业务信息的管理和可用性受到了很大限制,许多应该透明、共享的信息在人为的壁垒下不能充分发挥应有的作用,而且系统的升级和新业务的开发部署也都不能及时响应。加上新业务系统的逐步上线,分布式部署在机房场地的双路供电、空调、机柜布放空间等一系列问题上都明显陷入捉襟见肘的窘境。要想改变这些局面,企业投资金额势必会远远超出新建一个数据中心的预算,并且发展空间受制约。在这种情形下,以业务信息为主导的集中式网管再次走上了历史舞台。
数据走向集中的需求
随着业务规模的扩大,许多应用都面临着数据大集中的问题。数据信息所体现的时效性价值需求日益提高,数据越能及早汇总,就越能体现出相应的价值,这在股票交易、原油交易、电子化贸易等业务实时性要求较高的行业尤为突出。而这些数据及应用系统的多层次化部署,随着配套设备的逐步老化、数据量的急剧增加,带来了运维成本越来越高、时效性越来越差的诸多弊病。原本一套运维体系所具备的人力、物力、运维手段、硬件支撑环境,在层次化部署环境中需要复制出若干个大小不一但又“五脏俱全”的拷贝,这无疑增大了运维成本支出,也是一种资源的浪费,而且也不符合业务快速发展的需要。
随着网络管理外延的逐步扩展,从单一的网络设备、链路管理,发展到目前针对业务应用所涉及的服务器性能、存储、网络、关键应用监控、流程管理、服务级别管理等一系列基于业务服务管理(Busssiness Service Manager-BSM)的全业务服务支持模式,IT综合服务管理体系集中化管理的趋势愈加明朗,并在诸如Cisco、IBM、HP等国际大公司的实际部署中得以验证。
采购集中式
网管系统关注四点
在Cisco、HP、中国网通等国内外知名大企业的关键业务集中化管理中,其IT业务垂直化管理的框架也颇有借鉴之处。它们在全业务系统范围内提供同等水平的业务服务支持,提高了客户的满意度。与此同时,业务数据的集中存储与管理,为高水平安全的数据保障创造了条件,业务连续性达到了一个新的高度。用户只是授权数据的使用人,无需关心数据的地理位置、存储介质、维护背景。而且,这样就规避了分布式部署中产生的软、硬件投资金额巨大的问题,也为集中有限资金提高运维管理手段提供了良好的基础。
在企业规模较大、业务应用较多、业务网点分布较广的大型企事业单位,应考虑设立区域数据中心集中管理与关键应用相配套的网络设施、服务器设施、存储设施等。集中式网管发挥了数据大集中和财力、物力、人力集中的优势,做强做大相应的配套设施,为业务应用的持续发展提供扩展空间。在考虑灾备冗余的同时,适度把控建设规模的拓展预期,避免前期投入预期过大而实际发展缓慢造成的不必要浪费。
在基于数据大集中的数据中心集中管理系统选型中同样也须注意几点。
不盲目跟风。目前,随着国际大型网管软件公司的战略调整,许多软件公司之间的并购、整合屡见不鲜。而其整合后的产品线往往也只是从概念上有了一个更完整的体系。但在实际情况中,新老产品的更新换代、用户端使用习惯、产品功能的预期差异等都或多或少会出现问题,特别是做过相应二次开发的用户单位,在盲目跟风中,不但产品功能提升有限,而且会与预期实施效果存在较大落差。许多产品的整合未必在真正意义上做到功能的提升,在追求利益最大化的商业软件销售中,这种产品整合后的潜在风险向最终用户转移的倾向比比皆是。
在加强网络管理的同时,要不断引进成熟可靠的新技术。以虚拟化技术为例,有些企业的应用程序已经是多年前开发的产品,只能运行在一些特定的操作系统和硬件上,而那些特定的操作系统和硬件由于过了保质、保修期,维护和运行的成本很高。而通过虚拟化技术虚拟出来的硬件平台能够运行那些特定的操作系统,盘活了企业的资产。诸如这种虚拟化技术的应用会大大提升业务的发展空间,如早期企业的自有邮件系统给每个员工20兆附件、总计50兆的存储空间,这在当时已经算是“富家子弟”了; 现今发展到50兆附件、200兆空间已不足为奇。但旧技术条件下实际存储空间利用率远非我们预期,而是更加浪费了。
利用虚拟化技术的动态存储空间调配,能很好地解决此类问题,提高存储空间的有效利用率。所以新技术的引进绝对是“第一生产力”,管理只是一种优化的运维手段,新技术的不断引进创新才是发展的最终动力。
在考虑与业务相关的软、硬件环境建设监控管理的同时,要充分考虑机房场地环境的监控管理。集中化管理涉及的刀片服务器、PC Cluster等大容量存储的集中上线,使得针对机房场地空调、湿度、电源、消防和部署空间提出了更高的需求,因此要充分考虑到各因素的可拓展空间和性能需求。目前,PC Cluster从256个节点、512个节点到1024个节点的大批量部署愈发普遍(目前,诸如Cisco、IBM等国外知名大公司除在一定高端领域保留大约14%左右的高端Unix服务器外,其在x86平台和Linux平台的业务拓展呈明显上升趋势,所占比重越来越大),这种部署方式对高密度堆叠产生的热量排放就提出了很高的要求。网络管理在集中模式下应有针对性地对业务附属设施进行全方位的监控。在有条件的情况下,应尽可能地将业务相关性涉及的服务器性能、网络设备、链路状态、UPS、空调等综合信息展现在多块大屏之上,配合声、光、电的多种告警触发方式加强告警事件的及时响应,保证业务的高可靠持续运行。
在集中模式下的网络管理要充分考虑大流量数据带来的压力。由于集中模式产生的数据汇聚压力明显增大,加上目前高端设备均采用支持大带宽的光纤接入(这在机房预先布线、交换设备模块采购中尤其要引起高度重视),所以硬件网管设施在接入实际网络,特别是在直连模式的情况下,信息部门在关心接口类型的同时,一定要考虑流量压力产生的负载问题。诸如带宽管理器等设备如果与实际物理带宽不匹配,无疑会导致瓶颈的出现; 同时,也要考虑在这种高密度部署情况下,软件在采集数据时的采集间隔和数据递增之间的平衡关系。
链接
集中和分布相得益彰
IT,归根结底要服务于业务,因此,CIO必须首先从业务的角度来考虑企业要搭建一个什么样的IT架构,相应的服务管理模式也必须与之相符。在面对业务分布式部署和数据大集中形成的数据中心这两种不同的运维管理需求时,应着眼于实际需求情况,把关注点放到影响关键业务顺利运转的细节上。如果对长途网络带宽、服务器并发数据处理性能压力等有较高要求,则选择分布式部署方式。它能合理地分担单点的压力承载,减少对长途链路资源的占用,能更好地根据业务部署特性做到更加有针对性的、更加细致的监控管理。
对于数据大集中模式的网络管理而言,在做好常规管理内容的同时,应全面考虑面对大集中产生的大规模服务器、存储、交换设备、空调、UPS等集中部署带来的管理压力,要将这些与保证业务顺利运转密切相关的因素统筹监管起来,特别要关注和引入面对集中模式的自动化监控管理配套设施的上线。试想,面对成千上万台服务器设备,在发生电源故障、年度巡检等引发的停机事件时,设备起停操作在人工方式下将是一个“浩大的工程”。
关键词:堡垒主机;内控管理;运维审计;实践案例
中图分类号: TP393.08 文献标识码:A 文章编号:1672-3791(2015)05(c)-0000-00
近年来,笔者所在民航系统内的信息化水平正在逐步从初级应用阶段发展至高级应用阶段,而伴随着这个过程产生的信息化应用与信息安全管理的矛盾也愈发突出[1]。笔者所在单位近年来在局域网内先后部署了多项网络安全和网络分析产品,已经形成了较为完善的信息安全防护体系,主要技术人员也积累了运维经验。但信息系统故障等网络安全问题仍然时有发生。通过分析故障产生的原因,发现大部分违规行为竟然来源于一些合法用户的例行操作。传统意义的安全防护系统可以从技术角度解决一些潜在的安全问题,但对于内部人员操作的管理手段不完善带来的数据破坏和泄露可能比技术原因造成的损害更为严重。
国家公安部《信息系统安全等级保护基本要求》中明确规定了二级(含)以上的重要信息系统网络安全、主机安全、应用安全都需要具备安全审计功能[2],所以,根据等级保护要求以及本单位的实际情况,我们迫切需要一种有效的手段来对内部人员的设备维护行为进行控制和审计,解决信息安全管理中遇到的难题。难题具体体现在:运维权限分配复杂、系统密码管理不足、操作风险难以控制、共享账号安全隐患、系统资源授权不清晰、访问控制策略不严格、重要操作无法有效审计等。而以上这些信息安全问题,通过引入内控堡垒主机并结合管理措施之后基本得到了有效解决。
1 内控堡垒主机介绍
1.1 什么是内控堡垒主机?
最早的堡垒主机主要定位于防御外部进攻[3]。通过将其部署在防火墙或路由器之外,可以使那些需要面向外部的服务集中于堡垒主机上进行集中保护,以此来换取内部网络的安全。
而随着信息化应用的日趋复杂,由被动防御型的堡垒主机发展出来了更加偏重于对内部网络、应用和数据进行综合安全保护的管理控制平台,也就是我们所说的内控堡垒主机。它从网络内部出发,通过多种信息安全技术(访问控制、身份认证、虚拟化、协议、操作审计等)实现用户对内部网络资源的安全访问,同时对用户的操作过程形成完整的审计记录。这样的内控平台正可以有效地解决我们在日常运维和内控管理中遇到的难题。
1.2 功能特点
1.2.1 设备的集中管控
内控堡垒主机可以将服务器和网络设备的信息,以及用户信息和访问权限提前配置在堡垒主机中,这样便从传统的分布式管理模式转变成可控的集中式管理模式,以此为基础带来了设备管理效率和安全稳定性的提升。
1.2.2 操作的集中审计
内控堡垒主机通过协议的方式,将原来从某台内网终端直接通过远程连接对网络设备和服务器进行操作的不可控的分散管理方式,转变成为了用户必须集中至堡垒主机的统一入口再对有授权的设备进行操作。而全部操作都通过协议录制得到记录,实现了精细化的集中操作审计。
总之,内控堡垒主机结合了传统的4A 理念,即账号管理、认证管理、授权管理、安全审计,与应用技术,形成了一个完善且可控的远程接入解决方案。一方面,统一身份认证和统一访问授权使得远程接入用户需要通过多种身份认证手段以及基于角色的授权管理才可以接入设备,满足了信息安全等级保护的要求;另一方面,全面的审计功能让管理员不但可以完整录制会话过程,还可以实时监视远程访问会话并及时终止非法操作。
2 制定解决方案
2.1 信息安全等级保护要求
根据信息安全等级保护第三级[4]的相关要求制定内控堡垒主机的解决方案,可以满足在要求中涉及到的网络安全、主机安全、应用安全、数据安全及备份恢复五项技术方面的要求,以及安全管理机构、人员安全管理、系统运维管理三项管理方面的要求。根据要求中的内容以及内控堡垒主机针对每一项提供的解决方案,整理如下表1。
2.2 设计原则
2.2.1 整体安全和全网统一的原则
资源访问的安全设计需要综合考虑信息网络的各个环节和全部实体,然后在不同层次上综合使用多种安全手段,为内部信息网络和安全业务提供管理和服务。
2.2.2 标准化原则
项目的安全体系设计严格遵循了国家标准,如《信息系统安全等级保护基本要求》。在达到标准要求的同时能够使企业内部的信息系统在可控范围内实现安全的互联互通。
2.2.3 需求、风险、成本平衡原则
任何信息系统都无法做到绝对安全,所以设计时就需要明确性能要求以及侧重点,然后从需求出发,在功能、风险和成本之间进行平衡和折中[5]。
2.2.4 实用、高效、可扩展原则
无论现状如何,随着技术发展信息系统仍将不断变化,哪怕在系统实施过程中,系统的结构、配置也会发生变化。所以系统需要有一定的灵活性来适应这些变化,使其符合“有层次、成体系”的标准,既有利于系统安全,又有利于扩展。
2.2.5 技术、管理相结合原则
为了使内控堡垒主机可以发挥其应有的效果,管理者必须首先根据系统的功能特点来重新梳理和完善现有的运行管理机制和安全规章制度,同时对技术人员进行思想教育和技术培训。通过合理的规定和具体培训,才能完成系统的应用。
2.3 设计思路
2.3.1 集中管理模式
管理模式决定了管理的高度,所以明确管理模式应当是我们要确定首要因素。根据多年的运维实践发现,我们对维护人员及其操作的管理手段并未伴随着信息化进程的推进而得到加强,这样导致了人为因素造成的运行故障比例居高不下,缺少有效的审计手段。因此迫使我们必须由分散的管理模式转变为集中的管理模式。集中管理是运维管理思想的必然发展趋势和唯一选择[6]。通常,集中管理包括:集中的资源访问入口、集中的账号管理、集中的授权管理、集中的认证管理、集中的审计管理等等。
2.3.2 访问协议
内控堡垒主机通过对各平台所使用的协议进行来实现对操作行为的审计和监控[7]。比如SSH、TELNET、FTP、RDP、VNC等等Windows或Linux平台上的访问协议。
2.3.3 身份授权分离
为避免传统方式的共享账号、弱口令账号等问题导致的安全漏洞,我们的解决思路是将身份和授权分离。首先建立用于身份认证的独立账号体系,然后保留各系统账号但使其由堡垒主机接管并定期更新密码,使得被管理设备本身的系统账号仅用于系统授权而剥离其身份认证功能,有效增强了身份认证和系统授权的可靠性。
2.4 系统构架
我们部署的内控堡垒主机由展现层、核心服务层、接口管理层三层结构组成。
展现层面向用户,集成了多种包括匙扣令牌在内的强身份认证方式,分别对系统管理员和运维用户提供不同的访问操作页面。
核心服务层面向授权和协议,部署在服务器上。在核心服务层上完成账号管理、授权管理及策略设置等操作。其中的协议包含用户输入模块、命令捕获引擎、策略控制和日志服务,所以具备对用户行为进行监视、控制和记录的功能。
接口管理层面向个信息系统,用于实现审计结合、账号同步、认证结合等方面的数据接口工作。另外它还包含应用服务,以此来实现对B/S、C/S、半B/S半C/S系统的单点登录及审计工作。
3 内控堡垒主机的实施
系统的实施过程中,我们将堡垒主机及其应用服务器的部署位置单独剥离开划分为管理区,把内部网络的其他设备如服务器、网络设备、数据库等等划分为业务区。在内控堡垒主机部署上架后,运维人员将集中通过内控堡垒主机对业务区的目标设备进行日常运维操作。
设备上架后,我们需要通过防火墙策略配置解除客户端到堡垒主机及堡垒主机到目标服务器的端口限制。这样当用户访问设备时,堡垒主机才可以完成对TELNET(端口23)、SSH(端口22)、RDP(端口3389)等协议的访问具体设备,并在堡垒主机上完成对设备的单点登录及会话的完整审计。
4 结语
在信息化水平快速发展的今天,技术发展与管理模式相辅相成。信息安全不仅需要先进的设备和娴熟的技术,更需要完善的制度和审计手段。内控堡垒主机的实施切实有效地规范了内外部维护人员对IT基础设施的维护行为,弥补了操作审计空白。它通过集中管理的模式,借助于协议、身份授权分离等技术,极大地减少了维护人员误操作或恶意操作的概率,缩短了故障定位时间。这次内控堡垒主机的实施完善了笔者所在单位的信息安全保护体系,将有助于提高信息系统运行的安全性和稳定性。
参考文献:
[1]潘玉. 新一代堡垒主机[J]. 信息安全与通信保密,2011,05:45.
[2]韩荣杰,于晓谊. 基于堡垒主机概念的运维审计系统[J]. 信息化建设,2012,01:56-59.
[3]赵瑞霞,王会平. 构建堡垒主机抵御网络攻击[J]. 网络安全技术与应用,2010,08:26-27.
[4] 公安部信息安全等级保护评估中心. GB/T 22239-2008, 信息安全技术信息系统安全等级保护基本要求[S]. 北京:中国标准出版社,2008.
[5]韩海航,王久辉. 大型交通网络系统安全保障体系研究[J]. 计算机安全,2007,10:77-80.
[6]吴国良. 面向NGB的网络与信息管控建设[J]. 广播与电视技术,2013,10:28+30-33.
[7]陈旭. IT运维操作管理有效降低企业风险[J]. 高科技与产业化,2010,05:116-119.
【关键词】 医院信息化建设 IT运维与安全管理
引言:
目前,随着信息技术的日新月异和网络信息系统应用的发展,医院、企业网络技术的应用层次正在从传统的、小型业务系统逐渐向大型、关键业务系统扩展。面对日趋复杂的IT系统,不同背景的运维人员已给企事业信息系统安全运行带来较大的潜在风险,如医院信息系统是医院日常工作的重要应用,存储着重要的数据资源,是医院正常运行必不可少的组成部分,所以必须加强安全保障体系的建设。于是,堡垒机在医院中的应用,为医院工作的应用提供了安全可靠的运行环境。
传统的网络安全审计系统给医院的的运维安全问题带来了很多风险,如:账号管理无秩序,暗藏巨大隐患;粗放式权限管理的安全性难以保证;设备自身陈旧,无法审计运维加密协议、远程桌面内容等,从而难以有效定位安全事件。
以上所面临的风险严重破坏政府、医院、企业等的信息系统安全,已经成为其信息系统安全运行的严重隐患,尤其是医院,将影响其效益。尤其医院信息系统是一个复杂的系统工程,涉及人、技术、操作等要素,单靠技术或单靠管理都不可能实现。
因此在考虑安全保障体系时,必须将各种安全技术与运行管理机制、人员思想教育与技术培训、安全规章制度建设相结合。
如何有效监控业务系统访问行为和敏感信息的传播,准确掌握网络系统的安全状态,及时发现违反安全策略的事件并实时告警、记录,同时进行安全事件定位分析,事后追查取证,满足合规性审计要求,是企事业迫切需要解决的问题,即IT运维安全管理的变革已刻不容缓!
堡垒机提供一套先进的运维安全管控与审计解决方案,它通过网络数据的采集、分析、识别,实时动态监测通信内容、网络行为和网络流量,发现和捕获各种敏感信息、违规行为,实时报警响应,全面记录网络系统中的各种会话和事件,实现对网络信息的智能关联分析、评估及安全事件的准确全程跟踪定位,为整体网络安全策略的制定提供权威可靠的支持。
随着堡垒机在医院中的应用,其主要实现了以下功能:
1)账号管理集中
堡垒机建立于唯一身份标识的全局实名制管理,支持统一账号管理策略,实现与各服务器、网络设备等无缝连接,集中管理主账号(普通用户)、从账号(目标设备系统账号)及相关属性。
2)访问控制集中
堡垒机通过集中对应用系统的访问控制,通过对主机、服务器、网络、数据库等网络中所有资源的统一访问控制,确保用户拥有的权限是完成任务所需的最小权限,实现集中有序的运维操作管理,防止非法、越权访问事件的发生。
3)安全审计集中
基于唯一身份标识,堡垒机通过对用户从登录到退出的全程操作行为审计,监控用户对被管理设备的所有敏感的关键操作,提供分级告警,聚焦关键事件,能完成对医院内网所有网上行为的监控和对安全事件及时预警发现、准确可查的功能。
通过此体系监控到的数据能对医院内部网络的使用率、数据流量、应用提供比例、安全事件记录、网络设备的动作情况、网络内人员的网上行为记录、网络整体风险情况等这些情况有较全面的了解。
信息安全是一个动态的过程,要根据网络安全的变化不断调整安全措施,适应新的网络环境,M足新的网络安全需求。
安全管理制度也有一个不断完善的过程,经过安全事件的处理和安全风险评估,会发现原有的安全管理制定中存在的不足之处。根据安全事件处理经验教训和安全风险评估的结果,对信息安全管理策略进行修改,对信息安全管理范围进行调整。
参 考 文 献
[1]赵瑞霞.构建堡垒主机抵御网络攻击[J].网络安全技术与应用,2010,08.