前言:想要写出一篇引人入胜的文章?我们特意为您整理了谈电网业务流量监控系统建设范文,希望能给你带来灵感和参考,敬请阅读。
随着电力体制改革的不断深化,业务管理方式逐渐由传统的经验管理转向基于数据分析的智能化管理。为有效保障电网公司的业务监管工作开展效率,电网大力建设业务流量监控系统,由此为实现智能化管理提供了有效的数据支持。本文基于业务流量监控系统建设内容,对流量采集手段、分析技术等做经验总结、创新分析,并对未来的业务监控建设方向做了深入分析。随着各行业信息化的不断深入,新建信息系统越来越多,同时随着数据中心网络规模扩大,承载应用系统越来越丰富,因此对运维精细化要求不断提高,网络流量采集分析已成为精细化运维不可或缺的分析手段,通过流量深度分析,能更快实现故障定位、协助优化系统,提升系统运行效率。电网企业迫切需要在信息化建设中加强信息系统的应用管理,通过业务流量监控设备,为业务运行监控系统提供监控数据,实时监控各应用系统运行的状态以及各个关键业务的运行情况,全面了解各业务系统运行情况,保证应用系统有良好的运行状态。
1流量采集分析的实际应用
现有的信息系统故障诊断由于缺乏有效的数据支持,时间往往被耗费在无序的排查工作中,其中的主要问题在于:一旦发生问题,多部门同时开始根据各自经验诊断;缺乏统一视角的证据支持,没有入手点;若无法达成共识,则需要进一步线索进行反复排查。通过对业务流量数据的采集,提供网络性能、端到端业务性能等指标,将业务运行监控系统采集到的指标,输出到信息安全运行监测预警系统,以实现预警系统的全面覆盖,同时便于快速发现定位应用性能问题,厘清各部门责任,有针对性的解决问题,减少了问题处理时间,提高了运维部门工作质量和效率。
2采集、分析手段
数据中心的流量采集难度与业务流量所经路径、采集点数量等息息相关,电网的信息系统建设已深入到各个业务部门,所以其流量采集面临的挑战诸多:覆盖业务流量经过的所有路径,采集点多,根据不同的需求,还需对采集后的流量进行差异化处理,且重要的一点是,流量的采集不能对运行的业务系统产生影响。电网业务流量采集监控系统建设采用无侵入式流量镜像采集方式获取端到端业务流量。本系统部署的数据采集方式为:从业务系统的网台前端负载均衡部署探针设备,进行流量镜像采集,业务流量经过交换机的数据包复制到镜像端口,再由镜像端口接入探针服务器,探针将采集到的数据分发给分析服务器进行处理,由分析服务器对网络数据进行实时监测、挖掘分析,并且不影响网络和业务系统的正常运行。业务监控系统采用网络旁路方式采集交换机/路由器镜像出来的流量。被监视业务系统或应用完全感知不到监测系统的存在,系统不向被监控系统发送任何数据,更不会对业务系统造成任何额外的计算资源、带宽资源及缓存资源的开销。产品安装、迭代、升级时不需要重启业务系统。完全不影响业务系统的性能,更不存在安全隐患问题。产品部署逻辑示意图如图1所示。通过交换机的流量镜像采集,将应用服务器之间的通讯数据抓取出来,并通过对应的协议解码功能将通讯中的数据解释出来。将数据写入分析服务器进行业务分析与重组。系统只需要将探针服务器与交换机对接,分析服务器等监控系统用到的设备都可以通过自组网的方式组网,不对业务网络产生影响。
3探针采集模块(图2)
模块概述:旁路采集需要监控的网络数据包,然后根据7层协议规则进行数据包深度解析,获取七元组信息以及应用层业务相关专属指标,最后以一定的数据格式发送给Java分析平台进行业务统计分析,以及进行业务端到端的关联分析。主要涉及的功能有:数据包捕获,数据包预处理,数据包解析,解码数据输出。数据包捕获:通过加载dpdk自定义驱动程序采集交换机镜像过来的网络数据包,并给每个数据包添加时间戳,然后根据数据包的四元组信息通过对称hash算法得到hash值,根据hash值将每个数据包同源同宿的均分到各个预处理队列中,由下一个功能模块对数据包进行处理分析。应用场景:将数据包从网卡中采集推送给应用程序处理。数据包预处理:从预处理队列中获取数据包,对数据包头进行解析,获取数据包七元组信息,然后过滤模块根据过滤配置规则和过滤条件对数据包进行过滤处理,符合过滤条件的数据包根据hash值再次同源同宿的分发给解码队列。应用场景:对数据进行清洗,筛选。数据包解析:根据七层协议规则对数据包进行深度解析,获取mac,ip,port,相关的时间指标以及应用协议中携带的业务关联数据指标,进行业务识别和匹配,进行业务数据标记。应用场景:深度解析数据包内容,获取数据指标,供上层Java分析平台分析业务关联。解码数据输出:讲解码后的数据结构字段,一次拼接成字符串流,通过socket或kafka发送给Java分析平台。应用场景:将解码后的基础数据发送给第三方平台进行二次深度分析关联。
4系统创新点
(1)无侵入式采集客户感知探测系统通过交换机流量镜像采集方式获取业务系统的端到端业务流量,实现无侵入式采集网络原始数据,对原有业务系统性能不会产生任何影响。(2)自动适配IT路径图的变化传统部署的IT路径图:WEB负载-->web集群->接口汇聚负载->接口汇聚集群->能力中心服务集群->数据库本系统的IT路径图:WEB负载-->web集群->接口汇聚负载->接口汇聚NG服务->接口汇聚容器->能力中心服务容器->数据库本系统下,接口汇聚负载和接口汇聚容器之间增加了一个NG转发服务。接口汇聚集群变成接口汇聚容器,能力中心服务集群变成能力中心服务容器。业务流量监控系统能够根据IP交互和业务资源调用关系,自动适配IT路径图的变化。(3)自动适配协议的变化探针能够根据协议的内容自动识别解码。(4)IP漂移自动学习发现由于接口汇聚容器和能力中心服务容器的IP随时可能发生变化(比如重启,自动扩缩容),业务流量监控系统能够根据IP交互关系和协议动态识别IP所属网端,实现IP漂移场景下自动发现新的拓扑图。
5系统效益
(1)提升系统运行质量针对每天流量探测出现的各类告警进行筛选,形成各类BUG故障单、系统性能故障单等,将该系统的数据与实体流量监测对比,能及时发现考核风险,并及时定位考核问题。(2)提升业务运行质量通过数据采集和分析,发现业务运行异常,提交业务规则类问题故障单,发现业务办理失败的问题,提交业务系统进行修复,同时给业务系统的预警和故障问题的定位提供了有力的支持和保障,从源头减少了用户投诉。(3)实现实时业务检测系统通过建模的方式,对于特定类业务操作、业务量等进行检测,通过该手段发现敏感业务操作,保障了系统数据安全。(4)成本效益本项目创新所带来的效益不仅包括资本支出方面,也体现在日常运维成本方面。业务流量监控系统降低了业务系统人工运维成本,给业务系统的预警和故障问题的定位提供了有力的支持和保障,从源头减少了客户投诉,提升了客户客户感知满意度。(5)业务效益业务流量监控系统有助于推动信息系统平台的顺利上线。通过同时监控新老系统,新系统和老系统同时运行,可以看到两个系统相同业务的性能指标数据对比,作为新系统是否正常运行的一个重要评价标准。通过部署与实践,我们不仅解决了现网遗留问题同时也攻克了不少技术难题。为电网全业务系统的主动探测探明了道路、扫除了前进障碍,希望在助推电网企业智能运维aiops方面能做出相应的贡献,真正实现机器代替人工运维的初衷。同时随着监控技术的不断发展,在夯实云平台监控智能化的基础上,后续有条件可以进一步开展一系列技术革新探索。数据库端到端关联分析:充分挖掘数据库流量,解码每笔业务的SQL语句和相应的性能指标,自动学习业务接口和SQL的关联关系。通过业务资源配置关系,串联每笔业务的数据库端到端关系。从而更加精细地定位系统故障到SQL级别,实现SQL的性能统计分析。
作者:林志达 曹小明 叶思斯 张华兵 单位:中国南方电网公司