前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的网络故障主题范文,仅供参考,欢迎阅读并收藏。
关键词:网络故障诊断;路由器;分层诊断技术;网络接口
中图分类号:TP393文献标识码:A
文章编号:1009-2374 (2010)25-0070-02
0引言
计算机网络是指将地理位置不同的具有独立功能的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统,网络管理软件及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。实现计算机网络有四个基本要素:通信线路和通信设备;有独立功能的计算机;网络软件软件支持;实现数据通信与资源共享。所以网络故障无非就是这四个方面的故障。本文先介绍网络和路由器的基本概念,而后通过介绍网络分层诊断技术来详细阐述排除网络连通性故障的方法。
1网络与路由器概述
网络诊断是一门综合性技术,涉及网络技术的方方面面。为方便下面的讨论,首先回顾一下网络和路由器的基本概念。
(1)计算机网络按其覆盖范围通常被分为局域网和广域网。局域网覆盖地理范围较小,一般在数米到数十公里之间。广域网覆盖地理范围较大。按拓扑分类可分为总线型,星型,环形以及网状网络。
(2)为了完成计算机间的通信,把每部计算机互连的功能划分成定义明确的层次,规定了同层进程通信的协议及相邻层之间的接口和服务,将这些层、同层进程通信的协议及相邻层之间的接口统称为网络体系结构。国际标准化组织(ISO)提出的开放系统互连参考模型(OSI)是当代计算机网络技术体系的核心。该模型将网络划分为7个层次:物理层、数据链路层、网络层、传输层、会话层、表示层和应用层。
(3)Internet依靠TCP/IP协议,在全球范围内实现不同硬件结构、不同操作系统、不同网络系统的互联。在Internet上,每一个节点都依靠唯一的IP地址互相区分和相互联系。IP地址是一个32位二进制数的地址,由4个8位字段组成,每个字段之间用点号隔开,用于标识TCP/IP宿主机。
(4)路由器(Router)是用于连接多个逻辑上分开的网络,所谓逻辑网络是代表一个单独的网络或者一个子网。当数据从一个子网传输到另一个子网时,可通过路由器来完成。因此,路由器具有判断网络地址和选择路径的功能,它能在多网络互联环境中,建立灵活的连接,可用完全不同的数据分组和介质访问方法连接各种子网,路由器只接受源站或其他路由器的信息,属网络层的一种互联设备。路由器技术始终处于核心地位。
2网络故障诊断概述
网络故障诊断有以下三方面的目的:确定网络的故障点,恢复网络的正常运行;找到网络配置和规划中的欠缺之处,改善和优化网络的性能;观察网络的运行状况,及时预测网络通信质量。
网络故障诊断以网络原理、网络配置和网络运行的知识为基础。从故障现象出发,以网络诊断工具为手段获取诊断信息,确定网络故障点,查找问题的根源,排除故障,恢复网络正常运行。
网络诊断可以使用包括局域网或广域网分析仪在内的多种工具:路由器诊断命令;网络管理工具和其它故障诊断工具。CISCO提供的工具足以胜任排除绝大多数网络故障。查看路由表,是解决网络故障开始的好地方。ICMP的ping、trace命令和Cisco的show命令、debug命令是获取故障诊断有用信息的网络工具。
网络故障的故障症状包括一般性和较特殊的。一般故障排除模式如下:第一步,当分析网络故障时,首先要清楚故障现象;第二步,收集需要的可能的故障原因信息,充分了解故障现象;第三步,根据收集到的情况考虑可能的故障原因,然后根据具体故障现象排除不符合的故障原因;第四步,根据最后的可能的故障原因,建立一个诊断计划;第五步,执行诊断计划,认真做好每一步测试和观察,直到故障症状消失;第六步,每改变一个参数都要确认其结果。
3网络故障分层诊断技术
3.1物理层及其诊断
物理层是第一层,它虽然处于最底层,却是整个开放系统的基础。物理层为设备之间的数据通信提供传输媒体及互连设备,为数据传输提供可靠的环境。
物理层的故障主要表现在设备的物理连接方式是否正确;MODEM、CSU/DSU等设备的配置及操作是否正确。可以使用show interface命令来检查路由器各端口物理连接是否正常,检查端口状态,EIA状态和协议建立状态。
3.2数据链路层及其诊断
数据链路层是OSI参考模型的第二层,该层解决两个相邻结点之间的通信问题,实现两个相邻结点链路上无差错的协议数据单元传输。数据链路层传输的协议数据单元称为数据帧。数据链路层不关心数据包中包含什么信息,而仅是将其传递到网络中的下一结点。
3.3网络层及其诊断
网络层提供建立、保持和释放网络层连接的手段,包括路由选择、流量控制、传输确认、中断、差错及故障恢复等。
排除网络层故障的基本方法是:沿着从源到目标的路径,查看路由器路由表,同时检查路由器接口的IP地址。如果路由没有在路由表中出现,应该通过检查来确定是否已经输入适当的静态路由、默认路由或者动态路由。然后手工配置一些丢失的路由,或者排除一些动态路由选择过程的故障,包括RIP或者IGRP路由协议出现的故障。
4路由器接口故障排除
4.1串口故障排除
串口出现连通性问题时,为了排除串口故障,一般是从show interface serial命令开始,分析它的屏幕输出报告内容,找出问题之所在。串口报告的开始提供了该接口状态和线路协议状态。接口和线路协议的可能组合有以下几种:串口运行、线路协议运行,这是完全的工作条件。该串口和线路协议已经初始化,并正在交换协议的存活信息;串口运行、线路协议关闭,这个显示说明路由器与提供载波检测信号的设备连接,表明载波信号出现在本地和远程的调制解调器之间,但没有正确交换连接两端的协议存活信息;串口和线路协议都关闭,可能是电信部门的线路故障、电缆故障或者是调制解调器故障;串口管理性关闭和线路协议关闭,这种情况是在接口配置中输入了shutdown命令。通过输入no shutdown命令,打开管理性关闭。
正常通信时接口输入或输出信息包不应该丢失,或者丢失的量非常小,而且不会增加。如果信息包丢失有规律性增加,表明通过该接口传输的通信量超过接口所能处理的通信量。解决的办法是增加线路容量。
4.2以太接口故障排除
以太接口的典型故障问题是:带宽的过分利用;碰撞冲突次数频繁;使用不兼容的类型。使用show interface ethernet命令可以查看该接口的吞吐量、碰H冲突、信息包丢失、和类型的有关内容等。
(1)通过查看接口的吞吐量可以检测网络的利用。如果网络广播信息包的百分比很高,网络性能开始下降。光纤网转换到以太网段的信息包可能会淹没以太口。互联网发生这种情况可以采用优化接口的措施,即在以太接口使用no ip route-cache命令,禁用快速转换,并且调整缓冲区和保持队列。
(2)两个接口试图同时传输信息包到以太电缆上时,将发生碰H。以太网要求冲突次数很少,不同的网络要求是不同的,一般情况发现冲突每秒有三五次就应该查找冲突的原因了。
(3)如果节点的物理连接正常,接口和线路协议报告运行状态也正常,可是还是不能通信。原因可能是两个节点使用了不兼容的帧类型。可以尝试重新配置使用相同帧类型。
4.3异步通信口故障排除
互联网络的运行中,异步通信口的任务是为用户提供可靠服务,但又是故障多发部位。
异步通信口故障一般的外部因素是:拨号链路性能低劣;电话网交换机的连接质量问题;调制解调器的设置。如果调制解调器丢失了它的设置,应采用一种方法来初始化远程调制解调器。简单的办法是使用可通过前面板配置的调制解调器,另一种方法是将调制解调器接到路由器的异步接口,建立反向telnet,发送设置命令配置调制解调器。
show interface async 命令、show line命令是诊断异步通信口故障使用最多的工具。show interface async 命令输出报告中,接口状态报告关闭的唯一的情况是接口没有设置封装类型。线路协议状态显示与串口线路协议显示相同。show line命令显示接口接收和传输速度设置以及EIA状态显示。show line命令可以认为是接口命令(show interface async)的扩展。show line命令输出的EIA信号及网络状态:
noCTS noDSR DTR RTS:调制解调器未与异步接口连接。
CTS noDSR DTR RTS:调制解调器与异步接口连接正常,但未连接远程调制解调器。
CTS DSR DTR RTS:远程调制解调器拨号进入并建立连接。
确定异步通信口故障一般可用下列步骤:检查电缆线路质量;检查调制解调器的参数设置;检查调制解调器的连接速度;检查rxspeed 和txspeed是否与调制解调器的配置匹配;通过show interface async 命令和 show line命令查看端口的通信状况;从show line命令的报告检查EIA状态显示;检查接口封装;检查信息包丢失及缓冲区丢失情况。
5结语
网络发生故障是不可避免的。网络建成运行后,网络故障诊断是网络管理的重要技术工作。搞好网络的运行管理和故障诊断工作,提高故障诊断水平需要注意以下几方面的问题:认真学习有关网络技术理论;清楚网络的结构设计,包括网络拓朴、设备连接、系统参数设置及软件使用;了解网络正常运行状况、注意收集网络正常运行时的各种状态和报告输出参数;熟悉常用的诊断工具,准确的描述故障现象。
参考文献
[1] 李江,戴金萍,彭婷.浅谈医院网络常见故障的分类诊断[J].中国管理信息化,2010,(7).
[2] 庄保新.网络中的常见故障诊断及分析[J].硅谷,2010,(8).
[3] 代树强.计算机网络日常维护方略[J].硅谷,2010,(1).
关键词:网络故障 物理故障 逻辑故障
中图分类号:TP393.1 文献标识码:A 文章编号:1672-3791(2013)02(a)-0022-01
为适应职业教育的快速发展,校园网络成为了学校必不可少教学设施。随着校园网络建设规模的不断扩大,各种网络设备的使用量也大大增加,网络出现故障的频率也越来越高。由于网络具有多样性和复杂性的特点,当遇到网络故障时,就需要网络管理者利用丰富的实践经验和网络知识进行综合分析。本文就从网络故障的性质进行分析,希望能给予大家一定的帮助。
1 网络物理故障的分析排查
网络物理故障通常包括线路故障、端口故障、设备故障等,就是指因各种网络设备和线路引发的故障。下面笔者就对几类常见的物理故障进行分析排查。
1.1 线路故障排查
线路故障是网络故障中最常见和最频繁的一类故障,日常的网络维护中排查线路就是处理故障的一个重要方法。
(1)线路不通。
当线路不通时,首先检查水晶头是否接触不良或掉出,还可使用网络电缆测试仪对故障线路两端进行测试,通过测试可分析是否为线路损坏,这类故障比较容易排查,重新更换网线或重做水晶头即可解决。
错误的线序也是导致线路不通的重要原因,根据网络规范要求,各类设备之间的连接需采用交叉线或直通线连接(T568A或T568B)。这类故障通过测试仪也能排查出来。
1.2 端口故障排查
常见的端口故障主要是指网络设备端口的故障,包括路由器端口、网卡端口等。由于长时间的氧化作用,导致网络设备的端口接触不良或损坏。
(1)利用设备信号灯。
网卡、交换机都有状态指示灯,当设备端口出现故障时,在设备上的信号灯就会出现提示。以交换机450T为例,“绿色”表示100M连接,“桔黄色”表示10M连接,“闪烁”表示此端口被禁用,“不亮”表示无连接。通过对信号灯的状态分析,判断出可能发生的故障范围和原因,处理时可转接至空闲端口调试,看是否可以正常通信,从而判定是否是端口问题。
1.3 路由器故障排查
在实践经验中,路由器由于运行环境或自身硬件配置等原因,可能会出现路由器CPU温度过高、CPU利用率过高和路由器内存余量太小等故障。
(1)CPU温度过高。
如果CPU温度过高可能导致路由器烧毁,这是最容易被忽视的故障。由于机房环境的原因,导致路由器灰尘积聚、热量无法散出,从而使路由器的负载过高。预防此类故障就要从常规管理中做起,在做好网络设计的同时,更要保证机房环境。
(2)CPU利用率太高、可用内存容量太小。
此类故障会对网络提供服务的质量与速度产生影响。检测这类故障时,需要利用MIB变量浏览器工具,从路由器MIB变量中读出有关的数据,通常情况下网络管理系统有专门的管理进程不断地检测路由器的关键数据,并及时给出报警。要想有效的解决这种故障,通常的方法就是对路由器进行硬件升级,或者重新规划网络的拓扑结构。
2 网络逻辑故障的分析排查
逻辑故障通常包括网络设备配置错误、端口参数设定不正确等,就是指通过软件重新配置相关参数即可解决的故障。下面笔者对几类常见的逻辑故障进行分析排查。
2.1 设备配置错误
(1)路由器配置错误。
路由器配置错误导致的故障分析解决时相对复杂,需要对配置方法和参数比较熟悉。当发现网络中某条线路没有流量,但可以Ping通线路两端的端口,这时很可能是路由器错误导致的死循环。诊断该故障可以用Traceroute命令,可以发现在Traceroute结果中某一段之后,两个IP地址循环出现。这时可能就是线路远端把端口路由器再次指向了线路近端,最终导致IP包在该线路上来回反复传递。解决这种故障时,需要把远端路由器的端口配置进行更改,并将路由设置为正确配置,从而排除问题。
(2)网卡参数设置故障。
在网卡设置中,常见的逻辑故障主要包括与其他硬件的I/O地址、IRQ、DMA等发生冲突,另外就是网卡的驱动程序未能正确安装。如果出现冲突故障时,打开“控制面板-系统-设备管理”窗口查找原因,尝试更改网卡的IRQ或I/O地址等;驱动程序安装不正确,可在“网络适配器”窗口中查看网卡设备有无黄色“!”或红色“×”号,如有可判定为网卡的驱动程序未能成功安装,这时可找到相应的驱动程序重新安装。
(3)主机配置故障。
主机由于配置不当而产生故障最为常见,其故障可分为IP地址冲突、安全配置不完善等。当某主机IP地址配置与其他主机发生冲突时,或IP地址不在子网范围之内,都会导致该主机无法正常连通。主机安全配置不完善时,恶意攻击者可以利用主机上没有控制的Finger、RPC、rlogin等服务对主机进行攻击,甚至造成主机资源外泄或遭到非法控制等。因此完善的主机安全配置是保护主机的重要手段。
2.2 重要进程或端口意外关闭
在网络中,当一些关于网络连接数据参数的重要进程或端口受系统或病毒的影响时,会导致出现意外关闭的情况。常见的故障有路由器的SNMP进程意外关闭或死掉,当发生这种故障时,网络管理系统将不能从路由器中采集到任何数据,网络管理系统也因此失去了对该路由器的控制。解决此类故障时可利用Ping命令,如果发现线路近端的端口Ping不通,这时应检查该端口是否处于Down状态,如果是说明该端口已经关闭,从而导致故障发生。处理时只需要重新启动该端口应可以使线路恢复连通。
3 网络管理和故障排查经验
(1)排查双绞线:网络中大约一半以上的网络故障产生于双绞线,其主要原因是由于水晶头质量不合格、线路老化、与设备端口接触不良、线序不符合标准等所造成,也是主要的排查对象。
(2)排查网络配置:配置错误是较难分析和解决的故障,一般情况下需检查计算机的IP地址、子网掩码、网关、相关协议(如TCP/IP协议)和DNS服务器的设置是否正确。
(3)保存网络资料:网络资料需要分类保管,当发生故障时可通过资料及时对比调试来解决问题。常用的资料包括网络的设计方案、网络布线图、用户上网端口表、交换机端口配置表等。
(4)维护机房环境:网络设备的运行对机房环境要求很高,要做到科学规划、合理布局,对电气、卫生、温度、电磁干扰等因素不要忽视。
(5)检查电源:网络发生故障时,电源故障是最容易被忽略的,不能因没掉电,就判定电源就没问题,如果遇到莫名其妙的故障时,可以事先检查一下电源是否正常。
无论什么类型的网络故障,只要能掌握网络的故障性质,逐步进行分析排查,最终还是可以找到相应的解决方法的。作为网络管理者,在维护日常网络运行环境的同时,要善于学习知识,认真分析思考,不断总结经验,掌握一套自己的网络故障排查方法。
参考文献
计算机网络技术的普及和发展,给人们的生存方式带来了巨大的变革。人们通过计算机网络获取资源、交换信息已经成为一种常态,但在网络的使用过程中难免会存在各种问题,对人们的学习、工作和生活造成不便,甚至影响到关键数据和经济财产的安全。因此,了解计算机网络的常见故障和处理方法尤为重要。
1 计算机网络的故障类型
计算机网络故障一般可分为物理故障和逻辑故障两类。
物理故障是指由于硬件原因引起的网络故障,常常表现为本地连接断开、网络时断时续等。常见的物理故障包括网线损坏、路由器和交换机故障、网卡损坏、元件接触不良等。
逻辑故障通常表现为本地连接受限、网络不稳定、浏览器显示异常等。逻辑故障主要由计算机网络参数错误、网卡驱动不兼容、路由器配置不合理和病毒入侵等原因造成。
2 计算机网络故障的诊断方法
计算机网络故障具有多变性和复杂性,涉及网线、网卡、路由器、病毒等多方面原因,当计算机网络发生故障时,我们可以根据经验初步判断故障类型,逐层排查,最终确定故障所在。计算机网络故障的诊断应从三个方面入手。[1]
1)先检查可直接观察和判断情况的外部设备,如网线是否损坏、路由器指示灯是否正常等,再考虑设备内部的软硬件问题。
2)先检查是否为本地计算机的网络故障,如病毒入侵、驱动程序损坏、网卡松动等,再考虑网络链路、路由器、交换机的故障。
3)先检查计算机、路由器的网络参数配置,如果没有问题,再考虑设备的硬件故障。
3 常见故障的分析和处理方法
3.1 物理故障
1)线路连接问题
线路连接问题是硬件故障中最常见的一种,占所有网络故障的70%以上。[2]常见的线路故障包含接口松动、线路损坏和电磁干扰三类,例如路由器或交换机的电源插头未通电、RJ45水晶头损坏或松动、网线因挤压和拉扯而损坏、周边有较强电磁波干扰等。线路连接的检测可通过替换排除法和专业仪器测试的方式进行。对于水晶头和线路损坏等问题,可通过更换来解决;对于电磁干扰问题,则可选用屏蔽强度较高的网线。
2)路由器和交换机故障
路由器和交换机是计算机网络中路由转发和数据交换的核心设备,是局域网内设备能否连通广域网的关键。路由器和交换机故障主要是指物理损坏,造成设备不能通电、端口故障等问题,可通过信号灯的状态和替换排除法进行判断。
信号灯的状态直接反映了路由器和交换机的工作状态,如系统运行和端口连通是否正常。在使用替换排除法时,可将网线逐个连接到路由器和交换的端口进行检测,如果部分端口连通正常,则可判定为设备的端口故障;如果所有端口均不能连通,则可判定为零部件发生故障。如果路由器不能加电而电源线连通正常,则考虑是路由器的电源问题。
3)计算机网卡问题
计算机网卡发生故障,也将导致网络连接出现问题,常见的故障包括网卡松动、网卡金手指氧化、网卡硬件故障、卡槽损坏等。网卡的故障检测分为两个步骤进行:(拔出网卡,仔细清理卡槽内的灰尘,用橡皮擦小心擦拭网卡金手指,之后重新插入卡槽,如果恢复正常则认定为网卡松动和金手指氧化所引起的接触不良。(如步骤一无法恢复正常,可将正常使用的网卡更换到故障计算机中,如果问题得以解决则说明是网卡硬件故障,更换网卡即可,否则就可能是网卡的插槽损坏。
3.2 逻辑故障
1)路由器参数配置问题
路由器在购买和安装之后通常需要进行参数配置,包括网络参数、DHCP、安全管理等设置,如果参数配置错误,则会引起网络连接不上、经常掉线等问题。路由器的参数配置首先是WAN口的配置,需要根据具体的网络环境设置WAN口的连接类型和连接模式,例如静态IP还是PPPOE拨号、是自动连接还是定时连接等。
在一些大型的局域网环境中,难以做到给每一台计算机进行参数分配,为了避免IP地址冲突和提高使用运行效率,还需进行DHCP服务器的配置,如果参数配置出现问题,则会影响整个局域网的连接。此外,有些路由器还进行了安全管理设置,如访问限制、防火墙和远程web端口的设置等,都影响了用户的网络连接。
2)计算机网络配置问题
计算机的网络配置主要是指通信协议(TCP/IP)的配置,通信协议被破坏或遭到篡改都会导致网络连接故障。当计算机出现网络连接受限等提示时,应首先检查TCP/IP的设置是否正确,如是否设置了静态IP和DNS服务器的地址,以及IP地址是否和路由器在同一个网段等。如果网络连接正常,QQ能正常使用但不能访问浏览器网页时,则往往是DNS的配置出现错误,一般来说,重新设置DNS服务器的地址即可解决问题。
3)计算机网卡驱动程序问题
计算机网卡驱动程序的问题一般分为两种:驱动程序未安装或被卸载、驱动程序与网卡不兼容。使用者由于误操作而删除驱动程序和相关文件的事情时有发生,造成网络连接错误或找不到本地连接等问题,可打开设备管理器,查看网络适配器的运行状态,如果有黄色问号或运行不正常等提示,则卸载驱动程序重新进行安装。
网卡驱动程序不兼容的问题常常出现在重装电脑的过程中,造成驱动程序无法安装或网络连接故障等,可对驱动程序进行升级,或下载官方驱动程序重新安装,一般可解决问题。
4)网络病毒攻击和黑客入侵问题
网络病毒攻击和黑客入侵波及范围大、危害程度高,是最常见网络故障诱因之一,可造成计算机网络访问异常、整个局域网运行缓慢、核心设备参数被篡改、关键数据被盗取等种种问题,严重的可引起整个网络瘫痪、造成经济损失和威胁人身安全,是计算机网络安全防护的重中之重。一旦出现网络连接异常和安全信息提示时,应立即进行漏洞修复、病毒扫描等相关处理。此外,路由器、防火墙等核心网络设备的管理账号和口令应具备较高的复杂性,以提高网络安全防护性能。
4 计算机网络的维护
为了减少网络故障的发生、提高网络运行的效率和安全性,在使用过程中,我们还需对计算机网络进行合理的维护,主要包括以下几方面。
1)定期检查设备的运行情况
定期检查计算机、路由器、交换机等设备的运行情况,对出现故障的设备进行及时的维修和更换,避免因设备的突然损坏造成不必要的损失;同时应对软件系统进行维护和更新,及时修复系统漏洞、安装系统更新、升级安全防护软件,保证网络的稳定运
2)加强安全防护措施
加强路由器的安全性措施,限制系统的物理访问,禁用不必要的功能和端口,严格管理登录账号和口令,防止病毒攻击和黑客入侵;[3]还可设置一定的网络访问限制,规定哪些网站用户不可访问,避免用户因误操作而带来的安全隐患。
3)保持网络机房的环境卫生
计算机、路由器等设备在使用的过程中,CPU、主板、风扇、卡槽等部位容易积累大量的灰尘。灰尘会影响设备的散热性能,造成零部件的接触不良,加速设备的老化,而且容易引发静电,可能导致元件的损坏。因此,需定期对设备进行除尘,保持网络机房的环境卫生。
5 结束语
随着科学技术的发展,计算机网络已经成为人们生活的重要组成部分,了解计算机网络的常见故障和处理方法,重视计算机网络的日常维护,才能使我们做到在故障发生前积极防范、在故障发生后迅速补救,使网络的运行更稳定、更高效、更安全。
故障现象:一辆2011年产奥迪Q5运动型多功能车,行驶里程1.5万km,用户反映该车信息娱乐显示屏黑屏,但是有声音,其他功能正常。
检查分析:维修人员接车后确认故障现象同用户所描述的一样,分别打开收音机和DVD播放机,都能听见声音,但显示屏无显示。该车采用第三代MMI多媒体交互系统,其光纤网络(MOST)结构如图1。从中可以看出前部信息控制单元J685(即前部显示屏)并不在MOST系统上,而是通过LIN线与信息系统控制单元(J794)相连的。该车只是显示屏黑屏,没有影响到其他功能,也说明MOST总线上的信号传递没有受到影响,能正常传递信号。
连接VAS5052诊断仪,检查控制单元故障存储器内的故障码,有故障码02259——前部信息控制单元J685无信号(图2)。分析故障码的可能原因有:供电熔丝SD3熔断;熔丝前供电问题;熔丝到J685的线路故障;J794和J685之间的LIN总线短路或断路;J685本身故障。于是按照这一思路逐项检查。
根据电路图检查J685供电熔丝SD3,正常i测量SD3熔丝输入端的电压,为蓄电池电压。拆下显示屏J685,断开其后部的插接器,用万用表测量其供电线,发现电压为0 V,说明熔丝到J685之间的线路出现故障。拔下熔丝仔细检查线路导通性时,发现熔丝盒上的针脚太大,熔丝连接松旷,处于断路状态。原来这便是故障根源。
故障排除:处理熔丝盒上的针脚,保证其连接可靠,装复试车,故障排除。
故障2 关键词:MOST诊断线
故障现象:一辆201 2年产奥迪A6L轿车,行驶里程9083 km,用户反映该车信息娱乐系统瘫痪无法使用,按压操作面板任何按键均无反应,显示屏黑屏。
检查分析:维修人员接车后检查发现MMl显示屏只能伸出一些,完全无法正常使用。连接诊断仪VAS5052检测,在数据总线诊断控制单元(J533)中有故障码U104900——光纤数据总线断路。读取网关列表,发现有关MOST总线的控制单元都无法达到。
造成这种现象的原因是,当某个控制单元向光纤发送光信号时,此信号会一直沿着光纤传递下去,直到该控制单元再次接受到这个信号,才会终止这个信号的传递。这样就形成了一个由光纤连接所有MOST总线控制单元的环形结构。当其中任何一个控制单元或者光纤出现故障时,无法形成回路,就会使整个系统处于瘫痪状态,所有控制单元都无法诊断。
为了能准确判断故障,MOST系统在开发时就在每个控制单元上安装了1根并联的诊断线(图3)。J533的“回路中断诊断”功能通过此诊断线向MOST系统中的各控制单元发送信号,要求各控制单元检查自身的功能、供电和搭铁,并在光纤上发送光信号,同时通过光纤接收上一个控制单元发出的光信号。检查完毕后,各控制单元通过诊断线向主控单元J533反馈一个信号(包括控制单元自身的功能、供电和搭铁是否正常,是否发送了光信号,是否接收到上一个控制单元发出的光信号)。
J533根据这些信号会判断出是哪个控制单元出现电器故障或是光学故障。J533先诊断电器故障然后再诊断光学故障,电气正常(控制单元的供电和搭铁正常)是判断光学故障的基础。当J533诊断出某控制单元光学故障时,系统只能判断出这个控制单元没有检测到光信号,无法判断出是自身接收信号的问题,还是上一个控制单元发出的信号问题,或是这2个控制单元之间的光纤存在故障。这就需要进一步确定故障的原因,可以采用短接法,即不经过报出故障码的控制单元而让光纤直接形成回路。这样可以快速确定是否该控制单元自身问题。此种方法必须在形成最小的光纤回路上有2个控制单元:数据总线诊断控制单元(J533)和信息系统控制单元(J794)。
维修人员连接VAS5052诊断仪,选择引导功能进入J533,选择回路中断诊断测试,根据提示选择相应的配置,诊断结果如图4。系统给出的电器方面的故障原因有:熔丝有故障:控制单元供电中断:控制单元有故障;控制单元诊断线断路。
检查MOST系统中所有控制单元的熔丝和搭铁,均正常。而信息系统控制单元(J794)、仪表板控制单元(J285)和收音机(R)这3个控制单元同时损坏的概率很低。因此,维修人员把检查方向主要放在了控制单元的诊断线上。查阅电路图(图5),发现诊断线是和所有MOST系统上的控制单元并联在一起的。测量J533的T32b插接器32号脚,电压11.5 V,在正常范围内(J533诊断线有电压输出,说明控制单元正常)。再分别测量该针脚与J285的T32插接器1号脚、J794的T8h插接器7号脚以及收音机T101插接器的11号脚之间的导通性,发现均为断路。继续测量发现,J285的T32插接器1号脚和J794的T8h插接器7号脚之间的导线是导通的,由此可以初步判定,J533到诊断线结点之间的导线存在问题。于是维修人员沿着这一线束查找断点,在拆除地毯后发现J533与总线线束连接的地方线束破损。
然而,修复线束后启动MMI系统,还是无法打开。维修人员再次连接诊断仪,执行回路中断诊断测试,系统再次诊断出收音机故障(图6)。检查收音机熔丝,没有熔断,断开收音机上的插接器测量,有12V供电电压,但是发现收音机插接器上的供电端插孔比较松旷,造成接触不良。
关键词:计算机网络故障;步骤;工具;维护
中图分类号:TP393文献标识码:A文章编号:1009-3044(2009)26-7362-02
Failure and Maintenance of Computer Networks
LUO Xiu-di
(The State Administration of Radio Film and Television Station 751, Shaowu 354011, China)
Abstract: The failure of computer networks have been classified in a computer network failure put forward for resolving the general steps, common tools, as well as common computer network fault diagnosis and treatment.
Key words: computer network failure; steps; tools; maintenance
随着电子政务、企业信息化和电子商务的迅速发展,计算机网络正在融人社会生活的各个方面。计算机网络的广泛应用带来了许多便利,人们对网络的稳定运行提出越来越高的要求。但随之而来的网络故障也带来了很多烦恼,轻则影响用户网络运行质量,重则导致整个网络瘫痪,带来巨大的经济损失。在网络出现故障时要做到及时发现网络故障、准确定位网络故障并且能及时排除故障就显得特别重要。
1 网络故障的分类
计算机网络按不同的方法可以分为许多种类[1],下面介绍常见的三种分类方法。
1.1 按故障性质分类
以网络故障的性质可分为物理故障和逻辑故障。物理故障也称为硬件故障,一般指的是设备或线路损坏、插头松动、线路受到严重电磁干扰等情况,或为人为疏忽导致网络连接错误等现象。此类故障所引起的故障表现通常是时断时续或网络完全断开。
逻辑故障也称为软件故障,主要是软件安装或配置错误引起的网络异常或故障,相对来说比硬件故障要复杂得多。主要是网卡驱动问题、网络协议问题、IP地址冲突问题等。通常表现为无法浏览网页、时断时续、网速缓慢等。
1.2 按TCP/IP模型分类
TCP/IP协议将网络分为四层,分别是网络接入层,网络层,传输层和应用层。各层中的主要故障划分为网络接入层故障、网络层故障、传输层故障和应用层故障。
1.3 按覆盖范围分类
按照网络故障覆盖的区域划分,可分为小范围故障、网段内故障、局域网故障和广域网连接故障等。
2 网络故障诊断和排除的一般步骤
网络故障诊断以网络原理、网络配置和网络运行的知识为基础。从故障现象出发,以网络诊断工具为手段获取诊断信息,确定网络故障点,查找问题的根源,排除故障,恢复网络正常运行[2]。
2.1 了解故障,归纳症状,找出故障点
排除网络故障的第一步就是要确定故障的具体现象,发现症结所在,并确定其对网络产生的影响。搜集与当前故障相关的准确信息,缩小故障原因排查范围。寻找故障点的思路为:尝试重新执行用户任务再现故障状况,排除应用程序操作不当、权限设置问题、本地计算机故障等原因,然后再将故障原因锁定在网络系统,再逐步明确到服务器、路由器、集线器或线缆等特定组件;最后再将各特别组件故障的原因定位到部件的软件故障还是硬件故障上。
2.2 确定原因,制定实施解决方案,测试效果
在网络故障排查过程中,应从最明显的迹象开始寻求最有可能导致故障的原因,制定详细的故障排除方案,并严格按照方案的相关措施进行故障排查,在故障排查的过程中做好故障排查记录。在故障得到解决后,还应测试网络的相关效果,确保在排除网络故障的同时不至于引发另一故障隐患。
2.3 分析解决方案,编制解决方案文档
在故障排除过程中,应将网络当成一个不可分割的整体,避免将精力过分集中于某个用户、应用或局域网的故障―这一点非常重要。在某些情况下,在实施某项故障解决方案的同时,可能引发更加严重或波及更多用户的故障。
建立健全事件管理体系,将每次故障登记在册,并包含与问题和隔离解决步骤相关的完整记录。认真记录档案资料还可为以后的网络管理工作提供经验和资料。
3 常用的网络故障诊断工具
常见的网络故障诊断工具有很多,下面简单介绍几个。
3.1 Ping命令
Ping命令[3]通过向远程目的设备发送ICMP回应报文并且监听回应报文的返回,来校验与远程设备的连通性。带“-t”,“-l”命令参数的Ping命令还可以检查网络连通的可靠性,如果大包的Ping命令成功返回,就可以证实源点到目标之间所有物理层、数据链路层和网络层的运行功能基本正常。Ping网址还可以检查位于应用层的DNS是否工作正常。
3.2 Tracert应用程序
Tracert命令提供了数据包从源到达目的地的网络路径的路由器列表,所显示的路径是源主机与目标主机间的路径中,路由器的近侧接口列表,主要用于路由追踪。
3.3 PathPing命令
PathPing命令主要用于提供在来源和目标之间的中间跃点处的网络滞后和网络丢失信息。PathPing将多个回响请求消息发送到来源和目标之间的各个路由器,然后根据各个路由器返回的数据包大小计算路由器或链接的数据包的丢失程度,从而确定引起网络问题的路由器或子网。
3.4 CHARIOT软件
CHARIOT是一种多功能网络业务测试软件,支持FTP,HTTP,IPTV,Netmeeting,RealAudio等120多个应用层网络功能测试,通过它可以测量点到点之间的传输速率,主要用于网络Ping命令测试,属应用层网络故障分析诊断工具。
3.5 SNIFFER类软件
SNIFFER类软件可以捕捉TCP/IP协议模型各个层次上网络传输的数据包,通过对网络实时信息进行监控,对保存的历史数据报进行统计分析,从而定位网络故障发生的原因,SNIFFER类工具有很多,较常用的有SINFFER,OMNIPEEK等。
3.6 线缆测试仪
线缆测试仪是针对TCP/IP模型的物理层设计的,这是一种便携的、能快速排查线缆故障的诊断仪器,常用的测试电缆仪表有万用表、RJ45或RJ11网络线缆测试仪等,测试光缆的有激光笔、光功率计等。
3.7 网络测试仪
网络测试仪通过检查所有通过仪器的信息,发现相关的线索,从中得到故障诊断信息,这种设备是为TCP/IP下3层故障诊断设计的。
4 常见故障的维护
4.1 电缆连接故障或端口
线路故障[4]一般包括线路的损坏及线路受到严重的电磁干扰等,该故障的发生几率非常高,大约占所有物理故障的70%。对于线路损坏故障的检检测方法为:若线路短,可将网络线一端插入一台能够正常接入局域网主机的RJ45插座,另一端插入正常的HUB端口,然后从主机上Ping线路另一端的主机或路由器,根据通断来判断;假如线路稍长,或者网线不方便调动,可用网线测试器测量网线的好坏;假如线路很长,是由电信部门提供,那就需要他们检查线路,确定线路情况。对于严重的电磁干扰,可以用屏蔽性较强的屏蔽线在该段网络上进行通信测试。若通信正常,则表明存在着电磁干扰,这时应将网络远离高压电线和电磁场较强的设备;若通信不正常,则应考虑其他原因。
端口故障通常包括插头松动等物理故障,一般影响与其相连的设备,可以通过检查信号指示灯的状态,判断故障的发生范围及原因,也可以使用其他端口检查连接是否正常。其中最为常见的是网卡故障,采取的措施多为重新插卡或换卡的方法进行。
4.2 集线器或路由器故障
集线器或路由器故障[4]有软故障和硬故障。若为硬故障导致网络不通。最简易的方法是替换排除法,用通信正常的网线和主机来连接集线器(或路由器),如能正常通信,则集线器或路由器正常;否则,再转换集线器端口排查,是端口故障还是集线器(或路由器)的故障;很多时候,集线器(或路由器)的指示灯也能提示其是否有故障,正常情况下对应端口的灯应为绿灯。如始终不能正常通信,则可认定是集线器或路由器故障。
路由器软故障通常包括路由器端口参数设定有误、路由器路由配置错误、路由器CPU利用率过高和路由器内存余量太小等。路由器端口参数设定有误,会导致找不到远端地址,用Ping命令或用Traceroute命令,查看在远端地址哪个节点出现问题,对该节点参数进行检查和修复。路由器路由配置错误,会使路由循环或找不到远端地址,解决路由循环的方法就是重新配置路由器端口的静态路由或动态路由,把路由设置为正确配置,就能恢复线路了。路由器CPU利用率过高和路由器内存余量太小,导致网络服务的质量变差,解决这种故障,只有对路由器进行升级、扩大内存等,或者重新规划网络拓扑结构。
4.3 软件系统故障
架构网络[3]的目的就是为了提供各项网络应用服务。由于网络软件系统(包括网络操作系统、网络协议软件以及网上应用系统)自身存在各种缺陷,再加上各类病毒软件的危害,造成主机安全性故障。排除此类故障通常采用升级系统、安装补丁、安装杀毒软件进行查杀病毒和防防火墙来防范病毒蔓延和攻击。新的应用系统在投入使用之前应根据运行环境、数据量的大小和用户数量做好相应测试和小范围试运行的工作,然后再投入正常使用。
主机的网络地址参数设置不当是常见的逻辑故障。包括主机配置的IP地址与其他主机冲突,或IP地址根本就不在于网络范围内,这将导致该主机不能连通。发生类似的情况,可通过查看网络邻居属性中的连接属性窗口,检查TCP/IP选项参数是否符合要求,包括IP地址、子网掩码、网关和DNS参数,对错误的设置进行修复。
4.4 主机安全性故障
主机主机性故障包括主机资源被盗和黑客入侵。对于主机资源要注意不要轻易地共享本机硬盘;对于主机被黑客
控制的故障可以通过监视主机的流量、扫描主机端口和服务,安装防火墙和加补系统补丁来防止可能的漏洞。
5 结束语
网络故障的发生是不可避免的,当网络故障发生后,如何快速地定位网络故障点,恢复网络的正常运行,是网络维护技术人员必修的课题。在面对网络故障时,我们不仅要具有相关的知识和丰富的经验,还应注意遵循网络故障诊断的一般方法和步骤。
参考文献:
[1] 刘伯华,李新强,魏宏昌.网络故障的诊断和排除[J].计算机与网络,2008(10):47-51.
[2] 刘建友.常见网络故障的维护[J].装备制造技术,2008(7):133-134.
关键字:计算机;网络故障;故障诊断;维护排除策略
中图分类号:TP393.06 文献标识码:A 文章编号:1007-9599 (2012) 10-0000-02
一、前言
计算机网络技术的发展,促使人们的生活生产方式发生重大变革。随着网络用户日益增多,计算机网络成为人们生活中不可或缺的重要组成部分。人们通过将不同的计算机终端互联起来形成一个计算机网络系统。然而,计算机网络故障一旦发生就会给日常工作、生活带来巨大不便,甚至造成巨大的损失[1]。同时,网络故障是影响计算机网络系统稳定性、有效性的重要影响因素[2]。这就需要人们不断探讨计算机网络维护的策略,从而确保通过不同通讯设备和线路进行信息交换、资源共享等的网络系统安全、可靠、稳定运行。本文研究了计算机网络维护中所注意的事项以及常见网络故障的诊断与排除策略,提出了有关计算机网络的逻辑类故障、物理类故障、网络病毒故障等的策略,希望有助于加深人们对计算机网络故障的了解与认识。
二、计算机网络维护注意事项
(一)强化服务器操作系统的管理
服务器操作系统是整个网络正常运转的保障,只有服务器操作系统安全、稳定运行,才能为用户提供更便捷的网络。因此,这句需要相关管理人员利用操作系统提供的和从网上下载的管理软件,实时监控系统的运转情况,并记录系统运转的详细数据资料,优化系统性能,及时发现故障征兆并进行处理。
(二)注重网络的安全管理
近年来,计算机病毒、黑客越来越普遍,使得人们对计算机网络安全提出了更高的要求。然而,网络安全管理应该说是网络管理中难度比较高,长期以来都是相关管理人员所面临的难题。因为,计算机网络用户可能会访问各类网站,并且安全意识比较淡薄,不注重就算计防毒处理,所以感染到病毒是再所难免的。在同一个网络中,一旦有一台机器感染,那么就会起连锁反应,致使整个网络陷入瘫痪,从而影响到计算机网络系统的正常工作。因此,必须注重网络的安全管理,对系统进行安全漏洞扫描,为服务器设置好防火墙,安装杀毒软件,还要定期的进行病毒扫描。
(三)强化对网络基础设施的管理
一般情况下,对于网络基础设施的主要涉及到掌握机房主干设备的配置及配置参数变更情况,各项网络指标是否合格,服务器、交换机和路由器等是否工作正常。因此,在网络维护管理过程中,相关负责人员必须进行网络布线配线架的管理,掌握内部网络连接情况,确保配线的合理有序,一旦发现问题迅速定位,及时找出解决策略,并且还要实时监控整个机房内部网络的运转和通信流量情况,确保计算机网络的正常运转。
三、计算机网络故障的诊断与排除策略
(一)逻辑类故障
1.用户的网络IP地址参数设置不合理
用户的网络IP地址参数设置正确与否直接关系到用户能否接入因特网,这也是常见的主机逻辑故障,在联网之前必须确保IP地址等设置正确。例如,所设置的IP地址是根本就不处于网络规定的围内时,将导致该主机不能连通,不能正常上网。排查方法:查看网络邻居属性中的连接属性窗口,点击并查看TCP/IP选项参数是否符合要求,是否是处于你所连入网络的地区的IP地址范围,同时还要查看子网关、网掩码和DNS参数等,一旦发现问题必须进行修复。
2.主机逻辑故障
在常见网络故障中,主机逻辑故障是导致网络故障的常见影响因素,其中包括网卡设备有冲突、网卡的驱动程序安装不当、主机网络协议或服务安装不当和主机安全性故障等。排查方法:检查检查网卡选项,看主机驱动是否安装正常,在检查中如果网卡型号前标示出现“x” 或“!”符号时,表明此时网卡无法正常工作,需要重新找到正确的驱动程序进行安装[3]。
3.主机的网络协议或服务安装不正确
主机安装的协议必须与网络上的其它主机相一致,一旦主机服务或者网络协议安装不当时,将会导致网络无法连通,计算机出现网络故障。例如,出现无法正常通信,协议不匹配,不安装会使自身无法共享资源给其他用户,还有一些服务如 “文件和打印机共享服务”,等。此外, E-mail服务器设置不合理也会影响用户收发E-mail的情况。排查方法:通常情况下,只需要在本地连接属性窗口或者网上邻居属性中在查看所安装的协议是否与其他主机是相一致的,如果不一致直接更改过来即可。
(二)网络病毒故障
计算机网络病毒每天都在不停地更新换代,它具有种类繁杂多样、传播范围广、破坏性强和传播速度快等特点,严重地影响用户的正常上网,已经引起了社会各界的重视。很多病毒都是通过电子邮件和网例如,网卡驱动正常,用路由器上网,中病毒后,路由器也无法登陆,当各种网络协议都存在,并且没有什么设置不合理, ping路由器地址可以ping通[4]。这种情况很可能是中了具有ARP欺骗的病毒。对于此类故障在CMD窗口下输入命令:
ping172.19.37.126(输入你所在网络的网关)
如果ping得通,那么一般情况下你的电脑还没有收到ARP欺骗,如果返回Request timed out则一般说明你的电脑受骗了,不过就算ping得通但是仍然有可能是受到ARP欺骗,还需要在CMD窗口下输入静态绑定网关的命令:
arp -s 172.19.37.126 00-e0-fc-59-ef-68。
(三)物理类故障
关键词 网络故障;故障分析;排除方法
中图分类号TP393.0 文献标识码A 文章编号 1674-6708(2010)22-0076-02
网络故障的现象一般表现为网络不通、速度慢或经常掉线。引起网络故障的原因有很多,但归纳起来只有两种:硬件故障和软件故障,而软件故障包括协议故障与配置故障。故障查找的目的是及时地修复网络,投入服务。故障查找既是一门科学也是一门艺术,产生故障的因素很多,可能交织在一起发生,对这些问题技术人员都要认真进行分析与排查。
1 网络故障观察与分析
认真观察故障现象,必要时做好记录。在观察和记录时一定要仔细,尤其要仔细分析设备反馈的信息,有很多智能型的设备会自动记录设备运行的信息。
首先,观察故障。观察故障最重要的目的就是要了解故障现象,从而判断故障位置。观察故障时,应注意以下问题:1)故障现象描述;2)该故障是否出现过;3)故障现象发生时做过的操作;4)故障发生后,系统或整个网络发生的变化。根据统计大约75%的网络故障发生在OSI七层协议的下三层。根据有关资料统计,网络发生故障具体分布为:应用层3%,传输层10%,网络层12%、数据链路层25%,物理层35%。
分析故障产生的可能原因,根据网络结构,分析故障产生的原因,如网卡硬件故障、连接故障、网络设备故障,或者是TCP/IP协议设置不当等等,进行分析后不用急于下结论。进行技术测试,分析可能导致错误的原因,利用软件或硬件工具进行测试,并作好记录。
网终管理员在进行故障排除之前,必须确切地知道网络出了什么毛病,是不能共享资源,还是不能浏览Web页等。知道发生了什么问题并能够及时识别,是成功排除故障最重要步骤。对一名优秀网络管理员的最基本要求,首先就是对问题进行快速定位,也就是说,能够及时找到处理问题的出发点。当然,为了与故障现象进行对比,必须非常清楚网络的正常运行状态。因此,了解网络设备、网络服务、网络软件、网络资源在正常状态下的表现方式,了解网络拓朴结构、理解网络协议、掌握操作系统和应用程序,都是故障排除必不可少的理论和知识准备。在识别故障现象之前,必须明了网络系统的正常运行特性。
网络管理员必须搞清楚故障是如何发生的,是什么原因导致了故障的发生,以后如何避免类似故障的发生,拟定相应的对策,采取必要的措施,制定严格的规章制度。对于一些非常简单明显的故障,对于一些复杂的问题,这却是必须遵循的操作规程。
最后,记录和保存所有的问题。另外,经常回顾曾经处理过的故障也是一种非常好的习惯,这不仅是一种经验的积累,便于以后处理类似故障,还会启发思考许许多多与此相关联的问题,从而进一步提高理论和技术水平。
2 排除的故障方法与策略
2.1 硬件故障与排除
硬件故障即物理故障。当网络发生故障时,首先,想到的就是硬件故障。硬件故障常常涉及很多设备。其中,任何一个设备故障或损坏,都可以导致网络连接的中断。网络的连通性是故障发生后首先应当考虑的原因。任何一个设备的损坏,都会导致网络连接的中断。连通性通常可采用软件和硬件工具进行测试验证。所以,最好先查看双绞线的RJ-45水晶头与网卡或交换机是否连接,观察网卡和交换机接口上的指示灯是否正常。还可以采用软件和硬件工具进行测试验证。例如,当某一台计算机不能浏览Web网页时首先考虑是网络不通的问题。可用Ping命令测试,如果Ping命令测试能够得到网络内的其他计算机,那就可以断定本机到交换机的网路是通的。否则,就有可能是该段网络物理层出现故障。当然也有可能是计算机的网络协议的配置不正确导致的故障。
检查网卡和网络协议是否安装完好,如果无法Ping通本地的IP地址或计算机名,通常是协议配置不正确。这时可以在计算机的“控制面板”的“系统”中,查看硬件列表中有没有网络适配器,这就说明网卡没有安装正确,用鼠标右键单击该设备,在弹出菜单中“卸载”,单击“扫描硬件改动”,重新安装网卡,并正确配置网络协议,然后进行应用测试。为了进一步进行确认,可再换一台确认没有问题的计算机用同样的方法进行判断,若连接正常,则故障一定是先前的那台计算机有故障。网络管理员必须采用有效的软硬件工具,从各种可能导致错误的原因中一一剔除非故障因素。对所有列出的可能导致错误的原因――进行测试,不要根据一次测试就断定某一区域的网络是运行正常或是不正常,也不要停止测试,并使用所有可能的方法来测试。
硬件故障的排除,关键是故障点的定位。硬件故障排除的方法一般是:清掉积尘,重新安装硬件,更换配件安装位置(如更换网卡插槽),更换出故障的硬件或配件。
2.2 软件故障与配置问题
软件故障可分为协议故障与配置故障。网络设备和计算机之间是通过网络协议进行通信的。网络协议配置不正确,也会引起网络不通。如果说没有网络协议就没有网络,没有网络协议,网络内的网络设备和计算机之间就无法进行通信,所有的硬件设备也不过都是一雄摆设而己。因此,网络协议的配置在网络中居于举足轻重的地位,决定着网络能否正常运行。网络协议的含义非常广泛,既包括交换机和路由器执行的网络协议,也包括计算机和路由器执行的网络协议。其中任何一个协议配置不当,或没有正常工作,都有可能导致网络瘫痪,或导致某些服务被终止。
所有的交换机和路由器都有配置文件,所有的服务器、计算机都有配置选项,配置文件和配置选项设置不当,同样会导致网络故障。例如,路由器的访问列表配置不当,会导致网络连接故障;交换机的VLAN设置不当,会导致VLAN间的通信故障。因此,当排除硬件故障之后,就需要重点检查配置文件和选项的故障。当网络内所有的服务都无法实现,则应当检查交换机的配置。如果只有个别服务无法实现,则应当检查提供相应服务的服务器配置。
参考文献
[1]蒋凌云.浅谈校园局域网故障分析[J].科技资讯,2006 (14).
[2]李强.网络常见的几种故障诊断[J].网络与信息,2009 (2).
【关键词】气象业务网络故障诊断故障排除
随着越来越多的先进技术和服务引入到气象业务网络中,网络管理和维护工作变得越来越复杂。局域网在气象系统广泛应用中,常遇到各种故障,正式运行的网络一旦出了问题,需要及时进行检测和诊断,尽快定位并排除故障。
下面介绍一下网络故障的诊断和排除方法。
一、主要的故障种类
根据网络故障的性质把网络故障分为物理故障与逻辑故障,也可根据网络故障的对象把网络故障分为路由故障和主机故障。
1.1物理故障
物理故障即硬件连接故障,指的是设备或线路损坏、插头松动、线路受到严重电磁干扰等情况。网卡没有连接到主板上,网卡的电源灯和数据灯都不亮,设备管理器中检测不到网卡。网线没有连接好,网卡已经驱动,协议也添加,但仍然不能上网,观察网卡硬件连接,网卡只有一个灯亮,不闪烁。
如两个路由器Router直接连接,这时应该让一台路由器的出口连接另一台路由器的入口,而这台路由器的入口连接另一路由器的出口才行。当然,集线器C6D、交换机、多路复用器也必须连接正确,否则也会导致网络中断。还有一些网络连接故障比较隐蔽,要诊断它只有靠经验。
1.2逻辑故障
逻辑故障中最常见的情况就是配置错误,指因为网络设备的配置原因而导致的网络异常或故障。配置错误可能是路由器端口参数设定有误,或路由器路由配置错误以至于路由循环或找不到远端地址,或者是路由掩码设置错误等。逻辑故障的另一类就是一些重要进程或端口关闭及系统的负载过高。如线路中断,没有流量,用ping发现线路端口不通,检查发现该端口处于down的状态,说明该端口已经关闭,导致故障。
1.3路由器故障
线路故障中很多情况都涉及到路由器,也可以把一些线路故障归结为路由器故障。检测这种故障,需要利用MIB变量浏览器,用它收集路由器的路由表、端口流量数据、计费数据、路由器CPU的温度、负载以及路由器的内存余量等数据,通常情况下网络管理系统有专门的管理进程,不断地检测路由器的关键数据,并及时给出报警。
1.4主机故障
主机故障常见的现象就是主机的配置不当。如主机配置的IP地址与其它主机冲突,或IP地址根本就不在子网范围内,由此导致主机无法连通。主机的另一故障就是安全故障。主机没有控制其上的finger、RPC、rlogin等多余服务。而攻击者可以通过这些多余进程的正常服务或bug攻击该主机,甚至得到Administractor的权限等。
二、故障的检测和诊断
大多计算机用Windows操作系统,Windows提供了一些命令行检测工具,这些工具是网络诊断中常用的,而且一般的问题大都可以通过这些命令诊断出来。如果对这些命令很熟悉,在网络出故障时就会运用自如。
2.1用连接故障诊断工具Ping网络诊断
输入命令:ping172.18.82.201(172.18.82.201为本机地址),显示:Pinging172.18.82.201with32bytesofdata:Replyfrom172.18.82.201:bytes=32time=10msTTL=128有"time="的内容,表明可以ping通,网络协议TCP/IP协议正常。执行ping命令后得到信息:Pinging172.18.82.201with32bytesofdata:Requesttimedout.表示不可以ping通,或者是tcp/ip协议可能有问题,或者是计算机到交换机间的硬件连接存在问题。
测试数据传输丢包,输入Pingstatisticsfor172.18.72.56,显示:Packets:Sent=4,Received=2,Lost=2(50%loss),Approximateroundtriptimesinmilli-seconds:Minimum=177ms,Maximum=182ms,Average=89ms信息表示发送了4个数据包,回送收到2个,丢失2个,丢失率为50%。发送数据包最快回送时间177ms,最慢回送时间182ms,平均89ms。如可以ping通自己,也可以ping通邻居或能看到其他机器,表明本地设置正确。网关可以通过软件实现协议转换操作,能起到与硬件类似的作用。ping网关地址,例如ping172.18.82.17-t,就可以查看与网关是否连通。
2.2pathping命令
pathping用于跟踪数据包到达目标所采取的路由,并显示路径中每个路由器的数据包损失信息,也可以用于解决服务质量连通性问题。是一个比tracert更为有用的工具。它将ping和tracert命令的功能和这2个工具所不提供的其他信息结合起来。由于该命令显示数据包在任何给定路由器或链路上丢失的程度,因此可以很容易地确定可能导致网络问题的路由或链路。不过WIN9X/Me、WindowsNT不提供此命令。
可以看出,它先提供给我们查看路由的结果,然后等待75s(此时间根据跃点数变化)最后显示测试结果。第3列是源到当前的丢包数。第4列是指明线路和路由器丢包情况,最右边的栏中标记为"|",表明沿线路转发丢失的数据包,该丢失表明链阻塞;最右边栏中为IP地址的,表明该路由器的丢失率,可能是由于路由器CPU超负荷所致。如果某一处丢包严重,则应采取必要的措失,以提高通信质量。
三、故障排除的解决方案
不系统的故障诊断与排除方法将导致在网络故障现象相互依赖和偶然性的迷宫中浪费时间。系统的网络故障排除方法的总体思路是系统地将产生故障可能的原因所构成的1个大集合缩减成1个小的子集或者直接确定故障起因。
3.1网络适配卡中断与其他硬件资源冲突
在"系统"的"设备管理器"查找旁边出现感叹号的有黄圈的网络适配器项目,找到项目网络适配器可能与其它设备使用同样的资源设置。双击网络适配器项目,在网络适配器"资源"中更改网络适配器的中断和I/O地址,避免与其它硬件冲突。用即插即用的网络适配卡,可使用制造商提供的安装盘将即插即用型改为跳线型,设置网络适配卡的中断和I/O地址。
3.2在"网上邻居"中没有显示网络中的其它计算机
主要研究现有视频监控设备与网络故障诊断分析技术;首先阐述了视频监控设备与网络发生故障后对诊断与检修工作造成的困难,然后论述了故障诊断关键技术,以及基于故障缺陷库和知识库的故障分析统计方法,最后通过实例论证了方法的可行性,对视频监控设备与网络故障诊断分析技术的扩展性做了展望。
关键字:
视频监控;故障诊断;网络性能预警;自动巡检
1背景
电网视频监控平台是智能电网的一个重要组成部分,广泛应用于电网的建设、生产、运行、经营等方面,通过对电力系统中设备、线路及周边环境等生产、经营要素的实时监视及记录,为事故分析提供相关图像资料,是对“四遥”(遥测、遥信、遥控、遥调)功能的进一步补充-“遥视”。新疆电网统一视频监控平台的建设,使不同的视频监控系统能够互联互通,实现统一监控、分级控制、分域管理。目前,视频监控平台共接入15000多个视频监控点位,覆盖了各部门各地州营业厅、变电站、输电线路、信息机房、库房、机关大楼等各个场所,支撑各部门、各单位的视频应用需求。新疆电网统一视频监控平台所涉及设备型号及数量规模越来越大、产品种类越来越多、设备也越来越复杂,同时由于新疆地域广袤、监控场所分布不均匀,运维检修难度较大。另外,平台目前主要提供粗犷型的设备接入状态信息(设备离/在线状态),无法对具体原因进行分析、定位,对于出现故障的设备无法做出快速响应,与运维检修人员故障排查、运维检修脱节,对于设备检修流程缺少有效的跟踪,对平台运行维护造成了新的困难。因此,需要开展对监控设备故障和网络通道故障的分析、精确定位,以及检修过程精益化管控的研究和应用。
2故障诊断关键技术
电网监控设备与网络故障诊断分析技术研究,是进一步提升平台实用化水平,通过故障诊断分析定位、融合设备检修流程等方法,实现对故障设备的快速分析定位协助运维检修人员做好设备故障排查、运维检修工作。主要实现以下目标:
1)通过故障精确诊断分析功能,实现对平台接入设备的实时状态监测,对于离线设备进行快速故障诊断分析、问题定位,并告知运维检修人员进行设备故障检修。
2)通过与现有设备检修流程高效融合,在设备运维检修过程中,实现对运维检修各环节中所涉及的检修人员、响应时间、检修流程进行全过程跟踪。
3)通过大数据分析策略实现对故障原因、故障设备类型、故障频率、典型故障区域、典型故障场景等多维度分析,为后续视频监控建设选型、网络配置标准化提供数据支撑。
2.1网络性能预警技术
网络故障在视频监控故障类中的发生率占比超过50%,而视频信息丢失、带宽不足、路由配置错误、时延过大等情况,是网络故障的最常见情况,因此需要形成以通信网络信道性能预测为中心的关键技术研究。视频传输是基于Internet网络的应用中对网络时延要求较高,一般有两种预测时延的方法:一种是根据时延数据之间的关系,进行拟合,预测未来的时延;另一种通过构建Internet的网络模型,实现对时延的预测。后一种方法相对于前一种方法有着更好的预测效果,这是因为后者不但能够包含时延数据之间的规律,而且能够更好地反映出当前的网络状况以及未来时刻网络的状况和时延情况。本课题采用隐马尔科夫(HMM,HiddenMarkovModel)的方法构建Internet网络模型,预测Internet网络时延。该方法通过预测未来时刻的可观测状态值,准确表示时延数据集的规律以及Internet网络的特性;同时,该方法对于未来的可观测状态的预测有较高的准确性,能够更好地对Internet时延敏感的应用作出决策。
2.2视频质量分析技术
将常见视频质量故障类型、原因、采取的检修方法,以故障缺陷库和知识库的形式固化在监控平台中,通过视频图像质量分析的方法结合缺陷库和故障知识库,在巡检工单或检修方案中给出故障检修建议。按照视频图像质量、系统登录情况、网络信号丢失率等故障分类,自动填写检修工单,视频质量故障。
2.3故障自动巡检方法
人工方式通过监控画面巡检,发现故障的效率非常低,而且不能精确定位故障原因。因此,需要研究设备故障自动巡检功能,通过设置任务的定期重复执行来实现,如下图1所示:对故障诊断任务设置每日、每天、每月执行的方式,简化工作人员重复建立故障诊断任务的工作量,提高工作效率。同时,诊断功能对任务诊断到的异常设备自动生成工单在夜间进行下发,次日可以在设备运维人员的账号上看到设备工单,进而进行消缺。
3故障诊断实施方案
3.1故障知识库与运行缺陷库构建
在构建知识库的基础上,通过对设备故障原因、故障类型、故障频率、典型故障区域、典型故障场景等多维度分析,形成设备运行缺陷库。通过对具体设备故障或网络故障的进行细分,实现对设备故障的定位,精确到单个路由器,例如设备网络不通时,经过哪些路由后网络不通,大大简化设备故障的消除。通过平台设备运行数据综合统计和分析功能的建设,实现对平台视频设备历史运行情况多时间维度的统计和分析,可以方便运维和检修人员对重点故障区域和故障设备类型制定针对性整改方案,有效提高平台指标情况。并通过对历史数据信息进行多维度统计分析为运维检修人员提供重点故障区域和设备类型等信息,为运维检修人员进行针对性整改提供决策数据辅助。
3.2故障诊断业务架构
电网统一视频监控平台为各业务领域下的变电站、输电线路、营业厅、变电站、办公大楼、应急场所等视频监控应用场景提供视频源,实现实时视频、录像回放、运行工况、资源管理、资源调度等业务功能。新增设备故障精确分析诊断功能,实现设备运行故障快速诊断分析定位,规范设备检修流程,形成设备运行缺陷库。故障诊断分析定位:通过网络跟踪的技术对电网统一视频监控平台设备运行故障进行诊断分析,协助运维检修人员快速定位、分析、排查故障的原因。通过网络故障诊断,能够精确到监控设备所经过的的故障路由位置(IP地址)。检修流程标准化:通过设备诊断结果与设备检修流程的高效融合,实现设备检修流程各环节的实时跟踪处理,规范设备检修流程。缺陷库:通过对设备故障原因、故障类型、故障频率、典型故障区域、典型故障场景等多维度分析,形成设备运行缺陷库。统计分析:对设备接入故障信息进行多维度统计分析,可以按照监控设备部署区域或者运维区域进行故障统计,生成设备故障统计分析报表、图表。
4实现与展望
电网监控设备与网络故障诊断分析技术,已经在新疆电网统一视频监控平台中推广应用,各全疆地州通过巡检功能对本地区设备进行定期全面检测,可以对全疆13地州15000余路视频情况进行定期诊断。通过电网视频监控设备离线率原因分析、网络通道故障预测和定位、设备检修流程各环节实时跟踪处理,构建视频监控设备和网络运维检修标准化流程、多维度分析运行缺陷库、故障情况实时跟踪和检索机制、历史运行情况多时间维度的统计和分析功能,为后续设备选型、制定标准化网络配置、设备运行情况分析、重点故障区域和故障设备类型制定整改方案等过程提供辅助决策数据。视频监控设备与网络故障诊断分析技术,对于规模越来越大、业务越来越多、设备越来越复杂的电网系统的安全运行,以及监控平台的运维检修具有较高的实用价值和推广意义,。后续,对于信息通信系统和资源的运维管控,会趋于在统一管控平台上实现,例如网络和通信网管、设备管理系统、运维检修平台等,将会出现一个统一的、协同的运维管控平台。
参考文献:
[2]高杨.视频质量诊断算法研究与实现[D].沈阳:东北大学,2011.
[3]吴贵达.基于Internet的动态网络资源管理—网络故障监控与性能趋势分析[D].西安:西北工业大学,2004.
[4]潘瑞雪.基于SVM的故障视频图像识别与诊断技术研究与实现[D].武汉:华中师范大学,2014.