|
网络中可能出现的故障多种多样,解决一个复杂的网络故障往往需要广泛的网络知识与丰富的工作经验。这也是为什么一个成熟的网络管理机构制定有一整套完备的故障管理日志记录机制,同时人们也率先把专家系统和人工智能技术引进到网络故障管理中来的原因。另外,由于网络故障的多样性和复杂性,网络故障的分类方法也不尽相同。
|
|
|
|
根据网络故障的性质可以把故障分为物理故障与逻辑故障。
|
|
|
(1)物理故障。物理故障是指设备或线路损坏、插头松动、线路受到严重电磁干扰等的情况。比如,网络中某条线路突然中断,这时网络管理人员从监控界面上会发现该线路流量陡然下降或系统弹出报警界面,此时首先用ping检查线路在网络管理中心的端口是否连通。如果不连通,则检查端口插头是否松动,如果松动则插紧,再用ping检查,如果连通则故障解决。这时需把故障的特征及其解决步骤详细记录下来。也有可能是线路远离网络管理中心的那端插头松动,此时则需要通知对方进行解决。另一种常见的物理故障就是网络插头误接。这种情况经常是在没有搞清网络插头规范或没有弄清网络拓扑规划的情况下导致的。另一种情况,比如两个路由器直接连接,这时应该让一台路由器的出口连接另一台路由器的入口,而这台路由器的入口连接另一台路由器的出口才行,这时制作的网线就应该满足这一特性,否则也会导致网络误接。不过像这种网络连接故障显得很隐蔽,要诊断这种故障没有什么特别好的工具,只能依靠经验。
|
|
|
(2)逻辑故障。逻辑故障中的一种常见情况是配置错误,就是指因为网络设备的配置原因而导致的网络异常或故障。配置错误可能是路由器端口参数设定有误,或路由器的路由配置错误以至于路由循环或找不到远程地址,或者是网络掩码设置错误等。比如,同样是网络中某条线路故障,发现该线没有流量,但又可以ping通线路两端的端口,这时很可能就是路由配置错误导致循环了。诊断该故障可以用traceroute工具,可以发现在traceroute的结果中某一段之后,两个IP地址循环出现。这时,一般就是线路远端把端口路由又指向了线路的近端,导致IP地址在该线路上来回反复传递。这时需要更改远端路由器端口配置,把路由设置为正确配置,就能恢复线路了。当然处理该故障的所有动作都要记录在日志中。
|
|
|
逻辑故障中另一类故障就是一些重要进程或端口关闭,以及系统的负载过高。比如,路由器的SNMP进程意外关闭或死掉,这时网络管理系统将不能从路由器中采集到任何数据,因此网络管理系统失去了对该路由器的控制。还有,就是线路中断,没有流量,这时用ping发现线路近端端口ping不通,检查发现该端口处于down的状态,就是说该端口已经关闭了,因此导致了故障。这时只需重新启动该端口,就可以恢复线路的连通了。
|
|
|
|
根据故障的不同对象可将网络故障划分为线路故障、路由器故障和主机故障。
|
|
|
(1)线路故障。线路故障最常见的情况就是线路不通。诊断这种故障可用ping检查线路远端的路由器端口是否还能响应,或检测该线路上的流量是否还存在。
|
|
|
一旦发现远端路由器端口不通,或该线路没有流量,则表示该线路可能出现了故障。这时有几种处理方法。
|
|
|
首先是ping线路两端的路由器端口,检查两端的端口是否关闭了。如果其中一端端口没有响应,则可能是路由器端口故障。如果是近端端口关闭,则可检查端口插头是否松动,路由器端口是否处于down的状态;如果是远端端口关闭,则要通知线路对方进行检查。进行这些故障处理之后,线路往往就通畅了。
|
|
|
如果线路仍然不通,一种可能就是通知线路的提供商检查线路本身的情况,看是否线路中间被切断等。另一种可能就是路由器配置出错,比如路由循环了。就是远端端口路由又指向了线路的近端,这样线路远端连接的网络用户就不通了,这种故障可以用traceroute来诊断。解决路由循环的方法就是重新配置路由器端口的静态路由或动态路由。
|
|
|
(2)路由器故障。事实上,线路故障中很多情况都涉及路由器,因此也可以把一些线路故障归结为路由器故障。但线路涉及两端的路由器,因此在考虑线路故障时要涉及多个路由器。而有些路由器故障仅仅涉及它本身,这些故障比较典型的就是路由器CPU温度过高、CPU利用率过高和路由器内存余量太小。其中最危险的是路由器CPU温度过高,因为这可能导致路由器被烧毁。而路由器CPU利用率过高和路由器内存余量太小都将直接影响网络服务的质量,比如路由器上的丢包率就会随内存余量的下降而上升。
|
|
|
检测这种类型的故障,需要利用MIB变量浏览器工具,从路由器MIB变量中读出有关的数据。通常情况下,网络管理系统有专门的管理进程不断地检测路由器的关键数据,并及时给出报警。而解决这种故障,只有对路由器进行升级、扩内存等,或者重新规划网络的拓扑结构。另一种路由器故障就是自身的配置错误,比如配置的协议类型不对、配置的端口不对等。这种故障比较少见,没有什么特别的发现方法,排除故障就与网络管理人员的经验有关了。
|
|
|
(3)主机故障。主机故障常见的现象就是主机的配置不当。比如,主机配置的IP地址与其他主机冲突,或IP地址根本就不在子网范围内,这将导致该主机不能连通。还有一些服务的设置故障,比如邮件服务器设置不当导致不能收发E-mail,或者DNS服务器设置不当将导致不能解析域名。主机故障的另一种可能是主机安全故障,比如主机没有控制其上的finger、rpc和rlogin等多余服务。而恶意攻击者可以通过这些多余进程的正常服务或错误(Bug)攻击该主机,甚至得到该主机的超级用户权限等。
|
|
|
另外,还有一些其他的主机故障,比如共享本机硬盘不当等,将导致恶意攻击者非法利用该主机的资源。发现主机故障是一件困难的事情,特别是别人恶意的攻击。一般可以通过监视主机的流量、扫描主机端口和服务来防止可能的漏洞。当发现主机受到攻击之后,应立即分析可能的漏洞,并加以预防,同时及时通知网络管理人员注意。
|
|
|