首页 > 知识点讲解
       故障排除步骤
知识路径: > 信息系统设施运维 > 信息系统设施的故障诊断与修复 > 故障排除方法 > 
被考次数:1次     被考频率:低频率     总体答错率:83%     知识难度系数:     
相关知识点:15个      
        在开始动手排除故障之前,应当养成一种良好的习惯,即进行故障排除时就开始做好记录,而不是在事情做完之后才来记录,认真而翔实的记录不仅有助于一步一步地记录问题、跟踪问题并最终解决问题,而且也为自己或其他运维人员以后解决类似问题提供了完整的技术文档和帮助文件。
               识别故障现象
               识别问题是排除故障的关键。运维人员在排除故障之前,必须确切地知道网络上到底出了什么毛病,是不能共享资源,还是不能浏览Web页,或是不能使用QQ等。对一名优秀运维人员的最基本要求,就是能够对问题进行快速定位。为了与故障现象进行对比,必须非常清楚网络的正常运行状态,即了解网络设备、网络服务、网络软件、网络资源在正常状态下的表现方式,了解网络拓扑结构,理解网络协议,掌握操作系统和应用程序,都是故障排除必不可少的理论和知识准备。识别故障现象时,应该询问以下几个问题。
               (1)故障的表现是什么?无响应?报错?
               (2)故障是什么时候发现的?
               (3)故障是否可重现?
               (4)有没有出现的规律(如每小时出现一次)?
               (5)故障影响的特定用户群是什么样的(已登录的、退出的、某个地域的……)?
               (6)最后一次对整个平台进行更新的内容是什么(代码、服务器等)?
               (7)当被记录的故障现象发生时,正在运行什么进程?
               (8)这个进程以前运行过吗?
               (9)以前这个进程的运行是否成功?
               (10)这个进程最后一次成功运行是什么时候?
               (11)基础架构(物理的、逻辑的)的文档是否能找到?
               (12)是否有监控平台?是否可用?
               (13)是否有日志可以查看?
               对故障现象进行详细描述
               在处理由用户报告的问题时,对故障现象的详细描述显得尤为重要。例如,运维人员接到用户电话,说无法浏览Web网站,那么仅凭这些信息,恐怕任何人都无法做出明确的判断。这时,就要亲自到现场去试着操作一下,运行一下程序,并注意出错信息。例如,在使用Web浏览器进行浏览时,无论输入哪个网站都返回“该页无法显示”之类的信息;或者使用ping程序时,无论ping哪个IP地址都显示超时连接信息等,诸如此类的出错消息会为缩小问题范围提供许多有价值的信息。注意每一个错误信息,并在用户手册中找到它们,从而得到关于该问题更详细的解释,是解决问题的关键。另外,亲自到故障现场进行操作,也有机会检查用户操作系统或应用程序是否运行正常,各种选项和参数是否被正确地设定。如果在操作时没有任何问题,那就可能是操作者的问题了。不妨让用户再试一次,认真监督他的每一步操作,以确保所有的操作和选项都被正确地执行和设置。当然,在亲自操作时,应当对故障现象做出详细的描述,认真记录所有的出错信息,并快速记录所有有关的故障迹象,制作详尽的故障笔记。分析这些究竟表明了什么,这些故障现象是否相互联系,在寻找问题答案的过程中,很有可能又导致更多的故障现象产生。所以在开始排除故障之前,应按以下步骤执行。
               (1)收集有关故障现象的信息。
               (2)对问题和故障现象进行详细的描述。
               (3)注意细节。
               (4)把所有的问题都记下来。
               列举可能导致错误的原因
               接下来要做的就是列举所有可能导致故障现象的原因了。运维人员应当考虑,导致无法用Web浏览器的原因可能有哪些,是网卡硬件故障、网络设备故障,还是TCP/IP协议设置不当等。在这个阶段不要试图去找出哪一个原因就是问题的所在,只要尽量多地记录下自己所能想到的,而且是可能导致问题发生的原因就可以了,也可以根据出错的可能性把这些原因按优先级别进行排序,不要忽略其中的任何一个细节。
               缩小搜索范围
               运维人员必须采用有效的软硬件工具,从各种可能导致错误的原因中一一提出非故障因素。对所有列出的可能导致错误的原因逐一进行测试,而且不要根据一次测试就断定某一区域的网络是运行正常还是不正常。另外,当确定了一个错误后也不要自以为是地停下,而不再继续测试。因为此时既可能是搞错了,也可能是存在的错误不止一个,所以,应该使用所有可能的方法来测试所有的可能性。
               除了测试之外,还要注意以下几件重要的事情。
               (1)检查网卡、交换机和路由器面板上的LED指示灯。通常情况下,绿灯表示连接正常;红灯表示连接故障;不亮表示无连接或线路不通;长亮表示广播风暴;指示灯有规律地闪烁才是网络正常运行的标志。
               (2)检查服务器、交换机或路由器的系统日志,因为在这些系统日志中往往记载着产生的错误及错误发生的全部过程。
               (3)利用网络管理软件检查问题设备。如Cisco Works、HP OpenView等网管软件,具有图形化的用户界面,交换机各端口的工作状态可以一目了然地显示在屏幕上。更进步,许多网络管理软件还具有故障预警和告警功能,从而使在缩小搜索范围时省下不少的力气。
               当然,在这一步骤中要及时记录下所有的观察及测试的手段和结果。
               定位错误
               运维人员经过反复的测试,明确故障源,假设可能是计算机出错,则首先检查该计算机网卡是否安装好,TCP/IP协议是否安装并设置正确,Web浏览器的连接设置是否得当等一切与已知故障现象相关的内容。然后就是排除故障。在排除之前需要对发生的故障有充分的了解,这样故障排除也就变得简单了。但是,不要就此匆忙地结束工作,因为还有更重要的事情——故障分析。
               故障分析
               故障处理完之后,作为运维人员必须搞清楚故障是如何发生的,是什么原因导致了故障的发生,以及如何避免类似故障的发生,应拟定相应的对策,采取必要的措施,制定严格的规章制度。
               对于一些对于非常简单明显的故障,上述过程看起来可能会显得有些烦琐。但对于一些复杂的问题,这却是必须遵循的操作规程。
               最后,记录所有的问题,保存所有的记录。另外,经常回顾曾经处理过的故障也是种好的习惯,这不仅是一种经验的积累,便于以后处理类似故障,而且还会启发思考许许多多与此相关联的问题,从而进一步提高理论和技术水平。
 
本知识点历年真题:
隶属试卷 题号/题型 题干 难度系数/错误率
   2019年下半年
   信息系统运行管..
   上午试卷 综合知识
第21题
选择题
处理消防报警故障时,正确的排除故障步骤是:(21)。

83%
 
 相关知识点:
 
软考在线指南
优惠劵及余额
在线支付
修改密码
下载及使用
购买流程
取消订单
联系我们
关于我们
联系我们
商务合作
旗下网站群
高级资格科目
信息系统项目管理师 系统分析师
系统架构设计师 网络规划设计师
系统规划与管理师
初级资格科目
程序员 网络管理员
信息处理技术员 信息系统运行管理员
中级资格科目
系统集成项目管理工程师 网络工程师
软件设计师 信息系统监理师
信息系统管理工程师 数据库系统工程师
多媒体应用设计师 软件评测师
嵌入式系统设计师 电子商务设计师
信息安全工程师
 

本网站所有产品设计(包括造型,颜色,图案,观感,文字,产品,内容),功能及其展示形式,均已受版权或产权保护。
任何公司及个人不得以任何方式复制部分或全部,违者将依法追究责任,特此声明。
本站部分内容来自互联网或由会员上传,版权归原作者所有。如有问题,请及时联系我们。


工作时间:9:00-20:00

客服

点击这里给我发消息 点击这里给我发消息 点击这里给我发消息

商务合作

点击这里给我发消息

客服邮箱service@rkpass.cn


京B2-20210865 | 京ICP备2020040059号-5 |京公网安备 11010502032051号 | 营业执照 | Copyright ©2000-2023 All Rights Reserved 软考在线版权所有