软考在线  |  计算机技术与软件专业技术资格(水平)考试   |   [请选择科目]
[ 成为 VIP会员 ]        登录  |  注册      我的  购物车
 
科目切换  联系我们 
    
  |   [请选择科目]

VIP:有效提升20分!  真题  历年真题 (可免费开通)/  百科全书/ 机考模拟平台/  最难真题榜/  自测/  攻打黄金十二宫/  真题检索/  真题下载/  真题词库
知识   必会知识榜/  最难知识榜/  知识点查询/      文档   学习计划/  精华笔记/  试题文档     纸质图书   《百科全书》HOT!!/         /        首页/  2025年上半年专区/  手机版/ 
首页 > 知识点讲解
       设施运维监控基本策略
知识路径: > 信息系统设施运维 > 现象系统设施运维系统与专用工具 > 典型信息系统设施运维的专用工具 > 典型信息系统设施运维典型专用工具 > 典型例行操作运维监控工具 > 
考试要求:了解      相关知识点:2个      
        为更好、更有效地保障系统上线后的稳定运行,对于信息系统设施中的硬件资源、性能、带宽、端口、进程、服务等都必须有一个可靠和可持续的监测策略和机制,需要明确定义监控的对象、方式,设定告警的优先级、标准等,具体策略包括以下内容。
        (1)监控对象:在一个规模较大的网络中,监控的对象可能包括服务器、防火墙、交换机、路由器等设备及运行在各对象上的服务,不需要将所有的对象都放到监控系统中,监控策略的设计首先应明确监控对象。
        (2)故障告警方式:对监控系统而言,一定要有合适的故障告警机制。目前常用的告警机制包括邮件、短信、MSN、Web页面显示等几种手段,这几种手段中,短信告警最佳。
        (3)告警时效和间隔的选择:由于网络通信等不可控因素,可能存在故障误报的情况,不应将告警发送设置成一次探测不成功就发送。此外,故障告警开始发送以后,在收到确认排除前会持续发送,因此需要合理设置告警发送的间隔。
        告警时效和间隔的策略参考建议:探测4次失败开始告警,告警间隔10分钟,总共发送8次,然后停止发送,假如第3次没有人去处理,监控工具电话通知,没有回应则取消该对象的监控,并记录该次事件。
        (4)监控平台地点的选择:对于一个规模较大的网络,为解决南北互连问题一般会采取在多个地点建立数据中心的方法,这时需要对不同地理位置的服务器进行监控,也会遇到访问慢的问题。解决这个问题有几种方式:①选择一个到各个位置访问都顺畅的数据机房;②采取分布式监控平台,各处自己收集监控信息,然后到一处汇总;③各数据中心单独建立监控平台。
        (5)定义告警优先级策略:对于监控到的事件,通常将访问网页出错、连接不到Socket等故障设置为优先告警。此外,对返回的延时、内容的信息,如访问网页的时间、访问网页取到的内容及其他数据指标等,可自定义告警条件,如对Ping监控的返回延时一般是10~30ms,当延时大于100ms时,表示网络或者服务器可能出现问题,引起网络响应慢,需要立即检查是否有流量过大或者服务器CPU太高等问题;当监控到磁盘空间超过一个阈值时,可能会引起数据库损坏,服务响应变慢等问题,需要告警进行检查和处理。
        (6)定义告警信息内容标准:当服务器或应用发生故障时告警信息内容非常多,如告警运行业务名称、服务器IP、监控的线路、监控的服务错误级别、出错信息、发生时间等。预先定义告警内容及标准能使收到的告警内容具有规范性及可读性。这一点对于用短信接收告警内容特别有意义,短信内容最多是70个字符,要用70个字符完全明确故障内容比较困难,更需要预先定义内容规范。例如,“视频直播服务器10.0.211.65在2012-10-1813:00电信线路监控到第1次失败”,清晰明了地告知故障信息。
        (7)通过邮件接收汇总报表:设计固定周期收到网站服务器监控的汇总报表邮件,运维人员只需花很少的时间就能大致了解网站和服务器状态。
        (8)定义故障告警主次:对于监控同一台服务器的服务,需要定义一个主要监控对象,当主要监控对象出现故障时,只发送主要监控对象的告警,其他次要的监控对象暂停监控和告警。例如,用Ping来做主要监控对象,如果Ping不通出现Timeout,表示服务器已经宕机或者断网,这时只发送服务器Ping告警并持续监控Ping,因为再继续监控和告警其他服务已经没有必要。这样既能大大减少告警消息数量,又可以让监控更加合理、更加有效率。
        (9)规范本地部署的监控脚本,并归纳总结:对在本地部署的监控脚本要进行统一规范的部署并记录到知识管理系统中以便沉淀及优化。
        (10)实现对常见性故障业务自我修复功能:实现对常见性故障业务自我修复功能脚本进行统一部署,并对修复后的故障进行检查,一般告警检查频次不多于3次。
        (11)对监控的业务系统进行分级:如设置类似“一级系统7×24小时告警,二级系统7×12小时告警,三级系统5×8小时告警”这样的业务系统分级标准。
 
 相关知识点:
 
软考在线指南
优惠劵及余额
在线支付
修改密码
下载及使用
购买流程
取消订单
联系我们
关于我们
联系我们
商务合作
旗下网站群
高级资格科目
信息系统项目管理师 系统分析师
系统架构设计师 网络规划设计师
系统规划与管理师
初级资格科目
程序员 网络管理员
信息处理技术员 信息系统运行管理员
中级资格科目
系统集成项目管理工程师 网络工程师
软件设计师 信息系统监理师
信息系统管理工程师 数据库系统工程师
多媒体应用设计师 软件评测师
嵌入式系统设计师 电子商务设计师
信息安全工程师
 

本网站所有产品设计(包括造型,颜色,图案,观感,文字,产品,内容),功能及其展示形式,均已受版权或产权保护。
任何公司及个人不得以任何方式复制部分或全部,违者将依法追究责任,特此声明。
本站部分内容来自互联网或由会员上传,版权归原作者所有。如有问题,请及时联系我们。



京B2-20210865 | 京ICP备2020040059号-5 |京公网安备 11010502032051号 | 营业执照 | Copyright ©2000-2025 All Rights Reserved 软考在线版权所有