|   [请选择科目]

VIP:有效提升20分!  真题  历年真题 (可免费开通)/  百科全书/ 机考模拟平台/  最难真题榜/  自测/  攻打黄金十二宫/  真题检索/  真题下载/  真题词库
知识   必会知识榜/  最难知识榜/  知识点查询/      文档   学习计划/  精华笔记/  试题文档     纸质图书   《百科全书》HOT!!/         /        首页/  2025年上半年专区/  手机版/ 
免费智能真题库 > 历年试卷 > 系统规划与管理师 > 2021年上半年 系统规划与管理师 下午试卷 论文
  第1题      
  知识点:   管理体系   应急响应   中断

 
论IT服务应急响应管理
信息系统已经成为支撑业务发展的重要组成部分,但是信息系统很容易发生意外情况导致中断,需要建立完善的应急响应管理体系确保面临重大突发事件时在最短时间内解决相关问题,满足业务发展的需要。
 
问题:1.1   请以“IT服务应急响应管理”为题,分别从以下三个方面进行论述:
1.概要叙述你参与过的某运行维护服务项目的基本情况(背景、目的、组织结构、周期、服务对象、服务方式、服务内容、交付成果等),并说明你在其中承担的工作。
2.结合项目实际,论述你对应急响应管理的认识,可以包括但不限于以下方面:
(1)应急响应各阶段的工作内容;
(2)触发应急预案的重大突发事件;
(3)应急响应演练的具体活动。
3.请结合论文中所提到的运行维护服务项目,介绍你是如何进行应急响应管理的,包括具体做法和经验教训。
 
 
 确定 并 查看答案解析     知识点讲解  我要标记      有奖找茬           下一题 
 

   知识点讲解    
   · 管理体系    · 应急响应    · 中断
 
       管理体系
        灾备管理体系主要是指组织机构的各个层面,在日常状态和灾难状态下的各种管理工作,至少包括以下5个方面。
        (1)灾难恢复组织机构。商业银行应结合本行机构设置的具体情况,设立灾难恢复组织机构,包括灾难恢复规划建设、运行维护、应急响应和灾难恢复等各阶段工作所需的人员,有关人员可为专职,也可为兼职,关键岗位的人员应有备份。商业银行可以参考《JR/T0044 2008银行业信息系统灾难恢复管理规范》,设置灾难恢复组织机构,包括决策层、管理层和执行层,各层之间分工明确、职责清晰。
        (2)岗位与培训管理。灾备中心的应急生产岗位应与生产中心对等,只不过可以按照人员复用的原则,由灾备管理人员、开发测试人员或系统运维人员专职或兼职担任。对不同层次、不同部门的岗位,在灾难恢复策略规划、系统建设与运维、预案制定、演练和更新维护等不同阶段,应按照不同的培训目标,安排不同的培训计划。
        (3)灾难恢复预案管理与演练。灾难恢复预案要长期保持有效性,必须在灾难恢复策略发生变化、演练发现问题、生产系统发生变更、人员出现调整等情况下,及时修订维护预案,做好变更管理、版本管理,以及发布管理等,确保合适的人员及时获得最准确、最合适的信息。演练验证灾难恢复预案有效性的最佳手段。演练管理就是要对演练的计划、场景、人员、过程、总结评估和后续完善调整等进行全面管理,通过演练来培养灾难恢复团队面对复杂环境的信心和冷静心态,验证灾难恢复能力,改进灾难恢复流程,发现并纠正灾备体系中的缺陷。
        (4)灾备中心日常运维、灾难响应与重续运行管理。灾备中心应随时做好接替生产中心的准备,因此,必须像生产中心一样,对灾备中心的系统、网络和环境等基础资源进行运行维护,按照备份策略按时完成数据备份,完成灾备系统与生产系统的同步。当灾难发生后,灾难恢复组织机构的各层人员立即响应,在指挥报告、协调、联络、保障等工作机制的保障下,按照灾难恢复流程步骤,一步步地恢复信息系统及其支撑的关键业务功能。在生产系统成功切换到灾备中心运行后,要按照生产中心的规章制度、操作流程、技术规范来管理,保障生产系统安全稳定运行,直至生产中心重建并恢复了生产运行能力。
        (5)外部资源管理。外部资源主要指商业银行的合作伙伴、服务商、设备商和外协人员等。当发生灾难时,可能需要这些外部资源的支持才能完成灾难恢复,比如,从设备供应商紧急采购灾备生产设备,从电信运营服务商紧急租用通信线路,从银联借调交易流水等。因此,需要与这些外部资源建立日常联系或签订协议,并不定期地测试其支持能力,以保证在灾难恢复期间,外部资源可以提供有效的支持。
 
       应急响应
        应急响应是指组织为预防、监控、处置和管理运维服务应急事件所采取的措施和行为。信息系统设施运维应急事件是指导致或即将导致信息系统设施运行中断、运行质量降低或需要实施重点时段保障的事件。当出现跨越预定的应急响应阈值的重大事件,或由于政府部门发出行政指令或对运维对象提出要求时,应当启动应急处理程序。
        应急响应是信息系统设施运维中的一个重要组成部分,针对突发公共事件,国家和地方政府出台的各项总体预案和专项预案,从整体或专业角度,对预防与应急准备、监测与预警、应急处置与救援、事后恢复与重建等方面进行了规定。但在信息技术运维领域,与之相对应的应急响应规范尚未建立起来。
        应急响应的管理是为了避免无序运维,提升应急状态下的运维响应能力,提前发现和解决问题,降低突发事件造成的不良影响,以合理的投入创造更大的效益。
        应急响应过程包括应急准备、监测与预警、应急处置和总结改进四个主要环节,如下图所示。
        
        应急响应过程
        每个环节中包括若干重点任务,这些任务覆盖了日常工作、故障响应和重点时段保障等不同类型的活动。应急响应的活动与任务如下表所示。
        
        应急响应的活动与任务
               应急准备
               (1)建立应急管理的组织和制度:建立应急管理组织,确保组建合适的组织以满足日常运维和应急响应的服务要求,明确应急响应组织中的角色及关系。应急管理组织建立后对应的应急管理制度包括负责制定应急响应方针(应急响应原则、范围等),明确应急响应的范围、要求、等级等。
               (2)风险评估与改进:风险评估与改进的目的是系统地识别运维服务对象及运维活动中可能出现的风险并提前改进,包括风险识别与评估、风险应对。
               运维人员从系统的角度识别风险要素,如运维对象、运维内容、组织及流程接口等。根据风险要素,应急响应组织按照一个确定的方法和流程来实施风险评估,明确其在其运维过程中的关键活动、所需资源、限制条件及组织面临的各种威胁,明确当威胁演变为应急事件时所产生的影响和后果,以及业务中断可能带来的损失。分析评估后应形成《风险评估报告》,报告应包括与服务水平目标相比较的运维要求、现状及趋势信息、风险要素、不符合项及问题等,并据此提出纠正措施建议,确认后的《风险评估报告》将作为风险应对预案。
               对于识别出的各种风险,制定明确的应对策略,包括风险规避、风险转嫁、风险降低、风险接受等。根据《风险评估报告》,形成《系统改进方案》以降低风险,包括降低风险转变为应急事件的可能性,缩短应急事件的持续时间,限制应急事件的影响范围。
               (3)应急事件级别划分:应急事件分级的主要参考要素为信息系统的重要程度、紧急程度、系统损失和社会影响。相关负责人按照以上要素对可能发生的事件进行评估。确定应急事件的级别。包括以下内容。
               灾难事件(Ⅰ级):指由地震、火灾、恐怖袭击等原因造成主要IT设施毁灭性损坏,或者由于系统平台或业务数据遭受严重破坏,无法在短时间内恢复系统服务,造成核心业务服务中断超过48小时。
               重大事件(Ⅱ级):指造成核心业务服务中断超过24小时,或重要业务数据丢失,或业务数据需要后退到上一备份状态。
               严重事件(Ⅲ级):指造成核心业务服务中断超过12小时,或少量业务数据丢失。
               一般事件(Ⅳ级):指造成核心业务服务中断超过4小时,或管理支撑系统服务中断超过24小时。
               (4)预案制定:预案制定的目的是提供应对运维应急事件的操作性文件。
               根据风险评估和事件级别划分制定《应急响应预案》。预案可以分为总体预案和针对某个核心系统的专项预案及其附则;预案中应该考虑到各种应急资源的调配和预置,主要包括人员、备品备件、资金、系统工具等。《应急响应预案》的内容包括应急响应预案的编制目的、依据和适用范围;具体的组织体系结构及人员职责;应急响应的监测和预警机制;应急响应的启动;应急响应的处置;应急响应的总结;应急响应的保障措施;应急预案的附则等。
               经过评审确认的应急响应预案,由责任者或授权管理者负责预案的分发,同时建立预案的版本控制。
               (5)培训与演练:培训需要制定应急响应培训计划,并组织相关人员参与,将应急响应预案作为培训的主要内容。培训应使得相关组织及人员明确其在应急响应过程中的责任范围、接口关系,明确应急处置的操作规范和操作流程。
               应急响应演练的目的,一是为了验证预案是否能够真正满足实际的需求,二是为了检验应急响应小组成员之间相互配合的默契程度和对运维事件应对步骤的熟练程度。演练的方式分为工具测试演练和场景模拟演练。
               为了检验预案的有效性,同时使相关人员了解运维预案的目标和流程,熟悉应急响应的操作规程,应急响应的演练应做到:预先制定演练计划,在计划中说明测试工具或演练的场景;演练的整个过程有详细的记录,并形成报告;演练不能对业务运行造成负面影响;按照约定周期,进行完整演练(可以有被委托的第三方机构参与),周期建议可以设定为季度、一年或三年。
               监测与预警
               (1)日常监测与预警:日常监测与预警负责保障运维服务的可用和连续,及时发现运维服务应急事件并有效预警。结合运维服务级别协议和应急响应预案,开展日常监测与预警活动,主要包括设立服务台并保持运营;确定监测项、监测时间间隔与阈值;确定活动中的人员、角色和职责。可以采用运维工具与人工相结合的方式开展日常监测与预警活动。
               (2)记录与报告:建立监测、预警信息登记和报告制度。对日常监测结果进行记录,发现运维服务应急事件时,应提交单独的报告,报告内容应包括故障或预警发生及发现的时间和地点;表象及影响的范围;原因初步分析;报告人等。对运维应急事件要保持持续性跟踪。
               (3)核实与评估:核实与评估负责对出现的运维服务应急事件进行有效识别。其中核实是指接到报告的责任者应对报告内容进行逐项核实,以判别运维服务应急事件是否属实;事件级别评估是指负责人应参见应急准备活动中的事件级别划分,确定应急事件所对应的事件级别,同时将事件级别置于动态调整控制中。
               (4)预案启动:确保以规定的策略和程序启动预案,并保持对应急事件的跟踪。
               建立、审议预案启动的策略和程序,以控制预案启动的授权和实施。对预案启动可能造成的影响进行评估,在相关方之间就启动何种类型预案达成一致,过程包括一旦事件升级,与之相对应的预案调整的方式,同时记录预案启动的过程和结果。
               信息通报内容包括预案启动的原因、事件级别、事件对应的预案、要求采取的技术应对或处置的目标、实现目标所应采取的保障措施,如人员、物资、环境、资金等;对应急处置过程及结果的报告要求,如报告程序、报告内容、报告频率等;信息通报的方式可以是电话、邮件、电视、广播和文件等。相关方对收到的通报信息进行确认和反馈。
               应急响应人员根据调整后的状态开展监测与预警活动,并按一致约定的程序和监测范围、监测频率提供报告。
               应急处置
               (1)应急调度:在应急调度中明确应急调度手段,规范应急调度过程;在调度安排下,相关人员实施应急处置,责任者根据应急处置要求,对应急处置经费、应急处置人员、应急处置设施等统一调配和管理,并完成调度明细说明的整理和归档。应急调度的工作流程包括在规定时间要求内,迅速组织人员勘察、分析;通过网络、媒体、广播等多种手段快速获取应急事件的相关信息;及时组织并协调相关部门及人员召开应急处置工作会议;根据应急处置要求,对涉及应急处置组织下达调度命令;组织人员保护可追查的相关线索。
               (2)排查与诊断:排查与诊断是基于已经启动的预案而开展的,在排查与诊断中,应建立多渠道的应急处置支持模式,如建立由服务商、供应商、生产制造商构成的应急处置支持模式。故障排查与诊断的流程包括:应急处置责任者调配处置人员进行现场故障排查;现场处置人员进行故障排查和诊断,必要时可寻求外协人员以现场或远程方式进行支持,在此过程中可借助各类排查、诊断、分析工具,如应用软件、电子分析工具、故障排查知识库等;现场处置人员应随时向处置责任者汇报故障排查情况、诊断信息、故障定位结果等;将排查与诊断的过程和结果信息进行整理与归档。
               在实施应急处置过程中,各级责任者需要及时与相关利益方进行沟通,沟通的内容主要包括应急处置故障点、造成故障的原因、排查诊断等。及时完成对沟通信息及对应组织人员的核实与确认,同时对确认信息完成归档、上报、审批等事项。
               (3)处理与恢复:负责对故障进行有效、快速的处理与恢复。应基于预案和知识库进行故障的处理与恢复,处理与恢复的原则应在满足相应服务级别协议要求的前提下,尽快恢复服务;采用的方法、手段不应造成新的事件发生。
               必要时可启用备品备件、灾备系统等。对过程及结果信息进行记录,并及时告知相关方面和人员。责任者应组织对处理与恢复的结果进行初步确认。
               (4)升级与信息通报:应急响应组织通过实施有效评审,实现对应急处置的升级与通报;故障处置责任者应组织相关人员对故障处置过程及结果情况进行评审;在评审中,参考服务级别协议中对事件处置内容情况的设定,同时结合应急故障处置的现场情况进行分析和比较。当应急故障现场处置的情况超过原应急预案中的事件处置级别要求时,应作为应急事件升级;建立、审议应急事件升级的策略和程序,以控制应急事件升级的授权和实施,就应急事件升级可能造成的影响进行评估;升级过程包含预案调整、人员调整、资金调整及相关设施调整,需要对应急事件升级的过程和结果信息进行整理与归档。信息通报内容包括事件升级的原因;事件升级后的级别;事件升级后与之对应的预案;根据升级事件处置的要求和目标,确定所需的技术应对措施;实现目标所应采取的保障措施,如人员、物资、环境、资金等;对升级事件处置过程及结果的报告,如报告程序、报告对象、报告内容、报告频率等;信息通报的范围和涉及接受者,信息通报的方式有电话、邮件、电视、广播和文件等形式。
               (5)持续服务与评价:在完成对应急事件故障处置后,应组织运维人员提供持续性服务,同时应对持续性服务的效果进行评价。
               (6)事件关闭:规范并明确应急处置的关闭流程,即申请关闭、核实、关闭通报。
               关闭申请:建立、审议事件关闭的策略和程序,以控制事件关闭的授权和实施;对应急事件处置的过程文档和各评审/评价报告进行整理,由明确的责任者或授权管理者提出事件关闭申请,并提交相关文档资料。
               关闭核实:接到事件关闭申请的责任者应逐项核实报告内容,以判别应急事件处置过程和结果信息是否属实。
               关闭通报:建立、审议应急事件关闭通报制度,应急事件关闭的责任者向相关利益方通报信息,内容应包括应急事件的级别;事件对应的预案信息;应急事件处置的过程情况;事件的调整升级情况;持续性服务状况信息;事件处置评价信息;事件关闭申请的处理意见;关闭通报的范围和涉及接受者。
               总结改进
               (1)应急事件总结:在事件关闭之后,组织相关人员对本次事件的原因、处理过程和结果进行分析,总结经验教训,并采取必要的后续措施。事件总结应包含事件发生的原因分析、应急事件的处理过程和结果;评估应急事件造成的影响;降低事件发生频率、减轻损害和避免再次发生的方法。
               调查和收证:当一个事件涉及责任认定、赔偿或诉讼时,应收集、保留和呈递证据。证据可用于内部问题分析;用做有关可能违反合同或规章要求的法律取证;与供应商或其他组织谈判赔偿事宜。
               (2)应急体系的保持:为保证应急体系的有效性和时效性,需要对应急体系进行不定期及定期的维护和审核,以确保组织具有足够的应急响应能力。
               体系维护主要是指当组织战略、业务流程、客户要求等发生重大变化时,对现有的应急体系,尤其是风险评估和应急预案进行修改。体系维护应该是不定期进行的,是由事件驱动的。
               体系审核主要是指对组织当前的应急响应能力和管理模式进行评审,以确保它们符合预定的标准和要求,同时明确组织在应急响应方面的主要不足和改进方向。体系审核应该是定期进行的,组织应该至少一年进行一次体系审核。
               体系维护:组织建立明确的应急体系维护计划,确保任何影响到组织应急管理的重大变更都能被识别出来,同时采取必要的措施对这些变更进行分析,并对应急管理体系做出相应调整,这种调整可能涉及应急管理的方针策略、流程、应急预案和资源配置。
               体系维护流程的结果应包括关于应急体系维护活动的文档记录;确保应急响应的相关人员都已经明确应急体系的调整内容,并接受必要的培训;当需要对风险评估、组织架构、人员配备进行调整时,保留必要的文档记录。
               体系审核:相关责任者按照预定的时间间隔对应急管理体系进行审核,以确保体系具有持续的适用性和有效性。体系审核包括评估体系不足和改进建议。同时,体系审核的结果应正式存档并通知给相关责任者。
               体系审核的输入信息主要包括相关利益方的要求和反馈;组织所采纳的,用于支持应急响应的各种技术、产品和流程;风险评估的结果及可接受的风险水平;应急预案的测试结果及实际执行效果;上次体系评审的后续跟踪活动;可能影响应急体系的各种业务变更;近期在处置应急事件过程中总结的经验和教训;培训的结果和反馈。
               体系审核的输出结果主要包括应急体系的改进目标;如何改进应急体系的有效性和效率;所需的各种资源,包括人员、软硬件、资金等。
               (3)应急准备工作的改进:应急时间总结、体系维护和体系审核的结果将作为应急准备阶段的重要输入信息,组织应根据应急时间总结报告中给出的建议项和体系评审结果来调整应急准备及风险应对的策略。
 
       中断
        中断是异步发生的,是来自处理器外部的I/O设备的信号的结果。硬件中断不是由任何一条专门的指令造成的,从这个意义上来说它是异步的。硬件中断的异常处理程序常常被称为中断处理程序(interrupt handler)。
               硬中断与软中断
               硬中断是由硬件产生的,例如磁盘、网卡、键盘、时钟等。每个设备或设备集都有它自己的IRQ(中断请求)。基于IRQ,CPU可以将相应的请求分发到对应的硬件驱动上。
               软中断是一组静态定义的下半部分接口,可以在所有的处理器上同时执行,即使两个类型相同也可以。但是一个软中断不会抢占另外的一个软中断,唯一可以抢占软中断的是硬中断。
               可屏蔽中断与不可屏蔽中断
               可屏蔽中断和不可屏蔽中断都属于外部中断,是由外部中断源引起的。不可屏蔽中断源一旦提出请求,CPU必须无条件响应,而对可屏蔽中断源的请求,CPU可以响应,也可以不响应。
               CPU一般设置两根中断请求输入线:可屏蔽中断请求INTR(Interrupt Require)和不可屏蔽中断请求NMI(Non Maskable Interrupt)。对于可屏蔽中断,除了受本身的屏蔽位控制外,还都要受一个总的控制,即CPU标志寄存器中的中断允许标志位IF(Interrupt Flag)的控制,IF位为1,可以得到CPU的响应,否则,得不到响应。IF位可以由用户控制,指令STI或Turbo C的Enable()函数,将IF位置1(开中断),指令CLI或Turbo_c的Disable()函数,将IF位清0(关中断)。
               中断优先级
               当多个中断源同时请求中断时,而CPU一次只能响应其中的一个中断,同时为了能响应所有中断,就引入中断优先级来处理。系统会根据引起中断事件的重要性和紧迫程度,将中断源分为若干个级别,称作中断优先级。中断优先级有两种:查询优先级和执行优先级。
               查询优先级是不可以更改和设置的,在该方式下当多个中断源同时产生中断信号时,中断仲裁器会选择中断源优先处理的顺序,此过程与是否发生中断服务程序的嵌套毫不相干。当CPU查询各个中断标志位的时候,会依照优先级顺序依次查询,当数个中断同时请求的时候,会优先查询到高查询优先级的中断标志位,但并不代表高查询优先级的中断可以打断已经并且正在执行的低查询优先级的中断服务。
               由于可屏蔽的中断源很多,故需要对其进行管理,如区分是哪个中断源发出的中断信号?哪个中断源最优先及怎样处理多级中断嵌套等。为此,可使用中断控制器对多个可屏蔽中断源进行管理。
               中断控制器能够对中断进行排队管理,避免中断信号的丢失,同时支持对不同中断进行优先级的配置,使高优先级中断能够中断低优先级中断,满足系统中具有更高时间约束特性功能的需要。
               中断嵌套
               当处理器正在处理一个中断时,有比该中断优先级高的中断源发出中断请求时,如果处理器正在执行中断处理程序,那么处理器会对高优先级的中断进行立即处理,处理完之后再返回到低优先级的中断服务程序继续执行。这样就形成了中断服务程序中套用中断服务程序的情况,即中断嵌套。可嵌套中断的处理流程和中断服务框图如下图所示。
               
               可嵌套中断处理流程
   题号导航      2021年上半年 系统规划与管理师 下午试卷 论文   本试卷我的完整做题情况  
1 /
2 /
 
第1题    在手机中做本题