免费智能真题库 > 历年试卷 > 信息系统管理工程师 > 2014年上半年 信息系统管理工程师 上午试卷 综合知识
  第66题      
  知识点:   能力数据监控   系统性能   基础设施   监控   吞吐量   响应时间
  关键词:   系统性能   响应时间        章/节:   系统运行管理知识       

 
通常,在对基础设施进行监控中会设置相应的监控阀值(如监控吞吐量响应时间等),这些阀值必须低于( )中规定的值,以防止系统性能进一步恶化。
 
 
  A.  服务级别协议(SLA)
 
  B.  性能最大值的30%
 
  C.  性能最大值的70%
 
  D.  性能最大值
 
 
 

 
  第66题    2019年上半年  
   50%
系统能力管理从一个动态的角度考察组织业务与系统基础设施之间的关系,这需要考虑三个方面的问题。下列选项中,( )不属于这三个..
  第67题    2017年上半年  
   37%
在系统性能评价中对系统能力的管理涉及到设计和构建能力数据库。规划和构建能力数据库时应当考虑多方面问题,下列说法中,( )不..
  第46题    2011年上半年  
   32%
某台服务器的CPU使用率连续3个小时超过70%,这远远超过预期。因此会产生一个(46),它可以作为判断服务级别是否被打破的数据来源..
   知识点讲解    
   · 能力数据监控    · 系统性能    · 基础设施    · 监控    · 吞吐量    · 响应时间
 
       能力数据监控
        对每个组件运行和系统整体运营进行持续性监控的目的在于保证所有的软件和硬件都能得到最佳利用,确保所有的为业务服务的目标都能被实现。并且能够根据监控结果对组织业务量进行合理预测。在选择监控对象时,如果对所有组件都进行监控,其成本是相当昂贵的,也是相当难以实施的。因此,必须选择基础设施中对关键业务提供支持的组件进行监控。
               主要监控性能数据
               监控中最常见的性能数据如下:
               .CPU使用率。
               .内存使用率。
               .每一类作业的CPU占用率。
               .磁盘I/O(物理和虚拟)和存储设备利用率。
               .队列长度(最大、平均)。
               .每秒处理作业数(最大、平均)。
               .请求作业响应时间。
               .登录和在线用户数。
               .网络节点数量(包括网络设备、PC和服务器等)。
               这些监控数据大体上被分为两类,一类是监控系统容量(比如吞吐量),另一类是监控系统的性能(比如响应时间)。
               对部分组件的监控活动应当设有与正常运转时所要求基准水平,亦即阀值。一旦监控数据超过了这些阀值,应当触发警报,并生成相应的例外报告。这些阀值和基准水平值一般根据对历史记录数据的经验分析得出。一种情况是为特定的组件设定监控阀值,比如监控一个CPU在某一小时内的使用率不超过80%;另一种情况是为特定系统服务设定基准水平,比如监控某一项在线服务的响应时间不超过2秒,或者该系统服务一小时内处理的服务请求数不能超过10 000。
               以上这些阀值必须低于不影响该项资源(或者该项服务所依赖的资源)正常运转的最大值,或者低于服务级别协议(SLA)中规定的相应值。因此,超过阀值的时候应该还有机会采取纠正措施,以防止超过SLA规定,使得系统性能进一步恶化。
               响应时间的监控策略
               很多的系统服务级别协议都将终端用户响应时间(user response time)列为监控对象,但对这项监控需求的支持往往不力,在这介绍几种获取系统和网络服务的用户响应时间的方案:
               (1)在客户端和服务器端的应用软件内植入专门的监控代码。这可以提供“端到端”的服务响应间隔或者定时采样,将系统总体响应分解为各个组成部件的响应。这类工具提供对应某一项服务的用户端真实的响应时间。
               (2)采用装有虚拟终端软件的模拟系统。这类客户端系统上装有终端模拟软件和专门用于检测作业响应时间的软件,它们可以提供“端到端”的服务响应时间,尤其针对复杂的多阶段作业可以提供具有代表意义的时间响应值。与前一种相比,这里提供的响应时间是虚拟的,而不是真实的。
               (3)使用分布式代理监控软件。分散在网络各节点(比如Internet上不同的国家)的代理组成了一个分布式监控系统,它可以生成大量来自不同地域的作业,并不定期对它们进行监控评测。这类响应时间数据也不是真实用户的响应时间。
               (4)通过辅助监控设备来跟踪客户端样本。这种方法依赖于网络监控系统,即通常被安插在合适的网络节点位置的“嗅探器”。“嗅探器”可以定时监控和记录通过某一网络节点处的通信量。而对这些记录下来的通信量做进一步分析便可以得到服务的响应时间。这类响应数据与真实世界的数据的相似和接近程度取决于“嗅探器”在系统基础架构中的物理和逻辑位置。
               当然在很多情况下,以上这些系统或者方法常常会被混合使用。由于IT系统涉及到众多的单位和部门,以及种类繁多的信息技术,对响应时间的监控是一个相当复杂的过程。
 
       系统性能
               系统性能定义和指标
               计算机系统性能指标以系统响应时间和作业吞吐量为代表。响应时间(Elapsed Time)是指用户从输入信息到服务器完成任务给出响应的时间,即计算机系统完成某一任务(程序)所花费的时间,比如存储器访问、输入/输出等待、操作系统开销等。作业吞吐量是整个服务器在单位时间内完成的任务量。假定用户不间断地输入请求,则在系统资源充裕的情况下,单个用户的吞吐量与响应时间成反比,即响应时间越短,吞吐量越大。为了缩短某一用户或服务的响应时间,可以分配给它更多的资源。性能调整就是根据应用要求和服务器具体运行环境和状态,改变各个用户和服务程序所分配的系统资源,充分发挥系统能力,用尽量少的资源满足用户要求,达到为更多用户服务的目的。
               计算机性能的其他常用指标还包括MIPS (Million Instruction Per Second)和MFLOPS(Million Floating-point Instruction Per Second)。
               (1) MIPS=指令数/(执行时间×1000000)。
               其主要特点如下:
               ① MIPS大小和指令集有关,不同指令集的计算机间的MIPS不能比较。
               ②在同一台计算机上MIPS是变化的,因程序不同而变化。
               ③有时MIPS指标会出现矛盾。
               ④主要适用于带有硬件浮点处理器的计算机。
               ⑤MIPS中,除包含运算指令外,还包含取数、存数、转移等指令在内。
               ⑥MIPS只适宜于评估标量机。
               ⑦相对MIPS指相对参照机而言的MIPS,通常用VAX-11/780机处理能力为1MIPS。
               (2)MFLOPS=浮点指令数/(执行时间×1000000)。
               ①与机器和程序有关。
               ②测量浮点运算时,比MIPS准确。
               ③MFLOPS比较适宜于评估向量计算机。
               ④MFLOPS与MIPS关系:1MFLOPS≈3MIPS。
               ⑤MFLOPS仅仅只能用来衡量计算机浮点操作的性能,而不能体现计算机的整体性能。例如编译程序,不管计算机的性能有多好,它的MFLOPS不会太高。
               ⑥MFLOPS是基于操作而非指令的,所以它可以用来比较两种不同的计算机。
               ⑦MFLOPS依赖于操作类型。例如100%的浮点加要远快于100%的浮点除。
               ⑧单个程序的MFLOPS值并不能反映计算机的性能。
               系统性能评估
               计算机性能评价技术可用于开发中和开发后的系统评价。主要包括三种技术:分析技术、模拟技术、测量技术。
                      分析技术
                      分析技术是在一定假设条件下,计算机系统参数与性能指标参数之间存在着某种函数关系,按其工作负载的驱动条件列出方程,用数学方法求解。其特点是具有理论的严密性,节约人力和物力,可应用于设计中的系统。它的数学工具主要是利用排队论模型进行分析。
                      模拟技术
                      模拟技术首先是对于被评价系统的运行特性建立系统模型,按系统可能有的工作负载特性建立工作负载模型;随后编写模拟程序,模仿被评价系统的运行;设计模拟实验,依照评价目标,选择与目标有关因素,得出实验值,再进行统计、分析。其特点在于可应用于设计中或实际应用中的系统,可与分析技术相结合,构成一个混合系统。分析和模拟技术最后均需要通过测量技术验证。
                      测量技术
                      测量技术则是对于已投入使用的系统进行测量,通常采用不同层次的基准测试程序评估。其评估层次包括实际应用程序、核心程序、合成测试程序三个层次,但必须均为国际性组织认可的程序,同时需要对评估结果进行分析和统计以保证其准确性。
                      常用的国际认可的用来测试机器性能的测试基准测试程序(按评价准确性递减的顺序):
                      (1)实际的应用程序方法。
                      运行例如C编译程序、Tex、字处理软件、CAD工具等。
                      (2)核心基准程序方法。
                      从实际的程序中抽取少量关键循环程序段,并用它们来评价计算机的性能。
                      (3)简单基准测试程序。
                      简单基准测试程序通常只有10~100行而且运行结果是可以预知的。
                      (4)综合基准测试程序。
                      为了体现平均执行而人为编制的,类似于核心程序,没有任何用户真正运行综合基准测试程序。
 
       基础设施
        基础设施是指包括机房供配电系统、机房UPS系统、机房空调系统、机房弱电系统、机房消防系统等在内的,维持机房安全正常运转,确保机房环境满足信息系统设备运行要求的各类设施。
 
       监控
        主要包括故障监控和性能、流量、负载等状态监控,这些监控关系到集群的健康运行及潜在问题的及时发现与干预。
        (1)服务故障、状态监控:主要是对服务器自身、上层应用、关联服务数据交互监控;例如针对前端Web Server,就可以有很多种类型的监控,包括应用端口状态监控,便于及时发现服务器或应用本身是否崩溃、通过ICMP包探测服务器健康状态,更上层可能还包括应用各频道业务的监控,这些只是一部分,还有多种监控方式,依应用特点而定。还有一些问题需解决,如集群过大,如何高性能地进行监控也是一个现实问题。
        (2)集群状态类的监控或统计,为合理管理调优集群提供数据参考,包括服务瓶颈、性能问题、异常流量、攻击等问题。
 
       吞吐量
        吞吐量就是在给定的时间内,系统的吞入能力与吐出能力是多少。这里的“系统”可以是整个计算机系统,也可以是某个设备。例如,计算机的吞吐量是指流入、处理和流出系统的信息速率,它取决于信息能够多快地输入内存,CPU能够多快地取指令,数据能够多快地从内存取出或存入,以及所得结果能够多快地从内存送给一台外围设备。这些步骤中的每一步都关系到内存,因此,计算机的吞吐量主要取决于内存的存取周期。
        在实际应用中,用户所关心的往往不是计算机硬件系统的吞吐量,而是整个计算机系统(包括硬件和软件)的吞吐量。从系统角度来看,吞吐量是指单位时间内系统所能完成的任务数量。显然,若一个给定系统持续地收到用户提交的任务请求,则系统的响应时间将对作业吞吐量造成一定影响。若每个任务的响应时间越短,则系统的空闲资源越多,整个系统在单位时间内完成的任务量将越大;反之,若响应时间越长,则系统的空闲资源越少,整个系统在单位时间内完成的任务量将越少。
        从现实的请求与服务来看,一般都服从M/M/1排队模型。M/M/1排队模型是指顾客到达时间间隔服从指数分布,则顾客到达过程为泊松分布,接受完服务的顾客和到达的顾客相互独立,服务时间分布为指数分布。且顾客的到达和服务都是随机的,服务台为一个,排队空间无限。
        下面是性能计算中的两个公式:
        
        例如,假设某计算机系统的用户在1秒钟内发出40个服务请求,这些请求(为M/M/1队列)的时间间隔按指数分布,系统平均服务时间为20ms。则该系统的吞吐量为1000/20=50(1s=1000ms),系统的平均利用率为40/50=0.8,系统的平均响应时间为20ms/(1-0.8)=100ms。
 
       响应时间
        系统响应时间是指用户发出完整请求到系统完成任务给出响应的时间间隔。处于系统中不同的角色的人,对响应时间的关注点是不一样的。从系统管理员的角度来看,系统响应时间指的是服务器收到请求的时刻开始计时,到服务器完成执行请求,并将请求的信息返回给用户这一段时间的间隔。这个“服务器”包含的范围是给用户提供服务的接口服务器,中间的一些业务处理的服务器和排在最后面的数据库服务器。这里并不包含请求和响应在网络上的通信时间。
        从用户的角度来看,响应时间是用户发出请求开始计时,(如按下“确认”或Enter键的时刻),到用户的请求的相应结果展现在用户机器的屏幕的时候的这一段时间的间隔。这个时间称为“客户端的响应时间”,它等于客户端的请求队列加上服务器的响应时间和网络的响应时间的总和。可以看出,从用户角色感受的“响应时间”是所有响应时间中最长的,很多影响因素不在应用系统的范围内,如数据包在网络上的传输时间、域名解析时间等。
        响应时间超出预期太多的应用系统会导致用户的反感,因为系统在让他们等待,这样会降低他们的工作效率,延长他们的工作时间。位于互联网上的Web网站也存在同样的问题,有调查表明,如果一个Web网页不能在8秒钟内下载到访问的用户端,访问者就会失去耐性,他们有的尝试其他同类型的网站,有的可能访问竞争者的网站,并且可能影响他们圈子里面的人访问这个网站的兴趣和取向。对于一个指望这些访问者变为客户的网站站点而言,响应时间带来的后果等同于销售额的损失。
        系统的响应时间对每个用户来说都是不一样的,以下因素会影响系统的平均响应时间:
        (1)和业务相关,处理不同的业务会有不同的响应时间。
        (2)和业务组合有关,业务之间可能存在依赖关系或其他,也会相互影响。
        (3)和用户的数量有关,大并发量会严重影响应时间。
        有多种方法可以用来测试响应时间,常用的有两种方法,分别是首字节响应时间和末字节响应时间。首字节响应时间是指向服务器发送请求与接收到响应的第一个字节之间的时间,末字节响应时间是指向服务器发送请求与接收到响应的最后一个字节之间的时间。通过测量响应时间,可以知道所有客户端用户完成一笔业务所用的时间以及平均时间、最大时间。
        米勒曾经给出了3个经典的有关响应时间的建议,至今仍有参加价值:
        (1)0.1秒:用户感觉不到任何延迟。
        (2)1秒:用户愿意接受的系统立即响应的时间极限。即当执行一项任务的有效反馈时间在0.1~1秒之内时,用户是愿意接受的。超过此数据值,则意味着用户会感觉到有延迟,但只要不超过10秒,用户还是可以接受的。
        (3)10秒:用户保持注意力执行本次任务的极限,如果超过此数值时仍然得不到有效的反馈,用户会在等待计算机完成当前操作时转向其他的任务。
   题号导航      2014年上半年 信息系统管理工程师 上午试卷 综合知识   本试卷我的完整做题情况  
1 /
2 /
3 /
4 /
5 /
6 /
7 /
8 /
9 /
10 /
11 /
12 /
13 /
14 /
15 /
 
16 /
17 /
18 /
19 /
20 /
21 /
22 /
23 /
24 /
25 /
26 /
27 /
28 /
29 /
30 /
 
31 /
32 /
33 /
34 /
35 /
36 /
37 /
38 /
39 /
40 /
41 /
42 /
43 /
44 /
45 /
 
46 /
47 /
48 /
49 /
50 /
51 /
52 /
53 /
54 /
55 /
56 /
57 /
58 /
59 /
60 /
 
61 /
62 /
63 /
64 /
65 /
66 /
67 /
68 /
69 /
70 /
71 /
72 /
73 /
74 /
75 /
 
第66题    在手机中做本题