免费智能真题库 > 历年试卷 > 系统集成项目管理工程师 > 2023年下半年 系统集成项目管理工程师 上午试卷 综合知识 (第二批)
  第3题      
  知识点:   大数据   大数据应用   实际应用
  关键词:   大数据   数据        章/节:   新一代信息技术       

 
()是大数据实际应用
 
 
  A.  智能电表实现电量上报
 
  B.  手机在地震时收到的预警信息
 
  C.  某知名专家1对1在线诊疗
 
  D.  导航软件中智能躲避拥堵
 
 
 

 
  第21题    2021年上半年  
   15%
当前,( )行业与大数据应用的契合度最高。
  第22题    2022年上半年  
   63%
()不是大数据技术的典型应用。
  第22题    2019年上半年  
   39%
关于大数据及应用的描述,不正确的是( )。
   知识点讲解    
   · 大数据    · 大数据应用    · 实际应用
 
       大数据
               大数据的概念
               大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。大数据的来源包括网站浏览轨迹、各种文档和媒体、社交媒体信息、物联网传感信息、各种程序和APP的日志文件等。
               大数据关键技术
               大数据所涉及的技术很多,主要包括:
               .数据采集:使用数据抽取工具ETL。
               .数据存储:包括结构化数据、非结构化数据和半结构化数据的存储与访问。结构化数据一般存放在关系数据库中,通过SQL来访问;非结构化(如图片、视频、文件等)和半结构化数据一般通过分布式文件系统的NoSQL进行存储。
               .数据管理:主要使用分布式并行处理技术,比较常用的有MapReduce。
               .数据分析与挖掘:根据业务需求对大数据进行关联、聚类、分类等钻取和分析,并利用图形、表格加以展示。
               开源大数据框架Hadoop的关键技术包括:
               .HDFS(Hadoop分布式文件系统):是适合运行在通用硬件上的分布式文件系统,是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大数据应用。
               .HBase:一个分布式的、面向列的开源数据库。利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库,并且采用基于列而不是基于行的模式。
               .MapReduce:一种编程模型,用于大规模数据集(大于1TB)的并行运算。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上,从而实现对HDFS和HBase上的海量数据分析。
               .Chukwa:一个开源的用于监控大型分布式系统的数据收集系统。Chukwa构建在Hadoop的HDFS和MapReduce框架之上,继承了Hadoop的可升缩性和健壮性,它包含了一个强大而灵活的工具集,可用于展示、监控和分析已收集的数据。
               大数据应用
               大数据受到越来越多行业巨头们的关注,除了在电商、电信、金融这些传统数据丰富、信息系统发达的行业之外,在政府、医疗、制造和零售行业都有其巨大的社会价值和产业空间。
               .互联网和电子商务行业:应用最多的是用户行为分析,主要研究对象为用户在互联网、移动互联网上的访问日志、用户主体信息和外界环境信息,从而挖掘潜在客户,进行精准广告或营销。
               .电信/金融:通过对用户的通信、流量、消费等信息进行分析,判断用户的消费习惯和信用能力,可以给用户设计更贴合的产品,以提升产品竞争力。
               .政府:通过对大数据的挖掘和实时分析,可有效提高政府决策的科学性和时效性,并能帮助政府有效削减预算开支;借助大数据可使政府变得更加开放、透明和智慧;可以使政府更清楚地了解公民的意愿和想法,可提升公民的价值,还可以通过引导社会舆论,为社会公众提供更好的服务,树立更好的政府形象。
               .医疗:有了大数据的海量支持,可以使各医院资源充分发挥优势,有效弥补医疗资源及力量的不足,有利于疑难病症的治疗。通过对医疗数据的挖掘分析,也可以加快新药开发。
               .制造:通过对海量数据的获取、挖掘和分析,把握客户的需求,从而交付客户喜欢的产品。
               大数据发展目标
               大数据发展和应用的目标如下:
               .打造精准治理、多方协作的社会治理新模式。
               .建立运行平稳、安全高效的经济运行新机制。
               .构建以人为本、惠及全民的民生服务新体系。
               .开启大众创业、万众创新的创新驱动新格局。
               .培育高端智能、新兴繁荣的产业发展新生态。
 
       大数据应用
        大数据受到越来越多行业巨头们的关注,除了在电商、电信、金融这些传统数据丰富、信息系统发达的行业之外,在政府、医疗、制造和零售行业都有其巨大的社会价值和产业空间。
        .互联网和电子商务行业:应用最多的是用户行为分析,主要研究对象为用户在互联网、移动互联网上的访问日志、用户主体信息和外界环境信息,从而挖掘潜在客户,进行精准广告或营销。
        .电信/金融:通过对用户的通信、流量、消费等信息进行分析,判断用户的消费习惯和信用能力,可以给用户设计更贴合的产品,以提升产品竞争力。
        .政府:通过对大数据的挖掘和实时分析,可有效提高政府决策的科学性和时效性,并能帮助政府有效削减预算开支;借助大数据可使政府变得更加开放、透明和智慧;可以使政府更清楚地了解公民的意愿和想法,可提升公民的价值,还可以通过引导社会舆论,为社会公众提供更好的服务,树立更好的政府形象。
        .医疗:有了大数据的海量支持,可以使各医院资源充分发挥优势,有效弥补医疗资源及力量的不足,有利于疑难病症的治疗。通过对医疗数据的挖掘分析,也可以加快新药开发。
        .制造:通过对海量数据的获取、挖掘和分析,把握客户的需求,从而交付客户喜欢的产品。
 
       实际应用
        在考试时,可能会出现一些需要综合应用的问题,需要考生根据基本的概念,结合实际问题进行解答。
        例如,在某并发系统中,有一个发送进程A、一个接收进程B、一个环形缓冲区BUFFER、信号量S1S2。发送进程不断地产生消息并写入缓冲区BUFFER,接收进程不断地从缓冲区BUFFER取消息。假设发送进程和接收进程可以并发地执行,那么,当缓冲区的容量为N时,如何使用PV操作才能保证系统能够正常工作。发送进程A和接收进程B的工作流程如下图所示。请在下图中的①~④处填写正确的操作。
        
        PV操作实例一
        根据题意,很显然,这是一个“生产者-消费者”问题,根据该问题的特性,通常需要3个信号量来实现:两个用来管理缓冲区同步,信号量empty表示空闲缓冲区数量,初值为缓冲区最大数N,信号量full表示已填充缓冲区数量,初值为0;一个用于管理互斥,由信号量mutex保证只有一个进程在写缓冲区,初值为1。但在本题中,进程A和进程B允许并发地访问缓冲区,因此无须管理互斥,就不需要使用信号量mutex了。因此只需定义两个信号量:S1S2,初值为NS1在此承担的是信号量empty的功能,初值为0的S2在此则承担的是信号量full的功能。
        通过这样的分析,不难得出结论:①处应该是P(S1),将空闲缓冲区数量减1;②处应该是V(S2),将已填充的缓冲区数量加1;③处则是P(S2);④处为V(S1)。
        在这个例子的基础上,如果系统中有多个发送进程和接收进程,进程间的工作流程如下图所示,其中空①~④的内容与上图相同。发送进程产生消息并顺序地写入环形缓冲区BUFFER,接收者进程顺序地从BUFFER中取消息,且每条消息只能读取一次。为了保证进程间的正确通信,增加了信息量SASB。请说明信息量SA和SB的物理意义,在下图中的⑤和⑥处填入正确的内容,并从下图的~①中选择4个位置正确地插入P(SA)、V(SA)、P(SB)和V(SB)。
        
        PV操作实例二
        上图所涉及的问题在普通的“生产者-消费者”问题上增加了一些复杂度:“系统中有多个发送进程和接收进程”,根据题意,我们可以得知它要完成的控制是:发送进程顺序写入,接收进程顺序读取,而且每条消息都只能够读取一次。这显然是两个互斥的问题,即多个发送进程在写缓冲区时是互斥关系,多个接收进程读缓冲区也是互斥关系。因此,信号量SASB分别实现这两个用来完成两个进程的互斥控制。
        (1)SA:初值为1,表示允许同时对缓冲区进行写操作的进程数量。
        (2)SB:初值为1,表示允许同时对缓冲区进行读操作的进程数量。
        当然,两个对调也是可以的。在发送进程和接收进程中分别有一组信号量SASB的PV操作。因此,接下来的问题就是找插入点。互斥控制的要点在于判断出临界区的范围,也就是哪部分程序必须互斥进入,否则将出现问题。根据这一点,可以进行如下分析。
        (1)发送进程:在进程产生消息之后准备写入缓冲区时,这时就需要进行互斥判断,因此在位置应插入P(SA);而直到完成“i=(i+1)mod N”操作后,才完成缓冲区操作,因此必须在位置插入V(SA)。
        (2)接收进程:由于接收进程是负责读数据的,如果数据区是空的则应该等待,因此必须先完成P(S2)操作,来决定其是否需要阻塞。如果没有阻塞时,再进入临界区,因此应该在位置处操作P(SB);而“对读取的消息进行处理”已显然在临界区之外,因此应该在位置插入V(SB)。
   题号导航      2023年下半年 系统集成项目管理工程师 上午试卷 综合知识 (第二批)   本试卷我的完整做题情况  
1 /
2 /
3 /
4 /
5 /
6 /
7 /
8 /
9 /
10 /
11 /
12 /
13 /
14 /
15 /
 
16 /
17 /
18 /
19 /
20 /
21 /
22 /
23 /
24 /
25 /
26 /
27 /
28 /
29 /
30 /
 
31 /
32 /
33 /
34 /
35 /
36 /
37 /
38 /
39 /
40 /
41 /
42 /
43 /
44 /
45 /
 
46 /
47 /
48 /
49 /
50 /
51 /
52 /
53 /
54 /
55 /
56 /
57 /
58 /
59 /
60 /
 
61 /
62 /
63 /
64 /
65 /
66 /
67 /
68 /
69 /
70 /
71 /
72 /
73 /
74 /
75 /
 
第3题    在手机中做本题