免费智能真题库 > 历年试卷 > 系统集成项目管理工程师 > 2017年下半年 系统集成项目管理工程师 上午试卷 综合知识
  第23题      
  知识点:   大数据   大数据关键技术   并行处理   关键技术
  关键词:   大数据   数据处理   数据源   数据        章/节:   新一代信息技术       

 
在将数据源经过分析挖掘到最终获得价值的大数据处理过程中,MapReduce是在 ( )阶段应用分布式并行处理关键技术的常用工具。
 
 
  A.  数据采集
 
  B.  数据管理
 
  C.  数据存储
 
  D.  数据分析与挖掘
 
 
 

 
  第23题    2019年下半年  
   50%
在大数据相关技术中,( )是一个分布式的、面向列的开源数据库,是一个适合于非结构化数据存储的数据库。
  第46题    2023年下半年  
   100%
大数据的关键技术不包括()
  第23题    2016年下半年  
   59%
在大数据的关键技术中,数据抽取工具ETL是(23)过程主要使用的技术。
   知识点讲解    
   · 大数据    · 大数据关键技术    · 并行处理    · 关键技术
 
       大数据
               大数据的概念
               大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。大数据的来源包括网站浏览轨迹、各种文档和媒体、社交媒体信息、物联网传感信息、各种程序和APP的日志文件等。
               大数据关键技术
               大数据所涉及的技术很多,主要包括:
               .数据采集:使用数据抽取工具ETL。
               .数据存储:包括结构化数据、非结构化数据和半结构化数据的存储与访问。结构化数据一般存放在关系数据库中,通过SQL来访问;非结构化(如图片、视频、文件等)和半结构化数据一般通过分布式文件系统的NoSQL进行存储。
               .数据管理:主要使用分布式并行处理技术,比较常用的有MapReduce。
               .数据分析与挖掘:根据业务需求对大数据进行关联、聚类、分类等钻取和分析,并利用图形、表格加以展示。
               开源大数据框架Hadoop的关键技术包括:
               .HDFS(Hadoop分布式文件系统):是适合运行在通用硬件上的分布式文件系统,是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大数据应用。
               .HBase:一个分布式的、面向列的开源数据库。利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库,并且采用基于列而不是基于行的模式。
               .MapReduce:一种编程模型,用于大规模数据集(大于1TB)的并行运算。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上,从而实现对HDFS和HBase上的海量数据分析。
               .Chukwa:一个开源的用于监控大型分布式系统的数据收集系统。Chukwa构建在Hadoop的HDFS和MapReduce框架之上,继承了Hadoop的可升缩性和健壮性,它包含了一个强大而灵活的工具集,可用于展示、监控和分析已收集的数据。
               大数据应用
               大数据受到越来越多行业巨头们的关注,除了在电商、电信、金融这些传统数据丰富、信息系统发达的行业之外,在政府、医疗、制造和零售行业都有其巨大的社会价值和产业空间。
               .互联网和电子商务行业:应用最多的是用户行为分析,主要研究对象为用户在互联网、移动互联网上的访问日志、用户主体信息和外界环境信息,从而挖掘潜在客户,进行精准广告或营销。
               .电信/金融:通过对用户的通信、流量、消费等信息进行分析,判断用户的消费习惯和信用能力,可以给用户设计更贴合的产品,以提升产品竞争力。
               .政府:通过对大数据的挖掘和实时分析,可有效提高政府决策的科学性和时效性,并能帮助政府有效削减预算开支;借助大数据可使政府变得更加开放、透明和智慧;可以使政府更清楚地了解公民的意愿和想法,可提升公民的价值,还可以通过引导社会舆论,为社会公众提供更好的服务,树立更好的政府形象。
               .医疗:有了大数据的海量支持,可以使各医院资源充分发挥优势,有效弥补医疗资源及力量的不足,有利于疑难病症的治疗。通过对医疗数据的挖掘分析,也可以加快新药开发。
               .制造:通过对海量数据的获取、挖掘和分析,把握客户的需求,从而交付客户喜欢的产品。
               大数据发展目标
               大数据发展和应用的目标如下:
               .打造精准治理、多方协作的社会治理新模式。
               .建立运行平稳、安全高效的经济运行新机制。
               .构建以人为本、惠及全民的民生服务新体系。
               .开启大众创业、万众创新的创新驱动新格局。
               .培育高端智能、新兴繁荣的产业发展新生态。
 
       大数据关键技术
        大数据所涉及的技术很多,主要包括:
        .数据采集:使用数据抽取工具ETL。
        .数据存储:包括结构化数据、非结构化数据和半结构化数据的存储与访问。结构化数据一般存放在关系数据库中,通过SQL来访问;非结构化(如图片、视频、文件等)和半结构化数据一般通过分布式文件系统的NoSQL进行存储。
        .数据管理:主要使用分布式并行处理技术,比较常用的有MapReduce。
        .数据分析与挖掘:根据业务需求对大数据进行关联、聚类、分类等钻取和分析,并利用图形、表格加以展示。
        开源大数据框架Hadoop的关键技术包括:
        .HDFS(Hadoop分布式文件系统):是适合运行在通用硬件上的分布式文件系统,是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大数据应用。
        .HBase:一个分布式的、面向列的开源数据库。利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库,并且采用基于列而不是基于行的模式。
        .MapReduce:一种编程模型,用于大规模数据集(大于1TB)的并行运算。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上,从而实现对HDFS和HBase上的海量数据分析。
        .Chukwa:一个开源的用于监控大型分布式系统的数据收集系统。Chukwa构建在Hadoop的HDFS和MapReduce框架之上,继承了Hadoop的可升缩性和健壮性,它包含了一个强大而灵活的工具集,可用于展示、监控和分析已收集的数据。
 
       并行处理
        本节主要介绍几种多处理机系统。
        (1)超级标量处理机。在超级标量处理机中,配置了多个功能部件和指令译码电路,采取了多条流水线,还有多个寄存器端口和总线,因此可以同时执行多个操作,以并行处理来提高机器速度。它可以同时从存储器中取出几条指令同时送入不同的功能部件。超级标量机的硬件是不能重新安排指令的前后次序的,但可以在编译程序时采取优化的办法对指令的执行次序进行精心安排,把能并行执行的指令搭配起来。
        (2)超级流水线处理机。超级流水线处理机的周期比其他结构的处理机短。与超级标量计算机一样,硬件不能调整指令的执行次序,而由编译程序解决优先问题。
        (3)超长指令字处理机。超长指令字处理机是一种单指令流多操作码多数据的系统结构,编译程序在编译时把这个能并行执行的操作组合在一起,成为一条有多个操作段的超长指令,由这条超长指令控制计算机中多个互相独立的功能部件,每个操作段控制一个功能部件,相当于同时执行多条指令。
        (4)向量处理机。向量处理机是一种具有向量数据表示、并设置有相应的指令和硬件、能对向量的各个元素进行并行处理的计算机。当进行向量运算时,它的性能要比大型机好得多。向量处理机有巨型计算机和向量协处理机(或称为数组处理机)两种类型,巨型计算机能对大量的数据进行浮点运算,同时它还是可以进行标量计算和一般数据处理的通用计算机。向量处理机一般采用流水线工作,当它处理一条数组指令时,对数组中的每个元素执行相同的操作,而且各元素间是互相无关的,因此流水线不会阻塞,能以每个时钟周期送出一个结果的速度运行。为了存储系统能及时提供数据,向量处理器配有一个大容量的、分成多个模块交错工作的主存储器。为了提高运算速度,在向量处理机的运算部件中可采用多个功能部件,例如向量部件、浮点部件、整数运算部件和计算地址用的地址部件。向量协处理机是专门处理浮点和向量运算的数组处理机,它连接到主机总线上。
        (5)多处理机系统。多处理机具有两个或两个以上的处理机,共享I/O子系统,在操作系统统一控制下,通过共享主存或高速通信网络进行通信,协同求解一个个复杂的问题。多处理机通过利用多台处理机进行多任务处理来提高速度,利用系统的重组能力来提高可靠性、适应性和可用性。多处理机结构具有共享存储器和分布存储器两种不同的结构。具有共享存储器的多处理机中,程序员无数据划分的负担,编程容易;系统处理机数目较少,不易扩充。具有分布式存储器的多处理机结构灵活;容易扩充;难以在各个处理单元之间实现复杂数据结构的数据传送;任务动态分配复杂;现有软件可继承性差;需要设计新的并行算法。多处理机系统属于MIMD系统,与SIMD的并行处理机相比,有很大的差别。其根源就在于两者的并行性的层次不同,多处理机要实现的是更高一层的作业任务间的并行。
        (6)大规模并行处理机。并行处理机有时也称为阵列处理机。并行处理机使用按地址访问的随机存储器,以SIMD方式工作。主要用于要求大量高速进行向量矩阵运算的应用领域。并行处理机制并行性来源于资源重复,把大量相同的处理单元通过互联网连接起来,在统一的控制器控制下,对各自分配来的数据并行完成同一条指令所规定的操作。并行处理机有两种基本结构类型:采用分布式存储器的并行处理结构和采用集中式共享存储器的并行处理结构。分布式存储器的并行处理结构中,每一个处理机都有自己局部的存储器,只要控制部件将并行处理的程序分配至各处理机,它们便能并行处理,各自从自己的局部存储器中取得信息。而共享存储多处理结构中的存储器是集中共享的,由于多个处理机共享,在各处理机访问共享存储器时会发生竞争。因此,需采取措施尽可能避免竞争的发生。MPP是由众多的微处理器(从几百到上万)组成的大规模的并行系统。MPP的出现成为计算机领域中一个研发热点,被用作开发万亿次甚至更高速的巨型机的主要结构。MPP可以采用市场上的出售的RISC处理器,所以有很高的性价比。
        (7)对称多处理机。SMP目前也基于RISC微处理器。它与MPP最大的差别在于存储系统。SMP有一个统一共享主存空间,而MPP则是每个微处理器都拥有自己的本地存储器。
        按多处理机之间连接的紧密程度,多机系统可分为紧耦合系统和松耦合系统两种。
        紧耦合系统又称为直接耦合系统,是指各处理机之间通过互连网络共享内存。紧耦合多机系统由P台处理机、m个存储器模块、d个I/O通道和3个互联网络构成。处理机-存储器网络实现处理机与各存储模块的连接。处理机中断信号网络实现多处理机之间的互连。处理机-I/O互联网络实现处理机与外设的连接。每个处理机可自带局部存储器,也可自带Cache。存储器模块可采用流水工作方式。紧耦合多机系统多用于并行作业中的多任务,一般处理机是同构的。例如,SMP属于紧耦合多机系统。
        松耦合系统又称为间接耦合系统,是指各处理机间通过共享I/O子系统、通道或通信线路实现机间通信,不共享内存。松耦合多处理机由P个处理机、1个通道、1个仲裁开关和消息传送系统。构成每个处理机带有一个局部存储器和一组I/O设备。在仲裁开关的通道中有高速通信存储,用来缓冲传送的信息块。松散耦合多处理机较适合粗粒度的并行计算。例如,MPP属于松耦合多机系统。
 
       关键技术
        一个完整的嵌入式DBMS由若干子系统组成,包括主DBMS、同步服务器、嵌入式DBMS、连接网络等几个子系统,如下图所示。
        
        嵌入式数据库系统组成
        (1)嵌入式DBMS。嵌入式DBMS是一个功能独立的单用户DBMS。它可以独立于同步服务器和主DBMS运行,对嵌入式系统中的数据进行管理,也可以通过同步服务器连接到主服务器上,对主数据库中的数据进行操作,还可以通过多种方式进行数据同步。
        (2)同步服务器。同步服务器是嵌入式数据库和主数据库之间的连接枢纽,保证嵌入式数据库和主数据库中数据的一致性。
        (3)数据服务器。数据服务器的主数据库及DBMS可以采用Oracle或Sybase等大型通用数据库系统。
        (4)连接网络。主数据库服务器和同步服务器之间一般通过高带宽、低延迟的固定网络进行连接。移动设备和同步服务器之间的连接根据设备具体情况可以是无线局域网、红外连接、通用串行线或公众网等。
               移动DBMS的关键技术
               嵌入式移动数据库在实际应用中必须解决好数据的一致性(复制性)、高效的事务处理和数据的安全性等问题。
               (1)数据的一致性。嵌入式移动数据库的一个显著特点是,移动数据终端之间以及与同步服务器之间的连接是一种弱连接,即低带宽、长延迟、不稳定和经常性断接。为了支持用户在弱环境下对数据库的操作,现在普遍采用乐观复制方法,允许用户对本地缓存上的数据副本进行操作。待网络重新连接后再与数据库服务器或其他移动数据终端交换数据修改信息,并通过冲突检测和协调来恢复数据的一致性。
               (2)高效的事务处理。移动事务处理要解决在移动环境中频繁的、可预见的断接情况下的事务处理。为了保证活动事务的顺利完成,必须设计和实现新的事务管理策略和算法。
               (3)数据的安全性。许多应用领域的嵌入式设备是系统中数据管理或处理的关键设备,因此嵌入式设备上的DBS对存取权限的控制较严格。同时,许多嵌入式设备具有较高的移动性、便携性和非固定的工作环境,也带来潜在的不安全因素。同时某些数据的个人隐私性又很高,因此在防止碰撞、磁场干扰、遗失、盗窃等方面对个人数据的安全性需要提供充分的保证。
               移动DBMS的特性
               移动DBMS的计算环境是传统分布式DBMS的扩展,它可以看做客户端与固定服务器结点动态连接的分布式系统。因此移动计算环境中的DBMS是一种动态分布式DBMS。由于嵌入式移动DBMS在移动计算的环境下应用在EOS之上,所以它有自己的特点和功能需求:
               (1)微核结构。考虑到嵌入式设备的资源有限,嵌入式移动DBMS应采用微型化技术实现,在满足应用的前提下紧缩其系统结构以满足嵌入式应用的需求。
               (2)对标准SQL的支持。嵌入式移动DBMS应能提供了对标准SQL的支持。支持SQL92标准的子集,支持数据查询(连接查询、子查询、排序、分组等)、插入、更新、删除多种标准的SQL语句,充分满足嵌入式应用开发的需求。
               (3)事务管理功能。嵌入式移动DBMS应具有事务处理功能,自动维护事务的完整性、原子性等特性;支持实体完整性和引用完整性。
               (4)完善的数据同步机制。数据同步是嵌入式数据库最重要的特点。通过数据复制,可以将嵌入式数据库或主数据库的变化情况应用到对方,保证数据的一致性。
               (5)支持多种连接协议。嵌入式移动DBMS应支持多种通信连接协议。可以通过串行通信、TCP/IP、红外传输、蓝牙等多种连接方式来实现与嵌入式设备和数据库服务器的连接。
               (6)完备的嵌入式数据库的管理功能。嵌入式移动DBMS应具有自动恢复功能,基本无须人工干预进行嵌入式数据库管理,并能够提供数据的备份和恢复,保证用户数据的安全可靠。
               (7)支持多种EOS。嵌入式移动DBMS应能支持Windows CE、Palm等多种目前流行的EOS,这样才能使嵌入式移动DBMS不受移动终端的限制。
               另外,一种理想的状态是用户只用一台移动终端(如手机)就能对与它相关的所有移动数据库进行数据操作和管理。这就要求前端系统具有通用性,而且要求移动数据库的接口有统一、规范的标准。前端管理系统在进行数据处理时自动生成统一的事务处理命令,提交当前所连接的数据服务器执行。这样就有效地增强了嵌入式移动DBMS的通用性,扩大了嵌入式移动数据库的应用前景。
               在嵌入式移动DBMS中还需要考虑诸多传统计算环境下不需要考虑的问题,例如,对断接操作的支持、对跨区长事务的支持、对位置相关查询的支持、对查询优化的特殊考虑,以及对提高有限资源的利用率和对系统效率的考虑等。为了有效地解决这些问题,诸如复制与缓存技术、移动事务处理、数据广播技术、移动查询处理与查询优化、位置相关的数据处理及查询技术、移动信息发布技术、移动Agent等技术仍在不断地发展和完善,会进一步促进嵌入式移动DBMS的发展。
   题号导航      2017年下半年 系统集成项目管理工程师 上午试卷 综合知识   本试卷我的完整做题情况  
1 /
2 /
3 /
4 /
5 /
6 /
7 /
8 /
9 /
10 /
11 /
12 /
13 /
14 /
15 /
 
16 /
17 /
18 /
19 /
20 /
21 /
22 /
23 /
24 /
25 /
26 /
27 /
28 /
29 /
30 /
 
31 /
32 /
33 /
34 /
35 /
36 /
37 /
38 /
39 /
40 /
41 /
42 /
43 /
44 /
45 /
 
46 /
47 /
48 /
49 /
50 /
51 /
52 /
53 /
54 /
55 /
56 /
57 /
58 /
59 /
60 /
 
61 /
62 /
63 /
64 /
65 /
66 /
67 /
68 /
69 /
70 /
71 /
72 /
73 /
74 /
75 /
 
第23题    在手机中做本题