免费智能真题库 > 历年试卷 > 信息系统项目管理师 > 2022年上半年 信息系统项目管理师 上午试卷 综合知识
  第4题      
  知识点:   数据库与数据仓库   并行计算
  关键词:   并行计算   数据        章/节:   信息系统及其技术和开发方法       

 
Hadoop中,()是大规模数据集的并行计算框架。
 
 
  A.  DataNode
 
  B.  HDFS
 
  C.  MapReduce
 
  D.  Hive
 
 
 

 
  第2题    2008年上半年  
   32%
把分布在不同地点、不同时间的数据集成起来,以支持管理人员决策的技术称为①,②为Web service 平台中表示数据的基本格式,①和..
  第9题    2009年下半年  
   63%
以下关于数据库设计中范式的叙述,不正确的是(9)。
  第3题    2020年下半年  
   27%
()不属于关系型数据库。
   知识点讲解    
   · 数据库与数据仓库    · 并行计算
 
       数据库与数据仓库
        1.数据库技术
        传统的数据库技术以单一的数据资源即数据库为中心,进行事务处理、批处理、决策分析等各种数据处理工作。
        数据处理主要有操作型处理和分析型处理两类。操作型处理也称事务处理,指的是对联机数据库的日常操作,通常是对数据库中记录的查询和修改,主要为企业的特定应用服务,强调处理的响应时间、数据的安全性和完整性等;分析型处理则用于管理人员的决策分析,经常要访问大量的历史数据。
        传统数据库系统主要强调日常事务处理工作,难以实现对数据分析处理的要求,无法满足数据处理多样化的要求,操作型处理和分析型处理的分离成为必然。
        2.数据仓库
        定义
        数据仓库(Data Warehouse)是面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
        特点:
        .数据仓库用于决策支持,面向分析型数据处理,不同于操作型数据库。
        .数据仓库是对多个异构数据源(包括历史数据)的有效集成,集成后按主题重组,且存放在数据仓库中的数据一般不再修改。
        和操作型数据库的区别
        数据仓库与操作型数据库相比,有如下区别:
        .面向主题。操作型数据库的数据面向事务处理,各个业务系统之间各自分离;而数据仓库中的数据按主题进行组织。主题是指用户使用数据仓库进行决策时所关心的某些方面,一个主题通常与多个操作型系统相关。
        .集成。操作型数据库通常与某些特定应用相关,数据库之间相互独立,且往往是异构的;而数据仓库的数据是在原有分散数据库数据抽取清理的基础上经过系统加工、汇总和整理得到,消除了源数据中的不一致性,保证信息是整个企业一致性的全局信息。
        .相对稳定。操作型数据库中的数据通常是实时更新的,数据根据需要及时变化;而数据仓库的数据主要供企业决策分析之用,涉及的数据操作主要是查询,只有少量的修改和删除,通常只需定期加载、刷新。
        .反映历史变化。操作型数据库主要关心当前某个时间段内的数据;而数据仓库通常包含历史信息,通过这些信息可以对企业的发展历程和未来趋势做出定量分析和预测。
        数据仓库系统的结构
        数据仓库系统的结构通常包含4个层次,分别为:
        .数据源。是数据仓库系统的基础,通常包括企业内部信息和外部信息。内部信息包括存放于数据库中的各种业务处理数据和各类文档数据;外部信息包括各类法律法规、市场信息和竞争对手的信息等。
        .数据存储与管理。是整个数据仓库系统的核心。数据仓库的组织管理方式决定了对外部数据的表现形式。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)两种。
        .OLAP服务器。对分析需要的数据进行有效集成,按多维模型组织,以便进行多角度、多层次的分析,并发现趋势。具体实现可以分为ROLAP、MOLAP和HOLAP。ROLAP的基本数据和聚合数据均存放在关系数据库中;MOLAP的基本数据和聚合数据均存放在多维数据库中;HOLAP的基本数据存放在关系数据库中,聚合数据存放在多维数据库中。
        .前端工具和应用。主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。
 
       并行计算
        云计算下把海量数据分布到多个结点上,将计算并行化,利用多机的计算资源,加快数据处理的速度。Google的MapReduce模型就是面向互联网数据密集型应用的并行编程模型。
        云计算下的并行处理需要考虑以下关键问题,任务划分、任务调度和自动容错处理机制。
               任务划分
               在MapReduce中,数据以块的形式存储在集群的各个结点上,每个计算任务只需处理一部分数据,这样自然地实现了海量数据的并行处理。这种简单的根据存储位置进行任务划分的方式,只适用于不存在数据依赖关系的计算。而对于存在依赖关系的计算,MapReduce将复杂的计算转化为一系列单一的Map/Reduce计算,串联起来完成多个Map/Reduce任务来实现复杂计算。
               任务调度
               MapReduce将存储和计算资源部署在相同结点上,优先把计算任务调度到数据所在的结点或者就近的结点,这样在进行计算时,大部分的输入数据都能从本地读取,减少了网络带宽的消耗,提高了整个系统的吞吐量。另外,MapReduce对于由于各种原因(例如硬盘出错)造成执行非常慢的子任务采用了备用任务的机制,当MapReduce操作接近完成时,调度备用任务进程来执行剩下的执行非常慢的子任务。
               自动容错处理机制
               常用恢复机制有两类:任务重做(Task Re-execute)和检查点(Checkpoint)回滚方式。这两种机制各有优缺点,前者实现非常简单,但是重做的代价比较大;后者实现较复杂,需要周期性地记录所有进程状态,但是恢复较快。MapReduce主要采用任务重做的方式来处理结点的失效。
   题号导航      2022年上半年 信息系统项目管理师 上午试卷 综合知识   本试卷我的完整做题情况  
1 /
2 /
3 /
4 /
5 /
6 /
7 /
8 /
9 /
10 /
11 /
12 /
13 /
14 /
15 /
 
16 /
17 /
18 /
19 /
20 /
21 /
22 /
23 /
24 /
25 /
26 /
27 /
28 /
29 /
30 /
 
31 /
32 /
33 /
34 /
35 /
36 /
37 /
38 /
39 /
40 /
41 /
42 /
43 /
44 /
45 /
 
46 /
47 /
48 /
49 /
50 /
51 /
52 /
53 /
54 /
55 /
56 /
57 /
58 /
59 /
60 /
 
61 /
62 /
63 /
64 /
65 /
66 /
67 /
68 /
69 /
70 /
71 /
72 /
73 /
74 /
75 /
 
第4题    在手机中做本题