免费智能真题库 > 历年试卷 > 电子商务设计师 > 2010年下半年 电子商务设计师 上午试卷 综合知识
  第31题      
  知识点:   数据仓库技术   数据仓库
  关键词:   数据仓库   数据        章/节:   Web 设计基础       

 
以下关于数据仓库的描述错误的是(31)
 
 
  A.  数据仓库是一种可读可写的二维数据库
 
  B.  数据仓库常作为决策支持系统的底层
 
  C.  数据仓库中存储的是一个时间段的数据
 
  D.  数据仓库组织管理数据的方法与普通数据库不同
 
 
 

 
  第27题    2011年下半年  
   24%
(27)技术是从海量数据中抽取有价值的信息,为决策支持提供依据。
  第31题    2012年下半年  
   54%
(31)技术能自动地进行数据分析。
 
   知识点讲解    
   · 数据仓库技术    · 数据仓库
 
       数据仓库技术
        数据仓库是一种只读的、用于分析的数据库,常常作为决策支持系统的底层。它从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格式,即为了决策目标而把数据聚合在一种特殊的格式中。数据仓库之父W. H. Inmon对数据仓库的定义是:数据仓库是支持管理决策过程的、面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合。其中,“主题”是指用户使用数据仓库辅助决策时所关心的重点问题,每一个主题对应一个客观分析领域,如销售、成本、利润的情况等。那么,所谓“面向主题”就是指数据仓库中的信息是按主题组织的,按主题来提供信息。“集成的”是指数据仓库中的数据不是业务处理系统数据的简单拼凑与汇总,而是经过系统地加工整理,是相互一致的、具有代表性的数据。所谓“随时间变化”,是指数据仓库中存储的是一个时间段的数据,而不仅仅是某一个时点的数据,所以主要用于进行时间趋势分析。一般数据仓库内的数据时限为5~10年,数据量也比较大。“信息本身相对稳定”,是指数据一旦进入数据仓库,一般情况下将被长期保留,变更很少。
        数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源,为了决策需要而产生的,它并不是所谓的“大型数据库”。数据仓库的方案建设的目的,是为前端查询和分析作为基础,由于有较大的冗余,所以需要的存储也较大。为了更好地为前端应用服务,数据仓库往往有如下几个特点:
        (1)数据效率足够高。数据仓库的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高,要求24小时甚至12小时内,客户能看到昨天的数据分析。由于有的企业每日的数据量很大,设计不好的数据仓库经常会出问题,延迟1~3日才能给出数据,显然不行的。
        (2)数据质量足够好。数据仓库所提供的各种信息,肯定要准确的数据,但由于数据仓库流程通常分为多个步骤,包括数据清洗、装载、查询、展现等,复杂的架构会更多层次,那么由于数据源有脏数据或者代码不严谨,都可以导致数据失真,客户看到错误的信息就可能导致分析出错误的决策,造成损失,而不是效益。
        (3)数据有足够的扩展性。之所以有的大型数据仓库系统架构设计复杂,是因为考虑到了未来若干年的扩展性,这样的话,未来不用太快花钱去重建数据仓库系统,就能很稳定运行。主要体现在数据建模的合理性,数据仓库方案中多出一些中间层,使海量数据流有足够的缓冲,不至于数据量大很多,就运行不起来了。
        数据仓库组织和管理数据的方法与普通数据库不同。主要表现在三个方面:
        (1)依据决策要求,只从数据库中抽取那些需要的数据,并进行预处理使系统获得特定的数据格式。
        (2)数据仓库是多维的,即数据仓库的数据的组织方式有多层的行和列。
        (3)支持决策处理,不同于普通的事务处理。
        数据仓库技术在近几年蓬勃发展起来,不少厂商都推出了他们的数据仓库产品,同时也推出了一些分析工具。仅仅拥有数据仓库是不够的,在其上应用各种工具进行分析,才能使数据仓库真正发挥作用。联机分析处理和数据挖掘就是这样的分析工具。
 
       数据仓库
        传统数据库在联机事务处理(OLTP)中获得了较大的成功,但是对管理人员的决策分析要求却无法满足。因为管理人员希望对组织中的大量数据进行分析,了解组织业务的发展趋势,而传统的数据库中只能保留当前的管理信息,缺乏决策分析所需要的大量的历史信息。为了满足管理人员的决策分析需要,在数据库基础上产生了能满足决策分析需要的数据环境——数据仓库(Data Warehouse,DW)。
        虽然数据仓库是从数据库发展而来的,但是二者在许多方面有相当大的差异,二者的比较情况如下表所示。
        
        数据仓库与数据库比较
               数据仓库的基本特性
               数据仓库有这样一些重要的特性:面向主题的、数据是集成的、数据是相对稳定的、数据是反映历史变化的。
                      面向主题的
                      数据仓库中数据是面向主题进行组织的。从信息管理的角度来看,主题就是一个较高的管理层次上对信息系统中数据按照某一具体的管理对象进行综合、归类所形成的分析对象。从数据组织的角度来看,主题就是一些数据集合,这些数据集合对分析对象进行了比较完整的、一致的数据描述,这种数据描述不仅涉及数据自身,还涉及数据间的联系。例如,企业中的客户、产品和供应商等都可以作为主题来看待。
                      数据仓库的创建使用都是围绕主题实现的,因此,必须了解如何按照决策分析来抽取主题,所抽取的主题应该包含哪些数据内容,这些数据应该如何组织。在进行主题抽取时,必须按照决策分析对象进行。例如,在企业销售管理中的管理人员所关心的是本企业哪些产品销售量大、利润高?哪些客户采购的产品数量多?竞争对手的哪些产品对本企业产品构成威胁?根据这些管理决策分析对象,就可以抽取“产品”“客户”等主题。
                      数据是集成的
                      数据仓库的集成性是指根据决策分析的要求,将分散于各处的原数据进行抽取、筛选、清理、综合等集成工作,使数据仓库中的数据具有集成性。
                      数据仓库所需要的数据不像业务处理系统那样直接从业务发生地获取数据。如在线事务处理系统(OLPT)、企业业务流程重组(BRP)以及基于因特网的电子商务(EC)中的数据是与业务处理联系在一起的,只为业务的日常处理服务,而不是为决策分析服务。这样,数据仓库在从业务处理系统那里获取数据时,并不能将原数据库中的数据直接加载到数据仓库中,而要进行一系列的数据预处理。即从原数据库中挑选出数据仓库所需要的数据,然后将来自不同数据库中的数据按某一标准进行统一,如将数据源中数据的单位、字长与内容统一起来,将源数据中字段的同名异义、异名同义现象消除,然后将源数据加载到数据仓库,并将数据仓库中的数据进行某种程度的综合,进行概括和聚集的处理。
                      数据是相对稳定的
                      数据仓库的数据主要是供决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。数据仓库的数据反映的是一段相当长的时间内历史数据的内容,是不同时间的数据库快照的集合,以及基于这些快照进行统计、综合和重组的导出数据,而不是联机处理的数据。数据库中进行联机处理的数据经过集成输入到数据仓库中。因为数据仓库只进行数据查询操作,所以在DBMS中的完整性保护、并发控制在数据仓库管理中都可以省去。但是,由于数据仓库的查询数据量往往很大,所以对数据查询提出了更高的要求,需要采用复杂的索引技术。
                      数据是反映历史变化的
                      数据仓库中数据的相对稳定是针对应用来说的,数据仓库的用户进行分析处理时是不进行数据更新操作的。但并不表明在从数据集成输入数据仓库开始到最终被删除的整个数据生存周期中,所有的数据仓库数据是永远不变的。数据仓库的数据是反映历史变化的,这主要表现在如下三个方面:
                      (1)数据仓库随时间变化不断增加新的数据内容。数据仓库系统必须不断捕捉OLTP数据库中变化的数据,追加到数据仓库中去。
                      (2)数据仓库随时间变化不断删除旧的数据内容。
                      (3)数据仓库中包含大量的综合数据,这些数据有很多信息与时间有关,如数据经常按时间段进行综合,或隔一定的时间进行抽样等等,这些数据要随时间不断地进行重新综合。
               数据仓库的数据模式
               典型的数据仓库具有为数据分析而设计的模式,使用OLAP工具进行联机分析处理。因此数据通常是多维数据,包括维属性、度量属性。包含多维数据的表称为事实表,事实表通常很大。例如,一个表sales记录了零售商店的销售信息,其中每个元组对应一个商品售出记录,这是一个非常典型的事实表的例子。表sales的维包括售出的是何种商品(用商品标识表示)、商品售出的日期、商品售出的地点、哪个顾客购买该商品等等。度量属性包括售出商品的数量和金额。
               为了减少存储要求,维属性通常是一些短的标识,作为参照其他表的外码。例如,事实表sales含有属性item_key、time_key、branch_key和location_key,以及度量属性units_sold和dollars_sold。其中,属性item_key是一个参照维表item的外码,表item含有商品名称、商品的品牌、商品所属类别等属性;属性time_key是一个参照维表time的外码,表time含有日、月、季和年的属性;属性branch_key是一个参照维表branch的外码,表branch含有出售商品的分销商的名称、分销商的类型属性;属性location_key是一个参照维表location的外码,表location含有销售地点的街道、城市、省份、国家等属性。由此得到一个事实表、多维表以及从事实表到多维表的参照外码的模式称为星型模式,如下图所示。
               
               数据仓库的星型模式示例
               更复杂的数据仓库设计可能含有多级维表,例如维表item含有属性supplier_key,作为参照给出供应商的细节信息的另一个维表supplier的外码;维表location含有属性city_key,作为参照给出城市的细节信息的另一个维表city的外码。这种模式称为雪花模式,如下图所示。
               
               数据仓库的雪花模式示例
               复杂的数据仓库设计可能含有不止一个事实表,下图模式中含有Sales和Shipping两个事实表,共享location、item、time和branch维表。这种模式称为事实星型模式。
               
               数据仓库的事实星型模式示例
               数据仓库的体系结构
               数据仓库通常采用三层体系结构,底层为数据仓库服务器、中间层为OLAP服务器,顶层为前端工具。底层的数据仓库服务器一般是一个关系数据库系统,数据仓库服务器从操作型数据库或外部数据源提取数据,对数据进行清理、转换、集成等,然后装入数据仓库中。中间层的OLAP服务器的实现可以是关系型OLAP,即扩充的关系型DBMS,提供对多维数据的支持;也可以是多维的OLAP服务器,它是一种特殊的服务器,直接支持多维数据的存储和操作。顶层的前端工具包括查询和报表工具、分析工具、数据挖掘工具等。
               从结构的角度看有三种数据仓库模型:企业仓库、数据集市和虚拟仓库。
               企业仓库收集跨越整个企业的各个主题的所有信息。它提供全企业范围的数据集成,数据通常都来自多个操作型数据库和外部信息提供者,并且是跨越多个功能范围的。它通常包含详细数据和汇总数据。企业数据仓库可以在传统的大型机上实现,例如UNIX超级服务器或并行结构平台。它需要广泛的业务建模,可能需要多年的时间来设计和建造。
               数据集市包含对特定用户有用的、企业范围数据的一个子集。它的范围限于选定的主题,例如一个商场的数据集市可能限定于它的主题为顾客、商品和销售。包括在数据集市中的数据通常是汇总的。通常,数据集市可以在低价格的部门服务器上实现,基于UNIX或Windows NT/2000/XP。实现数据集市的周期一般是数周,而不是数月或数年。但是,如果它的规划不是企业范围的,从长远讲,可能会涉及很复杂的集成。根据数据的来源不同,数据集市分为独立的和依赖的两类。在独立的数据集市中,数据来自一个或多个操作型数据库或外部信息提供者,或者是一个特定部门或地区本地产生的数据。在依赖数据集市中,数据直接来自企业数据仓库。
               虚拟仓库是操作型数据库上视图的集合。为了有效地处理查询,只有一些可能的汇总视图被物化。虚拟仓库易于建立,但需要操作型数据库服务器具有剩余能力。
   题号导航      2010年下半年 电子商务设计师 上午试卷 综合知识   本试卷我的完整做题情况  
1 /
2 /
3 /
4 /
5 /
6 /
7 /
8 /
9 /
10 /
11 /
12 /
13 /
14 /
15 /
 
16 /
17 /
18 /
19 /
20 /
21 /
22 /
23 /
24 /
25 /
26 /
27 /
28 /
29 /
30 /
 
31 /
32 /
33 /
34 /
35 /
36 /
37 /
38 /
39 /
40 /
41 /
42 /
43 /
44 /
45 /
 
46 /
47 /
48 /
49 /
50 /
51 /
52 /
53 /
54 /
55 /
56 /
57 /
58 /
59 /
60 /
 
61 /
62 /
63 /
64 /
65 /
66 /
67 /
68 /
69 /
70 /
71 /
72 /
73 /
74 /
75 /
 
第31题    在手机中做本题