免费智能真题库 > 历年试卷 > 系统集成项目管理工程师 > 2014年上半年 系统集成项目管理工程师 上午试卷 综合知识
  第7题      
  知识点:   商业智能   数据仓库   结论   数据挖掘
  关键词:   商业智能   数据仓库   数据挖掘   知识发现   数据        章/节:   基本信息系统集成技术       

 
商业智能是指利用数据挖掘、知识发现等技术分析和挖掘结构化的、面向特定领域的存储与数据仓库的信息。它可以帮助用户认清发展趋势、获取决策支持并得出结论。()不属于商业智能范畴。
 
 
  A.  大型企业通过对产品销售数据进行挖掘,分析客户购买偏好
 
  B.  某大型企业查询数据仓库中某种产品的总体销售数量
 
  C.  某大型购物网站通过分析用户的购买历史记录,为客户进行商品推荐
 
  D.  某银行通过分析大量股票交易的历史数据,做出投资决策
 
 
 

 
  第28题    2009年下半年  
   58%
下面关于数据仓库的叙述,错误的是(28)。
  第16题    2015年下半年  
   46%
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的的、相对稳定的,反应历史变化的数据集合,用于支持管理..
  第9题    2012年上半年  
   51%
数据库管理系统是操纵和管理数据库的大型软件,用于建立、使用和维护数据库。以下关于数据库管理系统的描述, (9) 是不正确的。
   知识点讲解    
   · 商业智能    · 数据仓库    · 结论    · 数据挖掘
 
       商业智能
               商业智能的基本概念
               商业智能(Business Intelligence, BI)通常被理解为将组织中现有的数据转化为知识,帮助组织作出明智的业务经营决策。其数据包括来自组织业务系统的订单、库存、交易账目、客户和供应商等方面的数据,来自组织所处行业和竞争对手的数据以及来自组织所处的其他外部环境中的各种数据。
               商业智能一般由数据仓库、联机分析处理(OLAP)、数据挖掘、数据备份和恢复等部分组成。
               商业智能的关键是从来自组织的许多不同的运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到一个组织级的数据仓库里,从而得到组织数据的一个全局视图。在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。
               商业智能的主要功能
               商业智能系统应具有的主要功能有:
               .数据仓库:高效的数据存储和访问方式。提供结构化和非结构化的数据存储,容量大,运行稳定,维护成本低,支持元数据管理,支持多种结构,如中心式数据仓库和分布式数据仓库等。存储介质能够支持近线式和二级存储器,能够很好地支持容灾和备份方案。
               .数据ETL:支持多平台、多数据存储格式的数据组织,要求能自动地根据描述或者规则进行数据查找和理解。减少海量、复杂数据与全局决策数据之间的差距,帮助形成支撑决策要求的参考内容。
               .数据统计输出(报表):能快速地完成数据统计的设计和展示。
               .分析功能:可以通过业务规则形成分析内容,并且展示样式丰富,具有一定的交互要求,例如预警或趋势分析等。
               商业智能的三个层次
               商业智能的实现有三个层次,分别为:
               .数据报表:BI的低端实现。其不足之处是数据太多,信息太少;难以交互分析、了解各种组合;难以挖掘出潜在的规则;难以追溯历史,形成数据孤岛。
               .多维数据分析:数据分析系统的总体架构由四个部分组成,包括源系统、数据仓库、多维数据库和客户端。
               .数据挖掘:源数据经过抽取和转换等成为适合挖掘的数据集,数据挖掘在这种具有固定形式的数据集上完成知识的提炼,最后以合适的知识模式用于进一步分析决策工作。
               商业智能的软件工具集合
               商业智能的软件工具主要包括:
               .终端用户查询和报告工具。
               .数据仓库(Data Warehouse)和数据集市(Data Mart)产品。
               .数据挖掘(Data Mining)软件。
               .OLAP工具。
               OLTP和OLAP的区别如下:
               .OLTP(Online Transaction Processing)是联机事务处理,属于传统关系型数据库的一个主要应用,主要用于基本的、日常的事务处理,如银行交易。
               .OLAP(Online Analytical Processing)是联机分析处理,是数据仓库系统的一个主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。其典型的应用是对商业问题的建模与商业数据分析,也被称为多维分析。
               OLAP的实现方法根据存储数据的方式不同可分为:
               .ROLAP(Relational OLAP):表示基于关系数据库的OLAP实现。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。它将多维数据库的多维结构划分为两类表,一类是事实表,一类是维表。
               .MOLAP(Multidimensional OLAP):表示基于多维数据组织的OLAP实现。以多维数据组织方式为核心,多维数据在存储中将形成“立方块(Cube)”的结构,在MOLAP中对“立方块”的“旋转”“切块”和“切片”是产生多维数据报表的主要技术。
               .HOLAP(Hybrid OLAP):表示基于混合数据组织的OLAP实现。如低层是关系型的,高层是多维矩阵型的。
               主流的商业智能工具包括BO、COGNOS和BRIO。一些国内的软件工具平台如KCOM也集成了一些基本的商业智能工具。
               商业智能的实施步骤
               商业智能项目的实施可按如下步骤:
               (1)需求分析。
               (2)数据仓库建模。
               (3)数据抽取。
               (4)建立商业智能分析报表。
               (5)用户培训和数据模拟测试。
               (6)系统改进和完善。
 
       数据仓库
               定义
               数据仓库(Data Warehouse)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
               特点:
               .数据仓库用于决策支持,面向分析型数据处理,不同于操作型数据库。
               .数据仓库是对多个异构数据源(包括历史数据)的有效集成,集成后按主题重组,且存放在数据仓库中的数据一般不再修改。
               和操作型数据库的区别
               数据仓库与操作型数据库相比,有如下区别:
               .面向主题:操作型数据库的数据面向事务处理,各个业务系统之间各自分离;而数据仓库中的数据按主题进行组织。主题是指用户使用数据仓库进行决策时所关心的某些方面,一个主题通常与多个操作型系统相关。
               .集成:操作型数据库通常与某些特定应用相关,数据库之间相互独立,且往往是异构的;而数据仓库的数据是在原有分散数据库数据抽取清理的基础上经过系统加工、汇总和整理得到的,消除了源数据中的不一致性,保证了信息是整个企业一致性的全局信息。
               .相对稳定:操作型数据库中的数据通常是实时更新的,数据根据需要及时发生变化;而数据仓库的数据主要供企业决策分析之用,涉及的数据操作主要是查询,只有少量的修改和删除,通常只需定期加载、刷新。
               .反映历史变化:操作型数据库主要关心当前某个时间段内的数据;而数据仓库通常包含历史信息,通过这些信息可以对企业的发展历程和未来趋势做出定量分析和预测。
               数据仓库系统的结构
               数据仓库系统的结构通常包含四个层次,分别为:
               .数据源:是数据仓库系统的基础,通常包括企业内部信息和外部信息。内部信息包括存放于数据库中的各种业务处理数据和各类文档数据;外部信息包括各类法律法规、市场信息和竞争对手的信息等。
               .数据存储与管理:是整个数据仓库系统的核心。数据仓库的组织管理方式决定了对外部数据的表现形式。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)两种。
               .OLAP服务器:对分析需要的数据进行有效集成,按多维模型组织,以便进行多角度、多层次的分析,并发现趋势。具体实现可以分为ROLAP、MOLAP和HOLAP。ROLAP的基本数据和聚合数据均存放在关系数据库中;MOLAP的基本数据和聚合数据均存放在多维数据库中;HOLAP的基本数据存放在关系数据库中,聚合数据存放在多维数据库中。
               .前端工具和应用:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。
 
       结论
        从上面的概念和例子可以看出,要进行上面的白盒测试是需要投入巨大的测试资源,包括人力、物力和时间等。但是为什么还要进行白盒测试呢?原因如下。
        . 逻辑错误和不正确假设与一条程序路径被运行的可能性成反比。当我们设计和实现主流之外的功能、条件或控制时,错误往往开始出现在我们的工作中。日常处理往往被很好地了解(和很好地细查),而“特殊情况”的处理则难以发现。
        . 我们经常相信某逻辑路径不可能被执行,而事实上,它可能在正常的基础上被执行。程序的逻辑流有时是违反直觉的,这意味着我们关于控制流和数据流的一些无意识的假设,可能导致设计错误。只有路径测试才能发现这些错误。
        . 印刷上的错误是随机的。当一个程序被翻译为程序设计语言源代码时,有可能产生某些打印错误,很多将被语法检查机制发现,但是,其他的错误只有在测试开始时才会被发现。打印错误出现在主流上和出现在不明显的逻辑路径上的可能性是一样的。
 
       数据挖掘
        随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息,如果能把这些信息从数据库中抽取出来,将为公司创造很多潜在的利润,而这种从海量数据库中挖掘信息的技术,就称之为数据挖掘(Data Mining,DM)。事实上,从技术角度看,数据挖掘可以定义为从大量的、不完全的、有噪声的、模糊的、随机的实际数据中提取隐含在其中的、人们不知道的、但又潜在有用的信息和知识的过程。
               数据挖掘的分类
               数据挖掘工具能够对将来的趋势和行为进行预测,从而很好地支持人们的决策,比如,经过对公司整个数据库系统的分析,数据挖掘工具可以回答诸如“哪个客户对我们公司的邮件推销活动最有可能做出反应,为什么”等类似的问题。有些数据挖掘工具还能够解决一些很消耗人工时间的传统问题,因为它们能够快速地浏览整个数据库,找出一些专家们不易察觉的极有用的信息。
               数据挖掘技术的分类可以有多种角度。按照所挖掘数据库的种类可分为:关系型数据库的数据挖掘、数据仓库的数据挖掘、面向对象数据库的挖掘、空间数据库的挖掘、正文数据库和多媒体数据库的数据挖掘等。按所发现的知识类别可分为:关联规则、特征描述、分类分析、聚类分析、趋势和偏差分析等。按所发现的知识抽象层次可分为:一般化知识、初级知识和多层次知识等。
               数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。现在数据挖掘技术在商业应用中已经可以马上投入使用,因为对这种技术进行支持的三种基础技术已经发展成熟。这些技术是:海量数据搜集、强大的多处理器计算机、数据挖掘算法。在数据挖掘中最常用的技术有:
               .人工神经网络:仿照生理神经网络结构的非线形预测模型,通过学习进行模式识别。
               .决策树:代表着决策集的树形结构。
               .遗传算法:基于进化理论,并采用遗传结合、遗传变异,以及自然选择等设计方法的优化技术。
               .近邻算法:将数据集合中每一个记录进行分类的方法。
               .规则推导:从统计意义上对数据中的“如果-那么”规则进行寻找和推导。
               采用上述技术的某些专门的分析工具已经发展了大约十年的历史,不过这些工具所面对的数据量通常较小。而现在这些技术已经被直接集成到许多大型的工业标准的数据仓库和联机分析系统中去了。将数据挖掘工具与传统数据分析工具进行比较(如下表所示),可以发现传统数据分析工具的分析重点在于向管理人员提供过去已经发生什么,描述过去的事实,例如,上个月的销售成本是多少;而挖掘工具则在于预测未来的情况,解释过去所发生的事实的原因,例如,下个月的市场需求情况怎样,或者某个客户为什么会转向竞争对手。分析的目的也不同,前者是为了从过去的事实中列出管理人员感兴趣的事实,例如,哪些是公司最大的客户;后者则是要找出哪些未来可能成为公司最大的客户。从两者分析时所需的数据量来看,也有明显的差异,前者需要的数据量并不很大,而后者需要海量数据才能运行。
               
               数据挖掘工具与传统数据分析工具的比较
               数据挖掘与数据仓库的关系
               根据数据挖掘的定义可以看出,数据挖掘包含一系列旨在数据库中发现有用而未发现的模式的技术,如果将其与数据仓库紧密联系在一起,将会获取意外的成功。传统的观点认为,数据挖掘技术扎根于计算科学和数学,不需要也不得益于数据仓库。这种观点并不正确,成功的数据挖掘的关键之一在于通过访问正确、完整和集成的数据,才能进行深层次的分析,寻求有益的信息。而这些正是数据仓库所能提供的,数据仓库不仅是集成数据的一种方式,数据仓库的联机分析功能OLAP还为数据挖掘提供了一个极佳的操作平台。如果数据仓库与数据挖掘能够实现有效的联结,将给数据挖掘带来各种便利和功能。
               数据挖掘技术的应用过程
               数据挖掘过程一般需要经历确定挖掘对象、准备数据、建立模型、数据挖掘、结果分析与知识应用这样几个阶段。
                      确定挖掘对象
                      数据挖掘的第一步是要定义清晰的挖掘对象、认清数据挖掘的目标。数据挖掘的最后结果往往是不可预测的,但是探索的问题应是有预见性的、有目标的。为了数据挖掘而挖掘数据带有盲目性,往往是不会成功的。在定义挖掘对象时,需要确定这样的问题:从何处入手?需要挖掘什么数据?要用多少数据?数据挖掘要进行到什么程度?虽然在数据挖掘中常常事先不能确定最后挖掘的结果到底是什么?例如,选择的数据是描述信用卡客户的实际支付情况,那么数据挖掘者的工作就可能是围绕着获取信用卡使用者实际支付情况而展开的。
                      有时还要用户提供一些先验的知识,例如概念树等。这些先验知识可能是用户业务领域知识或以前数据挖掘所获得的初步成果。这就意味着数据挖掘是一个过程,在挖掘过程中可能提出新的问题,可能尝试用其他方法来检验数据,在数据的子集上进行同样的研究。有时业务对象是一些已经理解的数据,但是在某些情况下还需要对这些数据进行挖掘。此时,不是通过数据挖掘发现新的有价值的信息,而是通过数据挖掘验证假设的正确性,或者是通过同样方式的数据挖掘查看模式是否发生变化。如果在经常性的同样的数据挖掘中的一次挖掘没有出现以前同样的结果,这意味着模式已经发生了变化,可能需要进行更深层次的挖掘。例如,将数据挖掘应用于客户关系管理(CRM)中,就需要对客户关系管理的商业主题进行仔细的定义。每个CRM应用都有一个或多个商业目标,要为每个目标建立恰当的模型。例如,“提高客户对企业促销的响应率”和“提高每个客户的响应价值”这两个目标是不同的,并且在定义问题的同时,也生成了评价CRM应用结果的标准和方法,即确定了数据挖掘的评价指标。
                      准备数据
                      在确定数据挖掘的业务对象后,需要搜索所有与业务对象有关的内部和外部数据,从中选出适合于数据挖掘应用的数据。对数据的选择必须在建立数据挖掘模型之前完成。选择数据后,还需要对数据进行预处理,对数据进行清洗、解决数据中的缺值、冗余、数据值的不一致性、数据定义的不一致性、过时数据等问题。在数据挖掘时,有时还需要对数据分组,以提高数据挖掘的效率,降低模型的复杂度。
                      建立模型
                      将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型,是数据挖掘的关键。
                      数据挖掘
                      对所得到的经过转化的数据进行挖掘,除了完善与选择合适的算法需要人工干预外,数据挖掘工作都由数据挖掘工具自动完成。
                      结果分析
                      当数据挖掘出现结果后,要对挖掘结果进行解释和评估。具体的解释和评估方法一般根据数据挖掘操作结果所制定的决策成败来定,但是管理决策分析人员在使用数据挖掘结果之前,又希望能够对挖掘的结果进行评估,以保证数据挖掘结果在实际应用中的成功率。因此,在对数据挖掘结果进行评价时,可以考虑这样几个方面的问题:第一,建立模型相同的数据集在模型上进行操作所获得的结果要优于用不同数据集在模型上的操作结果;第二,模型的某些结果可能比其他预测结果更加准确;第三,由于模型是以样板数据为基础建立的,因此,实际结果往往会比建模时的结果差。另外,利用可视化技术可将数据挖掘结果表现得更清楚,更有利于对数据挖掘的结果分析。
                      知识应用
                      数据挖掘的结果经过业务决策人员的认可,才能实际利用。要将通过数据挖掘得出的预测模式和各个领域的专家知识结合在一起,构成一个可供不同类型的人使用的应用程序。也只有通过对挖掘知识的应用,才能对数据挖掘的成果做出正确的评价。但是,在应用数据挖掘的成果时,决策人员关心的是数据挖掘的最终结果与用其他候选结果在实际应用中的差距。
                      数据挖掘技术可以让现有的软件和硬件更加自动化,并且可以在升级的或者新开发的平台上执行。当数据挖掘工具运行于高性能的并行处理系统上的时候,它能在数分钟内分析一个超大型的数据库。这种更快的处理速度意味着用户有更多的机会来分析数据,让分析的结果更加准确可靠,并且易于理解。数据库可以由此拓展深度和广度。在深度上,允许有更多的列存在。以往,在进行较复杂的数据分析时,专家们限于时间因素,不得不对参加运算的变量、数量加以限制,但是那些被丢弃而没有参加运算的变量有可能包含着另一些不为人知的有用信息。现在,高性能的数据挖掘工具让用户对数据库能进行通盘的深度遍历,并且任何可能参选的变量都被考虑进去,再不需要选择变量的子集来进行运算了。广度上,允许有更多的行存在。更大的样本使产生错误和变化的概率降低,这样用户就能更加精确地推导出一些虽小但颇为重要的结论。
   题号导航      2014年上半年 系统集成项目管理工程师 上午试卷 综合知识   本试卷我的完整做题情况  
1 /
2 /
3 /
4 /
5 /
6 /
7 /
8 /
9 /
10 /
11 /
12 /
13 /
14 /
15 /
 
16 /
17 /
18 /
19 /
20 /
21 /
22 /
23 /
24 /
25 /
26 /
27 /
28 /
29 /
30 /
 
31 /
32 /
33 /
34 /
35 /
36 /
37 /
38 /
39 /
40 /
41 /
42 /
43 /
44 /
45 /
 
46 /
47 /
48 /
49 /
50 /
51 /
52 /
53 /
54 /
55 /
56 /
57 /
58 /
59 /
60 /
 
61 /
62 /
63 /
64 /
65 /
66 /
67 /
68 /
69 /
70 /
71 /
72 /
73 /
74 /
75 /
 
第7题    在手机中做本题