|
知识路径: > 电子商务系统程序设计基础 > Web 设计基础 > 数据库技术 > 数据仓库、联机分析处理和数据挖掘 >
|
被考次数:3次
被考频率:中频率
总体答错率:43%  
知识难度系数:
|
由 软考在线 用户真实做题大数据统计生成
|
相关知识点:10个
|
|
|
|
广义概念上的数据仓库是一种帮助企业作决策的体系化解决方案,它包括了三个方面的内容:数据仓库技术(Data Warehouse,DW)、联机分析处理技术(Online Analytical Processing,OLAP)和数据挖掘技术(Data Mining,DM)。
|
|
|
|
数据仓库是一种只读的、用于分析的数据库,常常作为决策支持系统的底层。它从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格式,即为了决策目标而把数据聚合在一种特殊的格式中。数据仓库之父W. H. Inmon对数据仓库的定义是:数据仓库是支持管理决策过程的、面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合。其中,“主题”是指用户使用数据仓库辅助决策时所关心的重点问题,每一个主题对应一个客观分析领域,如销售、成本、利润的情况等。那么,所谓“面向主题”就是指数据仓库中的信息是按主题组织的,按主题来提供信息。“集成的”是指数据仓库中的数据不是业务处理系统数据的简单拼凑与汇总,而是经过系统地加工整理,是相互一致的、具有代表性的数据。所谓“随时间变化”,是指数据仓库中存储的是一个时间段的数据,而不仅仅是某一个时点的数据,所以主要用于进行时间趋势分析。一般数据仓库内的数据时限为5~10年,数据量也比较大。“信息本身相对稳定”,是指数据一旦进入数据仓库,一般情况下将被长期保留,变更很少。
|
|
|
数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源,为了决策需要而产生的,它并不是所谓的“大型数据库”。数据仓库的方案建设的目的,是为前端查询和分析作为基础,由于有较大的冗余,所以需要的存储也较大。为了更好地为前端应用服务,数据仓库往往有如下几个特点:
|
|
|
(1)数据效率足够高。数据仓库的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高,要求24小时甚至12小时内,客户能看到昨天的数据分析。由于有的企业每日的数据量很大,设计不好的数据仓库经常会出问题,延迟1~3日才能给出数据,显然不行的。
|
|
|
(2)数据质量足够好。数据仓库所提供的各种信息,肯定要准确的数据,但由于数据仓库流程通常分为多个步骤,包括数据清洗、装载、查询、展现等,复杂的架构会更多层次,那么由于数据源有脏数据或者代码不严谨,都可以导致数据失真,客户看到错误的信息就可能导致分析出错误的决策,造成损失,而不是效益。
|
|
|
(3)数据有足够的扩展性。之所以有的大型数据仓库系统架构设计复杂,是因为考虑到了未来若干年的扩展性,这样的话,未来不用太快花钱去重建数据仓库系统,就能很稳定运行。主要体现在数据建模的合理性,数据仓库方案中多出一些中间层,使海量数据流有足够的缓冲,不至于数据量大很多,就运行不起来了。
|
|
|
数据仓库组织和管理数据的方法与普通数据库不同。主要表现在三个方面:
|
|
|
(1)依据决策要求,只从数据库中抽取那些需要的数据,并进行预处理使系统获得特定的数据格式。
|
|
|
(2)数据仓库是多维的,即数据仓库的数据的组织方式有多层的行和列。
|
|
|
|
数据仓库技术在近几年蓬勃发展起来,不少厂商都推出了他们的数据仓库产品,同时也推出了一些分析工具。仅仅拥有数据仓库是不够的,在其上应用各种工具进行分析,才能使数据仓库真正发挥作用。联机分析处理和数据挖掘就是这样的分析工具。
|
|
|
|
联机分析处理是针对特定问题的联机数据访问和分析,通过对信息进行快速、稳定、一致和交互式的存取,对数据进行多层次、多阶段的分析处理,以获得高度归纳的分析结果。联机分析处理是一种自上而下、不断深入的分析工具:在用户提出问题或假设之后,它负责提取出关于此问题的详细信息,并以一种比较直观的方式呈现给用户。联机分析处理技术的发展速度很快,在数据仓库的概念提出不久,联机分析处理的理论及相应工具就被相继推出了。
|
|
|
联机分析处理要求按多维方式组织企业的数据,传统的关系数据库难以胜任。为此,人们提出了多维数据库的概念。正是这一技术的发展使决策分析中的数据结构和分析方法相分离,才有可能研制出通用而灵活的分析工具,并使分析工具产品化。维是人们观察现实世界的角度,决策分析需要从不同的角度观察分析数据,以多维数据为核心的多维数据分析是决策的主要内容。多维数据库是以多维方式来组织数据的。目前,联机分析处理的工具可分为两大类,一类是基于多维数据库的,另一类是基于关系数据库的。两者的相同点是基本数据源仍是数据库和数据仓库,都是基于关系数据模型的,都向用户显示多维数据视图;不同点在于,前者是把分析所需的数据从数据仓库中抽取出来,物理地组织成多维数据库,而后者则是利用关系表来模拟多维数据,并不是物理地生成多维数据库。
|
|
|
|
数据挖掘的基本思想就是从数据中抽取有价值的信息,其目的是帮助决策者寻找数据间潜在的关联,发现被忽略的要素,而这些信息对预测趋势和决策行为也许是十分有用的。
|
|
|
从数据库的角度看,数据挖掘就是这样一个过程,它从数据库的数据中识别出有效的、新颖的、具有潜在效用的并最终可理解的信息(如规则、约束等)的非平凡过程。非平凡是一个数学概念,用来描述其复杂程度,即数据挖掘既不是把数据全部抽取,也不是所有数据都不抽取,而是抽取出隐含的、未知的、可能有用的信息。
|
|
|
从决策支持的角度看,数据挖掘是一种决策支持的过程,主要基于人工智能、机器学习、统计学和数据库技术等多种技术,能高度自动地分析企业原始的数据,进行归纳推理,从中挖掘出潜在的模式,使系统能通过这些发现的知识来预测客户的行为,帮助企业的决策者调整市场策略,从而减少风险,辅助做出正确的决策。它是提高商业和科学决策过程质量和效率的一种新方法。
|
|
|
数据挖掘和联机分析处理都可以在数据仓库的基础上对数据进行分析,以辅助决策,那么它们之间是否有差别呢?答案是肯定的。从某种意义上来说,联机分析处理还是一种传统的决策支持方法。即,在某个假设的前提下通过数据查询和分析来验证或否定这个假设,所以联机分析处理是一种验证型的分析。一般来说验证型的分析有如下局限性:
|
|
|
(1)常常需要以假设为基础。用户的假设能力有限,只能局限于对几种变量进行假设。
|
|
|
(2)联机分析处理需要对用户的需求有全面而深入的了解,然而实际上有些时候用户的需求并不是确定的。
|
|
|
(3)抽取信息的质量依赖于用户对结果的解释,容易导致错误。
|
|
|
我们可以看出,联机分析处理是由用户驱动的,很大程度上受到用户水平的限制。与联机分析处理不同,数据挖掘是数据驱动的,是一种真正的知识发现方法。使用数据挖掘工具,用户不必提出确切的要求,系统能够根据数据本身的规律性,自动地挖掘数据潜在的模式,或通过联想,建立新的业务模型,帮助决策者调整市场策略,并找到正确的决策。这显然利于发现未知的事实。从数据分析深度的角度来看,联机分析处理位于较浅的层次,而数据挖掘则处于较深的层次。所以,联机分析处理和数据挖掘的主要差别就在于是否能自动地进行数据分析。
|
|
|
近几年,越来越多的联机分析处理产品融入了数据挖掘的方法,所以联机分析处理与数据挖掘间的界限正在逐渐模糊。
|
|
|