可用于控制进度过程的数据分析技术不包括()。

2024年上半年上午试卷综合知识

第 28 题


知识点	分析技术数据分析数据分析技术

A. 备选方案分析

B. 偏差分析

C. 迭代燃尽图

D. 趋势分析

知识点讲解

· 分析技术

· 数据分析

· 数据分析技术

分析技术

在整个项目生命周期中，干系人的参与对项目的成功至关重要。应该比较所有干系人的当前参与程度与项目成功所需的参与程度，通过分析识别出当前参与程度与所需参与程度之间的差距，以便制订行动和沟通方案消除差距。

干系人的参与程度可分为如下类别：

.不了解：对项目和潜在影响不了解。

.抵制：了解项目和潜在影响，抵制变更。

.中立：了解项目，既不支持，也不反对。

.支持：了解项目和潜在影响，支持变更。

.领导：了解项目和潜在影响，积极致力于保证项目成功。

数据分析

数据分析是大数据处理过程中的重要组成部分，是大数据价值体现的核心环节。经典的机器学习方法是最常见的数据智能分析方法，近年来迅速发展的深度学习在某些领域取得了惊人的效果。在应用开发上，也形成了几种主流的大数据处理框架。

机器学习中算法很多，也有很多不同种类的分类方法，一般分为监督学习和非监督学习（或无监督学习）。其中，监督学习是指利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练，是从标记的训练数据来推断一个功能的机器学习任务。根据训练集中的标识是连续的还是离散的，可以将监督学习分为两类：回归和分类。

回归是研究一个或一组随机变量对一个或一组属性变量的相依关系的统计分析方法。线性回归模型是假设自变量和因变量满足线性关系。Logistic回归一般用于分类问题，而其本质是线性回归模型，只是在回归的连续值结果上加了一层函数映射。

分类是机器学习中的一个重要问题，其过程也是从训练集中建立因变量和自变量的映射过程，与回归问题不同的是，分类问题中因变量的取值是离散的，根据因变量的取值范围，可将分类问题分为二分类问题、三分类问题和多分类问题。根据分类采用的策略和思路的不同，分类算法大致包括：基于示例的分类方法，如K最近邻（K-Nearest Neighbor，KNN）方法；基于概率模型的分类方法，如朴素贝叶斯、最大期望算法EM等；基于线性模型的分类方法，如SVM；基于决策模型的分类方法，如C4.5、AdaBoost、随机森林等。

在实际应用中，缺乏足够的先验知识，因此难以人工标注类别或进行人工类别标注的成本太高，学习模型是为了推断出数据的一些内在结构。因此，根据类别未知（没有被标记）的训练样本解决模式识别中的各种问题，称为无监督学习。常见的算法有：关联规则挖掘，是从数据背后发现事物之间可能存在的关联或联系。比如数据挖掘领域著名的“啤酒-尿不湿”的故事。K-means算法，基本思想是两个对象的距离越近，其相似度越大；相似度接近的若干对象组成一个簇；算法的目标是从给定数据集中找到紧凑且独立的簇。

近年来发展起来的深度学习算法是基于原有的神经网络算法发展起来的，包括BP神经网络、深度神经网络。

BP神经网络是一种反向传播的前馈神经网络，所谓前馈神经网络就是指各神经元分层排列，每个神经元只与前一层的神经元相连，接收前一层的输出，并输出给下一层。所谓反向传播是指从输出层开始沿着相反的方向来逐层调整参数的过程。BP神经网络由输入层、隐含层和输出层组成。

深度神经网络主要包括卷积神经网络、循环神经网络等，也包括它们的各种改进模型。

（1）卷积神经网络（Convolutional Neural Network，CNN）是一种前馈神经网络，其结构包括输入层、卷积层、池化层、全连接层以及输出层等。该算法在图像处理、模式识别等领域取得了非常好的效果。在CNN的发展过程中，最经典的模型是AlexNet，针对不同的应用需要，又产生了全卷积模型（FCN）、残差神经网络模型（ResNet）、DeepFace等模型结构。

（2）循环神经网络（Recurrent Neural Network，RNN）是一种人工神经网络，在该网络中，除了层间的连接以外，同层各单元之间连接构成了一个有向图序列，允许它显示一个时间序列的动态时间行为。RNN可以使用它们的内部状态来处理输入序列，这使得它们适用于诸如未分割的、连续的手写识别或语音识别等任务。传统的RNN是很难训练的，往往会出现梯度消失或梯度爆炸等情况，因此又出现了多个扩展版本，如BiRNN、LSTM等。

随着深度学习的快速发展和应用的普及，开始出现了一些深度学习框架。深度学习框架是一种界面、库或工具，可以使用户在无需深入了解底层算法的细节的情况下，能够更容易、更快速地构建深度学习模型。深度学习框架利用预先构建和优化好的组件集合定义模型，为模型的实现提供了一种清晰而简洁的方法。常见的深度学习框架有：Caffe，是一个广泛使用的开源深度学习框架，支持常用的网络模型，比如Lenet、AlexNet、ZFNet、VGGNet、GoogleNet、ResNet等；TensorFlow，是一个使用数据流图进行数值计算的开源软件库，图中的节点表示数学运算，而图边表示节点之间传递的多维数据阵列（又称张量），其为大多数复杂的深度学习模型预先编写好了代码，比如递归神经网络和卷积神经网络，灵活架构使我们能够在一个或多个CPU（以及GPU）上部署深度学习模型；Keras，是一个由Python编写的开源人工神经网络库，可以作为TensorFlow、Microsoft-CNTK和Theano的高阶应用程序接口，进行深度学习模型的设计、调试、评估、应用和可视化，Keras完全模块化并具有可扩展性，并试图简化复杂算法的实现难度。

随着大数据技术的广泛深入，大数据应用已经形成了庞大的生态系统，很难用一种架构或处理技术覆盖所有应用场景。下文介绍几种当前主流的大数据分布式计算架构。

Apache Hadoop是用于开发可靠、可伸缩、分布式计算的开源软件，是一套用于在由通用硬件构建的大型集群上运行应用程序的框架。包含的模块有：Hadoop分布式文件系统（HDFS），提供对应用程序数据的高吞吐量访问的分布式文件系统；Hadoop YARN，作业调度和集群资源管理的框架；Hadoop MapReduc，一个用于大型数据集并行处理的基于YARN的系统；Hadoop Ozone，Hadoop的对象存储；Hadoop Submarine，Hadoop的机器学习引擎。

Apache Spark是加州大学伯克利分校的AMP实验室所开源的类Hadoop MapReduce的通用并行框架。Spark是一个分布式的内存计算框架，是专为大规模数据处理而设计的快速通用的计算引擎。Spark的计算过程保持在内存中，不需要读写HDFS，减少了硬盘读写，提升了计算速度。除了Map和Reduce操作外，Spark还延伸出如filter、flatMap、count、distinct等更丰富的操作。同时通过Spark Streaming支持处理数据流。

Apache Storm是一个免费的开源分布式实时计算系统，可以可靠地处理无边界的数据流变，可以实现实时处理。Apache Storm速度很快，它是可扩展的，容错的，并且易于设置和操作。Apache Storm应用于实时分析、在线机器学习、连续计算、分布式RPC、ETL等等。Storm的核心是拓扑（Topology），拓扑被提交给集群，由集群中的主控节点分发代码，将任务分配给工作节点执行。

数据分析技术

从数据在信息系统中的生命周期看，数据分析技术生态主要有5个发展方向，包括数据采集与传输、数据存储与管理、计算处理、查询与分析、可视化展现。在数据采集与传输领域渐渐形成了Sqoop、Flume、Kafka等一系列开源技术，兼顾离线和实时数据的采集和传输。在存储层，HDFS已经成为了大数据磁盘存储的事实标准，针对关系型以外的数据模型，开源社区形成了K-V（key-value）、列式、文档、图这四类NoSQL数据库体系，Redis、HBase、Cassandra、MongoDB、Neo4j等数据库是各个领域的领先者。计算处理引擎方面，Spark已经取代MapReduce成为了大数据平台统一的计算平台，在实时计算领域Flink是Spark Streaming强力的竞争者。在数据查询和分析领域形成了丰富的SQL on Hadoop的解决方案，Hive、HAWQ、Impala、Presto、Spark SQL等技术与传统的大规模并行处理（Massively Parallel Processor，MPP）数据库竞争激烈，Hive还是这个领域当之无愧的王者。在数据可视化领域，敏捷商业智能（Business Intelligence，BI）分析工具Tableau、QlikView通过简单的拖拽来实现数据的复杂展示，是目前最受欢迎的可视化展现方式。

相比传统的数据库和MPP数据库，Hadoop最初的优势来源于良好的扩展性和对大规模数据的支持，但失去了传统数据库对数据精细化的操作，包括压缩、索引、数据的分配裁剪以及对SQL的支持度。经过10多年的发展，数据分析的技术体系渐渐在完善自己的不足，也融合了很多传统数据库和MPP数据库的优点，从技术的演进来看，大数据技术正在发生以下变化：

（1）更快。Spark已经替代MapReduce成为了大数据生态的计算框架，以内存计算带来计算性能的大幅提高，尤其是Spark 2.0增加了更多了优化器，计算性能进一步增强。

（2）流处理的加强。Spark提供一套底层计算引擎来支持批量、SQL分析、机器学习、实时和图处理等多种能力，但其本质还是小批的架构，在流处理要求越来越高的现在，Spark Streaming受到Flink激烈的竞争。

（3）硬件的变化和硬件能力的充分挖掘。大数据技术体系本质是数据管理系统的一种，受到底层硬件和上层应用的影响。当前硬件的芯片的发展从CPU的单核到多核演变转化为向GPU、FPGA、ASIC等多种类型芯片共存演变。而存储中大量使用SSD来代替SATA盘，NVRAM有可能替换DRAM成为主存。大数据技术势必需要拥抱这些变化，充分兼容和利用这些硬件的特性。

（4）SQL的支持。从Hive诞生起，Hadoop生态就在积极向SQL靠拢，主要从兼容标准SQL语法和性能等角度来不断优化，层出不穷的SQL on Hadoop技术参考了很多传统数据库的技术。而Greenplum等MPP数据库技术本身从数据库继承而来，在支持SQL和数据精细化操作方面有很大的优势。

（5）深度学习的支持。深度学习框架出现后，和大数据的计算平台形成了新的竞争局面，以Spark为首的计算平台开始积极探索如何支持深度学习能力，TensorFlow on Spark等解决方案的出现实现了TensorFlow与Spark的无缝连接，更好地解决了两者数据传递的问题。

更多复习资料
请登录电脑版软考在线 www.rkpass.cn

京B2-20210865 | 京ICP备2020040059号-5