数据( )是将数据以图形图像形式表示，并利用数据分析工具发现其中未知信息的处理过程。..

机器学习中算法很多，也有很多不同种类的分类方法，一般分为监督学习和非监督学习（或无监督学习）。其中，监督学习是指利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练，是从标记的训练数据来推断一个功能的机器学习任务。根据训练集中的标识是连续的还是离散的，可以将监督学习分为两类：回归和分类。

回归是研究一个或一组随机变量对一个或一组属性变量的相依关系的统计分析方法。线性回归模型是假设自变量和因变量满足线性关系。Logistic回归一般用于分类问题，而其本质是线性回归模型，只是在回归的连续值结果上加了一层函数映射。

分类是机器学习中的一个重要问题，其过程也是从训练集中建立因变量和自变量的映射过程，与回归问题不同的是，分类问题中因变量的取值是离散的，根据因变量的取值范围，可将分类问题分为二分类问题、三分类问题和多分类问题。根据分类采用的策略和思路的不同，分类算法大致包括：基于示例的分类方法，如K最近邻（K-Nearest Neighbor，KNN）方法；基于概率模型的分类方法，如朴素贝叶斯、最大期望算法EM等；基于线性模型的分类方法，如SVM；基于决策模型的分类方法，如C4.5、AdaBoost、随机森林等。

在实际应用中，缺乏足够的先验知识，因此难以人工标注类别或进行人工类别标注的成本太高，学习模型是为了推断出数据的一些内在结构。因此，根据类别未知（没有被标记）的训练样本解决模式识别中的各种问题，称为无监督学习。常见的算法有：关联规则挖掘，是从数据背后发现事物之间可能存在的关联或联系。比如数据挖掘领域著名的“啤酒-尿不湿”的故事。K-means算法，基本思想是两个对象的距离越近，其相似度越大；相似度接近的若干对象组成一个簇；算法的目标是从给定数据集中找到紧凑且独立的簇。

近年来发展起来的深度学习算法是基于原有的神经网络算法发展起来的，包括BP神经网络、深度神经网络。

BP神经网络是一种反向传播的前馈神经网络，所谓前馈神经网络就是指各神经元分层排列，每个神经元只与前一层的神经元相连，接收前一层的输出，并输出给下一层。所谓反向传播是指从输出层开始沿着相反的方向来逐层调整参数的过程。BP神经网络由输入层、隐含层和输出层组成。

深度神经网络主要包括卷积神经网络、循环神经网络等，也包括它们的各种改进模型。

（1）卷积神经网络（Convolutional Neural Network，CNN）是一种前馈神经网络，其结构包括输入层、卷积层、池化层、全连接层以及输出层等。该算法在图像处理、模式识别等领域取得了非常好的效果。在CNN的发展过程中，最经典的模型是AlexNet，针对不同的应用需要，又产生了全卷积模型（FCN）、残差神经网络模型（ResNet）、DeepFace等模型结构。

（2）循环神经网络（Recurrent Neural Network，RNN）是一种人工神经网络，在该网络中，除了层间的连接以外，同层各单元之间连接构成了一个有向图序列，允许它显示一个时间序列的动态时间行为。RNN可以使用它们的内部状态来处理输入序列，这使得它们适用于诸如未分割的、连续的手写识别或语音识别等任务。传统的RNN是很难训练的，往往会出现梯度消失或梯度爆炸等情况，因此又出现了多个扩展版本，如BiRNN、LSTM等。

随着深度学习的快速发展和应用的普及，开始出现了一些深度学习框架。深度学习框架是一种界面、库或工具，可以使用户在无需深入了解底层算法的细节的情况下，能够更容易、更快速地构建深度学习模型。深度学习框架利用预先构建和优化好的组件集合定义模型，为模型的实现提供了一种清晰而简洁的方法。常见的深度学习框架有：Caffe，是一个广泛使用的开源深度学习框架，支持常用的网络模型，比如Lenet、AlexNet、ZFNet、VGGNet、GoogleNet、ResNet等；TensorFlow，是一个使用数据流图进行数值计算的开源软件库，图中的节点表示数学运算，而图边表示节点之间传递的多维数据阵列（又称张量），其为大多数复杂的深度学习模型预先编写好了代码，比如递归神经网络和卷积神经网络，灵活架构使我们能够在一个或多个CPU（以及GPU）上部署深度学习模型；Keras，是一个由Python编写的开源人工神经网络库，可以作为TensorFlow、Microsoft-CNTK和Theano的高阶应用程序接口，进行深度学习模型的设计、调试、评估、应用和可视化，Keras完全模块化并具有可扩展性，并试图简化复杂算法的实现难度。

随着大数据技术的广泛深入，大数据应用已经形成了庞大的生态系统，很难用一种架构或处理技术覆盖所有应用场景。下文介绍几种当前主流的大数据分布式计算架构。

Apache Hadoop是用于开发可靠、可伸缩、分布式计算的开源软件，是一套用于在由通用硬件构建的大型集群上运行应用程序的框架。包含的模块有：Hadoop分布式文件系统（HDFS），提供对应用程序数据的高吞吐量访问的分布式文件系统；Hadoop YARN，作业调度和集群资源管理的框架；Hadoop MapReduc，一个用于大型数据集并行处理的基于YARN的系统；Hadoop Ozone，Hadoop的对象存储；Hadoop Submarine，Hadoop的机器学习引擎。

Apache Spark是加州大学伯克利分校的AMP实验室所开源的类Hadoop MapReduce的通用并行框架。Spark是一个分布式的内存计算框架，是专为大规模数据处理而设计的快速通用的计算引擎。Spark的计算过程保持在内存中，不需要读写HDFS，减少了硬盘读写，提升了计算速度。除了Map和Reduce操作外，Spark还延伸出如filter、flatMap、count、distinct等更丰富的操作。同时通过Spark Streaming支持处理数据流。

Apache Storm是一个免费的开源分布式实时计算系统，可以可靠地处理无边界的数据流变，可以实现实时处理。Apache Storm速度很快，它是可扩展的，容错的，并且易于设置和操作。Apache Storm应用于实时分析、在线机器学习、连续计算、分布式RPC、ETL等等。Storm的核心是拓扑（Topology），拓扑被提交给集群，由集群中的主控节点分发代码，将任务分配给工作节点执行。

图形

表示与存储

图形是指能在人的视觉系统中产生视觉印象的客观对象，它包括人眼观察到的自然景物、拍摄到的图片、绘图工具得到的工程图、用数学方法描述的图像等。图形是客观对象的一种抽象表示，它带有形状和颜色信息。构成图形的要素有几何要素（刻画对象轮廓形状的点、线、面、体等）和非几何要素（刻画对象表面属性或材质的颜色、灰度等）。图形可用形状参数和属性参数表示，即参数表示法；也可用带有灰度或色彩的点阵图表示，简称像素图、图像（数字图像），即点阵表示法。

图形是计算机图形学（Computer Graphics, CG）研究的对象。ISO给计算机图形学的定义为：研究用计算机进行数据和图形之间相互转换的方法和技术。还有定义为：计算机图形学是运用计算机描述、输入、表示、存储、处理（检索／变换／图形运算）、显示、输出图形的一门学科。计算机图形技术主要研究如何在计算机中表示图形，以及利用计算机进行图形的计算、处理和显示的相关原理和算法，其核心是将客观世界对象以图形的形式在计算机内表示出来，主要包括模型生成和图形显示，如下图所示。模型生成是获取、存储和管理客观世界物体的计算机模型，以在计算机上建立客观世界的模拟环境。图形显示是生成、处理和操纵客观世界物体模型的可视化结果，以在输出设备上呈现客观世界物体的图像。

计算机图形生成模型

计算机图形技术所涉及的研究内容非常广泛，如图形硬件、图形标准、图形交互技术、光栅图形生成算法、曲线曲面造型、实体造型、真实感图形计算与显示算法、风格化绘制、科学计算可视化、计算机动画、自然景物仿真、虚拟现实等。

图形的文件格式

① TIF。

TIF格式是平面设计中最常用的一种图形格式，因为其属于跨平台的格式，而且支持CMYK色，所以经常被用于印刷输出的场合。此外还有一个特色就是其支持LZW压缩，即不失真压缩，也就是说不管如何压缩，图档的品质都还能保持原来的水准。

②TGA。

TGA图形格式的最大特点就是可以制作出不规则形状的图档，一般图档都为四方形，若需要圆形、菱形甚至镂空的图档时，TGA格式可能就会派上用场了。TGA格式同样支持压缩，也属于不失真压缩。

③ PSD。

PSD格式是Photoshop专用的图形文件格式，该格式包含图形中的色层、遮罩、色频、选取区等Photoshop可以处理的属性，这样全方位的存储如果运用得当，几乎可以将创作的过程完整地记录，以便日后的修改。

④UFO。

UFO格式是另一个著名制图软件Ulead Photoimapct的专用图形格式，其是致力于追赶Adobe的有力科技，同样也发展出了与PSD格式类似的图档格式，能够完整记录所有处理过的属性，不过在记录原理上却有些不同，UFO以物件代替图层，这一点并无大碍，因为Photoimapct与Photoshop本身就有很多的不同之处。

⑤RIF。

RIF是著名制图软件Painter的专用图形格式，处理方式和前面两种大同小异，都可以存储相当多的属性资料。另外，Painter可以打开PSD文件，而且经过Painter处理的PSD文件可以在Photoshop中通用，这样就可以使同一文件在Photoshop和Painter中交换使用了。

⑥ CDR。

CDR是著名制图软件CorelDRAW的专用图形格式，由于CorelDRAW是向量软件，所以CDR可以记录的资料可以说是千奇百怪，各物件的属性、位置、分页通通可以存储，以便日后修改。在兼容度上，目前基本没有其他软件可以打开CDR文件，这是向量软件的通病。

⑦EPS。

EPS是印刷时经常用到的格式，向量图可以转换成EPS格式，点阵图也可以转成EPS格式。EPS文件可以同时存储点阵以及向量，故专门用于印前操作，如排版等，所以一般在印刷时都使用EPS文件。

图形处理技术

图形处理技术的范围很广，这里以真实感图形绘制和非真实感图形绘制为例简单介绍图形处理技术。

真实感图形绘制是指借助数学、物理、计算机等学科知识使用计算机生成三维场景中真实逼真的图形、图像的过程。真实感图像绘制主要包括两个方面：表面特性的精确表示和场景中光照效果的物理描述。真实感图形绘制的应用非常广泛，例如计算机动画制作、影视特效仿真、计算机游戏、多媒体教育和虚拟现实等。真实感图形绘制所涉及的技术主要有消隐技术、表面细节绘制技术、纹理贴图技术、高级光照与着色技术等。

非真实感图形绘制是指利用计算机生成不具有照片般真实感而具有手绘风格的图形的技术，其目标不在于表现图形的真实性，而是在于表现图形的艺术特质、模拟艺术作品（甚至包括作品中的缺陷）或作为真实感图形的有效补充。非真实感图形绘制的应用领域也非常广泛，其中一个重要的应用领域就是对绘画进行模拟，主要模拟的画种有油画、水彩画、钢笔画、铅笔画、水墨画和卡通动画。非真实感图形绘制所涉及的技术主要有基于像素的绘制，基于线条、曲线和笔画的绘制，模拟绘画绘制等。

如下图所示，树和天空是采用真实感图形绘制技术绘制出来的，国画是采用非真实感图形绘制技术绘制出来的。

真实感图形绘制和非真实感图形绘制

更多复习资料
请登录电脑版软考在线 www.rkpass.cn

京B2-20210865 | 京ICP备2020040059号-5