全部科目 > 信息系统项目管理师 >
2019年下半年 上午试卷 综合知识
第 3 题
知识点 最新信息技术发展趋势   大数据   数据的描述  
关键词 大数据   数据  
章/节 信息化发展与应用  
 
 
关于大数据的描述,不正确的是( )。
 
  A.  大数据分析相比传统的数据仓库应用,具有查询及分析简单的特点
 
  B.  大数据的意义不在于掌握庞大的数据信息,而在于对这些数据进行专业化的处理
 
  C.  大数据主要依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术
 
  D.  大数据具有类型繁多、结构化多样、处理速度快、时效性强的特点
 
 




 
 
相关试题     信息化发展与应用 

  第4题    2018年上半年  
区块链2.0技术架构自上而下分为数据层、网络层、共识层、激励层、智能合约层,数据传播机制、数据验证机制属于其中的()。

  第1题    2016年上半年  
作为两化融合的升级版,(1)将互联网与工业、商业、金融业等行业全面融合。

  第3题    2012年上半年  
在客户关系管理(CRM)中,管理的对象是客户与企业之间的双向关系,那么在开发过程中,(3)是开发的主要目标。

 
知识点讲解
· 最新信息技术发展趋势
· 大数据
· 数据的描述
 
        最新信息技术发展趋势
        在信息系统项目管理师的考试大纲中,对于最新技术发展趋势并无明确要求。但从考题分布来看,从2011年开始考察考生是否关注IT行业的技术发展趋势。概括来说,最新的IT技术发展趋势主要包含以下各个方面。
        1.云计算
        云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象。云计算(cloud computing)是主机计算到客户端-服务器计算的大转变之后的又一种巨变。云计算的出现并非偶然,早在上世纪60年代,麦卡锡就提出了把计算能力作为一种像水和电一样的公用事业提供给用户的理念,这成为云计算思想的起源。在20世纪80年代网格计算、90年代公用计算,21世纪初虚拟化技术、SOA、SaaS应用的支撑下,云计算作为一种新兴的资源使用和交付模式逐渐为学界和产业界所认知。
        云计算具有以下几个主要特征:
        .资源配置动态化。根据消费者的需求动态划分或释放不同的物理和虚拟资源,当增加一个需求时,可通过增加可用的资源进行匹配,实现资源的快速弹性提供;如果用户不再使用这部分资源时,可释放这些资源。云计算为客户提供的这种能力是无限的,实现了IT资源利用的可扩展性。
        .需求服务自助化。云计算为客户提供自助化的资源服务,用户无需同提供商交互就可自动得到自助的计算资源能力。同时云系统为客户提供一定的应用服务目录,客户可采用自助方式选择满足自身需求的服务项目和内容。
        .网络访问便捷化,客户可借助不同的终端设备,通过标准的应用实现对网络访问的可用能力,使对网络的访问无处不在。
        .服务可计量化。在提供云服务过程中,针对客户不同的服务类型,通过计量的方法来自动控制和优化资源配置。即资源的使用可被监测和控制,是一种即付即用的服务模式。
        .资源的虚拟化。借助于虚拟化技术.将分布在不同地区的计算资源进行整合.实现基础设施资源的共享。
        云计算包括以下几个层次的服务:
        .IaaS:基础设施即服务
        IaaS(Infrastructure-as-a- Service):基础设施即服务。消费者通过Internet可以从完善的计算机基础设施获得服务。
        .PaaS:平台即服务
        PaaS(Platform-as-a- Service):平台即服务。PaaS实际上是指将软件研发的平台作为一种服务,以SaaS的模式提交给用户。因此,PaaS也是SaaS模式的一种应用。但是,PaaS的出现可以加快SaaS的发展,尤其是加快SaaS应用的开发速度。
        .SaaS:软件即服务
        SaaS(Software-as-a- Service):软件即服务。它是一种通过Internet提供软件的模式,用户无需购买软件,而是向提供商租用基于Web的软件,来管理企业经营活动。
        云计算的主要应用类型包括:
        .物联网
        物联网就是物物相连的互联网。这有两层含义:第一,物联网的核心和基础仍然是互联网,是在互联网基础上的延伸和扩展的网络;第二,其用户端延伸和扩展到了任何物品与物品之间,进行信息交换和通信。
        物联网的两种业务模式:
        1)MAI(M2M Application Integration),内部MaaS;
        2)MaaS(M2M As A Service),MMO,Multi-Tenants(多租户模型)。
        随着物联网业务量的增加,对数据存储和计算量的需求将带来对云计算能力的要求:
        1)云计算:从计算中心到数据中心,属于物联网的初级阶段;
        2)在物联网高级阶段,可能出现MVNO/MMO营运商,需要虚拟化云计算技术,例如与SOA等技术相结合实现互联网的广泛服务:TaaS(everyTHING As A Service)。
        .云安全
        云安全(Cloud Security)是一个从云计算演变而来的新名词。云安全的策略构想是:使用者越多,每个使用者就越安全,因为如此庞大的用户群,足以覆盖互联网的每个角落,只要某个网站被挂马或某个新木马病毒出现,就会立刻被截获。云安全通过网状的大量客户端对网络中软件行为的异常监测,获取互联网中木马、恶意程序的最新信息,推送到Server端进行自动分析和处理,再把病毒和木马的解决方案分发到每一个客户端。
        .云存储
        云存储是在云计算概念上延伸和发展出来的一个新的概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。
        .私有云
        私有云(Private Cloud)是将云基础设施与软硬件资源创建在防火墙内,以供机构或企业内各部门共享数据中心内的资源。创建私有云,除了硬件资源外,一般还有云设备(IaaS)软件,对应的商业软件有VMware的vSphere和Platform Computing的ISF,开放源代码的云设备软件主要有Eucalyptus和OpenStack。
        .云游戏
        云游戏是以云计算为基础的游戏方式,在云游戏的运行模式下,所有游戏都在服务器端运行,并将渲染完毕后的游戏画面压缩后通过网络传送给用户。在客户端,用户的游戏设备不需要任何高端处理器和显卡,只需要基本的视频解压能力就可以了。
        .云教育
        基于云的流媒体平台采用分布式架构部署,分为Web服务器,数据库服务器、直播服务器和流服务器,如有必要还可在信息中心架设采集工作站搭建网络电视或实况直播应用。
        2.物联网
        物联网是新一代信息技术的重要组成部分。其英文名称是“The Internet of things”。顾名思义,物联网就是物物相连的互联网。这有两层意思:第一,物联网的核心和基础仍然是互联网,是在互联网基础上的延伸和扩展的网络;第二,其用户端延伸和扩展到了任何物品与物品之间,进行信息交换和通信。因此,物联网的定义是通过射频识别(RFID)、红外感应器、全球定位系统、激光扫描器等信息传感设备,按约定的协议,将任何物品与互联网相连接,进行信息交换和通信,以实现对物品的智能化识别、定位、跟踪、监控和管理的一种网络。
        物联网可以分为以下类型:
        .私有物联网:一般面向单一机构内部提供服务;
        .公有物联网:基于互联网向公众或大型用户群体提供服务;
        .社区物联网:向一个关联的“社区”或机构群体(如一个城市政府下属各个机构等)提供服务;
        .混合物联网:是上述的两种或以上的物联网的组合,但后台有统一运维实体。
        物联网的技术组成
        从技术架构上来看,物联网可分为三层:感知层、网络层和应用层。
        感知层由各种传感器以及传感器网关构成,包括二氧化碳浓度传感器、温度传感器、湿度传感器、二维码标签、RFID标签和读写器、摄像头、GPS等感知终端。感知层的作用相当于人的眼耳鼻喉和皮肤等神经末梢,它是物联网识别物体、采集信息的来源,其主要功能是识别物体,采集信息。
        网络层由各种私有网络、互联网、有线和无线通信网、网络管理系统和云计算平台等组成,相当于人的神经中枢和大脑,负责传递和处理感知层获取的信息。
        应用层是物联网和用户(包括人、组织和其他系统)的接口,它与行业需求结合,实现物联网的智能应用。
        物联网应用
        物联网作为一种新的技术发展趋势,目前在多个行业已经有所应用,包括绿色农业、工业监控、公共安全、城市管理、远程医疗、智能家居、智能交通和环境监测等各个行业。
        3.三网合一
        三网融合是指电信网、广播电视网、互联网在向宽带通信网、数字电视网、下一代互联网演进过程中,三大网络通过技术改造,其技术功能趋于一致,业务范围趋于相同,网络互联互通、资源共享,能为用户提供语音、数据和广播电视等多种服务。三合并不意味着三大网络的物理合一,而主要是指高层业务应用的融合。三网融合应用广泛,遍及智能交通、环境保护、政府工作、公共安全、平安家居等多个领域。以后的手机可以看电视、上网,电视可以打电话、上网,电脑也可以打电话、看电视。三者之间相互交叉,形成你中有我、我中有你的格局。
        三网融合打破了此前广电在内容输送、电信在宽带运营领域各自的垄断,明确了互相进入的准则——在符合条件的情况下,广电企业可经营增值电信业务、比照增值电信业务管理的基础电信业务、基于有线电网络提供的互联网接入业务等;而国有电信企业在有关部门的监管下,可从事除时政类节目之外的广播电视节目生产制作、互联网视听节目信号传输、转播时政类新闻视听节目服务,IPTV传输服务、手机电视分发服务等。
        三网融合所涉及的主要技术
        .基础数字技术。数字技术的迅速发展和全面采用,使电话、数据和图像信号都可以通过统一的编码进行传输和交换,所有业务在网络中都将成为统一的“0”或“1”的比特流。所有业务在数字网中都将成为统一的0/1比特流,从而使得话音、数据、声频和视频各种内容(无论其特性如何)都可以通过不同的网络来传输、交换、选路处理和提供,并通过数字终端存储起来或以视觉、听觉的方式呈现在人们的面前。目前,数字技术已经在电信网和计算机网中得到了全面应用,并在广播电视网中迅速发展起来。数字技术的迅速发展和全面采用,使话音、数据和图像信号都通过统一的数字信号编码进行传输和交换,为各种信息的传输、交换、选路和处理奠定了基础。
        .宽带技术。宽带技术的主体就是光纤通信技术。网络融合的目的之一是通过一个网络提供统一的业务。若要提供统一业务就必须要有能够支持音视频等各种多媒体(流媒体)业务传送的网络平台。这些业务的特点是业务需求量大、数据量大、服务质量要求较高,因此在传输时一般都需要非常大的带宽。另外,从经济角度来讲,成本也不宜太高。这样,容量巨大且可持续发展的大容量光纤通信技术就成了传输介质的最佳选择。宽带技术特别是光通信技术的发展为传送各种业务信息提供了必要的带宽、传输质量和低成本。作为当代通信领域的支柱技术,光通信技术正以每10年增长100倍的速度发展,具有巨大容量的光纤传输网是“三网”理想的传送平台和未来信息高速公路的主要物理载体。目前,无论是电信网,还是计算机网、广播电视网,大容量光纤通信技术都已经得到了广泛的应用。
        .软件技术。软件技术是信息传播网络的神经系统,软件技术的发展,使得三网络及其终端都能通过软件变更最终支持各种用户所需的特性、功能和业务。现代通信设备已成为高度智能化和软件化的产品,今天的软件技术已经具备三网业务和应用融合的实现手段。
        .IP技术。内容数字化后,还不能直接承载在通信网络介质之上,还需要通过IP技术在内容与传送介质之间搭起一座桥梁。IP技术(特别是IPv6技术)的产生,满足了在多种物理介质与多样的应用需求之间建立简单而统一的映射需求,可以顺利地对多种业务数据、多种软硬件环境、多种通信协议进行集成、综合、统一,对网络资源进行综合调度和管理,使得各种以IP为基础的业务都能在不同的网络上实现互通。IP协议的普遍采用,使得各种以IP为基础的业务都能在不同的网上实现互通,具体下层基础网络是什么已无关紧要。统一的TCP/IP协议的普遍采用,将使得各种以IP为基础的业务都能在不同的网上实现互通。人类首次具有统一的为三大网都能接受的通信协议,从技术上为三网融合奠定了最坚实的基础.
        四网融合
        四网融合是三网融合概念的延伸,即在现有的三网融合的基础上加入电网,成为四网融合。
        4.下一代网络
        下一代网络(Next Generation Network),又称为次世代网络。主要思想是在一个统一的网络平台上以统一管理的方式提供多媒体业务,整合现有的市内固定电话、移动电话的基础上,增加多媒体数据服务及其他增值型服务。其中话音的交换将采用软交换技术,而平台的主要实现方式为IP技术,逐步实现统一通信。其中voip将是下一代网络中的一个重点。为了强调IP技术的重要性,业界的主要公司之一思科公司(Cisco Systems)主张称为IP-NGN。
        NGN是一个分组网络,它提供包括电信业务在内的多种业务,能够利用多种带宽和具有QoS能力的传送技术,实现业务功能与底层传送技术的分离;它允许用户对不同业务提供商网络的自由接入,并支持通用移动性,实现用户对业务使用的一致性和统一性。它是以软交换为核心的,能够提供包括语音、数据、视频和多媒体业务的基于分组技术的综合开放的网络架构,代表了通信网络发展的方向。NGN具有分组传送、控制功能从承载、呼叫/会话、应用/业务中分离、业务提供与网络分离、提供开放接口、利用各基本的业务组成模块、提供广泛的业务和应用、端到端QoS和透明的传输能力通过开放的接口规范与传统网络实现互通、通用移动性、允许用户自由地接入不同业务提供商、支持多样标志体系,融合固定与移动业务等特征。
        .狭义带网络具备以下的业务特点
        .多媒体化:NGN中发展最快的特点将是多媒体特点,同时多媒体特点也是NGN最基本、最明显的特点;
        .开放性:NGN网络具有标准的、开放的接口,为用户快速提供多样的定制业务;
        .个性化:个性化业务的提供将给未来的运营商带来丰厚的利润;
        .虚拟化:虚拟业务将是个人身份、联系方式以至于住所都虚拟化。用户可以使用个人号码,号码可以携带等虚拟业务,实现在任何时候、任何地方的通信;
        .智能化:NGN的通信终端具有多样化、智能化的特点,网络业务和终端特性结合起来可以提供更加智能化的业务。
        NGN的主要支撑技术
        .IPv6
        .光纤高速传输
        .光交换与智能光网
        .宽带接入
        .城域网
        .软交换
        .3G和后3G移动通信系统
        .IP终端
        .网络安全
        5.集成电路
        集成电路(IC,Integrated Circuit)是一种微型电子器件或部件。采用一定的工艺,把一个电路中所需的晶体管、二极管、电阻、电容和电感等元件及布线互连一起,制作在一小块或几小块半导体晶片或介质基片上,然后封装在一个管壳内,成为具有所需电路功能的微型结构;其中所有元件在结构上已组成一个整体,使电子元件向着微小型化、低功耗和高可靠性方面迈进了一大步。它在电路中用字母“IC”表示。集成电路发明者为杰克·基尔比(基于硅的集成电路)和罗伯特·诺伊思(基于锗的集成电路)。当今半导体工业大多数应用的是基于硅的集成电路。
        集成电路的分类
        集成电路按制作工艺可分为半导体集成电路和膜集成电路,膜集成电路又分类厚膜集成电路和薄膜集成电路。
        集成电路按集成度高低的不同可分为:
        .SSI小规模集成电路(Small Scale Integrated circuits)
        .MSI中规模集成电路(Medium Scale Integrated circuits)
        .LSI大规模集成电路(Large Scale Integrated circuits)
        .VLSI超大规模集成电路(Very Large Scale Integrated circuits)
        .ULSI特大规模集成电路(Ultra Large Scale Integrated circuits)
        .GSI巨大规模集成电路也被称作极大规模集成电路或超特大规模集成电路(Giga Scale Integration)
        MEMS
        MEMS是微机电系统(Micro-Electro-Mechanical Systems)的英文缩写。MEMS是美国的叫法,在日本被称为微机械,在欧洲被称为微系统,它是指可批量制作的,集微型机构、微型传感器、微型执行器以及信号处理和控制电路、直至接口、通信和电源等于一体的微型器件或系统。MEMS是随着半导体集成电路微细加工技术和超精密机械加工技术的发展而发展起来的,目前MEMS加工技术还被广泛应用于微流控芯片与合成生物学等领域,从而进行生物化学等实验室技术流程的芯片集成化。
        MEMS技术的发展开辟了一个全新的技术领域和产业,采用MEMS技术制作的微传感器、微执行器、微型构件、微机械光学器件、真空微电子器件、电力电子器件等在航空、航天、汽车、生物医学、环境监控、军事以及几乎人们所接触到的所有领域中都有着十分广阔的应用前景。MEMS技术正发展成为一个巨大的产业,就像近20年来微电子产业和计算机产业给人类带来的巨大变化一样,MEMS也正在孕育一场深刻的技术变革并对人类社会产生新一轮的影响。
        MEMS的相关技术包括:
        .微系统设计技术。主要是微结构设计数据库、有限元和边界分析、CAD/CAM仿真和模拟技术、微系统建模等,还有微小型化的尺寸效应和微小型理论基础研究等课题,如:力的尺寸效应、微结构表面效应、微观摩擦机理、热传导、误差效应和微构件材料性能等。
        .微细加工技术。主要指高深度比多层微结构的硅表面加工和体加工技术,利用X射线光刻、电铸的LIGA和利用紫外线的准LIGA加工技术;微结构特种精密加工技术包括微火花加工、能束加工、立体光刻成形加工;特殊材料特别是功能材料微结构的加工技术;多种加工方法的结合;微系统的集成技术;微细加工新工艺探索等。
        .微型机械组装和封装技术。主要指粘接材料的粘接、硅玻璃静电封接、硅硅键合技术和自对准组装技术,具有三维可动部件的封装技术、真空封装技术等新封装技术。
        .微系统的表征和测试技术主要有结构材料特性测试技术,微小力学、电学等物理量的测量技术,微型器件和微型系统性能的表征和测试技术,微型系统动态特性测试技术,微型器件和微型系统可靠性的测量与评价技术。
 
        大数据
               大数据相关概念
                      大数据概念
                      大数据的应用和技术是在互联网快速发展中诞生的,起点可追溯到2000年前后。当时互联网网页爆发式增长,每天新增约700万个网页,到2000年底全球网页数达到40亿,用户检索信息越来越不方便。谷歌等公司率先建立了覆盖数十亿网页的索引库,开始提供较为精确的搜索服务,大大提升了人们使用互联网的效率,这是大数据应用的起点。当时搜索引擎要存储和处理的数据,不仅数量之大前所未有,而且以非结构化数据为主,传统技术无法应对。为此,谷歌提出了一套以分布式为特征的全新技术体系,即后来陆续公开的分布式文件系统(Google File System,GFS)、分布式并行计算(MapReduce)和分布式数据库(BigTable)等技术,以较低的成本实现了之前技术无法达到的规模。这些技术奠定了当前大数据技术的基础,可以认为是大数据技术的源头。
                      伴随着互联网产业的崛起,这种创新的海量数据处理技术在电子商务、定向广告、智能推荐、社交网络等方面得到应用,取得巨大的商业成功。这启发全社会开始重新审视数据的巨大价值,于是金融、电信等拥有大量数据的行业开始尝试这种新的理念和技术,取得初步成效。与此同时,业界也在不断对谷歌提出的技术体系进行扩展,使之能在更多的场景下使用。2011年,麦肯锡、世界经济论坛等知名机构对这种数据驱动的创新进行了研究总结,随即在全世界兴起了一股大数据热潮。
                      虽然大数据已经成为全社会热议的话题,但至今“大数据”尚无公认的统一定义。我们认为,认识大数据要把握“资源、技术、应用”三个层次。大数据是具有体量大、结构多样、时效强等特征的数据;处理大数据需采用新型计算架构和智能算法等新技术;大数据的应用强调以新的理念应用于辅助决策、发现新的知识,更强调在线闭环的业务流程优化。因此可以说,大数据不仅“大”,而且“新”,是新资源、新工具和新应用的综合体。
                      大数据特点
                      业界通常用Volume、Variety、Value、Velocity这4个V来概括大数据的特点:
                      (1)数据体量巨大(Volume)。IDC研究表明,数字领域存在着1.8万亿吉字节的数据。企业数据正在以55%的速度逐年增长。实体世界中,数以百万计的数据采集传感器被嵌入到各种设备中,在数字化世界中,消费者每天的生活(通信、上网浏览、购物、分享、搜索)都在产生着数量庞大的数据。
                      (2)数据类型繁多(Variety)。数据可分为结构化数据、半结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,音频、视频、图片、地理位置信息等类型的非结构化数据量占比达到了80%,并在逐步提升,有用信息的提取难度不断增大。
                      (3)价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。
                      (4)时效性高(Velocity)。这是大数据区分于传统数据挖掘最显著的特征。数据的价值除了与数据规模相关,还与数据处理周期成正比关系。也就是,数据处理的速度越快、越及时,其价值越大,发挥的效能越大。
               大数据技术
                      大数据技术体系
                      大数据来源于互联网、企业系统和物联网等信息系统,经过大数据处理系统的分析挖掘,产生新的知识用以支撑决策或业务的自动智能化运转。从数据在信息系统中的生命周期看,大数据从数据源经过分析挖掘到最终获得价值一般需要经过5个主要环节,包括数据准备、数据存储与管理、计算处理、数据分析和知识展现,技术体系如下图所示。每个环节都面临不同程度的技术上的挑战。
                      
                      大数据技术框架
                      (1)数据准备环节。在进行存储和处理之前,需要对数据进行清洗、整理,传统数据处理体系中称为ETL(Extracting,Transforming,Loading)过程。与以往数据分析相比,大数据的来源多种多样,包括企业内部数据库、互联网数据和物联网数据,不仅数量庞大、格式不一,质量也良莠不齐。这就要求数据准备环节一方面要规范格式,便于后续存储管理,另一方面要在尽可能保留原有语义的情况下去粗取精、消除噪声。
                      (2)数据存储与管理环节。当前全球数据量正以每年超过50%的速度增长,存储技术的成本和性能面临非常大的压力。大数据存储系统不仅需要以极低的成本存储海量数据,还要适应多样化的非结构化数据管理需求,具备数据格式上的可扩展性。
                      (3)计算处理环节。需要根据处理的数据类型和分析目标,采用适当的算法模型,快速处理数据。海量数据处理要消耗大量的计算资源,对于传统单机或并行计算技术来说,速度、可扩展性和成本上都难以适应大数据计算分析的新需求。分而治之的分布式计算成为大数据的主流计算架构,但在一些特定场景下的实时性还需要大幅提升。
                      (4)数据分析环节。数据分析环节需要从纷繁复杂的数据中发现规律提取新的知识,是大数据价值挖掘的关键。传统数据挖掘对象多是结构化、单一对象的小数据集,挖掘更侧重根据先验知识预先人工建立模型,然后依据既定模型进行分析。对于非结构化、多源异构的大数据集的分析,往往缺乏先验知识,很难建立显式的数学模型,这就需要发展更加智能的数据挖掘技术。
                      (5)知识展现环节。在大数据服务于决策支撑场景下,以直观的方式将分析结果呈现给用户,是大数据分析的重要环节。如何让复杂的分析结果易于理解是主要挑战。在嵌入多业务中的闭环大数据应用中,一般是由机器根据算法直接应用分析结果而无需人工干预,这种场景下知识展现环节则不是必需的。
                      总的来看,大数据对数据准备环节和知识展现环节来说只是量的变化,并不需要根本性的变革。但大数据对数据分析、计算和存储三个环节影响较大,需要对技术架构和算法进行重构,是当前和未来一段时间大数据技术创新的焦点。下面简要分析上述3个环节面临的挑战及发展趋势。
                      大数据技术创新
                      大数据技术体系纷繁复杂,其中一些技术创新格外受到关注。随着社交网络的流行导致大量非结构化数据出现,传统处理方法难以应对,数据处理系统和分析技术开始不断发展。从2005年Hadoop的诞生开始,形成了数据分析技术体系这一热点。伴随着量急剧增长和核心系统对吞吐量以及时效性的要求提升,传统数据库需向分布式转型,形成了事务处理技术体系这一热点。然而时代的发展使得单个企业甚至行业的数据都难以满足要求,融合价值更加显现,形成了数据流通技术体系这一热点。
                             数据分析技术
                             从数据在信息系统中的生命周期看,数据分析技术生态主要有5个发展方向,包括数据采集与传输、数据存储与管理、计算处理、查询与分析、可视化展现。在数据采集与传输领域渐渐形成了Sqoop、Flume、Kafka等一系列开源技术,兼顾离线和实时数据的采集和传输。在存储层,HDFS已经成为了大数据磁盘存储的事实标准,针对关系型以外的数据模型,开源社区形成了K-V(key-value)、列式、文档、图这四类NoSQL数据库体系,Redis、HBase、Cassandra、MongoDB、Neo4j等数据库是各个领域的领先者。计算处理引擎方面,Spark已经取代MapReduce成为了大数据平台统一的计算平台,在实时计算领域Flink是Spark Streaming强力的竞争者。在数据查询和分析领域形成了丰富的SQL on Hadoop的解决方案,Hive、HAWQ、Impala、Presto、Spark SQL等技术与传统的大规模并行处理(Massively Parallel Processor,MPP)数据库竞争激烈,Hive还是这个领域当之无愧的王者。在数据可视化领域,敏捷商业智能(Business Intelligence,BI)分析工具Tableau、QlikView通过简单的拖拽来实现数据的复杂展示,是目前最受欢迎的可视化展现方式。
                             相比传统的数据库和MPP数据库,Hadoop最初的优势来源于良好的扩展性和对大规模数据的支持,但失去了传统数据库对数据精细化的操作,包括压缩、索引、数据的分配裁剪以及对SQL的支持度。经过10多年的发展,数据分析的技术体系渐渐在完善自己的不足,也融合了很多传统数据库和MPP数据库的优点,从技术的演进来看,大数据技术正在发生以下变化:
                             (1)更快。Spark已经替代MapReduce成为了大数据生态的计算框架,以内存计算带来计算性能的大幅提高,尤其是Spark 2.0增加了更多了优化器,计算性能进一步增强。
                             (2)流处理的加强。Spark提供一套底层计算引擎来支持批量、SQL分析、机器学习、实时和图处理等多种能力,但其本质还是小批的架构,在流处理要求越来越高的现在,Spark Streaming受到Flink激烈的竞争。
                             (3)硬件的变化和硬件能力的充分挖掘。大数据技术体系本质是数据管理系统的一种,受到底层硬件和上层应用的影响。当前硬件的芯片的发展从CPU的单核到多核演变转化为向GPU、FPGA、ASIC等多种类型芯片共存演变。而存储中大量使用SSD来代替SATA盘,NVRAM有可能替换DRAM成为主存。大数据技术势必需要拥抱这些变化,充分兼容和利用这些硬件的特性。
                             (4)SQL的支持。从Hive诞生起,Hadoop生态就在积极向SQL靠拢,主要从兼容标准SQL语法和性能等角度来不断优化,层出不穷的SQL on Hadoop技术参考了很多传统数据库的技术。而Greenplum等MPP数据库技术本身从数据库继承而来,在支持SQL和数据精细化操作方面有很大的优势。
                             (5)深度学习的支持。深度学习框架出现后,和大数据的计算平台形成了新的竞争局面,以Spark为首的计算平台开始积极探索如何支持深度学习能力,TensorFlow on Spark等解决方案的出现实现了TensorFlow与Spark的无缝连接,更好地解决了两者数据传递的问题。
                             事务处理技术
                             随着移动互联网的快速发展,智能终端数量呈现爆炸式增长,银行和支付机构传统的柜台式交易模式逐渐被终端直接交易模式替代。以金融场景为例,移动支付以及普惠金融的快速发展,为银行业、支付机构和金融监管机构带来了海量高频的线上小额资金支付行为,生产业务系统面临大规模并发事务处理要求的挑战。
                             传统事务技术模式以集中式数据库的单点架构为主,通过提高单机的性能上限适应业务的扩展。而随着摩尔定律的失效(底层硬件的变化),单机性能扩展的模式走到了尽头,而数据交易规模的急速增长(上层应用的变化)要求数据库系统具备大规模并发事务处理的能力。大数据分析系统经过10多年的实践,积累了丰富的分布式架构的经验,Paxos、Raft等一致性协议的诞生为事务系统的分布式铺平了道路。新一代分布式数据库技术在这些因素的推动下应运而生。
                             如下图所示,经过多年发展,当前分布式事务架构正处在快速演进的阶段,综合学术界以及产业界工作成果,目前主要分为三类:
                             
                             事务型数据库架构演进图
                             (1)基于原有单机事务处理关系数据库的分布式架构改造:利用原有单机事务处理数据库的成熟度优势,通过在独立应用层面建立起数据分片和数据路由的规则,建立起一套复合型的分布式事务处理数据库的架构。
                             (2)基于新的分布式事务数据库的工程设计思路的突破。通过全新设计关系数据库的核心存储和计算层,将分布式计算和分布式存储的设计思路和架构直接植入数据库的引擎设计中,提供对业务透明和非侵入式的数据管理和操作/处理能力。
                             (3)基于新的分布式关系数据模型理论的突破。通过设计全新的分布式关系数据管理模型,从数据组织和管理的最核心理论层面,构造出完全不同于传统单机事务数据库的架构,从数据库的数据模型的根源上解决分布式关系数据库的架构。
                             分布式事务数据库进入到各行各业面临诸多挑战,其一是多种技术路线,目前没有统一的定义和认识;其二是除了互联网公司有大规模使用外,其他行业的实践刚刚开始,需求较为模糊,采购、使用、运维的过程缺少可供参考的经验,需要较长时间的摸索;其三是缺少可行的评价指标、测试方法和测试工具来全方位比较当前的产品,规范市场,促进产品的进步。故应用上述技术进行交易类业务进行服务时,应充分考虑“可持续发展”“透明开放”“代价可控”三原则,遵循“知识传递先行”“测试评估体系建立”“实施阶段规划”三步骤,并认识到“应用过度适配和改造”“可用性管理策略不更新”“外围设施不匹配”三个误区。
                             大数据事务处理类技术体系的快速演进正在消除日益增长的数字社会需求同旧式的信息架构缺陷,未来人类行为方式、经济格局以及商业模式将会随大数据事务处理类技术体系的成熟而发生重大变革。
                             数据流通技术
                             数据流通是释放数据价值的关键环节。然而,数据流通也伴随着权属、质量、合规性、安全性等诸多问题,这些问题成为了制约数据流通的瓶颈。为了解决这些问题,大数据从业者从诸多方面进行了探索。目前来看,从技术角度的探索是卓有成效和富有潜力的。
                             从概念上讲,基础的数据流通只存在数据供方和数据需方这两类角色,数据从供方通过一定手段传递给需方。然而,由于数据权属和安全的需要,不能简单地将数据直接进行传送。数据流通的过程中需要完成数据确权、控制信息计算、个性化安全加密等一系列信息生产和再造,形成闭合环路。
                             安全多方计算和区块链是近年来常用的两种技术框架。由于创造价值的往往是对数据进行的加工分析等运算的结果而非数据本身,因此对数据需方来说,本身不触碰数据、但可以完成对数据的加工分析操作,也是可以接受的。安全多方计算这个技术框架就实现了这一点。其围绕数据安全计算,通过独特的分布式计算技术和密码技术,有区分地、定制化地提供安全性服务,使得各参与方在无需对外提供原始数据的前提下实现了对与其数据有关的函数的计算,解决了一组互不信任的参与方之间保护隐私的协同计算问题。区块链技术中多个计算节点共同参与和记录,相互验证信息有效性,既进行了数据信息防伪,又提供了数据流通的可追溯路径。业务平台中授权和业务流程的解耦对数据流通中的溯源、数据交易、智能合约的引入有了实质性的进展。
               大数据产业体系
               随着大数据技术不断演进和应用持续深化,以数据为核心的大数据产业体系正在加速构建。大数据产业体系中主要包括大数据解决方案提供商、大数据处理服务提供商和数据资源提供商三个角色,分别向大数据的应用者提供大数据服务、解决方案和数据资源,如下图所示。
               
               大数据产业体系
                      大数据解决方案提供商
                      大数据解决方案提供商面向企业用户提供大数据一站式部署方案,覆盖数据中心和服务器等硬件、数据存储和数据库等基础软件、大数据分析应用软件以及技术运维支持等方面内容。其中,大数据基础软件和应用软件是大数据解决方案中的重点内容。当前,企业提供的大数据解决方案大多基于Hadoop开源项目,例如,IBM基于Hadoop开发的大数据分析产品BigInsights、甲骨文融合了Hadoop开源技术的大数据一体机、Cloudera的Hadoop商业版等。大数据解决方案提供商中,主要包括传统IT厂商和新兴的大数据创业公司。传统IT厂商主要有IBM、HP等解决方案提供商以及甲骨文、Teradata等数据分析软件商。它们大多以原有IT解决方案为基础,融合Hadoop,形成融合了结构化和非结构化两条体系的“双栈”方案。通过一系列收购来提升大数据解决方案服务能力,成为这些IT巨头的主要策略。
                      国际上也诞生了一批专门提供非结构化数据处理方案的新兴创业公司。这些公司包括Cloudera、Hortonworks、MapR等,它们主要基于Hadoop开源项目,开发Hadoop商业版本和基于Hadoop的大数据分析工具,单独或者与传统IT厂商合作提供企业级大数据解决方案。这些新兴大数据企业成为资本市场的热点。国内华为、联想、浪潮、曙光等一批IT厂商也都纷纷推出大数据解决方案。但总体上,国内大数据解决方案提供商实力较弱,产品一些关键行业还未形成影响力,新兴大数据解决方案初创企业也凤毛麟角。
                      大数据处理服务提供商
                      大数据处理服务提供商主要以服务的方式为企业和个人用户提供大数据海量数据分析能力和大数据价值挖掘服务。按照服务模式进行划分,大数据处理服务提供商可以分为以下四类。
                      第一类是在线纯分析服务提供商。此类服务商主要是互联网企业、大数据分析软件商和新创企业等,通过SaaS或PaaS云服务形式为用户提供服务。典型的服务如谷歌提供的大数据分析工具Big Query、亚马逊提供的云数据仓库服务RedShift、微软的Azure HDInsigh1010data提供的商业智能服务等。国内一些云服务商也逐步开始提供大数据相关云服务,如阿里云的开放数据处理服务(ODPS)、百度的大数据引擎、腾讯的数据云等。
                      第二类是既提供数据又提供分析服务的在线提供商。此类服务商主要是拥有海量用户数据的大型互联网企业,主要以SaaS形式为用户提供大数据服务,服务背后以自有大数据资源为支撑。典型的服务如谷歌Facebook的自助式广告下单服务系统、Twitter基于实时搜索数据的产品满意度分析等。国内百度推出的大数据营销服务“司南”就属于此类。
                      第三类是单纯提供离线分析服务的提供商。此类服务商主要为企业提供专业、定制化的大数据咨询服务和技术支持,主要集中为大数据咨询公司、软件商等,例如专注于大数据分析的奥浦诺管理咨询公司(Opera Solutions)、数据分析服务提供商美优管理顾问公司(Mu Sigma)等。
                      第四类是既提供数据又提供离线分析服务的提供商。此类服务商主要集中在信息化水平较高、数据较为丰富的传统行业。例如日本日立集团(Hitachi)于2013年6月初成立的日立创新分析全球中心,其广泛收集汽车行驶记录、零售业购买动向、患者医疗数据、矿山维护数据和资源价格动向等庞大数据信息,并基于收集的海量信息开展大数据分析业务。又如美国征信机构Equifax基于全球8000亿条企业和消费者行为数据,提供70余项面向金融的大数据分析离线服务。
                      大数据资源提供商
                      既然数据成为了重要的资源和生产要素,必然会产生供应与流通需求。数据资源提供商因此应运而生,它是大数据产业的特有环节,也是大数据资源化的必然产物。数据资源提供商,包括数据拥有者和数据流通平台两个主要类型。数据拥有者可以是企业、公共机构或者个人。数据拥有者通常直接以免费或有偿的方式为其他有需求的企业和用户提供原数据或者处理过的数据。例如美国电信运营商Verizon推出的大数据应用精准营销洞察(Precision Market Insights),将向第三方企业和机构出售其匿名化和整合处理后的用户数据。国内阿里巴巴公司推出的淘宝量子恒道、数据魔方和阿里数据超市等,属于此种类型。
                      数据数据流通平台是多家数据拥有者和数据需求方进行数据交换流通的场所。按平台服务目的不同,可分为政府数据开放平台和数据交易市场。
                      (1)政府数据开放平台。主要提供政府和公共机构的非涉密数据开放服务,属于公益性质。全球不少国家已经加入到开放政府数据行动,推出公共数据库开放网站,例如美国数据开放网站Data.gov已有超过37万个数据集、1209个数据工具、309个网页应用和137个移动应用,数据源来自171个机构。国内地方政府数据开放平台开始出现,如国家统计局的国家数据网站、北京市政府和上海市政府的信息资源平台等数据开放平台正在建设过程中。
                      (2)数据交易市场。商业化的数据交易活动催生了多方参与的第三方数据交易市场。国际上比较有影响力的有微软的AzureData Marketplace、被甲骨文收购的BlueKai、DataMarket、Factual、Infochimps、DataSift等等,主要提供地理空间、营销数据和社交数据的交易服务。大数据交易市场发展刚刚起步,在市场机制、交易规则、定价机制、转售控制和隐私保护等方面还有很多工作要做。国内,2014年2月,在北京市和中关村管委会指导下,中关村大数据交易产业联盟成立,将在国内推动国内大数据交易相关规范化方面开展工作。
               大数据对电子商务的发展影响
                      大数据更好地支撑了电子商务营销精准化和实时化
                      电子商务发展到今天,其营销平台、营销方式都发生了很大的改变。电子商务平台、移动终端、社交网络以及物联网等设备的使用大大增加了消费者数据,而云计算、复杂分析系统等大数据处理手段,为人们整合各个渠道消费者数据、形成有用的营销信息提供了可能。与传统的电子商务数据处理方式相比,大数据处理方式更快捷、更精细,它给我们科学分析消费者偏好及其消费行为轨迹提供巨大帮助。特别是在移动设备进入电子商务领域后,地理位置服务信息处理使电子商务一对一精准营销成为可能,极大程度提升了电子商务营销的准确性,有力地支撑了电子商务营销的精准化与实时化。
                      大数据更好地支撑了电子商务高度差异化和个性化
                      在传统电子商务营销背景下,企业与消费者总是处于双向信息不对称状态。一方面企业很难掌握消费者的消费行为和消费习惯,另一方面消费者了解企业产品的信息渠道相对较窄。进入大数据时代后,企业可以通过科学分析海量数据来获得更加丰富的消费者信息,从而针对不同消费者消费需求,提供特定的产品和服务,以最大限度地提高其满意度。消费者可以通过移动终端等渠道及时向电子商务企业传递信息,为企业进行个性化服务提供依据。由此可以推断,未来电子商务价值创造将会围绕消费者个性化需求展开,并将消费者纳入到企业产品设计与生产过程,实现共同的价值创造。
                      大数据进一步推进了价值链、供应链一体化
                      大数据等新型信息技术可以促进各个渠道的跨界数据整合,使所有围绕消费者消费行为的价值链、供应链企业成为一个整体。如大数据可以将地理位置不同、从事行业不同的研发、生产、加工、营销、仓储、配送、服务等各环节企业在满足消费者消费需求这一共同目的下组成动态联盟,通过彼此协作和创造,真正为消费者提供个性化产品和服务。相对于传统意义上的供应链,通过大数据连接起来的动态联盟反应速度更快、智能化程度更高,这既有利于联盟内企业的信息、资源共享,也有利于联盟内企业的分工协作,从而创造新的价值。
                      大数据推动了新型增值服务模式发展
                      电子商务中应用众多的新型信息技术产生了生产、消费、金融、物流等一系列大数据,这些本属于不同领域的大数据在被综合运用的过程中会产生新的融合,从而形成新的增值服务。如电子商务中产生的买卖双方信息、物流信息、金融信息,如果加以整合肯定能够使企业在市场竞争中处于比较有利的位置。在此基础上,企业还可以积极开展类似金融信用服务、供应链整合等增值服务。随着大数据的广泛应用,加之大数据分析手段创新,已经产生了互联网金融等多个增值服务,给包括电子商务企业在内的众多中小企业提供了新的发展空间。假以时日,大数据还会催生更多新型增值服务模式、产生众多的产业。
 
        数据的描述
        在数据处理中,涉及不同的数据描述领域。从事物的特性到计算机里的具体表示,经历了3个数据领域——现实世界、信息世界和机器世界。
        1)现实世界
        现实世界(real word)的数据就是客观存在的各种报表、图表和查询格式等原始数据。
        2)信息世界
        信息世界(information world)是现实世界在人们头脑中的反映,人们把它用文字和符号记载下来。在信息世界中,数据库技术用到下列术语。
        .实体(entity):客观存在并且可以相互区别的东西称为实体,如一个女学生、一辆汽车等。也可以是抽象的事件,如一次篮球比赛、一次上网等。
        .实体集(entity set):性质相同的同类实体集合,称为实体集,如所有的男学生、全国篮球锦标赛的所有比赛等。
        .属性(attribute):实体有若干特性,每一个特性称为一个属性。每个属性有一个值域,其类型可以是整型、实型或字符型。例如,学生有姓名、年龄、性别等属性,相应值域的类型分别是字符串、整数和字符型。
        .键(key):实体中凡能唯一标识实体集中每个实体的属性或属性集就称为实体的键,有时也称为实体标识符。例如,学生的姓名(不允许重名)可以作为学生实体的键。
        3)机器世界
        信息世界的信息在机器世界中以数据形式存储。机器世界中数据描述的术语有以下4个。
        .字段(field):标记实体属性的符号集称为字段或数据项。它是可以命名的最小数据单位。字段的命名往往与属性名相同。
        .记录(record):字段的有序集合称为记录。一般来说,用一个记录描述一个实体。
        .文件(file):同一类记录的汇集称为文件。文件是描述实体集的,所以它又可以定义为描述一个实体集的所有符号集。
        .键(key):能唯一标识文件中每个记录的字段或字段集,称为文件的键或记录的键。



更多复习资料
请登录电脑版软考在线 www.rkpass.cn

京B2-20210865 | 京ICP备2020040059号-5
京公网安备 11010502032051号 | 营业执照
 Copyright ©2000-2023 All Rights Reserved
软考在线版权所有