知识点讲解
 
       大数据关键技术
知识路径: > 信息技术知识 > 新一代信息技术 > 大数据 > 大数据的关键技术 > 
被考次数:6次
被考频率: 中频率
总体答错率: 58%
知识难度系数:
考试要求: 熟悉     
相关知识点:4个
        大数据所涉及的技术很多,主要包括:
        .数据采集:使用数据抽取工具ETL。
        .数据存储:包括结构化数据、非结构化数据和半结构化数据的存储与访问。结构化数据一般存放在关系数据库中,通过SQL来访问;非结构化(如图片、视频、文件等)和半结构化数据一般通过分布式文件系统的NoSQL进行存储。
        .数据管理:主要使用分布式并行处理技术,比较常用的有MapReduce。
        .数据分析与挖掘:根据业务需求对大数据进行关联、聚类、分类等钻取和分析,并利用图形、表格加以展示。
        开源大数据框架Hadoop的关键技术包括:
        .HDFS(Hadoop分布式文件系统):是适合运行在通用硬件上的分布式文件系统,是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大数据应用。
        .HBase:一个分布式的、面向列的开源数据库。利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库,并且采用基于列而不是基于行的模式。
        .MapReduce:一种编程模型,用于大规模数据集(大于1TB)的并行运算。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上,从而实现对HDFS和HBase上的海量数据分析。
        .Chukwa:一个开源的用于监控大型分布式系统的数据收集系统。Chukwa构建在Hadoop的HDFS和MapReduce框架之上,继承了Hadoop的可升缩性和健壮性,它包含了一个强大而灵活的工具集,可用于展示、监控和分析已收集的数据。
 

更多复习资料
请登录电脑版软考在线 www.rkpass.cn

京B2-20210865 | 京ICP备2020040059号-5
京公网安备 11010502032051号 | 营业执照
 Copyright ©2000-2023 All Rights Reserved
软考在线版权所有