全部科目 > 信息处理技术员 >
2011年上半年 上午试卷 综合知识
第 2 题
知识点 数据收集、分类和编码方法   数据采集  
关键词 数据采集   数据  
章/节 数据处理方法  
 
 
以下关于数据采集的叙述中,不正确的是(2)。
 
  A.  数据采集的工作量与费用都占信息处理的相当大的比重
 
  B.  数据采集时需要获得描述客观事物的全部信息
 
  C.  数据输出的质量取决于数据收集的质量
 
  D.  数据采集后还需要进行校验以保证其正确性
 
 




 
 
相关试题     数据收集方法、分类方法、编码方法 

  第7题    2018年下半年  
大数据来源大致可以分为两类:一类来自于物理实体世界的科学数据,另一类来自于人类社会活动。以下数据中,( )属于前一类数据。

  第66题    2012年下半年  
以下(66)并没有采用抽样调查方法。

  第65题    2020年下半年  
做社会调查时,问卷题型中一般不包括( )。

 
知识点讲解
· 数据收集、分类和编码方法
· 数据采集
 
        数据收集、分类和编码方法
        数据是对客观事物进行观察或观测后记录下来的一组可识别的符号,是对现实世界中客观事物真实属性的记录,反映了客观事物的性质、形态、数量和特征。信息是客观事物运动和变化的一种反映,是经过加工处理并对人类客观行为产生影响的数据表现形式。任何事物的属性都是通过数据来表示的,数据经过加工处理之后才能成为信息,而信息必须通过数据才能传播,才能对人类有影响。可见,要获得信息首先收集原始数据。
               数据收集方法
               通常收集数据的方法包括观察法、访谈法、问卷法、抽样调查法、测验法和实验法等。
               (1)观察法是研究者通过感官或一定的仪器设备,有目的、有计划地观察客观事物的情况,并由此分析客观事物特征和规律的一种方法。
               (2)访谈法或座谈法是研究者通过与被调查人员进行口头交谈,了解和收集与他们有关的数据资料的一种研究方法。这种方法的最大特点在于整个访谈或座谈过程是访谈者与被调查人员相互影响、相互作用的过程。
               (3)问卷法是研究者用统一、严格设计的问卷来收集被调查人员的数据资料的一种研究方法。其特点是标准化程度比较高,避免了研究的盲目性和主观性,而且能在较短时间内收集到大量的资料,也便于定量分析。因此,这是一种常用的收集资料的方法。
               (4)抽样调查法是指从研究对象的全部单位中抽取一部分进行考察和分析,并用被抽取部分的数量特征去推断总体的数量特征的一种方法。其中,被研究对象的全部单位称为“总体”;从总体中抽取出来,实际进行调查研究的那部分对象所构成的群体称为“样本”。在抽样调查中,样本数的确定是一个关键问题。
               (5)测验法就是通过心理测验来研究被调查人员心理、行为特征的一种方法,它一般是用一套标准化了的题目,按规定的程序对被调查人员心理的某一方面进行测量,从而作出被调查人员某方面心理发展水平或特点的评定与诊断。
               (6)实验法是指有目的地控制一定的条件或创设一定的情境,以观察这些因素变化对其他因素的影响。例如,实验室实验法可以严格控制各种因素,并通过专门仪器进行测试和记录实验数据,一般具有较高的可信度。
               数据分类
               按照数据连续性可分为离散数据和连续数据;按照数据有序性可分为有序数据和无序数据;按照数据的确定性可分为确定性数据和随机数据;数据也可分为定量数据和定性数据等。
               数据编码方法
               所谓编码就是按照一定的组合原则,采用少量的基本符号来表示不同的信息。基本符号的种类和这些符号的组合规则是信息编码的两大要素。在计算机中,将信息转换成用二进制数0和1表示的代码的过程称为数据编码。例如,文字、图形、声音、动画和电影等信息的编码规则是不同的,这样计算机才能识别并进行处理。
               (1)西文信息编码。
               计算机中将非数字的符号表示成二进制形式叫做字符编码。为了在世界范围内进行信息的处理与交换,必须遵循一种统一的编码标准。常见的有ASCII码、EBCDIC码和BCD码。
               ①ASCII码(American Standard Code for Information Interchange)是美国标准信息交换码,也是目前最常用的西文字符编码。该编码用7位二进制编码表示,从0000000到1111111,共有128种编码组合,可表示128个字符,其中数字10个、大小写英文字母52个、控制字符34个、其他字符32个。由于计算机是用一个字节来存放一个ASCII字符,故最高位为0。例如,大写字符A的ASCII码对应的二进制数是1000001,其对应的十进制数为65D,十六进制数为41H;小写字符t的ASCII码对应的二进制数是1110100,其对应的十进制数为116D,十六进制数为74H。
               ②EBCDIC码(Extended Binary Coded Decimal Interchanged Code)是扩展的二-十进制交换码,用一个字节(8位)表示一个字符,共有256种编码组合,可表示256个不同的字符,主要用于IBM系列大型机中。在EBCDIC码中,数字0~9的高4位编码全为1,低4位编码则依次为0000到1001。
               ③BCD码(Binary-Coded Decimal)也称为二-十进制代码,用4位二进制数来表示1位十进制数。这种编码形式利用了4位二进制代码来储存一个十进制数,不仅可以使二进制和十进制之间的转换得以快捷的进行,而且从16个4位二进制代码0000~1111中选择其中的10个作为数字代码,可以有多种BCD码,可以分成有权BCD码和无权BCD码两种。有权BCD码有8421码(最常用)、2421码和5421码等;无权BCD码有余3码和格雷码等。例如,十进制14.75转换成8421码和二进制的情况如下:
               (14.75)10=(0001 0100.0111 0101)8421码(14.75)10=(1110.11)2
               ④Unicode码也是一种国际标准编码,是由Unicode联盟开发的一种字符编码标准,该标准采用多个字节代表一个字符,与标准ASCII码不兼容。Unicode字符系统有多种表示形式,包括UTF-8、UTF-16和UTF-32。目前,大多数Windows界面都使用UTF-16形式,能够表示世界上所有书写语言中用于计算机通信的字元、象形文字和其他符号。
               (2)中文信息编码与汉字的输入输出。
               中文信息编码比较复杂,我国于1980年制定了《信息交换用汉字编码字符集基本集》,即GB2312—80国家标准,规定一级和二级字库共6763个汉字,另加682个图形符号(计算机将它们也当汉字看待)。按汉字的使用频度将汉字分为一级汉字(常用字)和二级汉字。
               ①中文信息编码。
               .区位码:GB2312字符集构成一个94行、94列的二维表,行号称为区号,列号称为位号,每一个汉字或符号在码表中的位置用它所在的区号和位号来表示。为了处理与存储的方便,每个汉字的区号和位号在计算机内部分别用一个字节来表示。例如,“啊”的区号为16H,位号为01H,其区位码为1601H,用2个字节的二进制数表示为00010110 00000001。
               .国标交换码:区位码无法用于汉字通信,因为它可能与通信使用的控制码(00H~1FH,即0~31)发生冲突。ISO2022规定每个汉字的区号和位号分别加上十六进制数20H,拼起来得到的代码称为国标交换码,简称交换码。例如,“啊”字的区号为16H+20H=36H,位号为01H+20H=21H,拼起来后得到的国标交换码为3621H。
               .机内码:简称内码,是供计算机内部存储、处理加工和传输汉字或西文字符时所用的由0和1符号组成的代码。为了在机器内部区别开汉字和西文字符,以免造成混乱,汉字内码中两个字节的最高位均规定为1。
               ②汉字的输入。
               汉字输入码是为了解决使用西文标准键盘把汉字输入到计算机内部而设计编制的代码。一个好的汉字输入码编码方案应该满足汉字覆盖率高、重码率低且易区分、易学易记、码长短、平均击键次数少、输入速度快等要求。目前常用的编码方案主要有以下4类:
               .数字编码:为每一个汉字分配一个唯一的数字代码串,若输入一个汉字,即输入对应的一串数字。如国标区位码、电报码。数字编码的优点是一字一码,没有重码,输入码与内部编码的转换方便,但是编码不易记忆,难以推广使用。
               .拼音码:用每个汉字的汉语拼音符号作为一个汉字的输入编码。如全拼码、双拼码、自然码等都属于此类输入码。拼音码的优点是易学、易记,凡是掌握汉语拼音的人都可以使用。但是由于汉字同音字太多,此编码方案的重码率非常高,使输入速度受到很大限制。
               .字形码:用每个汉字的形状进行编码,将汉字的比划部首进行分解,用相应的字母来代替,并按笔划顺序依次输入。如五笔字型、表形码都属于此类输入码。字形码的特点是输入速度得到较大提高,但是需要经过一定的学习和训练才能充分掌握输入方法。
               .混合码:为了获得较高质量的输入编码,综合上述编码方案的优点,形成混合型的输入编码,如音形码等。
               ③汉字的输出。
               计算机对汉字的输出方法有显示输出、打印输出和语音输出等,主要牵涉到汉字点阵和汉字库等内容。
               .汉字点阵:在汉字信息处理系统中,无论中文还是西文,最终都要以字形的方式输出处理结果。汉字字形一般是以数字化的方式存储在计算机的存储器中,将汉字图像预先分割为许多小方块,组成一个“点阵”。若用0表示白点,1表示黑点,这个点阵字形就很容易地用二进制表示了,这种方法称为“点阵的数字化”。表示字形的二进制代码称为汉字字形码。
               .汉字库:按用途不同可分为简易汉字库和精密汉字库两种。简易汉字库中可存储24×24点阵或16×16点阵规模的汉字点阵,用于屏幕汉字显示或针式打印机汉字输出。精密汉字库存储的字模可供照排机和激光印字机输出汉字时使用,字模的点阵规模一般不低于108×108点阵。对于这样大规模点阵的字模存储量极大,故必须进行压缩。
               .语音输出:是指利用语音的数字信息,采用语音合成的方法由数字信息还原成模拟量而输出人耳能听到的语音,是人与计算机沟通的一个重要途径。
               (3)图形和图像信息表示。
               图形和图像与文字、声音等其他信息媒体相比具有直观明了、含义丰富等多种优点。日常生活中的图形和图像在计算机中有两种数字化表示方法,一种称为点阵图像或位图图像,简称图像(Image);另一种称为几何图形或矢量图形,简称图形(Graphics)。
               .位图图像:由一系列像素组成,把画面离散成m×n个像素所组成的一个矩阵,所以它又称为位图表示法或点阵表示法。每个像素用若干个二进制位来指定它的颜色深度。通常,黑白图像只用一位二进制(0或1)数表示每个黑白像素的灰度值,彩色图像用三个或多个二进制整数表示每个彩色像素的三个分量(如R,G,B)的灰度值。
               .矢量图形:对采集图像依据某种标准进行分析、分解,提取出具有一定意义的独立的信息单位(图元),如一段直线、一条曲线、一个矩形、一个圆、一个电路符号等,并用一组指令来描述原始图像中每个图元和各个图元之间的联系。当计算机要显示一幅存储的图像时,只需读取这组指令,逐条解释、执行指令,就可以将图像输出。
 
        数据采集
        数据采集阶段的主要任务就是获取各个不同数据源的各类数据,按照统一的标准进行数据的转换、清洗等工作,以形成后续数据处理的符合标准要求的数据集。
        原始数据往往形式多样,包括:结构化数据,例如业务系统中的交易明细、操作日志等;非结构化数据,例如企业中的各种文档数据,视频、音频等数据;半结构化数据,例如Web页面的HTML文档等。而且其来源和种类也存在很大差距。
        当前的大数据处理中,数据的种类一般包括:
        .传感数据:传感数据是由感知设备或传感设备感受、测量及传输的数据。这些感知设备或传感设备实时和动态地收集大量的时序传感数据资源。传感数据种类有很多,如人身体的传感数据,网络信号的传感数据和气象的传感数据等。近年来随着物联网、工业互联网的日益发展,传感数据越来越丰富,人们也逐渐发现了其数据价值。
        .业务数据:企业业务系统在执行日常业务活动时产生的大量数据,包括设备工况、操作记录、交易流水,以及用户在使用系统时遗留下来的大量行为数据。这些数据反映了人或者物的属性、偏好,在推荐或预测系统中有很大的利用价值。
        .人工输入数据:用户通过软件人机交互等主动输入的数据,典型代表是微博、微信、抖音等系统的用户输入数据。随着互联网的不断深入,手机APP应用的不断发展,这种用户产生的数据也越来越多,越来越丰富。
        .科学数据:通过科学研究和科学实验不断搜集和汇聚的数据,一般是以电子记录或文本的形式存在。
        从大数据的来源进行划分,其种类包括:
        .企业数据:企业自建的各种业务系统,如ERP、在线交易系统、招聘系统等,也会产生各种数据集。
        .政府数据:政府信息化已发展多年,构建了很多业务数据。近年来政府也在不断地建设大数据中心,发布各种数据,包括人社、医疗、税务、工商、财务等。
        .互联网数据:互联网数据是当前大数据应用的一个重要的数据来源。互联网上存在各种应用沉淀下来的大量数据,包括门户网站、社交信息、电商网站等等。
        其中,企业数据一般属于内部数据,而政府数据、互联网数据往往属于外部数据。
        从上面大数据的分类可以看出,数据来源渠道众多,差异非常大。因此,数据采集的主要任务就是进行数据的汇聚,为后续的数据处理做好准备。这个阶段工作中主要涉及的技术包括针对内部数据的数据集成和ETL技术,针对外部数据,尤其是互联网数据的爬虫技术。
        数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。
        ETL(Extract Transform Load)用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。
        基本的ETL体系结构示意图如下图所示。
        
        ETL体系结构示意图
        ETL过程中的主要环节是数据抽取、数据转换和加工、数据加载。一般ETL工具中,围绕上述三个核心环节进行了功能上的扩充,例如工作流、调度引擎、规则引擎、脚本支持和统计信息等,尽量降低ETL阶段的工作强度,减少工作量。
        数据转换和加工是三个环节的重点,因为抽取的数据中往往存在各种问题,例如数据格式不一致、数据输入错误、字段不匹配、字段类型不符、数据不完整等。ETL一般以组件化的方式实现数据转换和加工。常用的数据转换组件有字段映射、数据过滤、数据清洗、数据替换、数据计算、数据验证、数据加解密、数据合并、数据拆分等,并以工作流的形式进行各种方式的组合,以满足数据转换的需求。有的ETL工具也提供脚本支持,满足用户定制化的数据转换需求。
        常用的ETL工具有三种:DataStage、Informatica PowerCenter和Kettle。
        .DataStage:IBM公司的DataStage是一种数据集成软件平台,专门针对多种数据源的ETL过程进行了简化和自动化,同时提供图形框架,用户可以使用该框架来设计和运行用于变换和清理、加载数据的作业。它能够处理的数据源有主机系统的大型数据库、开发系统上的关系数据库和普通的文件系统。
        .Informatica PowerCenter:Informatica公司开发的为满足企业级需求而设计的企业数据集成平台。可以支持各类数据源,包括结构化、半结构化和非结构化数据。提供丰富的数据转换组件和工作流支持。
        .Kettle:Kettle是一款国外开源的ETL工具,纯Java编写,可以在Windows、Linux、UNIX上运行,数据抽取高效稳定。管理来自不同数据库的数据,提供图形化的操作界面,提供工作流支持。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。Kettle包括4个产品:Spoon、Pan、Chef、Kitchen。Spoon通过图形界面来设计ETL转换过程(Transformation)。Pan批量运行由Spoon设计的ETL转换(例如使用一个时间调度器),是一个后台执行的程序,没有图形界面。Chef创建任务(Job),任务通过允许每个转换、任务、脚本等等,更有利于自动化更新数据仓库的复杂工作。Kitchen批量使用由Chef设计的任务(例如使用一个时间调度器)。
        由于很多大数据应用都需要来自互联网的外部数据,因此,爬虫技术也称为数据采集阶段的一个主要基础性的技术。
        网络爬虫(又称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。网络爬虫基本的体系结构如下图所示。
        
        爬虫框架示意图
        爬虫调度器主要负责统筹其他四个模块的协调工作。URL管理器负责管理URL链接,维护已经爬取的URL集合和未爬取的URL集合,提供获取新URL链接的接口。HTML下载器用于从URL管理器中获取未爬取的URL链接并下载HTML网页。HTML解析器用于从HTML下载器中获取已经下载的HTML网页,并从中解析出新的URL链接交给URL管理器,解析出有效数据交给数据存储器。
        网络爬虫大致可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、深层网络(Deep Web)爬虫。实际的大数据应用由于往往聚焦于某个特定的应用目标,其采用的网络爬虫系统通常是聚焦网络爬虫、深层网络爬虫技术相结合实现的。
        通用网络爬虫,爬行对象从一些种子URL扩充到整个Web,主要为门户站点搜索引擎和大型Web服务提供商采集数据。通用网络爬虫的结构大致可以分为页面爬行模块、页面分析模块、链接过滤模块、页面数据库、URL队列、初始URL集合几个部分。为提高工作效率,通用网络爬虫会采取一定的爬行策略。常用的爬行策略有:深度优先策略、广度优先策略。
        聚焦网络爬虫,是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,可以很好地满足一些特定人群对特定领域信息的需求。聚焦网络爬虫和通用网络爬虫相比,增加了链接评价模块以及内容评价模块。聚焦爬虫爬行策略实现的关键是评价页面内容和链接的重要性,常见的爬行策略有基于内容评价的爬行策略、基于链接结构评价的爬行策略、基于增强学习的爬行策略、基于语境图的爬行策略等。
        深层网络爬虫用于专门爬取那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面。Deep Web爬虫爬行过程中最重要的部分就是表单填写,包含两种类型:基于领域知识的表单填写,此方法一般会维持一个本体库,通过语义分析来选取合适的关键词填写表单;基于网页结构分析的表单填写,此方法一般无领域知识或仅有有限的领域知识,将网页表单表示成DOM树,从中提取表单各字段值。常见的爬虫工具有如下三种:
        .Nutch:一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch有Hadoop支持,可以进行分布式抓取、存储和索引。Nutch采用插件结构设计,高度模块化,容易扩展。
        .Scrapy:是Python开发的一个快速、高层次的屏幕抓取和Web抓取框架,用于抓取Web站点并从页面中提取结构化的数据。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便地修改。它提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫、Web2.0爬虫等。
        .Larbin:Larbin是一种开源的网络爬虫/网络蜘蛛,用C++语言实现。Larbin目的是能够跟踪页面的URL进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。
        当数据采集到以后,需要对采集并清洗后的数据进行存储。具体的存储技术在13.1.3云关键技术中的分布式数据存储中介绍,此处不再详述。



更多复习资料
请登录电脑版软考在线 www.rkpass.cn

京B2-20210865 | 京ICP备2020040059号-5
京公网安备 11010502032051号 | 营业执照
 Copyright ©2000-2023 All Rights Reserved
软考在线版权所有