首页 > 知识点讲解
       数据收集、分类和编码方法
知识路径: > 信息处理基础知识 > 数据处理方法 > 数据收集方法、分类方法、编码方法 > 
被考次数:32次     被考频率:高频率     总体答错率:40%     知识难度系数:     
相关知识点:3个      
        数据是对客观事物进行观察或观测后记录下来的一组可识别的符号,是对现实世界中客观事物真实属性的记录,反映了客观事物的性质、形态、数量和特征。信息是客观事物运动和变化的一种反映,是经过加工处理并对人类客观行为产生影响的数据表现形式。任何事物的属性都是通过数据来表示的,数据经过加工处理之后才能成为信息,而信息必须通过数据才能传播,才能对人类有影响。可见,要获得信息首先收集原始数据。
               数据收集方法
               通常收集数据的方法包括观察法、访谈法、问卷法、抽样调查法、测验法和实验法等。
               (1)观察法是研究者通过感官或一定的仪器设备,有目的、有计划地观察客观事物的情况,并由此分析客观事物特征和规律的一种方法。
               (2)访谈法或座谈法是研究者通过与被调查人员进行口头交谈,了解和收集与他们有关的数据资料的一种研究方法。这种方法的最大特点在于整个访谈或座谈过程是访谈者与被调查人员相互影响、相互作用的过程。
               (3)问卷法是研究者用统一、严格设计的问卷来收集被调查人员的数据资料的一种研究方法。其特点是标准化程度比较高,避免了研究的盲目性和主观性,而且能在较短时间内收集到大量的资料,也便于定量分析。因此,这是一种常用的收集资料的方法。
               (4)抽样调查法是指从研究对象的全部单位中抽取一部分进行考察和分析,并用被抽取部分的数量特征去推断总体的数量特征的一种方法。其中,被研究对象的全部单位称为“总体”;从总体中抽取出来,实际进行调查研究的那部分对象所构成的群体称为“样本”。在抽样调查中,样本数的确定是一个关键问题。
               (5)测验法就是通过心理测验来研究被调查人员心理、行为特征的一种方法,它一般是用一套标准化了的题目,按规定的程序对被调查人员心理的某一方面进行测量,从而作出被调查人员某方面心理发展水平或特点的评定与诊断。
               (6)实验法是指有目的地控制一定的条件或创设一定的情境,以观察这些因素变化对其他因素的影响。例如,实验室实验法可以严格控制各种因素,并通过专门仪器进行测试和记录实验数据,一般具有较高的可信度。
               数据分类
               按照数据连续性可分为离散数据和连续数据;按照数据有序性可分为有序数据和无序数据;按照数据的确定性可分为确定性数据和随机数据;数据也可分为定量数据和定性数据等。
               数据编码方法
               所谓编码就是按照一定的组合原则,采用少量的基本符号来表示不同的信息。基本符号的种类和这些符号的组合规则是信息编码的两大要素。在计算机中,将信息转换成用二进制数0和1表示的代码的过程称为数据编码。例如,文字、图形、声音、动画和电影等信息的编码规则是不同的,这样计算机才能识别并进行处理。
               (1)西文信息编码。
               计算机中将非数字的符号表示成二进制形式叫做字符编码。为了在世界范围内进行信息的处理与交换,必须遵循一种统一的编码标准。常见的有ASCII码、EBCDIC码和BCD码。
               ①ASCII码(American Standard Code for Information Interchange)是美国标准信息交换码,也是目前最常用的西文字符编码。该编码用7位二进制编码表示,从0000000到1111111,共有128种编码组合,可表示128个字符,其中数字10个、大小写英文字母52个、控制字符34个、其他字符32个。由于计算机是用一个字节来存放一个ASCII字符,故最高位为0。例如,大写字符A的ASCII码对应的二进制数是1000001,其对应的十进制数为65D,十六进制数为41H;小写字符t的ASCII码对应的二进制数是1110100,其对应的十进制数为116D,十六进制数为74H。
               ②EBCDIC码(Extended Binary Coded Decimal Interchanged Code)是扩展的二-十进制交换码,用一个字节(8位)表示一个字符,共有256种编码组合,可表示256个不同的字符,主要用于IBM系列大型机中。在EBCDIC码中,数字0~9的高4位编码全为1,低4位编码则依次为0000到1001。
               ③BCD码(Binary-Coded Decimal)也称为二-十进制代码,用4位二进制数来表示1位十进制数。这种编码形式利用了4位二进制代码来储存一个十进制数,不仅可以使二进制和十进制之间的转换得以快捷的进行,而且从16个4位二进制代码0000~1111中选择其中的10个作为数字代码,可以有多种BCD码,可以分成有权BCD码和无权BCD码两种。有权BCD码有8421码(最常用)、2421码和5421码等;无权BCD码有余3码和格雷码等。例如,十进制14.75转换成8421码和二进制的情况如下:
               (14.75)10=(0001 0100.0111 0101)8421码(14.75)10=(1110.11)2
               ④Unicode码也是一种国际标准编码,是由Unicode联盟开发的一种字符编码标准,该标准采用多个字节代表一个字符,与标准ASCII码不兼容。Unicode字符系统有多种表示形式,包括UTF-8、UTF-16和UTF-32。目前,大多数Windows界面都使用UTF-16形式,能够表示世界上所有书写语言中用于计算机通信的字元、象形文字和其他符号。
               (2)中文信息编码与汉字的输入输出。
               中文信息编码比较复杂,我国于1980年制定了《信息交换用汉字编码字符集基本集》,即GB2312—80国家标准,规定一级和二级字库共6763个汉字,另加682个图形符号(计算机将它们也当汉字看待)。按汉字的使用频度将汉字分为一级汉字(常用字)和二级汉字。
               ①中文信息编码。
               .区位码:GB2312字符集构成一个94行、94列的二维表,行号称为区号,列号称为位号,每一个汉字或符号在码表中的位置用它所在的区号和位号来表示。为了处理与存储的方便,每个汉字的区号和位号在计算机内部分别用一个字节来表示。例如,“啊”的区号为16H,位号为01H,其区位码为1601H,用2个字节的二进制数表示为00010110 00000001。
               .国标交换码:区位码无法用于汉字通信,因为它可能与通信使用的控制码(00H~1FH,即0~31)发生冲突。ISO2022规定每个汉字的区号和位号分别加上十六进制数20H,拼起来得到的代码称为国标交换码,简称交换码。例如,“啊”字的区号为16H+20H=36H,位号为01H+20H=21H,拼起来后得到的国标交换码为3621H。
               .机内码:简称内码,是供计算机内部存储、处理加工和传输汉字或西文字符时所用的由0和1符号组成的代码。为了在机器内部区别开汉字和西文字符,以免造成混乱,汉字内码中两个字节的最高位均规定为1。
               ②汉字的输入。
               汉字输入码是为了解决使用西文标准键盘把汉字输入到计算机内部而设计编制的代码。一个好的汉字输入码编码方案应该满足汉字覆盖率高、重码率低且易区分、易学易记、码长短、平均击键次数少、输入速度快等要求。目前常用的编码方案主要有以下4类:
               .数字编码:为每一个汉字分配一个唯一的数字代码串,若输入一个汉字,即输入对应的一串数字。如国标区位码、电报码。数字编码的优点是一字一码,没有重码,输入码与内部编码的转换方便,但是编码不易记忆,难以推广使用。
               .拼音码:用每个汉字的汉语拼音符号作为一个汉字的输入编码。如全拼码、双拼码、自然码等都属于此类输入码。拼音码的优点是易学、易记,凡是掌握汉语拼音的人都可以使用。但是由于汉字同音字太多,此编码方案的重码率非常高,使输入速度受到很大限制。
               .字形码:用每个汉字的形状进行编码,将汉字的比划部首进行分解,用相应的字母来代替,并按笔划顺序依次输入。如五笔字型、表形码都属于此类输入码。字形码的特点是输入速度得到较大提高,但是需要经过一定的学习和训练才能充分掌握输入方法。
               .混合码:为了获得较高质量的输入编码,综合上述编码方案的优点,形成混合型的输入编码,如音形码等。
               ③汉字的输出。
               计算机对汉字的输出方法有显示输出、打印输出和语音输出等,主要牵涉到汉字点阵和汉字库等内容。
               .汉字点阵:在汉字信息处理系统中,无论中文还是西文,最终都要以字形的方式输出处理结果。汉字字形一般是以数字化的方式存储在计算机的存储器中,将汉字图像预先分割为许多小方块,组成一个“点阵”。若用0表示白点,1表示黑点,这个点阵字形就很容易地用二进制表示了,这种方法称为“点阵的数字化”。表示字形的二进制代码称为汉字字形码。
               .汉字库:按用途不同可分为简易汉字库和精密汉字库两种。简易汉字库中可存储24×24点阵或16×16点阵规模的汉字点阵,用于屏幕汉字显示或针式打印机汉字输出。精密汉字库存储的字模可供照排机和激光印字机输出汉字时使用,字模的点阵规模一般不低于108×108点阵。对于这样大规模点阵的字模存储量极大,故必须进行压缩。
               .语音输出:是指利用语音的数字信息,采用语音合成的方法由数字信息还原成模拟量而输出人耳能听到的语音,是人与计算机沟通的一个重要途径。
               (3)图形和图像信息表示。
               图形和图像与文字、声音等其他信息媒体相比具有直观明了、含义丰富等多种优点。日常生活中的图形和图像在计算机中有两种数字化表示方法,一种称为点阵图像或位图图像,简称图像(Image);另一种称为几何图形或矢量图形,简称图形(Graphics)。
               .位图图像:由一系列像素组成,把画面离散成m×n个像素所组成的一个矩阵,所以它又称为位图表示法或点阵表示法。每个像素用若干个二进制位来指定它的颜色深度。通常,黑白图像只用一位二进制(0或1)数表示每个黑白像素的灰度值,彩色图像用三个或多个二进制整数表示每个彩色像素的三个分量(如R,G,B)的灰度值。
               .矢量图形:对采集图像依据某种标准进行分析、分解,提取出具有一定意义的独立的信息单位(图元),如一段直线、一条曲线、一个矩形、一个圆、一个电路符号等,并用一组指令来描述原始图像中每个图元和各个图元之间的联系。当计算机要显示一幅存储的图像时,只需读取这组指令,逐条解释、执行指令,就可以将图像输出。
 
本知识点历年真题:
隶属试卷 题号/题型 题干 难度系数/错误率
   2019年上半年
   信息处理技术员..
   上午试卷 综合知识
第7题
选择题
数据属性有三大类:业务属性、技术属性(与技术实现相关的属性)和管理属性三大类。以下属性中,( )属于业务属性。

34%
   2018年下半年
   信息处理技术员..
   上午试卷 综合知识
第7题
选择题
大数据来源大致可以分为两类:一类来自于物理实体世界的科学数据,另一类来自于人类社会活动。以下数据中,( )属于前一类数据。

24%
>>  更多  本知识点历年真题
 
 相关知识点:
 
软考在线指南
优惠劵及余额
在线支付
修改密码
下载及使用
购买流程
取消订单
联系我们
关于我们
联系我们
商务合作
旗下网站群
高级资格科目
信息系统项目管理师 系统分析师
系统架构设计师 网络规划设计师
系统规划与管理师
初级资格科目
程序员 网络管理员
信息处理技术员 信息系统运行管理员
中级资格科目
系统集成项目管理工程师 网络工程师
软件设计师 信息系统监理师
信息系统管理工程师 数据库系统工程师
多媒体应用设计师 软件评测师
嵌入式系统设计师 电子商务设计师
信息安全工程师
 

本网站所有产品设计(包括造型,颜色,图案,观感,文字,产品,内容),功能及其展示形式,均已受版权或产权保护。
任何公司及个人不得以任何方式复制部分或全部,违者将依法追究责任,特此声明。
本站部分内容来自互联网或由会员上传,版权归原作者所有。如有问题,请及时联系我们。


工作时间:9:00-20:00

客服

点击这里给我发消息 点击这里给我发消息 点击这里给我发消息

商务合作

点击这里给我发消息

客服邮箱service@rkpass.cn


京B2-20210865 | 京ICP备2020040059号-5 |京公网安备 11010502032051号 | 营业执照 | Copyright ©2000-2023 All Rights Reserved 软考在线版权所有