软考在线  |  计算机技术与软件专业技术资格(水平)考试   |   [请选择科目]
[ 成为 VIP会员 ]        登录  |  注册      我的  购物车
0
 
科目切换  联系我们 
    
  |   [请选择科目]

VIP:有效提升20分!  真题  历年真题 (可免费开通)/  百科全书/ 机考模拟平台/  最难真题榜/  自测/  攻打黄金十二宫/  真题检索/  真题下载/  真题词库
知识   必会知识榜/  最难知识榜/  知识点查询/      文档   学习计划/  精华笔记/  试题文档     纸质图书   《百科全书》HOT!!/         /        首页/  2025年上半年专区/  手机版/ 
免费智能真题库 > 历年试卷 > 信息处理技术员 > 2021年下半年 信息处理技术员 上午试卷 综合知识
  第15题      
  知识点:   数据收集、分类和编码方法   检验   一致性
  关键词:   方差分析   数据清洗   数据一致性   数据        章/节:   数据处理方法       
  错误率: 32%      难度系数:      

 
数据清洗是指对数据进行重新审查和校验的过程,通常包括()。
检验数据一致性
②处理无效值
③处理缺失值
④方差分析
 
 
  A.  ①②④
 
  B.  ①②③
 
  C.  ②③④
 
  D.  ①③④
 
 
 确定 并 查看答案解析     知识点讲解  我要标记      有奖找茬      上一题        下一题 
 

 
  第20题    2022年上半年  
   0%
在数据收集的方法中,抽样调查相对于普查的优势之一在于()。
  第52题    2022年下半年  
   0%
抽样调查是收集数据的重要方法。不做全体调查,而只做抽样调查的原因不包括(11) 。
  第8题    2015年下半年  
   46%
制造企业进行市场调查的目的一般不包括(8)。
   知识点讲解    
   · 数据收集、分类和编码方法    · 检验    · 一致性
 
       数据收集、分类和编码方法
        数据是对客观事物进行观察或观测后记录下来的一组可识别的符号,是对现实世界中客观事物真实属性的记录,反映了客观事物的性质、形态、数量和特征。信息是客观事物运动和变化的一种反映,是经过加工处理并对人类客观行为产生影响的数据表现形式。任何事物的属性都是通过数据来表示的,数据经过加工处理之后才能成为信息,而信息必须通过数据才能传播,才能对人类有影响。可见,要获得信息首先收集原始数据。
               数据收集方法
               通常收集数据的方法包括观察法、访谈法、问卷法、抽样调查法、测验法和实验法等。
               (1)观察法是研究者通过感官或一定的仪器设备,有目的、有计划地观察客观事物的情况,并由此分析客观事物特征和规律的一种方法。
               (2)访谈法或座谈法是研究者通过与被调查人员进行口头交谈,了解和收集与他们有关的数据资料的一种研究方法。这种方法的最大特点在于整个访谈或座谈过程是访谈者与被调查人员相互影响、相互作用的过程。
               (3)问卷法是研究者用统一、严格设计的问卷来收集被调查人员的数据资料的一种研究方法。其特点是标准化程度比较高,避免了研究的盲目性和主观性,而且能在较短时间内收集到大量的资料,也便于定量分析。因此,这是一种常用的收集资料的方法。
               (4)抽样调查法是指从研究对象的全部单位中抽取一部分进行考察和分析,并用被抽取部分的数量特征去推断总体的数量特征的一种方法。其中,被研究对象的全部单位称为“总体”;从总体中抽取出来,实际进行调查研究的那部分对象所构成的群体称为“样本”。在抽样调查中,样本数的确定是一个关键问题。
               (5)测验法就是通过心理测验来研究被调查人员心理、行为特征的一种方法,它一般是用一套标准化了的题目,按规定的程序对被调查人员心理的某一方面进行测量,从而作出被调查人员某方面心理发展水平或特点的评定与诊断。
               (6)实验法是指有目的地控制一定的条件或创设一定的情境,以观察这些因素变化对其他因素的影响。例如,实验室实验法可以严格控制各种因素,并通过专门仪器进行测试和记录实验数据,一般具有较高的可信度。
               数据分类
               按照数据连续性可分为离散数据和连续数据;按照数据有序性可分为有序数据和无序数据;按照数据的确定性可分为确定性数据和随机数据;数据也可分为定量数据和定性数据等。
               数据编码方法
               所谓编码就是按照一定的组合原则,采用少量的基本符号来表示不同的信息。基本符号的种类和这些符号的组合规则是信息编码的两大要素。在计算机中,将信息转换成用二进制数0和1表示的代码的过程称为数据编码。例如,文字、图形、声音、动画和电影等信息的编码规则是不同的,这样计算机才能识别并进行处理。
               (1)西文信息编码。
               计算机中将非数字的符号表示成二进制形式叫做字符编码。为了在世界范围内进行信息的处理与交换,必须遵循一种统一的编码标准。常见的有ASCII码、EBCDIC码和BCD码。
               ①ASCII码(American Standard Code for Information Interchange)是美国标准信息交换码,也是目前最常用的西文字符编码。该编码用7位二进制编码表示,从0000000到1111111,共有128种编码组合,可表示128个字符,其中数字10个、大小写英文字母52个、控制字符34个、其他字符32个。由于计算机是用一个字节来存放一个ASCII字符,故最高位为0。例如,大写字符A的ASCII码对应的二进制数是1000001,其对应的十进制数为65D,十六进制数为41H;小写字符t的ASCII码对应的二进制数是1110100,其对应的十进制数为116D,十六进制数为74H。
               ②EBCDIC码(Extended Binary Coded Decimal Interchanged Code)是扩展的二-十进制交换码,用一个字节(8位)表示一个字符,共有256种编码组合,可表示256个不同的字符,主要用于IBM系列大型机中。在EBCDIC码中,数字0~9的高4位编码全为1,低4位编码则依次为0000到1001。
               ③BCD码(Binary-Coded Decimal)也称为二-十进制代码,用4位二进制数来表示1位十进制数。这种编码形式利用了4位二进制代码来储存一个十进制数,不仅可以使二进制和十进制之间的转换得以快捷的进行,而且从16个4位二进制代码0000~1111中选择其中的10个作为数字代码,可以有多种BCD码,可以分成有权BCD码和无权BCD码两种。有权BCD码有8421码(最常用)、2421码和5421码等;无权BCD码有余3码和格雷码等。例如,十进制14.75转换成8421码和二进制的情况如下:
               (14.75)10=(0001 0100.0111 0101)8421码(14.75)10=(1110.11)2
               ④Unicode码也是一种国际标准编码,是由Unicode联盟开发的一种字符编码标准,该标准采用多个字节代表一个字符,与标准ASCII码不兼容。Unicode字符系统有多种表示形式,包括UTF-8、UTF-16和UTF-32。目前,大多数Windows界面都使用UTF-16形式,能够表示世界上所有书写语言中用于计算机通信的字元、象形文字和其他符号。
               (2)中文信息编码与汉字的输入输出。
               中文信息编码比较复杂,我国于1980年制定了《信息交换用汉字编码字符集基本集》,即GB2312—80国家标准,规定一级和二级字库共6763个汉字,另加682个图形符号(计算机将它们也当汉字看待)。按汉字的使用频度将汉字分为一级汉字(常用字)和二级汉字。
               ①中文信息编码。
               .区位码:GB2312字符集构成一个94行、94列的二维表,行号称为区号,列号称为位号,每一个汉字或符号在码表中的位置用它所在的区号和位号来表示。为了处理与存储的方便,每个汉字的区号和位号在计算机内部分别用一个字节来表示。例如,“啊”的区号为16H,位号为01H,其区位码为1601H,用2个字节的二进制数表示为00010110 00000001。
               .国标交换码:区位码无法用于汉字通信,因为它可能与通信使用的控制码(00H~1FH,即0~31)发生冲突。ISO2022规定每个汉字的区号和位号分别加上十六进制数20H,拼起来得到的代码称为国标交换码,简称交换码。例如,“啊”字的区号为16H+20H=36H,位号为01H+20H=21H,拼起来后得到的国标交换码为3621H。
               .机内码:简称内码,是供计算机内部存储、处理加工和传输汉字或西文字符时所用的由0和1符号组成的代码。为了在机器内部区别开汉字和西文字符,以免造成混乱,汉字内码中两个字节的最高位均规定为1。
               ②汉字的输入。
               汉字输入码是为了解决使用西文标准键盘把汉字输入到计算机内部而设计编制的代码。一个好的汉字输入码编码方案应该满足汉字覆盖率高、重码率低且易区分、易学易记、码长短、平均击键次数少、输入速度快等要求。目前常用的编码方案主要有以下4类:
               .数字编码:为每一个汉字分配一个唯一的数字代码串,若输入一个汉字,即输入对应的一串数字。如国标区位码、电报码。数字编码的优点是一字一码,没有重码,输入码与内部编码的转换方便,但是编码不易记忆,难以推广使用。
               .拼音码:用每个汉字的汉语拼音符号作为一个汉字的输入编码。如全拼码、双拼码、自然码等都属于此类输入码。拼音码的优点是易学、易记,凡是掌握汉语拼音的人都可以使用。但是由于汉字同音字太多,此编码方案的重码率非常高,使输入速度受到很大限制。
               .字形码:用每个汉字的形状进行编码,将汉字的比划部首进行分解,用相应的字母来代替,并按笔划顺序依次输入。如五笔字型、表形码都属于此类输入码。字形码的特点是输入速度得到较大提高,但是需要经过一定的学习和训练才能充分掌握输入方法。
               .混合码:为了获得较高质量的输入编码,综合上述编码方案的优点,形成混合型的输入编码,如音形码等。
               ③汉字的输出。
               计算机对汉字的输出方法有显示输出、打印输出和语音输出等,主要牵涉到汉字点阵和汉字库等内容。
               .汉字点阵:在汉字信息处理系统中,无论中文还是西文,最终都要以字形的方式输出处理结果。汉字字形一般是以数字化的方式存储在计算机的存储器中,将汉字图像预先分割为许多小方块,组成一个“点阵”。若用0表示白点,1表示黑点,这个点阵字形就很容易地用二进制表示了,这种方法称为“点阵的数字化”。表示字形的二进制代码称为汉字字形码。
               .汉字库:按用途不同可分为简易汉字库和精密汉字库两种。简易汉字库中可存储24×24点阵或16×16点阵规模的汉字点阵,用于屏幕汉字显示或针式打印机汉字输出。精密汉字库存储的字模可供照排机和激光印字机输出汉字时使用,字模的点阵规模一般不低于108×108点阵。对于这样大规模点阵的字模存储量极大,故必须进行压缩。
               .语音输出:是指利用语音的数字信息,采用语音合成的方法由数字信息还原成模拟量而输出人耳能听到的语音,是人与计算机沟通的一个重要途径。
               (3)图形和图像信息表示。
               图形和图像与文字、声音等其他信息媒体相比具有直观明了、含义丰富等多种优点。日常生活中的图形和图像在计算机中有两种数字化表示方法,一种称为点阵图像或位图图像,简称图像(Image);另一种称为几何图形或矢量图形,简称图形(Graphics)。
               .位图图像:由一系列像素组成,把画面离散成m×n个像素所组成的一个矩阵,所以它又称为位图表示法或点阵表示法。每个像素用若干个二进制位来指定它的颜色深度。通常,黑白图像只用一位二进制(0或1)数表示每个黑白像素的灰度值,彩色图像用三个或多个二进制整数表示每个彩色像素的三个分量(如R,G,B)的灰度值。
               .矢量图形:对采集图像依据某种标准进行分析、分解,提取出具有一定意义的独立的信息单位(图元),如一段直线、一条曲线、一个矩形、一个圆、一个电路符号等,并用一组指令来描述原始图像中每个图元和各个图元之间的联系。当计算机要显示一幅存储的图像时,只需读取这组指令,逐条解释、执行指令,就可以将图像输出。
 
       检验
        检验(检查)包括测量、检查和测试等活动,目的是确定项目成果是否与要求相一致。检验可以在任何管理层次中开展,例如,一个单项活动的结果和整个项目的最后成果都可以检验。检验有各种名称,如复查、产品复查、审查及评审等。
        检查表(核对表)是常用的检验技术,检查表通常是由详细的条目组成的,用于检查和核对一系列必须采取的步骤是否已经实施的结构化工具,其具体内容因应用的不同而不同。检查表是一种有条理的工具,可简单可烦琐,语言表达形式可以是命令式,也可以是询问式。
        例如,下表是一个确认测试工具属性的检查表例子。
        
        一个确认测试工具属性的检查表例子
 
       一致性
        在讨论一致性之前,先看一下CAP理论。它作为一种理论依据,使得在不同应用中,对一致性也有了不同的要求。CAP理论:简单地说,就是对于一个分布式系统,一致性(Consistency)、可用性(Availablity)和分区容忍性(Partition tolerance)三个特点最多只能三选二。
        一致性意味着系统在执行了某些操作后仍处在一个一致的状态,这点在分布式的系统中尤其明显。比如某用户在一处对共享的数据进行了修改,那么所有有权使用这些数据的用户都可以看到这一改变。简言之,就是所有的结点在同一时刻有相同的数据。
        可用性指对数据的所有操作都应有成功的返回。高可用性则是在系统升级(软件或硬件)或在网络系统中的某些结点发生故障的时候,仍可以正常返回。简言之,就是任何请求不管成功或失败都有响应。
        分区容忍性这一概念的前提是在网络发生故障的时候。在网络连接上,一些结点出现故障,使得原本连通的网络变成了一块一块的分区,若允许系统继续工作,那么就是分区可容忍的。
        在数据库系统中,事务的ACID属性保证了数据库的一致性。比如银行系统中,转账就是一个事务,从原账户扣除金额,以及向目标账户添加金额,这两个数据库操作的总和构成一个完整的逻辑过程,具有原子的不可拆分特性,从而保证了整个系统中的总金额没有变化。
        然而,这些ACID特性对于大型的分布式系统来说,是和高性能不兼容的。比如,你在网上书店买书,任何一个人买书这个过程都会锁住数据库直到买书行为彻底完成(否则书本库存数可能不一致),买书完成的那一瞬间,世界上所有的人都可以看到书的库存减少了一本(这也意味着两个人不能同时买书)。这在小的网上书城也许可以运行得很好,可是对Amazon这种网上书城却并不是很好。
        而对于Amazon这种系统,它也许会用Cache系统,剩余的库存数也许是几秒甚至几个小时前的快照,而不是实时的库存数,这就舍弃了一致性。并且,Amazon可能也舍弃了独立性,当只剩下最后一本书时,也许它会允许两个人同时下单,宁愿最后给那个下单成功却没货的人道歉,而不是整个系统性能的下降。
        由于CAP理论的存在,为了提高性能,出现了ACID的一种变种BASE(这四个字母分别是Basically Available,Soft—state,Eventual consistency的开头字母,是一个弱一致性的理论,只要求最终一致性):
        .Basically Available:基本可用。
        .Soft state:软状态,可以理解为“无连接”的,而与之相对应的Hard state就是“面向连接”的。
        .Eventual consistency:最终一致性,最终整个系统(时间和系统的要求有关)看到的数据是一致的。
        在BASE中,强调可用性的同时,引入了最终一致性这个概念,不像ACID,其并不需要每个事务都是一致的,只需要整个系统经过一定时间后最终达到一致。比如Amazon的卖书系统,也许在卖的过程中,每个用户看到的库存数是不一样的,但最终卖完后,库存数都为0。再比如SNS网络中,C更新状态,A也许可以1分钟就看到,而B甚至5分钟后才看到,但最终大家都可以看到这个更新。
        具体地说,如果选择了CP(一致性和分区容忍性),那么就要考虑ACID理论(传统关系型数据库的基石,事务的四个特点)。如果选择了AP(可用性和分区容忍性),那么就要考虑BASE系统。如果选择了CA(一致性和可用性),如Google的bigtable,那么在网络发生分区的时候,将不能进行完整的操作。
        ACID理论和BASE的具体对比如下表所示。
        
        ACID和BASE的对比表
   题号导航      2021年下半年 信息处理技术员 上午试卷 综合知识   本试卷我的完整做题情况  
1 /
2 /
3 /
4 /
5 /
6 /
7 /
8 /
9 /
10 /
11 /
12 /
13 /
14 /
15 /
 
16 /
17 /
18 /
19 /
20 /
21 /
22 /
23 /
24 /
25 /
26 /
27 /
28 /
29 /
30 /
 
31 /
32 /
33 /
34 /
35 /
36 /
37 /
38 /
39 /
40 /
41 /
42 /
43 /
44 /
45 /
 
46 /
47 /
48 /
49 /
50 /
51 /
52 /
53 /
54 /
55 /
56 /
57 /
58 /
59 /
60 /
 
61 /
62 /
63 /
64 /
65 /
66 /
67 /
68 /
69 /
70 /
71 /
72 /
73 /
74 /
75 /
 
第15题    在手机中做本题
    在线人数   共计 5918人 在线 
    jinhaiyejh..     rnchen_200..     469317204@..     shijieshij..     come1912@y..     68tianshi@..
    guanketao@..     dongbo991@..     adreamingb..     qiao_hx@16..     lwbllp@163..     jzpcshen@s..
    506655478@..     weihope010..     xnhsjk@sin..     249116435@..     dishou@163..     hulilixiao..
    cxqchen@ho..     hulilixiao..     999hushuho..     ntjls@ntzj..     wzq2008@21..     guyanzhao7..
    ju910130@y..     likaigreat..     chihuang@w..     zhangfeng8..     gxnnwy@163..     yxf2286@16..
    zhouyanhui..     wangweinan..     rody290282..     zhandl@263..     juan815@sh..     LINCEY_205..
    wangwei409..     matadorzp@..     doulonggan..     liweijian1..     hulilixiao..     zuohanqi@1..

本网站所有产品设计(包括造型,颜色,图案,观感,文字,产品,内容),功能及其展示形式,均已受版权或产权保护。
任何公司及个人不得以任何方式复制部分或全部,违者将依法追究责任,特此声明。
本站部分内容来自互联网或由会员上传,版权归原作者所有。如有问题,请及时联系我们。



京B2-20210865 | 京ICP备2020040059号-5 |京公网安备 11010502032051号 | 营业执照 | Copyright ©2000-2025 All Rights Reserved 软考在线版权所有