软考在线  |  计算机技术与软件专业技术资格(水平)考试   |   [请选择科目]
[ 成为 VIP会员 ]        登录  |  注册      我的  购物车
 
科目切换  联系我们 
    
  |   [请选择科目]

VIP:有效提升20分!  真题  历年真题 (可免费开通)/  百科全书/ 机考模拟平台/  最难真题榜/  自测/  攻打黄金十二宫/  真题检索/  真题下载/  真题词库
知识   必会知识榜/  最难知识榜/  知识点查询/      文档   学习计划/  精华笔记/  试题文档     纸质图书   《百科全书》HOT!!/         /        首页/  2025年上半年专区/  手机版/ 
免费智能真题库 > 历年试卷 > 信息系统运行管理员 > 2021年上半年 信息系统运行管理员 上午试卷 综合知识
  第10题      
  知识点:   数据资源管理   资源管理   数据采集   数据校验
  关键词:   数据采集   数据处理   数据        章/节:   信息系统运维的组织   现象系统设施运维系统与专用工具       

 
数据资源管理的内容主要包括:数据采集数据校验、()、数据处理。
 
 
  A.  数据备份
 
  B.  数据模拟
 
  C.  数据录入
 
  D.  数据清洗
 
 
 

   知识点讲解    
   · 数据资源管理    · 资源管理    · 数据采集    · 数据校验
 
       数据资源管理
        数据资源是信息系统中最为重要的资源,没有数据的信息系统是没有丝毫意义和作用的。因此,对数据资源的管理是一项非常重要的运行管理工作。例如,在库存管理工作中,进货出货的业务处理,每天的业务都应该及时、准确地收集起来并且录入计算机。数据资源管理的内容主要包括:数据采集、数据校验、数据录入、数据处理4项工作。
        (1)数据收集。数据收集工作常常是由分散在各业务部门的业务管理人员进行的,因此,数据收集是一项复杂的工作,其组织工作往往比较难以进行,需要组织专人进行基本数据的收集、管理、分析。应该根据实际情况对收集到的资料进行初步加工,可以精选与浓缩,可以归纳与整理等。
        如果这一工作没有做好,那么整个信息系统的工作就会建立在“沙滩”上。信息系统中数据的不全面、不准确往往造成系统数据分析的无效性和决策支持的失败。系统主管人员应该努力通过各种方法,提高这些人员的技术水平和工作责任感,对他们的工作进行评价、指导和帮助,以便提高所收集数据的质量,为系统有效地工作打下坚实的基础。
        (2)数据校验。数据校验的工作,在较小的系统中,往往由系统主管人员自己来完成。在较大的系统中,一般需要设立专职人员来完成这一任务,国外称其为数据控制人员。
        需要指出的是,对于担负数据校验工作的人员,对其业务要求是比较高的。因为,对于信息系统来说,最重要的资源是数据,一切硬件、软件及其他资源,都是为了保证数据的及时、完整及准确,整个系统的效率或对外的形象都依赖于它所保存的数据。无论多么先进的硬件设备,无论多么完善的加工功能,如果没有及时、完整、准确的数据,都不能发挥实际的效益。许多信息系统,正是在这一点上重视不够,形成了“进去的是垃圾,出来的还是垃圾”的局面,这种情况不但使系统无法实际使用,而且使用户对系统丧失信心,给计算机应用的推广造成了很不好的影响。
        保证数据的及时、准确和完整,并不只是计算机技术本身的问题,而是与具体业务紧密联系的。在数据由手工处理方式转变到计算机处理的过程中,要把好关是不容易的。一方面,校验者必须对系统所处理的业务有足够的了解,许多数据的正确或错误是不能只从数据本身字面上来判断的,往往需要对数据的逻辑含义的理解,甚至需要相当的实际经验。对于系统所处理的业务一无所知是不可能做好校验工作的。另一方面,从事校验工作的人,又必须对计算机系统对数据的要求(包括格式、范围、平衡关系等)有确切的了解。一般地说,对于计算机处理的要求、长处、弱点,要有比较清楚的认识。因此,无论是由系统主管人员自己担负这一工作,还是由专职人员来校验,都必须给予足够的重视。当然,可以通过提高数据收集人员的业务水平,来减轻数据校验工作的负担。然而,单靠这方面工作是不行的。如前所述,数据收集人员一般来说是由业务人员来担任,并且在行政上也不属于信息处理的专职部门。因此,数据校验这种“数据把关”的工作是不可缺少的。
        (3)数据录入。数据录入工作相对比较简单,其要求是迅速与准确。录入人员的责任在于把经过校验的数据送入计算机,他们应严格地把收到的数据及时准确地录入计算机系统,一般来说,录入的数据记载在某种磁性介质,如磁盘、磁带上。他们并不对数据在逻辑上、具体业务中的含义进行考虑与承担责任,这一责任是由校验人员承担的,录入人员只需要保证送入计算机的数据与纸面上的数据严格一致,这是由录入人员和校验人员的职责决定的。因此,不能由录入人员代替校验人员。
        当然,这两项工作也不是截然分开的。某些校验工作是在录入之前完成的。例如,某些显而易见的超出合理范围的数据,无疑应在录入之前排除,而某些需要大量计算的平衡检验,则可以在录入数据之后用事先准备好的程序来检验。另外,还需要用事先准备好的程序来检验录入工作的质量。在许多系统中,为了保证重要数据的安全,常常在录入或更新数据时,先把新录入的数据库存放在临时的工作文件之中,而不让录入人员直接接触重要数据文件本身。待经过检验确实无误之后,再由系统管理人员或负责数据检验的人员,运行专门的程序,存入数据或进行更新。
        总之,必须由系统主管人员本身或比较熟悉系统的专职人员把关,以确保数据的安全。这方面的工作,局外人并不直接了解,然而,却是整个系统有效地工作的基础。它看起来很琐碎,很单调,然而却非常重要。试想,一个库存管理系统,如果不能及时、准确地把每天的业务录入计算机,它以后的各项工作(报表生成、随机查询、数据分析等)还有什么实际意义呢?
        (4)数据处理。在保证基本数据的完整、及时和准确的前提下,系统应完成例行的数据处理及信息服务工作。常见的工作包括:例行的数据更新、统计分析、报表生成、数据的复制及保存、与外界的定期数据交流等。这些工作,一般来说都是按照一定的规程,定期或不定期地运行研制中已经详细规定好了的,操作人员也应经过严格的培训,清楚地了解各项操作规则,了解各种情况的处理方法。这些工作是在系统已有的各种资源的基础上,直接向领导、管理人员及其他使用者提供信息服务,当然,这里只包括例行的服务。组织系统操作人员,完成这些例行的数据处理和信息服务工作,是系统主管人员又一项经常性任务。
 
       资源管理
               设施快照
               运维人员通过设备快照功能以图形化的形式实时获取设备当前的基本管理信息,包括设备名称、IP地址、网络掩码、类型、分类、系统描述、所运行的服务名称、服务的状态、服务占有的端口、服务响应的时间、接口的基本信息及主机资源参数的基本信息等。
               设施视图
               以图形方式呈现信息系统相关设施的信息,能够动态实时显示各类资源的运行状态了解资源的分布与状态信息,以及对网络中的资源进行监控。系统一般支持以下几方面的视图。
               (1)网络拓扑图:以地理视图、层次图等方式显示物理、逻辑网络拓扑结构。
               (2)机房平面图:提供机房内设备物理摆放位置的视图。
               (3)机架视图:提供设备在机架上物理摆放位置的视图。
               (4)设备面板图:对被管理的设备应以与设备同样的物理构成直观进行显示,设备面板图应同时可以显示正面面板和背面面板。
               通过设备面板管理实现对于交换机运行状态、端口流量、端口丢包率等性能参数的监视与管理,以及对交换机端口的操作,如交换机端口的管理与取消管理,对于端口的开启和关闭等。
               设备面板图包括真实面板和仿真面板两种视图方式。
               视图管理能够将拓扑视图与故障、性能等功能关联,能够在拓扑图上直观地显示被管理资源的运行状态,并且支持告警的传递显示。
               设备活动及安装软件信息
               该功能既可作为运维人员管理服务器、关键主机等设备的一个管理对象,同时也可以作为网络或设备发生异常时,辅助运维人员进行故障分析的一种手段。比如,一台关键服务器的流量异常增大,产生告警,运维人员可以通过对其活动进程的查看初步了解该服务器目前正在运行的进程,以初步确定造成流量异常增大的可能原因等。设备活动进程信息列表所示。
               网络设备端口分布
               对于网络设备(路由器、交换机等),用户通过双击设备图标,获悉该网络设备端口分布管理的详细情况。
               交换机端口分布
               交换机端口分布管理是针对用户在日常管理维护工作中,需要实时查看某一台交换机的所有端口或某几台交换机的所有端口的进出流量等信息而提供的一个参考分析的功能。例如,用户感觉网络堵塞,想快捷明了地获悉究竟是哪台交换机、哪个端口所连的设备流量较大,可以通过此功能将所有交换机的所有端口进出流量进行排序,从而及时得到一个准确的结果。
 
       数据采集
        数据采集阶段的主要任务就是获取各个不同数据源的各类数据,按照统一的标准进行数据的转换、清洗等工作,以形成后续数据处理的符合标准要求的数据集。
        原始数据往往形式多样,包括:结构化数据,例如业务系统中的交易明细、操作日志等;非结构化数据,例如企业中的各种文档数据,视频、音频等数据;半结构化数据,例如Web页面的HTML文档等。而且其来源和种类也存在很大差距。
        当前的大数据处理中,数据的种类一般包括:
        .传感数据:传感数据是由感知设备或传感设备感受、测量及传输的数据。这些感知设备或传感设备实时和动态地收集大量的时序传感数据资源。传感数据种类有很多,如人身体的传感数据,网络信号的传感数据和气象的传感数据等。近年来随着物联网、工业互联网的日益发展,传感数据越来越丰富,人们也逐渐发现了其数据价值。
        .业务数据:企业业务系统在执行日常业务活动时产生的大量数据,包括设备工况、操作记录、交易流水,以及用户在使用系统时遗留下来的大量行为数据。这些数据反映了人或者物的属性、偏好,在推荐或预测系统中有很大的利用价值。
        .人工输入数据:用户通过软件人机交互等主动输入的数据,典型代表是微博、微信、抖音等系统的用户输入数据。随着互联网的不断深入,手机APP应用的不断发展,这种用户产生的数据也越来越多,越来越丰富。
        .科学数据:通过科学研究和科学实验不断搜集和汇聚的数据,一般是以电子记录或文本的形式存在。
        从大数据的来源进行划分,其种类包括:
        .企业数据:企业自建的各种业务系统,如ERP、在线交易系统、招聘系统等,也会产生各种数据集。
        .政府数据:政府信息化已发展多年,构建了很多业务数据。近年来政府也在不断地建设大数据中心,发布各种数据,包括人社、医疗、税务、工商、财务等。
        .互联网数据:互联网数据是当前大数据应用的一个重要的数据来源。互联网上存在各种应用沉淀下来的大量数据,包括门户网站、社交信息、电商网站等等。
        其中,企业数据一般属于内部数据,而政府数据、互联网数据往往属于外部数据。
        从上面大数据的分类可以看出,数据来源渠道众多,差异非常大。因此,数据采集的主要任务就是进行数据的汇聚,为后续的数据处理做好准备。这个阶段工作中主要涉及的技术包括针对内部数据的数据集成和ETL技术,针对外部数据,尤其是互联网数据的爬虫技术。
        数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。
        ETL(Extract Transform Load)用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。
        基本的ETL体系结构示意图如下图所示。
        
        ETL体系结构示意图
        ETL过程中的主要环节是数据抽取、数据转换和加工、数据加载。一般ETL工具中,围绕上述三个核心环节进行了功能上的扩充,例如工作流、调度引擎、规则引擎、脚本支持和统计信息等,尽量降低ETL阶段的工作强度,减少工作量。
        数据转换和加工是三个环节的重点,因为抽取的数据中往往存在各种问题,例如数据格式不一致、数据输入错误、字段不匹配、字段类型不符、数据不完整等。ETL一般以组件化的方式实现数据转换和加工。常用的数据转换组件有字段映射、数据过滤、数据清洗、数据替换、数据计算、数据验证、数据加解密、数据合并、数据拆分等,并以工作流的形式进行各种方式的组合,以满足数据转换的需求。有的ETL工具也提供脚本支持,满足用户定制化的数据转换需求。
        常用的ETL工具有三种:DataStage、Informatica PowerCenter和Kettle。
        .DataStage:IBM公司的DataStage是一种数据集成软件平台,专门针对多种数据源的ETL过程进行了简化和自动化,同时提供图形框架,用户可以使用该框架来设计和运行用于变换和清理、加载数据的作业。它能够处理的数据源有主机系统的大型数据库、开发系统上的关系数据库和普通的文件系统。
        .Informatica PowerCenter:Informatica公司开发的为满足企业级需求而设计的企业数据集成平台。可以支持各类数据源,包括结构化、半结构化和非结构化数据。提供丰富的数据转换组件和工作流支持。
        .Kettle:Kettle是一款国外开源的ETL工具,纯Java编写,可以在Windows、Linux、UNIX上运行,数据抽取高效稳定。管理来自不同数据库的数据,提供图形化的操作界面,提供工作流支持。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。Kettle包括4个产品:Spoon、Pan、Chef、Kitchen。Spoon通过图形界面来设计ETL转换过程(Transformation)。Pan批量运行由Spoon设计的ETL转换(例如使用一个时间调度器),是一个后台执行的程序,没有图形界面。Chef创建任务(Job),任务通过允许每个转换、任务、脚本等等,更有利于自动化更新数据仓库的复杂工作。Kitchen批量使用由Chef设计的任务(例如使用一个时间调度器)。
        由于很多大数据应用都需要来自互联网的外部数据,因此,爬虫技术也称为数据采集阶段的一个主要基础性的技术。
        网络爬虫(又称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。网络爬虫基本的体系结构如下图所示。
        
        爬虫框架示意图
        爬虫调度器主要负责统筹其他四个模块的协调工作。URL管理器负责管理URL链接,维护已经爬取的URL集合和未爬取的URL集合,提供获取新URL链接的接口。HTML下载器用于从URL管理器中获取未爬取的URL链接并下载HTML网页。HTML解析器用于从HTML下载器中获取已经下载的HTML网页,并从中解析出新的URL链接交给URL管理器,解析出有效数据交给数据存储器。
        网络爬虫大致可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、深层网络(Deep Web)爬虫。实际的大数据应用由于往往聚焦于某个特定的应用目标,其采用的网络爬虫系统通常是聚焦网络爬虫、深层网络爬虫技术相结合实现的。
        通用网络爬虫,爬行对象从一些种子URL扩充到整个Web,主要为门户站点搜索引擎和大型Web服务提供商采集数据。通用网络爬虫的结构大致可以分为页面爬行模块、页面分析模块、链接过滤模块、页面数据库、URL队列、初始URL集合几个部分。为提高工作效率,通用网络爬虫会采取一定的爬行策略。常用的爬行策略有:深度优先策略、广度优先策略。
        聚焦网络爬虫,是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,可以很好地满足一些特定人群对特定领域信息的需求。聚焦网络爬虫和通用网络爬虫相比,增加了链接评价模块以及内容评价模块。聚焦爬虫爬行策略实现的关键是评价页面内容和链接的重要性,常见的爬行策略有基于内容评价的爬行策略、基于链接结构评价的爬行策略、基于增强学习的爬行策略、基于语境图的爬行策略等。
        深层网络爬虫用于专门爬取那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面。Deep Web爬虫爬行过程中最重要的部分就是表单填写,包含两种类型:基于领域知识的表单填写,此方法一般会维持一个本体库,通过语义分析来选取合适的关键词填写表单;基于网页结构分析的表单填写,此方法一般无领域知识或仅有有限的领域知识,将网页表单表示成DOM树,从中提取表单各字段值。常见的爬虫工具有如下三种:
        .Nutch:一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch有Hadoop支持,可以进行分布式抓取、存储和索引。Nutch采用插件结构设计,高度模块化,容易扩展。
        .Scrapy:是Python开发的一个快速、高层次的屏幕抓取和Web抓取框架,用于抓取Web站点并从页面中提取结构化的数据。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便地修改。它提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫、Web2.0爬虫等。
        .Larbin:Larbin是一种开源的网络爬虫/网络蜘蛛,用C++语言实现。Larbin目的是能够跟踪页面的URL进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。
        当数据采集到以后,需要对采集并清洗后的数据进行存储。具体的存储技术在13.1.3云关键技术中的分布式数据存储中介绍,此处不再详述。
 
       数据校验
        输入设计中必须考虑到全部输入过程中所可能发生的错误,并建立相应的检验和纠错机制。
        (1)输入错误的种类。
        .错误的数据内容,由于原始数据填写错误或其他原因引起的数据输入错误。
        .数据冗余或不足,如数据散失、遗漏或重复等产生的输入错误。
        .数据的延误,指虽然数据的内容和数据量都是正确的,但由于开票、传送等环节的延误而造成的差错,甚至可能导致输出信息毫无价值。
        (2)数据校验方法。
        数据的校验可以由人工直接检查,也可以由计算机程序校验以及人与计算机两者分别处理后再相互查对校验等多种方法实现。常用的校验方法包括:重复校验、视觉校验、分批汇总校验、控制总数校验、数据类型校验、格式校验、逻辑校验、界限校验等。
        (3)差错的纠正。
        差错的纠正比校验更困难,也更重要。出错原因不同,纠错方法也不相同。原始数据错误时,应将原始数据送回产生数据的原部门进行修改,不能由输入操作员或原始数据检查员想当然地予以修改。
        当有程序自动查错时,由于系统已经处于运行中,恢复也就更为复杂,可分为如下几种方式。
        .输入数据全部校验并改正后,再做处理。舍弃出错数据。
        .进行统计调查和分析时可用此种方法。
        .暂时只处理正确数据,出错数据待修正后再进行处理。
        .剔除出错数据,出错数据留待下次处理时再一并处理。
        (4)设计出错表。
        任何的检验和纠错都不可能做到绝对正确,因此必须建立动态的跟踪机制,对整个数据处理过程进行全程记录。这就要求程序在发现错误时,能自动地打印出出错信息一览表。出错信息一览表可由两种程序打出:一种是以数据校验为目的的程序,另一种是边处理、边做数据校验的程序。建议在信息系统运行中由专人负责对错误信息和改正情况进行收集、记录、保管,以便于查找、核对。
   题号导航      2021年上半年 信息系统运行管理员 上午试卷 综合知识   本试卷我的完整做题情况  
1 /
2 /
3 /
4 /
5 /
6 /
7 /
8 /
9 /
10 /
11 /
12 /
13 /
14 /
15 /
 
16 /
17 /
18 /
19 /
20 /
21 /
22 /
23 /
24 /
25 /
26 /
27 /
28 /
29 /
30 /
 
31 /
32 /
33 /
34 /
35 /
36 /
37 /
38 /
39 /
40 /
41 /
42 /
43 /
44 /
45 /
 
46 /
47 /
48 /
49 /
50 /
51 /
52 /
53 /
54 /
55 /
56 /
57 /
58 /
59 /
60 /
 
61 /
62 /
63 /
64 /
65 /
66 /
67 /
68 /
69 /
70 /
71 /
72 /
73 /
74 /
75 /
 
第10题    在手机中做本题