免费智能真题库 > 历年试卷 > 电子商务设计师 > 2013年下半年 电子商务设计师 上午试卷 综合知识
  第47题      
  知识点:   射频标识   自动标识与数据采集技术   RFID   数据采集
  关键词:   RFID   射频   数据采集   数据        章/节:   现代物流信息技术       

 
射频标识RFID)是自动标识与数据采集技术之一,关于RFID系统说法不正确的是(47)。
 
 
  A.  RFID系统阅读速度非常快
 
  B.  RFID系统最重要的优点是非接触作业
 
  C.  RFID系统在不同行业中应用所采用的频率和协议标准是相同的
 
  D.  RFID系统一般包括天线、无线收发器和异频雷达收发器三个构件
 
 
 

 
  第46题    2018年下半年  
   51%
射频标识技术现已成为数据采集、 标识和分析的主要工具,它具有非接触、抗干扰能力强、( )、阅读速度快等优点。
  第54题    2011年下半年  
   38%
以下关于射频技术的叙述中,错误的是(54)。
 
   知识点讲解    
   · 射频标识    · 自动标识与数据采集技术    · RFID    · 数据采集
 
       射频标识
        射频标识是AIDC技术之一,最早出现在20世纪80年代,用于跟踪业务。由于其非接触阅读的性能,可用在制造业和其他不宜使用条形码标签的环境;因其能够跟踪移动对象,而广泛用于运输车辆自动识别(AVI)系统。这种技术已成为主要的数据采集、标识和分析系统的工具。
        射频标识系统一般包括三个构件:天线、无线收发器(带解码器)、以电子形式编制了唯一信息的异频雷达收发器(RFID标签)。天线发射无线信号激活标签并读写其上的数据,是标签和无线收发器间的桥梁;天线有各种形状和大小,可置入门框内来接收通过门的人或物品上的标签数据,或固定在高速公路的收费站来检测交通流量。如果希望连续记录多个标签时,天线产生的电磁场可维持不变;如果不需要持续讯问,可由传感设备来激活电磁场。阅读器发射出的无线电波波长可从2.5cm到30m,通常依赖于其输出能力和所用频率。当RFID标签通过电磁场时探测阅读器的激活信号,阅读器对标签的集成电路内编码的数据进行解码并将数据传送给主机处理。
        RFID系统最重要的优点是非接触作业。它能穿透雪、雾、冰、涂料、尘垢和在条形码无法使用的恶劣环境阅读标签;阅读速度非常快,大多数情况下,可用于流程跟踪或者维修跟踪等交互式业务,RFID的主要问题是不兼容的标准。RFID的主要厂商提供的都是专用系统,导致不同的应用和不同的行业采用不同的厂商的频率和协议标准。目前RFID的标准处于割据状态,铁路、公路、航空、收费、美国运输情报系统、国防部和其他行业都有各自的标准。这种状况增加了RFID跨行业应用时的成本。
 
       自动标识与数据采集技术
        自动标识与数据采集(AIDC)指的是不用键盘直接将数据输入到计算机系统、可编程逻辑控制器(PLC)或者其他微处理器中。它包括条形码、射频标识与射频数据通信、磁条、语音和视觉系统、光学字符识别、生物统计等。每种技术都有其优点,适合不同的应用场合。AIDC技术提供了快速、精确、低成本的数据采集方法,来代替容易出错并且耗时的手工数据输入;在此基础上,AIDC技术通过对商品或对人进行编码而实现跟踪功能。
        AIDC技术可以分成六类;①光学:条形码(包括二维条形码)、OCR和视觉系统等;②磁:磁条、磁墨字符识别;③电磁:RFDC;④生物统计:语音识别、指纹识别、视网膜扫描;⑤触摸:触摸屏;⑥智能卡:卡的储存/阅读等。
        AIDC技术可将数据输入工作流水化、自动化,自动数据输入与人工作业相比更精确、更经济。其优点在于:①低成本的数据。AIDC系统可以大幅度降低数据输入的成本并解放劳动力。进而可以收集更详细数据;②信息可用性。AIDC系统提供即时的活动报告,从而加快与信息相关业务流程;③精确。除了速度和经济外,AIDC还有精确的优点,这不但减少了员工人数,增加工作吞吐量,还提高数据质量。
 
       RFID
        射频识别技术(Radio Frequency Identification,RFID)又称电子标签,是一种通信技术,可通过无线电讯号识别特定目标并读写相关数据,而无须识别系统与特定目标之间建立机械或光学接触。该技术是物联网的一项核心技术,很多物联网应用都离不开它。
 
       数据采集
        数据采集阶段的主要任务就是获取各个不同数据源的各类数据,按照统一的标准进行数据的转换、清洗等工作,以形成后续数据处理的符合标准要求的数据集。
        原始数据往往形式多样,包括:结构化数据,例如业务系统中的交易明细、操作日志等;非结构化数据,例如企业中的各种文档数据,视频、音频等数据;半结构化数据,例如Web页面的HTML文档等。而且其来源和种类也存在很大差距。
        当前的大数据处理中,数据的种类一般包括:
        .传感数据:传感数据是由感知设备或传感设备感受、测量及传输的数据。这些感知设备或传感设备实时和动态地收集大量的时序传感数据资源。传感数据种类有很多,如人身体的传感数据,网络信号的传感数据和气象的传感数据等。近年来随着物联网、工业互联网的日益发展,传感数据越来越丰富,人们也逐渐发现了其数据价值。
        .业务数据:企业业务系统在执行日常业务活动时产生的大量数据,包括设备工况、操作记录、交易流水,以及用户在使用系统时遗留下来的大量行为数据。这些数据反映了人或者物的属性、偏好,在推荐或预测系统中有很大的利用价值。
        .人工输入数据:用户通过软件人机交互等主动输入的数据,典型代表是微博、微信、抖音等系统的用户输入数据。随着互联网的不断深入,手机APP应用的不断发展,这种用户产生的数据也越来越多,越来越丰富。
        .科学数据:通过科学研究和科学实验不断搜集和汇聚的数据,一般是以电子记录或文本的形式存在。
        从大数据的来源进行划分,其种类包括:
        .企业数据:企业自建的各种业务系统,如ERP、在线交易系统、招聘系统等,也会产生各种数据集。
        .政府数据:政府信息化已发展多年,构建了很多业务数据。近年来政府也在不断地建设大数据中心,发布各种数据,包括人社、医疗、税务、工商、财务等。
        .互联网数据:互联网数据是当前大数据应用的一个重要的数据来源。互联网上存在各种应用沉淀下来的大量数据,包括门户网站、社交信息、电商网站等等。
        其中,企业数据一般属于内部数据,而政府数据、互联网数据往往属于外部数据。
        从上面大数据的分类可以看出,数据来源渠道众多,差异非常大。因此,数据采集的主要任务就是进行数据的汇聚,为后续的数据处理做好准备。这个阶段工作中主要涉及的技术包括针对内部数据的数据集成和ETL技术,针对外部数据,尤其是互联网数据的爬虫技术。
        数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。
        ETL(Extract Transform Load)用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。
        基本的ETL体系结构示意图如下图所示。
        
        ETL体系结构示意图
        ETL过程中的主要环节是数据抽取、数据转换和加工、数据加载。一般ETL工具中,围绕上述三个核心环节进行了功能上的扩充,例如工作流、调度引擎、规则引擎、脚本支持和统计信息等,尽量降低ETL阶段的工作强度,减少工作量。
        数据转换和加工是三个环节的重点,因为抽取的数据中往往存在各种问题,例如数据格式不一致、数据输入错误、字段不匹配、字段类型不符、数据不完整等。ETL一般以组件化的方式实现数据转换和加工。常用的数据转换组件有字段映射、数据过滤、数据清洗、数据替换、数据计算、数据验证、数据加解密、数据合并、数据拆分等,并以工作流的形式进行各种方式的组合,以满足数据转换的需求。有的ETL工具也提供脚本支持,满足用户定制化的数据转换需求。
        常用的ETL工具有三种:DataStage、Informatica PowerCenter和Kettle。
        .DataStage:IBM公司的DataStage是一种数据集成软件平台,专门针对多种数据源的ETL过程进行了简化和自动化,同时提供图形框架,用户可以使用该框架来设计和运行用于变换和清理、加载数据的作业。它能够处理的数据源有主机系统的大型数据库、开发系统上的关系数据库和普通的文件系统。
        .Informatica PowerCenter:Informatica公司开发的为满足企业级需求而设计的企业数据集成平台。可以支持各类数据源,包括结构化、半结构化和非结构化数据。提供丰富的数据转换组件和工作流支持。
        .Kettle:Kettle是一款国外开源的ETL工具,纯Java编写,可以在Windows、Linux、UNIX上运行,数据抽取高效稳定。管理来自不同数据库的数据,提供图形化的操作界面,提供工作流支持。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。Kettle包括4个产品:Spoon、Pan、Chef、Kitchen。Spoon通过图形界面来设计ETL转换过程(Transformation)。Pan批量运行由Spoon设计的ETL转换(例如使用一个时间调度器),是一个后台执行的程序,没有图形界面。Chef创建任务(Job),任务通过允许每个转换、任务、脚本等等,更有利于自动化更新数据仓库的复杂工作。Kitchen批量使用由Chef设计的任务(例如使用一个时间调度器)。
        由于很多大数据应用都需要来自互联网的外部数据,因此,爬虫技术也称为数据采集阶段的一个主要基础性的技术。
        网络爬虫(又称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。网络爬虫基本的体系结构如下图所示。
        
        爬虫框架示意图
        爬虫调度器主要负责统筹其他四个模块的协调工作。URL管理器负责管理URL链接,维护已经爬取的URL集合和未爬取的URL集合,提供获取新URL链接的接口。HTML下载器用于从URL管理器中获取未爬取的URL链接并下载HTML网页。HTML解析器用于从HTML下载器中获取已经下载的HTML网页,并从中解析出新的URL链接交给URL管理器,解析出有效数据交给数据存储器。
        网络爬虫大致可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、深层网络(Deep Web)爬虫。实际的大数据应用由于往往聚焦于某个特定的应用目标,其采用的网络爬虫系统通常是聚焦网络爬虫、深层网络爬虫技术相结合实现的。
        通用网络爬虫,爬行对象从一些种子URL扩充到整个Web,主要为门户站点搜索引擎和大型Web服务提供商采集数据。通用网络爬虫的结构大致可以分为页面爬行模块、页面分析模块、链接过滤模块、页面数据库、URL队列、初始URL集合几个部分。为提高工作效率,通用网络爬虫会采取一定的爬行策略。常用的爬行策略有:深度优先策略、广度优先策略。
        聚焦网络爬虫,是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,可以很好地满足一些特定人群对特定领域信息的需求。聚焦网络爬虫和通用网络爬虫相比,增加了链接评价模块以及内容评价模块。聚焦爬虫爬行策略实现的关键是评价页面内容和链接的重要性,常见的爬行策略有基于内容评价的爬行策略、基于链接结构评价的爬行策略、基于增强学习的爬行策略、基于语境图的爬行策略等。
        深层网络爬虫用于专门爬取那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面。Deep Web爬虫爬行过程中最重要的部分就是表单填写,包含两种类型:基于领域知识的表单填写,此方法一般会维持一个本体库,通过语义分析来选取合适的关键词填写表单;基于网页结构分析的表单填写,此方法一般无领域知识或仅有有限的领域知识,将网页表单表示成DOM树,从中提取表单各字段值。常见的爬虫工具有如下三种:
        .Nutch:一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch有Hadoop支持,可以进行分布式抓取、存储和索引。Nutch采用插件结构设计,高度模块化,容易扩展。
        .Scrapy:是Python开发的一个快速、高层次的屏幕抓取和Web抓取框架,用于抓取Web站点并从页面中提取结构化的数据。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便地修改。它提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫、Web2.0爬虫等。
        .Larbin:Larbin是一种开源的网络爬虫/网络蜘蛛,用C++语言实现。Larbin目的是能够跟踪页面的URL进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。
        当数据采集到以后,需要对采集并清洗后的数据进行存储。具体的存储技术在13.1.3云关键技术中的分布式数据存储中介绍,此处不再详述。
   题号导航      2013年下半年 电子商务设计师 上午试卷 综合知识   本试卷我的完整做题情况  
1 /
2 /
3 /
4 /
5 /
6 /
7 /
8 /
9 /
10 /
11 /
12 /
13 /
14 /
15 /
 
16 /
17 /
18 /
19 /
20 /
21 /
22 /
23 /
24 /
25 /
26 /
27 /
28 /
29 /
30 /
 
31 /
32 /
33 /
34 /
35 /
36 /
37 /
38 /
39 /
40 /
41 /
42 /
43 /
44 /
45 /
 
46 /
47 /
48 /
49 /
50 /
51 /
52 /
53 /
54 /
55 /
56 /
57 /
58 /
59 /
60 /
 
61 /
62 /
63 /
64 /
65 /
66 /
67 /
68 /
69 /
70 /
71 /
72 /
73 /
74 /
75 /
 
第47题    在手机中做本题