免费智能真题库 > 历年试卷 > 多媒体应用设计师 > 2018年上半年 多媒体应用设计师 上午试卷 综合知识
  第4题      
  知识点:   (1)ITU-T G系列声音标准   音频编码标准   编码   音频
  关键词:   编码   音频        章/节:   编码标准、多媒体有关的技术标准       

 
1984年公布的音频编码标准G.721采用的是(4)。
 
 
  A.  均匀量化编码
 
  B.  自适应量化编码
 
  C.  自适应差分脉冲编码
 
  D.  线性预测编码
 
 
 

 
  第44题    2020年下半年  
   38%
根据编码原理分类,MPEG标准采用的是(44)编码。
  第55题    2018年上半年  
   60%
AC-3编码接受标准的(55)码流。通过滤波器组将其变换到(56)。
  第53题    2016年上半年  
   36%
(53)标准中不包含视频压缩编码的内容。
   知识点讲解    
   · (1)ITU-T G系列声音标准    · 音频编码标准    · 编码    · 音频
 
       (1)ITU-T G系列声音标准
        ITU-T G系列声音标准是由国际电信联盟(ITU)电信标准化部门制定的。1972年首先制定了G.711 64KB/s PCM编码标准。话音的取样率为8kHz,允许偏差是±50p/m。每个样值采用8位二进制编码,它将13位的PCM按A律,14位的PCM按m律转换成8位编码。
        1984年公布了G.721标准(1986年修订),它采用的是自适应差分脉冲编码调制(ADPCM),数据率为32KB/s。适用于200~3400Hz窄带话音信号,已用于公共电话网。
        针对宽带语音(54~7kHz)又制定了G.722编码标准,仍采用波形编码技术,既适用于话音,又适用于其他方式的音频,数据为64KB/s,用于在综合业务数据网(ISDN)的B通道上传输音频数据,它采用了高低两个子带内的ADPCM方案,高低子带的划分以4kHz为界。
        1992年和1993年分别公布了浮点和定点算法的G.728标准,它是在美国AT&T公司贝尔实验室的LD-CELP(低延时-码激励线性预测)算法的基础上提出的,话音质量为MOS分4分以上。
 
       音频编码标准
               MPEG-1音频标准
               MPEG-1音频编码标准包括三部分:Layer 1、Layer 2和Layer 3。层次越高,其性能和复杂度也越高,用户可以在复杂性和声音质量之间进行权衡,对层次做出选择。
               Layer1的编码器最简单,编码器的输出数据率为384kb/s,主要用于小型数字盒式磁带(Digital Compact Cassette, DCC)。Layer 2的编码器的复杂程度一般,编码器的输出数据率为256~192kb/s,其应用包括数字广播声音(Digital Broadcast Audio, DBA)、数字音乐、CD-I(Compact Disc-Interactive)和VCD(Video Compact Disc)等。Layer 3的编码器最复杂,编码器的输出数据率为64kb/s,主要应用于ISDN上的声音传输。
               MPEG-1 Audio编/译码器的结构如下图所示。在编码器中,输入声音信号经过一个时间-频率多相滤波器组变换到频域的多个子带中。输入声音信号同时通过心理声学模型计算掩蔽特性。该模型计算以频率为自变量的噪声掩蔽阈值(masking threshold),查看输入信号和子带中的信号以确定每个子带中的信号能量与掩蔽阈值的比率。量化和编码部分使用信掩比(Signal-to-Mask Ratio, SMR)决定分配给子带信号的量化位数,使量化噪声低于掩蔽域值。最后通过数据流帧包装将量化的子带样本和其他数据按照规定的称为帧(frame)的格式组装成位(比特)数据流。解码器对位数据流进行解码,恢复被量化的子带样本值以重建声音信号。由于解码器无需心理声学模型,只需拆包、重构子带样本和把它们变换回声音信号,因此解码器比编码器简单得多。
               
               MPEG-1 Audio编/译码器结构图
               MPEG-2音频标准
               MPEG-2一共有两种声音数据压缩格式:一种是MPEG-2 Audio(又称MPEG-2多通道声音),与MPEG-1 Audio兼容;另一种是MPEG-2 AAC(Advanced Audio Coding,先进的音频编码),与MPEG-1声音格式不兼容。
               MPEG-2 Audio是MPEG为多声道声音开发的低码率编码方案,它是在MPEG-1音频标准基础上发展而来的,和MPEG-1音频相比,MPEG-2音频主要增加了以下三方面的内容。
               (1)增加了声道数,支持5.1声道和7.1声道的环绕声。5.1声道能提供5个全带宽声道(左、右、中共3个喇叭声道以及两个环绕声道),外加一个低频效果增强(Low Frequency Effects, LFE)声道,5.1声道环绕声的示意图如下图所示。7.1声道与5.1声道类似,能提供7个全带宽声道(左、中左、中、中右、右共5个喇叭声道以及两个环绕声道),外加一个低频效果增强声道。
               
               5.1声道立体环绕声示意图
               (2)扩展了编码器的输出速率范围,由32~384kb/s扩展到8~640kb/s。
               (3)增加了低采样和低码率。在保持MPEG-1音频的单声道和立体声的原有采样率的情况下,MPEG-2又增加了三种采样率,即把MPEG-1的采样率降低了一半(16kHz、22.05kHz、24kHz),以便提高码率低于64kb/3时的每个声道的声音质量。
               MPEG-2 AAC是MPEG-2标准中的一种非常灵活的声音感知编码标准,支持的采样频率为8~96kHz,AAC编码器的音源可以是单声道、立体声和多声道的声音。AAC标准支持48个主声道、16个低频音效加强通道、16个配音声道和16个数据流。MPEG-2 AAC在压缩比为11:1(即每个声道的数据率为44.1×16/11=64kb/s)、5声道的总数据率为320kb/s的情况下,很难区分还原后的声音与原始声音之间的差别。与MPEG-1的层2相比,MPEG-2 AAC的压缩率可以提高1倍,而且质量更高,与MPEG-1的层3相比,在质量相同的条件下其数据率是前者的70%。
               MPEG-4和MPEG-7音频标准
               MPEG-4 Audio标准可以集成从话音到高质量的多通道声音,从自然声音到合成声音,编码方法还包括参数编码(parametric coding)、码激励线性预测(Code Excited Linear Predictive, CELP)编码、时间/频率(Time/Frequency, T/F)编码、结构化声音(Structured Audio, SA)编码、文语转换(Text-To-Speech, TTS)的合成声音和MIDI合成声音等。
               MPEG-7音频标准主要包括两部分内容:一是音频框架,是一组工具的集合和低级描述符,可用于构建更大的面向应用任务的框架,包括标量序列、低级音频描述符、静音等;二是高级工具,通过不同工具的搭配用于特定应用,这些工具使用音频框架,主要包括音色描述、声音识别、口语内容、旋律轮廓、旋律等。
 
       编码
               编码过程
               在给定了软件设计规格说明书后,下一步的工作就是编写代码。一般来说,编码工作可以分为四个步骤:
               (1)确定源程序的标准格式,制订编程规范。
               (2)准备编程环境,包括软硬件平台的选择,包括操作系统、编程语言、集成开发环境等。
               (3)编写代码。
               (4)进行代码审查,以提高编码质量。为提高审查的效率,在代码审查前需要准备一份检查清单,并设定此次审查须找到的bug数量。在审查时,要检查软件规格说明书与编码内容是否一致;代码对硬件和操作系统资源的访问是否正确;中断控制模块是否正确等。
               编码准则
               在嵌入式系统中,由于资源有限,且实时性和可靠性要求较高,因此,在开发嵌入式软件时,要注意对执行时间、存储空间和开发/维护时间这三种资源的使用进行优化。也就是说,代码的执行速度要越快越好,系统占用的存储空间要越小越好,软件开发和维护的时间要越少越好。
               具体来说,在编写代码时,需要做到以下几点:
               .保持函数短小精悍。一个函数应该只实现一个功能,如果函数的代码过于复杂,将多个功能混杂在一起,就很难具备可靠性和可维护性。另外,要限制函数的长度,一般来说,一个函数的长度最好不要超过100行。
               .封装代码。将数据以及对其进行操作的代码封装在一个实体中,其他代码不能直接访问这些数据。例如,全局变量必须在使用该变量的函数或模块内定义。对代码进行封装的结果就是消除了代码之间的依赖性,提高了对象的内聚性,使封装后的代码对其他行为的依赖性较小。
               .消除冗余代码。例如,将一个变量赋给它自己,初始化或设置一个变量后却从不使用它,等等。研究表明,即使是无害的冗余也往往和程序的缺陷高度关联。
               .减少实时代码。实时代码不但容易出错、编写成本较高,而且调试成本可能更高。如果可能,最好将对执行时间要求严格的代码转移到一个单独的任务或者程序段中。
               .编写优雅流畅的代码。
               .遵守代码编写标准并借助检查工具。用自动检验工具寻找缺陷比人工调试便宜,而且能捕捉到通过传统测试检查不到的各种问题。
               编码技术
                      编程规范
                      在嵌入式软件开发过程中,遵守编程规范,养成良好的编程习惯,这是非常重要的,将直接影响到所编写代码的质量。
                      编程规范主要涉及的三方面内容:
                      .命名规则。从编译器的角度,一个合法的变量名由字母、数字和下画线三种字符组成,且第一个字符必须为字母或下画线。但是从程序员的角度,一个好的名字不仅要合法,还要载有足够的信息,做到“见名知意”,并且在语意清晰、不含歧义的前提下,尽可能地简短。
                      .编码格式。在程序布局时,要使用缩进规则,例如变量的定义和可执行语句要缩进一级,当函数的参数过长时,也要缩进。另外,括弧的使用要整齐配对,要善于使用空格和空行来美化代码。例如,在二元运算符与其运算对象之间,要留有空格;在变量定义和代码之间要留有空行;在不同功能的代码段之间也要用空行隔开。
                      .注释的书写。注释的典型内容包括:函数的功能描述;设计过程中的决策,如数据结构和算法的选择;错误的处理方式;复杂代码的设计思想等。在书写注释时要注意,注释的内容应该与相应的代码保持一致,同时要避免不必要的注释,过犹不及。
                      性能优化
                      由于嵌入式系统对实时性的要求较高,因此一般要求对代码的性能进行优化,使代码的执行速度越快越好。以算术运算为例,在编写代码时,需要仔细地选择和使用算术运算符。一般来说,整数的算术运算最快,其次是带有硬件支持的浮点运算,而用软件来实现的浮点运算是非常慢的。因此,在编码时要遵守以下准则:
                      .尽量使用整数(char、short、int和long)的加法和减法。
                      .如果没有硬件支持,尽量避免使用乘法。
                      .尽量避免使用除法。
                      .如果没有硬件支持,尽量避免使用浮点数。
                      下图是一个例子,其中两段代码的功能完全一样,都是对一个结构体数组的各个元素进行初始化,但采用两种不同的方法来实现。下图(a)采用数组下标的方法,在定位第i个数组元素时,需要将i乘以结构体元素的大小,再加上数组的起始地址。下图(b)采用的是指针访问的方法,先把指针fp初始化为数组的起始地址,然后每访问完一个数组元素,就把fp加1,指向下一个元素。在一个奔腾4的PC上,将这两段代码分别重复10 700次,右边这段代码需要1ms,而左边这段代码需要2.13ms。
                      
                      算术运算性能优化的例子
 
       音频
               声音信号
               声音是通过空气传播的一种连续的波,称为声波。声波在时间和幅度上都是连续的模拟信号,通常称为模拟声音(音频)信号。
               1)声音的3个指标
               声音主要有音量、音调和音色3个指标。
               .音量(也称响度):声音的强弱程度取决于声音波形的幅度,即取决于振幅的大小和强弱。
               .音调:人对声音频率的感觉表现为音调的高低,取决于声波的基频。基频越低,给人的感觉越低沉,频率高则声音尖锐。
               .音色:人们能够分辨具有相同音高的不同乐器发出的声音,就是因为它们具有不同的音色。一个声波上的谐波越丰富,音色越好。
               2)声音信号的带宽
               对声音信号的分析表明,声音信号由许多频率不同的信号组成,通常称为复合信号,而把单一频率的信号称为分量信号。声音信号的一个重要参数就是带宽(bandwidth),它用来描述组成声音信号的频率范围。PC处理的音频信号主要是人耳能听到的音频信号(audio),它的频率范围是20~20kHz。可听声包括如下内容。
               .话音(也称语音):人的说话声,频率范围通常为300~3400Hz。
               .音乐:由乐器演奏形成(规范的符号化声音),其带宽可达到20~20kHz。
               .其他声音:如风声、雨声、鸟叫声、汽车鸣笛声等,它们起着效果声或噪声的作用,其带宽范围也是20Hz~20kHz。
               3)幅度和频率
               声音信号的两个基本参数是幅度和频率。幅度是指声波的振幅,通常用动态范围表示,一般用分贝(dB)为单位来计量。频率是指声波每秒钟变化的次数,用Hz表示。
               声音信号的数字化
               声音信号的数字化即用二进制数字的编码形式来表示声音。最基本的声音信号数字化方法是采样一量化法,可以分成以下3个步骤。
               1)采样
               采样是把时间连续的模拟信号转换成时间离散、幅度连续的信号。在某些特定时刻获取的声音信号幅值叫作采样,由这些特定时刻采样得到的信号称为离散时间信号。一般是每隔相等的一小段时间采样一次,其时间间隔称为采样周期,它的倒数称为采样频率。为了不产生失真,采样频率不应低于声音信号最高频率的二分之一。因此,语音信号的采样频率一般为8kHz,音乐信号的采样频率则应在40kHz以上。采样频率越高,可恢复的声音信号分量越丰富,其声音的保真度越好。
               2)量化
               量化处理是把在幅度上连续取值(模拟量)的每一个样本转换为离散值(数字量)表示,因此量化过程有时也称为A/D转换(模数转换)。量化后的样本是用二进制数来表示的,二进制数位数的多少反映了度量声音波形幅度的精度,称为量化精度,也称为量化分辨率。例如,每个声音样本若用16位(2B)表示,则声音样本的取值范围是0~65 536;精度是1/65 536;若只用8位(1B)表示,则样本的取值范围是0~255,精度是1/256。量化精度越高,声音的质量越好,需要的存储空间也越多;量化精度越低,声音的质量越差,而需要的存储空间越少。
               3)编码
               为了便于计算机的存储、处理和传输,按照一定的要求对采样和量化处理后的声音信号进行数据压缩和编码,即选择某一种或者几种方法对它进行数据压缩,以减少数据量,再按照某种规定的格式将数据组织成为文件。
               声音的表示
               计算机中的数字声音有两种不同的表示方法:一种称为波形声音(也称为自然声音),通过对实际声音的波形信号进行数字化(采样和量化)而获得,能高保真地表示现实世界中任何客观存在的真实声音,波形声音的数据量比较大;另一种是合成声音,它使用符号(参数)对声音进行描述,然后通过合成的方法生成声音。
               波形声音信息是一个用来表示声音振幅的数据序列,它是通过对模拟声音按一定间隔采样获得的幅度值,再经过量化和编码后得到的便于计算机存储和处理的数据格式。
               未经压缩的数字音频数据传输率可按下式计算:
               数据传输率(b/s)=采样频率(Hz)×量化位数(bit)×声道数
               数据传输率以每秒比特(b/s)为单位;采样频率以Hz为单位;量化以比特(b)为单位。
               波形声音经过数字化后所需占用的存储空间可用如下公式计算:
               声音信号数据量=数据传输率×持续时间/8(B)
               数字语音的数据压缩方法主要有以下三种。
               (1)波形编码。波形编码是一种直接对取样量化后的波形进行压缩处理的方法。波形编码的特点是通用性强,不仅适用于数字语音的压缩,而且对所有使用波形表示的数字声音都有效,可获得高质量的语音,但很难达到高的压缩比。
               (2)参数编码。参数编码(也称为模型编码)是一种基于声音生成模型的压缩方法,从语音波形信号中提取生成的话音参数,使用这些参数通过话音生成模型重构出话音。它的优点是能达到很高的压缩比,缺点是信号源必须已知,而且受声音生成模型的限制,质量不太理想。
               (3)混合编码。波形编码虽然可提供高质量的语音,但数据率比较高,很难低于16kb/s;参数编码的数据率虽然可降低到3kb/s甚至更低,但它的音质根本不能与波形编码相比。混合编码是上述两种方法的结合,它既能达到高的压缩比,又能保证一定的质量。
               数字语音压缩编码有多种国际标准,如G.711、G.721、G.726、G.727、G.722、G.728、G.729A、G.723.1、IS96(CDMA)等。
               在国际标准MPEG中,先后为视频图像伴音的数字宽带声音制定了MPEG-1 Audio、MPEG-2 Audio、MPEG-2AAC、MPEG-4 Audio等多种数据压缩编码的标准。MPEG处理的是10~20 000Hz频率范围的声音信号,数据压缩的主要依据是人耳的听觉特性,特别是人耳存在着随声音频率变化的听觉域,以及人耳的听觉掩蔽特性。
               声音合成
               由计算机合成的声音,包括语音合成和音乐合成。
               1)语音合成
               语音合成目前主要指从文本到语音的合成,也称为文语转换。语音合成从合成采用的技术讲可分为发音参数合成、声道模型参数合成和波形编辑合成,从合成策略上讲可分为频谱逼近和波形逼近。
               (1)发音参数合成。发音参数合成对人的发音过程进行直接模拟,它定义了唇、舌、声带的相关参数,如唇开口度、舌高度、舌位置、声带张力等。由这些发音参数估计声道截面积函数,进而计算声波。由于人发音生理过程的复杂性,理论计算与物理模拟之间的差异,语音合成的质量暂时还不理想。
               (2)声道模型参数合成。声道模型参数合成基于声道截面积函数或声道谐振特性合成语音,如共振峰合成器、LPC合成器。国内外也有不少采用这种技术的语音合成系统。这类合成器的比特率低、音质适中。为改善音质,发展了混合编码技术,主要手段是改善激励,如码本激励、多脉冲激励、长时预测规则码激励等,这样,比特率有所增大,同时音质得到提高。作为压缩编码算法,该合成广泛用于通信系统和多媒体应用系统中。
               (3)波形编辑语音合成。波形编辑语音合成技术是指直接把语音波形数据库中的波形级联起来,输出连续语流。这种语音合成技术用原始语音波形替代参数,而且这些语音波形取自自然语音的词或句子,它隐含了声调、重音、发音速度的影响,合成的语音清晰自然。该合成质量普遍高于参数合成。
               2)音乐合成
               音乐是用乐谱进行描述并由乐器演奏而成的。乐谱的基本组成单元是音符(notes),最基本的音符有7个,所有不同音调的音符少于128个。
               音符代表的是音乐,音乐与噪声的区别主要在于它们是否有周期性。音乐的要素有音调、音色、响度和持续时间。
               .音调指声波的基频,基频低,声音低沉;基频高,声音高昂。
               .响度即声音的强度。
               .一首乐曲中每一个乐音的持续时间是变化的,从而形成旋律。
               .音乐可以使用电子学原理合成出来(生成相应的波形),各种乐器的音色也可以进行模拟。
               电子乐器由演奏控制器和音源两部分组成。
               (1)演奏控制器。演奏控制器是一种输入和记录实时乐曲演奏信息的设备。它的作用是像传统乐器那样用于演奏,驱动音源发声,同时它也是计算机音乐系统的输入设备。其类型有键盘、气息(呼吸)控制器、弦乐演奏器等。
               (2)音源。音源是具体产生声音波形的部分,即电子乐器的发声部分。它通过电子线路把演奏控制器送来的声音合成起来。最常用的音源有以下两类。
               .数字调频合成器(FM):FM是使高频振荡波的频率按调制信号规律变化的一种调制方式。
               .PCM波形合成器(波表合成法):这种方法是把真实乐器发出的声音以数字的形式记录下来,再将它们放在一个波形表中,合成音乐时以查表匹配方式获取真实乐器波形。
               MIDI
               MIDI是音乐与计算机结合的产物。MIDI(Musical Instrument Digital Interface)是乐器数字接口的缩写,泛指数字音乐的国际标准。
               MIDI消息实际上就是乐谱的数字表示。与波形声音相比,MIDI数据不是声音而是指令,因此它的数据量要比波形声音少得多。例如30分钟的立体声高品质音乐,用波形文件无压缩录制,约需300MB的存储空间;同样的MIDI数据,则只需200KB,两者相差1500倍之多。另外,对MIDI的编辑很灵活,可以自由地改变曲调、音色等属性,波形声音就很难做到这一点。波形声音与设备无关,MIDI数据是与设备有关的。
               声音文件格式
               1)Wave文件(.WAV)
               WAV是微软公司的音频文件格式,它来源于对声音模拟波形的采样。用不同的采样频率对声音的模拟波形进行采样可以得到一系列离散的采样点,以不同的量化位数(8位或16位)把这些采样点的值转换成二进制数,然后存入磁盘,这就产生了声音的WAV文件,即波形文件。利用该格式记录的声音文件能够和原声基本一致,质量非常高,但文件数据量却大。
               2)Module文件(.MOD)
               MOD格式的文件里存放乐谱和乐曲使用的各种音色样本,具有回放效果优异、音色种类无限等优点。
               3)MPEG音频文件(.MP3)
               MP3是现在最流行的声音文件格式,因其压缩率大,在网络可视电话通信方面应用广泛,但和CD唱片相比,音质不能令人非常满意。
               4)RealAudio文件(.RA)
               RA格式具有强大的压缩量和较小的失真,它也是为了解决网络传输带宽资源而设计的,因此主要目标是压缩比和容错性,其次才是音质。
               5)MIDI文件(.MID/.RMI)
               MID是目前较成熟的音乐格式,实际上已经成为一种产业标准,General MIDI就是最常见的通行标准。文件的长度非常小。RMI可以包括图片标记和文本。
               6)Voice文件(.VOC)
               Creative公司波形音频文件格式,也是声霸卡(Sound Blaster)使用的音频文件格式。每个VOC文件由文件头块(Header Block)和音频数据块(Data Block)组成。文件头包含一个标识版本号和一个指向数据块起始的指针。数据块分成各种类型的子块。
               7)Sound文件(.SND)
               Sound文件是NeXT Computer公司推出的数字声音文件格式,支持压缩。
               8)Audio文件(.AU)
               Audio文件是Sun Microsystems公司推出的一种经过压缩的数字声音文件格式,它是互联网上常用的声音文件格式。
               9)AIFF文件(.AIF)
               AIF是Apple计算机的音频文件格式。利用Windows自带的工具可以把AIF格式的文件转换成Microsoft的WAV格式的文件。
               10)CMF文件(.CMF)
               CMF是Creative公司的专用音乐格式,与MIDI差不多,音色、效果上有些特色,专用于FM声卡,兼容性较差。
   题号导航      2018年上半年 多媒体应用设计师 上午试卷 综合知识   本试卷我的完整做题情况  
1 /
2 /
3 /
4 /
5 /
6 /
7 /
8 /
9 /
10 /
11 /
12 /
13 /
14 /
15 /
 
16 /
17 /
18 /
19 /
20 /
21 /
22 /
23 /
24 /
25 /
26 /
27 /
28 /
29 /
30 /
 
31 /
32 /
33 /
34 /
35 /
36 /
37 /
38 /
39 /
40 /
41 /
42 /
43 /
44 /
45 /
 
46 /
47 /
48 /
49 /
50 /
51 /
52 /
53 /
54 /
55 /
56 /
57 /
58 /
59 /
60 /
 
61 /
62 /
63 /
64 /
65 /
66 /
67 /
68 /
69 /
70 /
71 /
72 /
73 /
74 /
75 /
 
第4题    在手机中做本题