对音频进行数字化时，(11)，由数字音频还原出来的声音质量越好。<br />

调幅（Amplitude Modulation, AM）即载波的振幅随着基带数字信号而变化，又称幅移键控（ASK）。在调幅（幅移键控）方式中，用载波的两个不同振幅来表示两个二进制值。例如，用振幅恒定的载波的存在表示一个二进制数字1，载波不存在表示一个二进制数字0，如下图所示。其特点是实现容易，抗干扰能力差。

2）调频

调频（Frequency Modulation, FM）即载波的频率随着基带数字信号而变化，又称频移键控（FSK）。例如，用频率f₁表示一个二进制数字1，频率f₂表示一个二进制数字0，如下图所示。其特点是实现容易，抗干扰能力强。

3）调相

调相（Phase Modulation, PM）即载波的初始相位随着基带数字信号而变化，又称相移键控（PSK）。在调相方式（相移键控）中，数字0和1的载波起始相位不同。例如，可以用θ= 0°代表0,θ=180°代表1，如下图所示，这种方法称为两相调制；如果以θ为0°、90°、180°、270°，分别表示二进制数00、01、10、11，这种方法称为四相调制。每个调制时间间隔包含两个比特的信息，因此，使信息传输速率增加一倍。其特点是实现复杂、抗干扰能力强。

数字数据调制方式

由PSK和ASK结合的相位幅度调制（PAM），是解决相移数已达到上限但还要提高传输速率的有效方法。相位幅度调制，即采用相位调制和幅度调制结合的方法来提高传输速率（不提高调制速率）。它采用16个不同的相位和幅度电平，可以使1200b/s的Modem传送19 200b/s的数据信号。

数字数据编码

在数字信道中传输计算机数据时，要对计算机中的数字信号重新编码并进行基带传输。

对于数字信号来说，最常用的方法是用不同的电压电平来表示两个二进制数字，即数字信号由矩形脉冲组成。

在基带传输中，数字信号的编码方式有不归零编码、曼彻斯特编码和差分曼彻斯特编码，如下图所示。

1）不归零编码

不归零编码（Non-Return-Zero, NRZ）用低电平表示二进制0，用高电平表示二进制1。不归零编码有单极型不归零编码和双极型不归零编码两种。

单极型不归零编码，无电压表示0，恒定正电压表示1，每个码元时间的中间点是采样时间，判决门限为半幅电平，如下图所示。

双极型不归零编码，1码和0码都有电压，1为正电压，0为负电压，正负电压的幅度相等，判决门限为零电平，如下图所示。

2）曼彻斯特编码

曼彻斯特编码（Manchester Encoding），用电平的跳变表示二进制，电平由从高到低的跳变表示二进制1，从低到高的跳变表示二进制0，如下图所示。

3）差分曼彻斯特编码

差分曼彻斯特编码（Differential Manchester Encoding），每比特的开始无跳变表示二进制1，有跳变表示二进制0，如下图所示。

常用编码方案

两种曼彻斯特编码的最大优点是将时钟和数据包含在信号数据流中，在传输代码信息的同时，也将时钟同步信号一起传送给对方，所以这种编码也称为自同步码。但缺点也很明显，那就是编码效率低。例如，要传送10Mb/s的数据，需要20MHz的脉冲。曼彻斯特编码常用在以太网中，而差分曼彻斯特编码常用在令牌环网中。

模拟数据的数字信号编码

将模拟数据编码为数字信号的最常见方法是脉冲编码调制，简称脉码调制（Pulse Code Modulation, PCM）。脉码调制是以采样定理为基础的。从数学上可以这样说明采样定理：若对连续变化的模拟信号进行周期性采样，只要采样频率等于或大于有效信号最高频率的两倍，则采样信息包含原信号的全部信息。再利用低通滤波器可以从这些采样中重新构造出原始信号。

采样定理表达公式为

F_s≥2F_max或F_s≥2B_s

式中：F_s（即1/T_s）为采样频率；F_max为原始信号的最高频率；B_s（=F_max-F_min）为原始信号的带宽。

PCM编码过程包括采样、量化和编码3个步骤，如下图所示。

1）采样

每隔一定的时间对连续模拟信号进行采样，得到的信号就成为一组"离散"的脉冲信号序列，这种方式称为脉冲幅值调制（Pulse Amplitude Modulation, PAM）。

PCM原理

2）量化

量化是一个分级过程，把采样所得到的PAM脉冲按量级比较，并且"取整"，这样脉冲序列就成为数字信号了。

3）编码

表示采样序列量化后的量化幅度，它用一定位数的二进制码表示。如果有N个量化级，那么就应当有log₂N位二进制数码。

例如，声音数据频率一般在4000Hz以下，那么只要8000次/s的采样就可以完整地表示声音信号的特征。目前，在语音数字化脉冲调制系统中，通常分为128个量级，即用7位二进制数码表示。PCM编码的数据率为8000×7=56kb/s。

声音

声音信号的数字化

声音信号是一种模拟信号，计算机要对它进行处理，必须将它转换成为数字声音信号，即用二进制数字的编码形式来表示声音。最基本的声音信号数字化方法是取样-量化法，它有采样、量化和编码三个步骤。

（1）采样。采样是把时间连续的模拟信号转换成时间离散、幅度连续的信号。在某些特定的时刻获取声音信号值叫做采样，由这些特定时刻采样得到的信号称为离散时间信号。一般都是每隔相等的一小段时间采样一次，其时间间隔称为取样周期，它的倒数称为采样频率。采样频率越高，可恢复的声音信号分量越丰富，其声音的保真度越好。

（2）量化。量化处理是把在幅度上连续取值（模拟量）的每一个样本转换为离散值（数字量）表示，因此量化过程有时也称为A/D转换（模数转换）。量化后的样本是用二进制数来表示的，二进制数位数的多少反映了度量声音波形幅度的精度，称为量化精度，也称为量化分辨率。

（3）编码。经过采样和量化处理后的声音信号已经是数字形式了，但为了便于计算机的存储、处理和传输，还必须按照一定的要求进行数据压缩和编码，即选择某一种或者几种方法对它进行数据压缩，以减少数据量，再按照某种规定的格式将数据组织成为文件。

声音文件的格式

数字声音在计算机中存储和处理时，其数据必须以文件的形式进行组织，所选用的文件格式必须得到操作系统和应用软件的支持。

.Wave文件（.WAV）。Microsoft公司的音频文件格式，它来源于对声音模拟波形的采样。用不同的采样频率对声音的模拟波形进行采样可以得到一系列离散的采样点，以不同的量化位数（8位或16位）把这些采样点的值转换成二进制数，然后存入磁盘，这就产生了声音的WAV文件，即波形文件。利用该格式记录的声音文件能够和原声基本一致，质量非常高，但文件数据量大。

.Module文件（.MOD）。该格式的文件里存放乐谱和乐曲使用的各种音色样本，具有回放效果明确，音色种类无限等优点。

.MPEG文件（.MP3）。现在最流行的声音文件格式，因其压缩率大，在网络、可视电话、通信方面应用广泛，但与CD唱片相比，音质不能令人非常满意。

.RealAudio文件（.RA）。该格式文件具有强大的压缩量和极小的失真，它也是为了解决网络传输带宽资源而设计的，因此主要目标是压缩比和容错性，其次才是音质。

.MIDI文件（.MID/.RMI）。它是目前较成熟的音乐格式，实际上已经成为一种产业标准。MIDI文件是一种描述性的“音乐语言”，包括音符、控制参数等指令，指示MIDI设备要做什么、怎么做。例如将所要演奏的乐曲信息用数据进行描述，即演奏哪个音符、加什么伴奏、多大音量等。由于MIDI文件不包含波形数据，因此MIDI文件非常小巧。RMI格式文件可以包括图片标记和文本。

.Voice文件（.VOC）。Creative公司波形音频文件格式，也是声霸卡（sound blaster）使用的音频文件格式。每个VOC文件由文件头块（header block）和音频数据块（data block）组成。文件头包含一个标识版本号和一个指向数据块起始的指针。数据块分成各种类型的子块。

.Sound文件（.SND）。NeXT Computer公司推出的数字声音文件格式，支持压缩。

.Audio文件（.AU）。Sun Microsystems公司推出的一种经过压缩的数字声音文件格式，是因特网上常用的声音文件格式。

.AIFF文件（.AIF）。Apple计算机的音频文件格式。Windows的Convert工具可以把AIF格式的文件转换成Microsoft的WAV格式的文件。

.CMF文件（.CMF）。Creative公司的专用音乐格式，与MIDI差不多，音色、效果上有些特色，专用于FM声卡，但其兼容性很差。

音频

声音信号

声音是通过空气传播的一种连续的波，称为声波。声波在时间和幅度上都是连续的模拟信号，通常称为模拟声音（音频）信号。

1）声音的3个指标

声音主要有音量、音调和音色3个指标。

.音量（也称响度）：声音的强弱程度取决于声音波形的幅度，即取决于振幅的大小和强弱。

.音调：人对声音频率的感觉表现为音调的高低，取决于声波的基频。基频越低，给人的感觉越低沉，频率高则声音尖锐。

.音色：人们能够分辨具有相同音高的不同乐器发出的声音，就是因为它们具有不同的音色。一个声波上的谐波越丰富，音色越好。

2）声音信号的带宽

对声音信号的分析表明，声音信号由许多频率不同的信号组成，通常称为复合信号，而把单一频率的信号称为分量信号。声音信号的一个重要参数就是带宽（bandwidth），它用来描述组成声音信号的频率范围。PC处理的音频信号主要是人耳能听到的音频信号（audio），它的频率范围是20~20kHz。可听声包括如下内容。

.话音（也称语音）：人的说话声，频率范围通常为300~3400Hz。

.音乐：由乐器演奏形成（规范的符号化声音），其带宽可达到20~20kHz。

.其他声音：如风声、雨声、鸟叫声、汽车鸣笛声等，它们起着效果声或噪声的作用，其带宽范围也是20Hz~20kHz。

3）幅度和频率

声音信号的两个基本参数是幅度和频率。幅度是指声波的振幅，通常用动态范围表示，一般用分贝（dB）为单位来计量。频率是指声波每秒钟变化的次数，用Hz表示。

声音信号的数字化

声音信号的数字化即用二进制数字的编码形式来表示声音。最基本的声音信号数字化方法是采样一量化法，可以分成以下3个步骤。

1）采样

采样是把时间连续的模拟信号转换成时间离散、幅度连续的信号。在某些特定时刻获取的声音信号幅值叫作采样，由这些特定时刻采样得到的信号称为离散时间信号。一般是每隔相等的一小段时间采样一次，其时间间隔称为采样周期，它的倒数称为采样频率。为了不产生失真，采样频率不应低于声音信号最高频率的二分之一。因此，语音信号的采样频率一般为8kHz，音乐信号的采样频率则应在40kHz以上。采样频率越高，可恢复的声音信号分量越丰富，其声音的保真度越好。

2）量化

量化处理是把在幅度上连续取值（模拟量）的每一个样本转换为离散值（数字量）表示，因此量化过程有时也称为A/D转换（模数转换）。量化后的样本是用二进制数来表示的，二进制数位数的多少反映了度量声音波形幅度的精度，称为量化精度，也称为量化分辨率。例如，每个声音样本若用16位（2B）表示，则声音样本的取值范围是0~65 536；精度是1/65 536；若只用8位（1B）表示，则样本的取值范围是0~255，精度是1/256。量化精度越高，声音的质量越好，需要的存储空间也越多；量化精度越低，声音的质量越差，而需要的存储空间越少。

3）编码

为了便于计算机的存储、处理和传输，按照一定的要求对采样和量化处理后的声音信号进行数据压缩和编码，即选择某一种或者几种方法对它进行数据压缩，以减少数据量，再按照某种规定的格式将数据组织成为文件。

声音的表示

计算机中的数字声音有两种不同的表示方法：一种称为波形声音（也称为自然声音），通过对实际声音的波形信号进行数字化（采样和量化）而获得，能高保真地表示现实世界中任何客观存在的真实声音，波形声音的数据量比较大；另一种是合成声音，它使用符号（参数）对声音进行描述，然后通过合成的方法生成声音。

波形声音信息是一个用来表示声音振幅的数据序列，它是通过对模拟声音按一定间隔采样获得的幅度值，再经过量化和编码后得到的便于计算机存储和处理的数据格式。

未经压缩的数字音频数据传输率可按下式计算：

数据传输率（b/s）=采样频率（Hz）×量化位数（bit）×声道数

数据传输率以每秒比特（b/_s）为单位；采样频率以Hz为单位；量化以比特（b）为单位。

波形声音经过数字化后所需占用的存储空间可用如下公式计算：

声音信号数据量=数据传输率×持续时间／8（B）

数字语音的数据压缩方法主要有以下三种。

（1）波形编码。波形编码是一种直接对取样量化后的波形进行压缩处理的方法。波形编码的特点是通用性强，不仅适用于数字语音的压缩，而且对所有使用波形表示的数字声音都有效，可获得高质量的语音，但很难达到高的压缩比。

（2）参数编码。参数编码（也称为模型编码）是一种基于声音生成模型的压缩方法，从语音波形信号中提取生成的话音参数，使用这些参数通过话音生成模型重构出话音。它的优点是能达到很高的压缩比，缺点是信号源必须已知，而且受声音生成模型的限制，质量不太理想。

（3）混合编码。波形编码虽然可提供高质量的语音，但数据率比较高，很难低于16kb/s；参数编码的数据率虽然可降低到3kb/s甚至更低，但它的音质根本不能与波形编码相比。混合编码是上述两种方法的结合，它既能达到高的压缩比，又能保证一定的质量。

数字语音压缩编码有多种国际标准，如G.711、G.721、G.726、G.727、G.722、G.728、G.729A、G.723.1、IS96（CDMA）等。

在国际标准MPEG中，先后为视频图像伴音的数字宽带声音制定了MPEG-1 Audio、MPEG-2 Audio、MPEG-2AAC、MPEG-4 Audio等多种数据压缩编码的标准。MPEG处理的是10~20 000Hz频率范围的声音信号，数据压缩的主要依据是人耳的听觉特性，特别是人耳存在着随声音频率变化的听觉域，以及人耳的听觉掩蔽特性。

声音合成

由计算机合成的声音，包括语音合成和音乐合成。

1）语音合成

语音合成目前主要指从文本到语音的合成，也称为文语转换。语音合成从合成采用的技术讲可分为发音参数合成、声道模型参数合成和波形编辑合成，从合成策略上讲可分为频谱逼近和波形逼近。

（1）发音参数合成。发音参数合成对人的发音过程进行直接模拟，它定义了唇、舌、声带的相关参数，如唇开口度、舌高度、舌位置、声带张力等。由这些发音参数估计声道截面积函数，进而计算声波。由于人发音生理过程的复杂性，理论计算与物理模拟之间的差异，语音合成的质量暂时还不理想。

（2）声道模型参数合成。声道模型参数合成基于声道截面积函数或声道谐振特性合成语音，如共振峰合成器、LPC合成器。国内外也有不少采用这种技术的语音合成系统。这类合成器的比特率低、音质适中。为改善音质，发展了混合编码技术，主要手段是改善激励，如码本激励、多脉冲激励、长时预测规则码激励等，这样，比特率有所增大，同时音质得到提高。作为压缩编码算法，该合成广泛用于通信系统和多媒体应用系统中。

（3）波形编辑语音合成。波形编辑语音合成技术是指直接把语音波形数据库中的波形级联起来，输出连续语流。这种语音合成技术用原始语音波形替代参数，而且这些语音波形取自自然语音的词或句子，它隐含了声调、重音、发音速度的影响，合成的语音清晰自然。该合成质量普遍高于参数合成。

2）音乐合成

音乐是用乐谱进行描述并由乐器演奏而成的。乐谱的基本组成单元是音符（notes），最基本的音符有7个，所有不同音调的音符少于128个。

音符代表的是音乐，音乐与噪声的区别主要在于它们是否有周期性。音乐的要素有音调、音色、响度和持续时间。

.音调指声波的基频，基频低，声音低沉；基频高，声音高昂。

.响度即声音的强度。

.一首乐曲中每一个乐音的持续时间是变化的，从而形成旋律。

.音乐可以使用电子学原理合成出来（生成相应的波形），各种乐器的音色也可以进行模拟。

电子乐器由演奏控制器和音源两部分组成。

（1）演奏控制器。演奏控制器是一种输入和记录实时乐曲演奏信息的设备。它的作用是像传统乐器那样用于演奏，驱动音源发声，同时它也是计算机音乐系统的输入设备。其类型有键盘、气息（呼吸）控制器、弦乐演奏器等。

（2）音源。音源是具体产生声音波形的部分，即电子乐器的发声部分。它通过电子线路把演奏控制器送来的声音合成起来。最常用的音源有以下两类。

.数字调频合成器（FM）：FM是使高频振荡波的频率按调制信号规律变化的一种调制方式。

.PCM波形合成器（波表合成法）：这种方法是把真实乐器发出的声音以数字的形式记录下来，再将它们放在一个波形表中，合成音乐时以查表匹配方式获取真实乐器波形。

MIDI

MIDI是音乐与计算机结合的产物。MIDI（Musical Instrument Digital Interface）是乐器数字接口的缩写，泛指数字音乐的国际标准。

MIDI消息实际上就是乐谱的数字表示。与波形声音相比，MIDI数据不是声音而是指令，因此它的数据量要比波形声音少得多。例如30分钟的立体声高品质音乐，用波形文件无压缩录制，约需300MB的存储空间；同样的MIDI数据，则只需200KB，两者相差1500倍之多。另外，对MIDI的编辑很灵活，可以自由地改变曲调、音色等属性，波形声音就很难做到这一点。波形声音与设备无关，MIDI数据是与设备有关的。

声音文件格式

1）Wave文件（.WAV）

WAV是微软公司的音频文件格式，它来源于对声音模拟波形的采样。用不同的采样频率对声音的模拟波形进行采样可以得到一系列离散的采样点，以不同的量化位数（8位或16位）把这些采样点的值转换成二进制数，然后存入磁盘，这就产生了声音的WAV文件，即波形文件。利用该格式记录的声音文件能够和原声基本一致，质量非常高，但文件数据量却大。

2）Module文件（.MOD）

MOD格式的文件里存放乐谱和乐曲使用的各种音色样本，具有回放效果优异、音色种类无限等优点。

3）MPEG音频文件（.MP3）

MP3是现在最流行的声音文件格式，因其压缩率大，在网络可视电话通信方面应用广泛，但和CD唱片相比，音质不能令人非常满意。

4）RealAudio文件（.RA）

RA格式具有强大的压缩量和较小的失真，它也是为了解决网络传输带宽资源而设计的，因此主要目标是压缩比和容错性，其次才是音质。

5）MIDI文件（.MID/.RMI）

MID是目前较成熟的音乐格式，实际上已经成为一种产业标准，General MIDI就是最常见的通行标准。文件的长度非常小。RMI可以包括图片标记和文本。

6）Voice文件（.VOC）

Creative公司波形音频文件格式，也是声霸卡（Sound Blaster）使用的音频文件格式。每个VOC文件由文件头块（Header Block）和音频数据块（Data Block）组成。文件头包含一个标识版本号和一个指向数据块起始的指针。数据块分成各种类型的子块。

7）Sound文件（.SND）

Sound文件是NeXT Computer公司推出的数字声音文件格式，支持压缩。

8）Audio文件（.AU）

Audio文件是Sun Microsystems公司推出的一种经过压缩的数字声音文件格式，它是互联网上常用的声音文件格式。

9）AIFF文件（.AIF）

AIF是Apple计算机的音频文件格式。利用Windows自带的工具可以把AIF格式的文件转换成Microsoft的WAV格式的文件。

10）CMF文件（.CMF）

CMF是Creative公司的专用音乐格式，与MIDI差不多，音色、效果上有些特色，专用于FM声卡，兼容性较差。

更多复习资料
请登录电脑版软考在线 www.rkpass.cn

京B2-20210865 | 京ICP备2020040059号-5