当前位置：首页 > news >正文

语音压缩技术：从PCM到CELP，原理、标准与嵌入式实现

news 2026/6/17 0:11:49

1. 语音压缩：为什么我们需要“压缩”声音？

我们每天都在用手机通话、听在线音乐、开视频会议，但很少有人会停下来思考：一段清晰、连续的声音，是如何变成一串串数字，在看不见的网络里飞速穿梭，最后又变回我们能听懂的话的？这背后，就是语音压缩，或者说语音编码技术，在默默支撑着这一切。

简单来说，语音压缩的目标，就是在保证我们听到的声音“像那么回事”——清晰、可懂、自然——的前提下，用尽可能少的“0”和“1”来表示它。为什么要这么做？因为原始的数字语音数据量太大了。以我们熟悉的电话语音为例，标准电话带宽大约是4kHz。根据奈奎斯特定理，采样率需要至少8kHz。如果每个采样点用16比特（2字节）的精度来量化，那么一秒钟的语音数据量就是 8,000 样本/秒 × 2 字节/样本 = 16,000 字节/秒，也就是128 kbps的码率。对于早期的有线电话网络或者存储空间有限的设备（比如古老的答录机）来说，这个数据率太高了。更不用说在无线通信中，宝贵的频谱资源是按比特计费的，每一比特的节省都意味着能容纳更多用户或提供更稳定的连接。

所以，语音编码器的核心任务就是“做减法”。它利用人类语音的独特性和人耳听觉的“不完美”，巧妙地扔掉那些我们听不到或者不敏感的信息，只保留最关键的部分。这篇文章，我将带你深入这个领域，从最基础的原理讲起，拆解从波形编码到参数编码的技术演进脉络，并聚焦于像CELP这样的现代混合编码器是如何工作的。无论你是刚接触DSP的学生，还是正在为嵌入式设备选型语音编解码方案的工程师，希望这篇融合了原理、标准和实战考量的综述，能给你带来清晰的图景和实用的参考。

2. 语音信号的物理与感知特性：编码的起点

在讨论如何压缩之前，我们必须先了解我们要压缩的对象——语音信号——到底是什么。这不仅仅是数学上的波形，更是物理发声器官的产物和人类听觉系统的感知对象。

2.1 发声机理：清音与浊音

语音由最小的声音单位“音素”构成，而音素的产生源于我们的发声器官。理解这一点对参数编码至关重要。

浊音：当气流通过声门，引起声带周期性振动时产生的声音。比如元音 /a/、/e/、/i/、/o/、/u/。在时域上，浊音信号呈现出明显的准周期性；在频域上，则表现为离散的谐波结构，其基频就是我们常说的“音高”。
清音：声带不振动，气流通过口腔或鼻腔的狭窄部位形成湍流而产生的声音。比如辅音 /p/、/t/、/k/、/s/。清音信号在时域上类似随机噪声，没有周期性；在频域上表现为连续谱。

注意：在实际语音中，很多音素是“清浊混合”的，或者存在过渡段。高效的编码器必须能准确判断并处理这些状态，错误的清浊音判断会导致合成语音出现严重的“嗡嗡声”或气息声过重。

2.2 声道模型：一个可变的谐振腔

我们可以把从声门到嘴唇的整个声道简化成一个时变的、非均匀的声学管道。当声源（浊音的周期脉冲或清音的噪声）激励这个管道时，其频率响应特性（主要由口腔、舌位、唇形决定）会对声源进行“滤波”，从而形成不同的音色。这个滤波器的特性可以用一个全极点模型来近似，也就是线性预测编码中的核心——LPC滤波器。这个模型告诉我们，语音信号在短时间内（通常10-30ms）是高度相关的，当前的样本值可以用过去若干个样本值的线性组合来预测。预测得越准，需要编码的“残差”（预测误差）信号能量就越小，这就是压缩的空间。

2.3 听觉感知：人耳不是完美的麦克风

编码器可以大胆地丢弃信息，其理论依据来自于心理声学模型，即人耳听觉的局限性。

临界频带：人耳内基底膜像一个滤波器组，将频率划分为约24个临界频带。在每个带内，人耳对频率的分辨率有限。编码器可以按临界频带分配量化精度，对低频带（人耳敏感）分配更多比特，对高频带分配较少比特。
掩蔽效应：这是压缩中最强大的工具。一个强信号（掩蔽者）会使其附近频率的弱信号（被掩蔽者）变得不可闻。包括频域掩蔽（强音调会掩蔽邻近频率的噪声）和时域掩蔽（强音之后短时间内，弱音会被掩蔽）。优秀的编码器会分析信号，将量化噪声“隐藏”在信号较强的频带或时段下，从而在主观听感上提升质量。

理解了这些特性，我们就能明白，语音压缩不是盲目的数据删减，而是一场针对信号冗余度和听觉冗余度的精准手术。

3. 语音编码器的两大门派：波形编码与参数编码

基于对语音信号处理方式的不同，语音编码器主要分为两大技术路线，它们在码率、质量和复杂度上各有取舍。

3.1 波形编码：忠实复刻的“录音师”

波形编码器的目标很直接：尽可能精确地重建输入语音的波形形状。它不关心这个波形代表什么音素，只追求输入输出信号之间的均方误差最小。

核心思想：利用语音信号的短时相关性，进行预测和差分编码。
优点：算法相对简单，对语音和非语音信号（如音乐、Modem信号）都有效，抗误码能力强，语音质量高。
缺点：压缩比有限，通常码率在16 kbps以上才能达到接近透明的质量。
典型代表：
- PCM：最简单的波形编码，直接对每个采样点进行量化。电话网络中常用的G.711标准（A律或μ律压扩）就是一种非线性PCM，它在低幅度信号时量化间隔小，高幅度时间隔大，从而在8kHz采样、8比特/样本下（64 kbps）实现了较高的信噪比和约4.0-4.5的MOS分。
- ADPCM：自适应差分脉冲编码调制。它不只编码采样值本身，而是编码当前样本与预测值之间的差值。由于差值动态范围远小于原始信号，可以用更少的比特表示。G.726标准就是ADPCM，支持40, 32, 24, 16 kbps多种码率。其“自适应”体现在量化阶距会根据信号变化动态调整，以跟踪信号能量。
- CVSD：连续可变斜率增量调制。一种特殊的ADPCM，只用1比特来表示差值（是正还是负），通过自适应改变“斜率”（即量化步长）来跟踪信号。结构简单，抗误码性好，常用于军事通信或蓝牙SCO链路中的语音。

实操心得：在嵌入式系统中，如果系统资源极其有限（如MCU主频低、内存小），但需要保证一定的语音质量且处理非语音信号，G.726 ADPCM是一个非常好的折中选择。它的实现复杂度远低于参数编码，在32kbps下MOS分可达4.0以上，并且有大量经过优化的定点C代码或汇编库可用。

3.2 参数编码：抓住本质的“模仿者”

参数编码器，通常被称为声码器，走的是另一条路。它基于语音产生的物理模型（声源-滤波器模型），先对输入语音进行分析，提取出关键的模型参数（如LPC系数、基音周期、清浊音判决、增益），然后将这些参数编码传输。接收端根据这些参数，用一个合成器重新“制造”出语音。

核心思想：传输语音的特征参数，而非波形本身。
优点：压缩比极高，可实现2.4 kbps甚至更低的码率，同时保持语音的可懂度。
缺点：合成语音自然度较差，常有“机械声”、“嗡嗡声”；通常只对语音信号有效；算法复杂，计算量大。
典型代表：
- LPC-10：早期标准，码率2.4 kbps。它每帧提取10阶LPC系数、基音周期、清浊音判决和增益。合成端，浊音用周期脉冲串、清音用白噪声激励一个由LPC系数构成的合成滤波器。其质量较低（MOS约2.5），但奠定了参数编码的基础框架。
- 混合编码：这是现代主流语音编码器的形态，它结合了参数编码和波形编码的优点。其核心是分析-合成方法。

4. 现代语音编码的王者：分析-合成与CELP家族

为了克服传统参数编码自然度差的问题，同时实现比波形编码高得多的压缩率，分析-合成方法和码激励线性预测技术应运而生，并成为中低码率语音编码的绝对主流。

4.1 分析-合成方法：闭环优化

传统LPC是开环分析，参数提取和语音合成是分开的。而分析-合成方法将两者结合在一个闭环中：

编码端也有一个与解码端完全一样的合成滤波器（通常是LPC滤波器）。
编码端尝试所有可能的激励信号（来自一个固定的码本），送入合成滤波器，产生候选的合成语音。
将每个候选合成语音与原始输入语音比较，计算感知加权失真（不仅仅是波形误差，还考虑了人耳听觉特性）。
选择失真最小的那个激励信号对应的索引号，连同滤波器参数等一起编码发送。

这样，编码器是在“听觉失真最小”的准则下主动选择最佳激励，从而极大地提高了合成语音的质量。

4.2 CELP框架详解

CELP是分析-合成思想的完美实现，其结构已成为众多国际标准的基础。

核心组件：
1. 短时合成滤波器（STP）：通常是一个10阶的LPC滤波器，模拟声道的短时谱包络（共振峰结构）。其系数通过线性预测分析得到，并转换为LSF或LSP参数进行量化传输，因为后者有更好的插值性和量化效率。
2. 长时合成滤波器（LTP）：或称自适应码本，模拟语音的长期周期性（基音）。它通过搜索过去合成信号的一段，找到最佳匹配的周期和增益，来表征浊音段的激励。这极大地减少了需要编码的激励信号能量。
3. 固定码本：一个预先设计好的、包含大量可能激励向量的静态码本。它的作用是补偿经过STP和LTP滤波后剩余的、无法被模型完美预测的“随机”成分。搜索固定码本是CELP运算中最耗时的部分。
4. 感知加权滤波器：在失真计算前，对误差信号进行滤波，降低共振峰附近误差的权重（因为这里信号强，掩蔽效应强），提升谱谷处误差的权重（人耳更敏感），使得失真度量更符合主观听感。
工作流程：
1. 对一帧语音（如20ms）进行LPC分析，得到STP滤波器系数，并量化。
2. 将原始信号通过感知加权滤波器和加权合成滤波器（由量化后的STP系数构成）的逆滤波，得到目标信号。
3. 自适应码本搜索：在目标信号中，寻找最佳基音延迟和增益，使得经过LTP滤波后的信号最接近目标。这是一个闭环搜索过程。
4. 固定码本搜索：从目标信号中减去自适应码本贡献的部分，得到新的目标。然后在固定码本中搜索最佳索引和增益，使得最终合成信号与原始目标信号的感知加权误差最小。
5. 将量化后的STP参数、自适应码本索引和增益、固定码本索引和增益打包成一帧数据，发送出去。

4.3 主流CELP变种与标准算法

基于CELP框架，衍生出许多优化变种，以平衡复杂度、延迟和音质。

标准/算法	码率	帧长	核心特点	复杂度 (MIPS)	典型MOS	主要应用
G.729 (CS-ACELP)	8 kbps	10 ms	共轭结构代数码本，后置滤波，复杂度较低	约 20	4.0+	VoIP，视频会议，无线子系统
G.723.1	5.3/6.3 kbps	30 ms	双速率，MP-MLQ/ACELP两种激励，延迟较大	约 30	3.9/4.0	早期H.323视频会议，网络电话
G.728 (LD-CELP)	16 kbps	0.625 ms	低延迟（<2 ms），后向自适应LPC，无前向传输LPC系数	约 25-45	4.0	需要极低延迟的场合，如卫星通信
GSM EFR/AMR	12.2-4.75 kbps	20 ms	自适应多速率，根据信道条件动态切换码率，抗误码强	15-30	3.7-4.1	2G/3G蜂窝通信
EVRC	8.5/4/0.8 kbps	20 ms	变速率，安静时用极低码率，鲁棒性高	约 25-35	3.5-4.0	CDMA网络

注意事项：选择编码标准时，帧长直接决定了算法延迟。例如，G.723.1的30ms帧长加上处理时间，单向延迟很容易超过60ms，这对于需要高交互性的对话可能产生明显回声感。而G.729的10ms帧长则友好得多。此外，复杂度（MIPS）和内存占用（程序与数据RAM）是嵌入式选型的关键硬指标。

5. 嵌入式系统中的语音编码实现考量

将语音编码算法，尤其是复杂的CELP类算法，部署到资源受限的嵌入式DSP或MCU上，是一场对性能和资源的精细博弈。

5.1 DSP架构的关键特性支持

现代DSP指令集为高效实现语音编码做了大量优化：

单周期乘加：LPC分析、滤波器卷积等核心运算依赖大量的乘加操作。
零开销循环：编解码算法中存在大量对样本或向量的循环处理，零开销循环硬件机制能极大减少指令开销。
模寻址：方便实现环形缓冲区，用于LPC分析窗、自适应码本搜索等。
多数据寻址：支持同时进行多个内存地址的指针更新，加速数据搬运。
桶形移位器：在定点运算中，快速完成数值的缩放和归一化。
多累加器：减少中间结果存取的延迟，提升并行度。

5.2 性能评估的多维度指标

选择编码器不能只看码率，必须综合评估：

语音质量：
- 主观测试：平均意见得分是黄金标准。组织听音员在特定环境下试听并打分（5分制）。G.711 PCM常作为4.0分的参考基准。诊断押韵测试则专注于可懂度。
- 客观测试：如分段信噪比，但与人耳感知相关性不强。更高级的如PESQ、POLQA等感知客观模型更为可靠。
算法延迟：包括帧处理延迟（如一帧20ms）、编码器缓冲延迟（需要一帧或更多数据才能开始处理）和解码器缓冲延迟。总延迟直接影响对话体验，VoIP应用通常要求单向延迟小于150ms。
复杂度：以MIPS衡量，直接影响CPU负载和功耗。例如，G.729A（约12 MIPS）比G.729（约20 MIPS）复杂度低，但音质略有下降。内存占用（程序ROM/Flash，数据RAM）也至关重要。
抗误码与网络适应性：无线或IP网络存在丢包和抖动。一些编码器有内置的错误隐藏机制（如帧重复、参数插值）。像AMR这样的变速率编码器，可以在网络差时自动切换到低码率、高鲁棒性的模式。
级联性能：语音信号经过多次编解码（如从移动网络转到固话网络）后质量下降的程度。应尽量避免不同编码标准之间的多次转码。

5.3 实战中的选型与集成：以VoIP为例

假设我们要为一个嵌入式VoIP网关选择语音编解码方案。我们需要支持多种编码标准以适应不同的网络带宽和终端兼容性。

参考输入材料中的表格，我们分析在特定DSP上的资源占用：

G.711 (64 kbps)：复杂度极低（<1 MIPS），内存占用极小，音质好，是必备的“保底”选项，用于局域网或高质量线路。
G.726 (32 kbps)：复杂度中等（~15 MIPS），音质接近G.711，是节省带宽的优质选择。
G.729A (8 kbps)：复杂度较高（~13 MIPS），程序和数据内存需求大，但在8kbps下提供了优秀的音质，是广域网传输的主力。
G.723.1 (5.3/6.3 kbps)：复杂度高（~30 MIPS），延迟大，在极低带宽下使用，但当前随着带宽提升，其应用在减少。
G.168 回声消除器：这是VoIP中必不可少的组件，用于消除因2-4线转换和延迟产生的回声，其本身也消耗约6-7 MIPS和1K字内存。

集成策略：

内存规划：DSP的片上RAM通常有限且昂贵。需要精确计算每个编解码器通道所需的静态数据区（存放状态变量）、堆栈（函数调用）以及查找表。例如，G.729A每通道可能需要近1KB的数据RAM。多通道时，所有通道的静态数据总和不能超过DSP数据RAM容量。
MIPS预算：DSP的MIPS是峰值能力。需要计算在最坏情况（所有通道同时进行编码或解码，并运行回声消除）下的总MIPS需求，并留有余量（通常20%-30%）。例如，一个支持4路G.729A通话的DSP，其MIPS需求约为4 * (12.97 + 6.5) ≈ 78 MIPS（假设每路都需独立回声消除）。
捆绑方案：根据DSP的RAM和MIPS，可以预定义几种编解码器捆绑包。例如，一个具有24K程序RAM和24K数据RAM的DSP，可能支持4路同时的G.729A+G.168通话，或者16路G.711通话。这需要在产品定义阶段就明确。

踩坑实录：在早期一个项目中，我们只考虑了编解码器本身的MIPS，低估了回声消除、舒适噪声生成、抖动缓冲管理等周边模块的开销，导致在满通道负载时CPU利用率超过90%，系统在突发网络流量时不稳定。教训是：永远要对整个语音处理链进行完整的性能剖析，而不仅仅是核心编解码器。

6. 技术演进与未来展望

从G.711 PCM到G.729 CS-ACELP，语音压缩技术在过去的几十年里，沿着“更低码率、更高音质、更强鲁棒性”的轨迹不断演进。近年来，我们看到了新的趋势：

超低码率与扩展带宽：如Opus编解码器，它融合了CELP和MDCT技术，支持从窄带（8kHz）到全带（48kHz）的音频，码率从6kbps到510kbps连续可调，并且延迟可低至5ms。它已成为WebRTC的强制标准，代表了通用音频编码的方向。
神经网络语音编码：基于深度学习的端到端语音编码正在兴起。它们不依赖传统的声源-滤波器模型，而是通过神经网络直接学习从语音波形到码本的映射，在极低码率（如3kbps以下）下展现出超越传统方法的自然度。例如，Lyra、EnCodec等。不过，它们目前面临复杂度高、抗误码性弱、需要大量数据训练等挑战。
联合信源信道编码：在易错信道（如5G NR的URLLC场景）中，将语音编码与信道编码更紧密地结合，根据信道状态动态调整信源编码的率和重要性，实现更好的端到端质量。

对于嵌入式开发者而言，传统的CELP类编码器因其成熟性、确定性的复杂度和丰富的优化库，在未来很长一段时间内仍是可靠的主力选择。而新兴的神经网络编码器，随着专用AI加速芯片的普及和算法的轻量化，可能会逐渐渗透到对音质有极致要求且功耗预算充足的边缘设备中。

语音压缩的世界，是数学、信号处理和人类感知心理的奇妙交汇。理解其原理，能帮助我们在纷繁的标准和参数中做出明智的选择；而把握其实践中的复杂度、内存和延迟的权衡，则是将算法成功转化为产品的关键。希望这篇长文能成为你探索这个领域的一块扎实的垫脚石。

查看全文

http://www.gsyq.cn/news/1538324.html