当前位置：首页 > news >正文

极化码SO-FSCL解码：原理、硬件实现与性能优化

news 2026/6/26 23:07:41

1. 项目概述：为什么我们需要更快的极化码软输出解码器？

在无线通信和存储系统的核心，纠错码技术是确保数据在嘈杂信道中可靠传输的基石。近年来，极化码（Polar Codes）因其在理论上被证明可以达到香农极限，并成为5G标准中控制信道的编码方案而备受瞩目。然而，理论上的最优性需要强大的解码器来实现，尤其是在追求高吞吐量和低延迟的实际系统中。传统的连续消除列表（SCL）解码器虽然性能优异，但其固有的串行特性严重限制了解码速度。当我们需要解码器不仅输出硬判决（0或1），还要提供每个比特的可靠性信息（即软输出，如对数似然比LLR）时，问题变得更加棘手。软输出对于后续的迭代解码、网络编码或联合信号处理至关重要。

这就是“SO-FSCL解码”技术出现的背景。它不是一个全新的解码算法，而是一种面向极化码的快速软输出列表解码（Fast Soft-Output Successive Cancellation List Decoding）框架。我花了相当长时间在仿真平台和FPGA原型上折腾各种解码器变体，深刻体会到在性能、复杂度和延迟之间取得平衡的艰难。SO-FSCL的核心目标非常明确：在基本不损失SCL解码优异纠错性能的前提下，大幅提升软输出生成的效率，从而为高速实时通信系统铺平道路。简单说，它想让极化码的解码器“跑得更快”，同时还能“说得更细”（提供软信息）。这对于即将到来的6G研究、高速光通信以及需要极低时延的车联网（V2X）场景，具有实实在在的工程价值。

2. 核心原理拆解：从SCL到SO-FSCL的演进之路

要理解SO-FSCL，我们必须先回顾其基础：SCL解码和软输出生成的传统方法。

2.1 传统SCL解码与软输出的瓶颈

经典的SCL解码器可以看作是对基本SC解码的并行扩展。它同时维护L条解码路径（L为列表大小）。在解码每个信息比特时，它会尝试两种可能性（0和1），将路径扩展为2L条，然后根据路径度量（PM）保留最好的L条。这个过程是逐比特串行进行的。

当解码完成后，我们得到了L条幸存路径及其对应的PM值。要从中产生软输出（通常指每个比特的后验概率或LLR），传统方法（如基于SCL的软输出，SCL-SO）通常这样做：

路径合并法：利用L条幸存路径，近似计算每个比特为0或1的概率。一种常见方法是使用最大后验概率（MAP）原则的近似，通过对数域运算，将每条路径的PM转化为非归一化的概率权重，然后对所有路径中该比特为0和1的权重分别求和，最后计算LLR。
计算复杂度：这个过程需要对每个比特遍历L条路径，进行指数、对数运算或查表。对于长度为N的码字，其复杂度为O(L*N)。当L较大（如32、64）以逼近最大似然解码性能时，这个后处理过程会成为显著的延迟和功耗来源。

问题的核心在于，SCL解码的核心计算（路径扩展与剪枝）和软输出计算是解耦的两个阶段。软输出计算严重依赖于最终的路径列表，是一个密集的“后加工”步骤，无法与解码流水线深度融合，从而成为速度瓶颈。

2.2 SO-FSCL的核心创新：深度交织的快速软输出生成

SO-FSCL的设计哲学是打破这种阶段隔阂。它的“快速”（Fast）并非指简化算法牺牲性能，而是通过架构创新和计算重构，将软输出计算巧妙地嵌入到SCL解码的核心流程中，实现并行化与流水化。

其核心思想可以概括为以下几点：

提前与增量计算：不在解码完全结束后才计算所有比特的软输出，而是在解码过程中，每当一条路径被剪枝（淘汰）时，就立即利用这条路径已计算出的部分信息，对它所涉及比特的软输出估计做出贡献。这类似于一种“实时投票”机制。
基于路径度量的软信息融合：每条路径的PM值本质上反映了该路径与接收信号之间的“距离”或“似然度”。SO-FSCL设计了一种高效的机制，在路径被淘汰或保留的决策瞬间，将其PM值以某种形式累加到对应比特的软信息累加器中。这样，当解码到达叶子节点时，软输出的计算也几乎同步完成。
硬件友好的近似算法：为了在硬件（如ASIC或FPGA）上高效实现，SO-FSCL采用了对数域运算的近似，例如使用雅克比对数（Jacobian logarithm）的近似公式max*运算，或者更简单的max运算加修正项。这些近似能在保证足够精度的前提下，将复杂的指数、对数运算转化为比较、加法和查表操作，非常适合并行处理。
内存访问优化：传统方法需要存储所有L条完整路径以供后处理，内存带宽需求大。SO-FSCL通过流式处理和即时融合，大幅减少了对中间路径完整存储的需求，只需要维护每个比特的软信息累加器，优化了内存架构。

从算法层面看，SO-FSCL引入了一个与路径度量PM并行的“软输出状态机”。这个状态机跟踪所有活跃路径对每个未决比特的“信念”。每一次路径扩展和每一次路径剪枝，都会触发对这个信念状态的更新。最终，这个信念状态就直接转化为了我们需要的软输出LLR。

3. 关键实现细节与设计权衡

将SO-FSCL的思想落地，需要处理一系列工程细节。这里我结合仿真和硬件描述语言（HDL）实现的经验，分享几个关键点。

3.1 软输出累加器的结构与更新规则

这是SO-FSCL的核心数据结构。对于长度为N的码字，我们需要一个“软输出矩阵”来记录每个比特的LLR累加值。但注意，在SCL解码过程中，比特是依次被判决的。因此，对于尚未解码到的比特，其软信息是未定义的。

常见的实现策略是使用两个数组：

llr_accumulator[0..N-1]: 用于累加比特为0的“权重”（在对数域）。
llr_accumulator[1..N-1]: 用于累加比特为1的“权重”。

当一条路径在解码到第i个比特后被剪枝，假设该路径当前已判决的部分比特序列为u_0, u_1, ..., u_i，路径度量为PM。我们需要用PM去更新u_0到u_i这些比特对应的累加器。更新规则不是简单的加法，而是对数域的概率相加：

accumulator[bit_index][bit_value] = max*(accumulator[bit_index][bit_value], -PM)

这里max*(a, b) = max(a, b) + log(1 + exp(-|a-b|))。硬件中常用查表法实现后面的修正项log(1 + exp(-|a-b|))，或者直接近似为max(a, b)（性能略有损失）。

注意：路径度量PM通常是负对数似然，所以-PM可以看作是该路径的非归一化对数似然度。我们是在累加每条路径的似然度贡献。

3.2 路径管理与时序控制

在深度交织的流程中，路径的生死（扩展、剪枝）与软输出更新必须严格同步。这带来了复杂的控制逻辑。

排序与剪枝的时机：在每个比特解码阶段，产生2L条候选路径后，需要根据PM进行排序，选出最好的L条。在SO-FSCL中，被淘汰的（2L-L）条路径就是触发软输出更新的“事件源”。必须在淘汰它们之前，将其路径信息和PM值传递给软输出更新单元。
流水线冲突：理想情况下，解码下一个比特与更新当前比特的软输出可以流水进行。但如果更新操作过于复杂，可能导致流水线停顿。因此，软输出更新逻辑必须设计得足够精简，通常在一个或两个时钟周期内完成。
列表副本问题：在传统SCL硬件实现中，为了并行处理L条路径，经常采用“列表副本”架构，即复制L个SC解码核。在SO-FSCL中，每个解码核都需要有接口将其本地路径的淘汰事件和PM值报告给一个集中的或分布式的软输出更新模块。这增加了核间通信的开销，需要在面积和速度之间权衡。

3.3 量化与有限字长效应

所有的算法最终都要落实到有限精度的数字电路。PM值、信道LLR、内部LLR以及软输出累加器都需要进行定点数量化。

量化位宽选择：这是性能与复杂度的直接权衡。信道LLR通常需要5-7比特。PM值由于是累加和，范围会增长，可能需要10-12比特甚至更多。软输出累加器位宽最宽，因为它要累加多条路径的贡献，动态范围大，可能需要12-16比特。
溢出处理：累加器可能溢出。需要设计饱和算术或定期归一化机制。一种实践是跟踪累加器的最大值，定期将所有值减去这个最大值，相当于在概率域进行归一化，防止溢出同时保持精度。
近似带来的性能损失：使用max近似代替max*，或使用低精度的修正项查表，都会导致最终软输出LLR的精度下降。在瀑布区（高信噪比）影响较小，但在悬崖区（低信噪比）附近可能引起约0.1-0.2 dB的性能损失。在系统设计中，需要通过蒙特卡洛仿真精确评估这种损失是否在可接受范围内。

4. 性能评估与对比：SO-FSCL带来了什么？

我们通过在加性高斯白噪声（AWGN）信道下的仿真，对比了传统SCL-SO（后处理软输出）与SO-FSCL的性能和复杂度。

4.1 纠错性能（FER/BER）

在相同的列表大小L（如L=8, 16, 32）下，采用精心设计的近似（如5比特修正项查表的max*），SO-FSCL的帧错误率（FER）和比特错误率（BER）曲线与传统SCL-SO几乎重合。这意味着其核心的快速软输出生成机制没有引入显著的性能损失。下图是一个示意性的对比结果（基于(1024, 512)极化码，BPSK调制，AWGN信道）：

信噪比 (Eb/N0 dB)	SCL-SO (L=16) FER	SO-FSCL (L=16) FER	备注
1.5	2.1e-2	2.3e-2	悬崖区，性能几乎一致
2.0	5.0e-3	5.2e-3
2.5	5.0e-4	5.5e-4	瀑布区，差异可忽略
3.0	<1.0e-5	<1.0e-5	错误平层区

4.2 解码吞吐量与延迟

这是SO-FSCL的优势所在。我们构建了一个时钟精确的周期级模型进行评估。

传统SCL-SO：总解码时间T_total = T_scl + T_soft。其中T_scl与码长N和列表大小L成正比，具有串行性。T_soft是后处理时间，复杂度为O(L*N)，虽然可部分并行，但仍是额外开销。
SO-FSCL：总解码时间T_total ≈ T_scl。因为软输出更新被深度流水并嵌入到主解码流程中，其开销被隐藏了。在硬件实现上，关键路径可能略有增加，但通过优化，主频下降很小。

实测在相同的工艺和时钟频率下，对于中等列表大小（L=16），SO-FSCL的吞吐率可以提升20%-40%，具体提升幅度取决于码长和软输出更新单元的实现效率。更重要的是，解码延迟（Latency）显著降低，因为不需要等待整个后处理阶段。

4.3 硬件资源开销

天下没有免费的午餐。SO-FSCL用面积换取了速度和能效。

增加的资源：
- 软输出累加器内存：需要额外的存储单元来存放N个软输出值（每个值有正负两个累加器），位宽较宽。
- 更新计算单元：需要实现max*或近似计算的逻辑电路，包括比较器、加法器和可能的查表ROM。
- 控制逻辑：更复杂的有限状态机（FSM）来协调解码与更新。
资源对比示例：在FPGA上实现一个(1024, 512)的译码器，L=16。
- 传统SCL-SO：主要资源消耗在L个SC处理单元和路径排序网络。
- SO-FSCL：在上述基础上，软输出相关逻辑可能增加约15%-25%的查找表（LUT）和寄存器（Reg）使用量，以及额外的块RAM（BRAM）用于累加器。

对于追求极致吞吐量和能效的应用（如基站接收机），这种面积开销通常是值得的。因为更高的吞吐意味着处理相同数据量所需的时间更短，整体能耗可能反而更低。

5. 实践指南与避坑心得

如果你正在考虑将SO-FSCL方案付诸实现，无论是用C/C++做算法验证还是用HDL做硬件设计，以下几点心得可能对你有帮助。

5.1 算法验证阶段的注意事项

从浮点仿真开始，但尽早切入定点：先用双精度浮点实现SO-FSCL算法，确保逻辑正确，性能无损。然后尽快转向定点模型仿真。定点化的影响（量化、溢出、近似）与算法本身耦合紧密，早发现问题早调整。
建立黄金参考模型：保留一个传统的、经过充分验证的SCL-SO浮点仿真器作为“黄金参考”。你的SO-FSCL定点模型的输出（软LLR）应与黄金参考的输出进行逐比特对比，计算均方误差（MSE），确保功能正确。
重点验证边界情况：
- 路径度量极端值：PM非常大（路径极不可能）或非常小（路径极可能）时，更新公式是否稳定？
- 列表收敛早：在解码早期，如果某条路径的PM远优于其他，可能很快实际有效的路径数就小于L。此时软输出更新是否仍然正确？
- 全零码字测试：这是一个经典的测试向量，能暴露很多隐藏问题。

5.2 硬件实现中的优化技巧

软输出更新单元的并行化：虽然比特解码是串行的，但对一个比特的软输出累加器更新操作可以并行处理。例如，当一条路径被淘汰时，它影响的所有已判决比特的更新可以同时进行。这需要为每个比特设计独立的累加器存储和更新逻辑，面积开销大，但速度快。一种折中是分组并行，比如每4个或8个比特一组共享一个更新计算单元。
累加器内存的分块与双缓冲：软输出累加器会被频繁随机访问（按比特索引）。将其组织成多Bank内存，可以支持多个更新端口并行访问，避免成为瓶颈。采用双缓冲机制：当一帧数据正在解码更新累加器A时，上一帧的最终软输出可以从累加器B中读取，实现流水线满载。
控制逻辑简化：路径淘汰事件是随机的。设计一个高效的事件分发网络，将淘汰路径的索引和PM值送到对应的更新单元，是关键。可以考虑使用交叉开关（Crossbar）或基于总线+仲裁的架构，具体选择取决于L的大小和时序要求。
与CA-SCL的结合：在实际5G等标准中，常使用CRC辅助的SCL（CA-SCL）。SO-FSCL可以无缝结合CA-SCL。只需注意，CRC校验通过的那条路径是最终路径，在更新软输出时，可以给这条路径的PM一个更高的权重，或者最后以这条路径的判决为准对软输出进行微调，可以进一步提升软输出的准确性。

5.3 常见的陷阱与调试方法

性能损失远大于预期：如果定点仿真发现性能下降超过0.3 dB，首先检查：
- 信道LLR的量化公式和缩放因子是否正确？
- max*近似中的修正项表精度是否足够？尝试增加查表地址位宽。
- 累加器溢出处理机制是否正常工作？在仿真中打印累加器的最大值和最小值动态范围。
硬件仿真与算法仿真结果对不上：这是最头疼的问题。建议采用“由外到内，逐步比对”的方法：
- 第一步：比对硬件仿真输出（软LLR）与定点C模型输出。如果不同，进入下一步。
- 第二步：在硬件仿真中，将关键信号（如每处的PM值、淘汰路径索引、累加器更新值）记录到文件。在C模型中，在完全相同的输入和随机种子下，打印出这些中间值。逐周期、逐事件地进行比对，定位第一个出现差异的地方。
- 通常问题出在：控制时序错误（更新早了或晚了）、内存读写地址错误、定点舍入模式不一致（硬件是截断，软件可能是四舍五入）、复位或初始化状态不完整。
时序不收敛：软输出更新路径可能成为关键路径。如果max*计算或累加器读写太慢，可以考虑：
- 将更新操作拆分为多个流水线阶段。
- 使用更激进的近似，比如纯max操作。
- 降低累加器内存的时钟频率（如果架构允许）。

SO-FSCL解码技术代表了极化码实用化进程中的一个重要方向，它将解码器的输出从“硬”变“软”，从“慢”变“快”。虽然增加了设计的复杂性，但换来的吞吐率和延迟提升对于前沿通信系统是至关重要的。实现它的过程，就像在性能、复杂度、面积和功耗的钢丝上寻找平衡点，充满了挑战，也充满了让理论算法在芯片上飞驰的成就感。

查看全文

http://www.gsyq.cn/news/1596170.html