当前位置：首页 > news >正文

SRAM存内计算在Massive MIMO信号检测中的高能效架构与设计权衡

news 2026/5/27 14:23:57

1. 项目概述当Massive MIMO遇上SRAM存内计算在5G向6G演进的路上Massive MIMO大规模多输入多输出技术无疑是提升频谱效率和系统容量的基石。然而随着基站天线数量N和用户数K的激增基带信号处理的复杂度呈指数级增长尤其是信号检测环节。想象一下一个128x16的天线阵列每时每刻都在进行高维度的矩阵求逆和矩阵-向量乘法C-MVM传统的数字架构很快就在“内存墙”和“功耗墙”面前捉襟见肘。数据在内存和计算单元之间来回搬运所消耗的能量常常远超计算本身这成了提升系统能效的瓶颈。正是在这个背景下存内计算In-Memory Computing, IMC进入了我们的视野。它并非一个全新的概念但在SRAM上实现模拟计算并将其应用于对精度有严苛要求的通信基带处理却是一个大胆且充满挑战的尝试。我们团队最近深入研究了基于SRAM的存内计算架构在Massive MIMO信号检测中的应用核心目标就一个在确保检测精度满足通信标准如3GPP EVM规范的前提下最大限度地榨取能效潜力。简单来说我们不想再做“搬运工”了。传统数字加速器就像一个大厨房食材数据存放在冷库内存厨师计算单元需要什么就跑过去拿来回奔波消耗了大量体力能量。而SRAM-IMC的思路是把微型厨房计算单元直接建在冷库的每个货架存储单元旁边。当需要做一道菜比如矩阵乘法时食材就地处理极大减少了无谓的走动。这项工作的挑战在于模拟计算天生会引入非理想因素如电容失配、ADC量化噪声等这些“厨房油烟”会不会把菜做咸了精度下降我们的研究就是系统地探索这片“味道”与“能耗”的权衡地带为下一代高能效基站芯片寻找一个可行的设计蓝图。2. 核心思路与架构设计拆解2.1 为什么是SRAM为什么是Massive MIMO在众多存内计算技术中如ReRAM, FeFET等我们选择基于SRAM的电荷再分配架构主要基于几点考量。首先SRAM工艺成熟与标准CMOS流程兼容性好易于集成和规模化。其次相较于嵌入式非易失性存储器eNVM基的IMCSRAM-IMC在能效和计算密度上具有显著优势文献显示约14倍能效和57倍计算密度提升这主要得益于eNVM需要复杂的读出电路。最后电荷再分配架构相比电流-电压转换等其他模拟计算方式对晶体管失配等非理想因素更具鲁棒性这对于保证计算精度至关重要。Massive MIMO信号检测特别是线性检测器如LMMSE线性最小均方误差其核心运算可以分解为两部分1计算检测矩阵W涉及矩阵求逆C-MI2对每个接收符号执行检测矩阵与接收向量的乘法C-MVM。这里存在一个关键的时间尺度差异无线信道的相干时间Tc通常远大于符号周期Ts可达数百至上千倍。这意味着检测矩阵W在很长一段时间内数百个符号周期是保持不变的而C-MVM运算则需要每个符号周期都执行一次。因此即使矩阵求逆运算本身很复杂但其开销可以被分摊到大量的C-MVM运算中。我们的策略因此聚焦于用SRAM-IMC来加速这个最频繁、最耗能的C-MVM操作这是能效提升的“主战场”。2.2 权重映射策略双Bank架构的巧思将复数域的C-MVM映射到实数的SRAM-IMC阵列上需要巧妙的映射策略。输入论文提到了两种架构单Bank架构和双Bank架构。单Bank架构如图3a所示将复数矩阵的实部WR和虚部WI同时映射到一个具有2N行、2K*Bw列的IMC阵列中。虽然直观但这种方法存在明显缺陷首先WR和WI被重复存储造成了存储资源的浪费面积效率低。其次它需要同时激活2N行这加剧了模拟计算中的非理想效应如电容失配、寄生电容影响对精度不利。我们采用并深入优化了双Bank架构如图3b所示。在这个设计中我们将复数检测矩阵W的实部WR和虚部WI分别映射到两个独立的IMC Bank中每个Bank只有N行、K*Bw列。运算时接收信号向量y的实部yR和虚部yI按时分复用的方式依次输入这两个Bank。每个Bank独立完成一次实数矩阵-向量乘法得到中间结果。最后通过数字加法器和减法器按照公式[eR; eI] [WR, -WI; WI, WR] * [yR; yI]将两个Bank的结果进行组合得到最终的复数输出。实操心得架构选择的关键双Bank架构虽然增加了一些数字逻辑加法器/减法器和时序控制复杂度但其带来的好处是决定性的。它使每个IMC Bank的规模减半降低了模拟计算的难度提升了精度潜力。同时它避免了权重重复存储提高了存储效率。在芯片设计中数字逻辑的能耗和面积开销通常远小于模拟部分尤其是大规模阵列。因此用一点点数字电路的代价换取模拟核心部分的性能和能效大幅优化是非常划算的交易。2.3 行为建模从晶体管到系统性能的桥梁要评估一个IMC-based检测器的最终性能误码率、EVM不能只停留在架构层面必须深入到电路非理想因素。我们建立了一个基于28nm CMOS工艺的、电路感知的行为级模型它连接了晶体管级的物理效应和系统级的通信指标。我们的模型主要考虑了以下四个关键的非理想因素它们共同构成了精度与能效权衡的核心电容失配Capacitor MismatchIMC阵列中成千上万个存储电容CQR由于工艺波动其容值存在随机偏差。我们使用高斯分布δCQR,i ~ N(0, κ²·CQR)来建模这种失配其中κ是工艺相关的失配参数。失配会导致电荷再分配后电容线CL上的电压VCL偏离理想值。寄生电容Parasitic Capacitance连接所有存储电容下极板的金属线CL本身存在寄生电容CP。它会与存储电容形成分压降低信号电压摆幅公式为CP m*N*CQR c其中m和c是通过后仿提取的常数。N越大寄生电容的影响越显著。ADC热噪声ADC Thermal Noise用于量化VCL的逐次逼近寄存器SARADC其比较器和DAC会引入热噪声。我们将其建模为输入参考噪声ηADC ~ N(0, σ²_ADC)。这个噪声会直接叠加在待量化的电压信号上。ADC量化误差ADC Quantization Error将模拟电压VCL转换为数字码字时必然引入量化误差q_e。其大小取决于ADC的精度位数BADC和量化特性均匀/非均匀量化、是否限幅等。最终IMC计算出的带噪声的电压值V_hat_j,k可以表示为V_hat_j,k ( Σ w_j(i)y_k(i) * VDD * (CQR δCQR,i) ) / ( Σ (CQR δCQR,i) CP ) ηADC q_e这个模型使我们能够在系统仿真中快速、准确地评估不同电路参数CQR, BADC, σADC和系统参数N, K, 调制阶数M下检测器的符号错误率SER和误差向量幅度EVM而无需进行耗时的晶体管级电路仿真为大规模设计空间探索提供了可能。3. 能效-精度权衡的深度解析与设计空间探索基于上述模型我们可以清晰地梳理出SRAM-IMC Massive MIMO检测器中各个关键参数如何像“旋钮”一样调节着能效和精度这两个常常冲突的目标。3.1 关键参数的影响机制下表总结了主要设计参数和信道条件对能效Eb和精度EVM/SER的影响趋势及内在原因参数对精度的影响对能效的影响内在原因与权衡输入精度 (By)↑ By → ↑ 精度↑ By → ↑ Eb (能耗)更高的By减少了输入信号的量化损失但需要更多的比特串行周期增加了IMC Bank的激活次数和总能耗。权重精度 (Bw)↑ Bw → ↑ 精度↑ Bw → ↑ Eb (能耗)更高的Bw能更精确地逼近浮点检测矩阵但需要更多的ADC列每列对应一个权重比特增加了模拟和数字硬件开销。存储电容 (CQR)↑ CQR → ↑ 精度↑ CQR → ↑ Eb (能耗)更大的CQR降低了相对失配(δCQR/CQR)提升了计算电压的稳定性。但同时输入驱动电路需要驱动更大的容性负载驱动能耗E_IA ∝ N*CQR*VDD²线性增加。ADC精度 (BADC)↑ BADC → ↑ 精度 (直到⌈log₂N⌉)↑ BADC → ↑ Eb (能耗)更高的BADC降低了量化误差但SAR ADC的能耗随精度指数增长E_ADC ∝ k1*BADC k2*4^BADC。超过⌈log₂N⌉后额外精度可能过拟合噪声反而有害。ADC热噪声 (σ_ADC)↑ σ_ADC → ↓ 精度↓ σ_ADC → ↑ Eb (能耗)更低的噪声要求需要更高性能通常更耗能的比较器和DAC。放松噪声规格可以降低ADC设计难度和能耗。基站天线数 (N)影响复杂↑N通常↑精度降低K/N但↑量化误差↑ N → ↑ Eb (能耗)增加N降低了用户间干扰但激活更多IMC行会恶化寄生电容和量化误差的影响。同时驱动能耗随N线性增加。调制阶数 (M)↑ M → ↓ 精度↑ M → ↓ Eb (比特能效)高阶调制如64-QAM对量化噪声更敏感但每个符号承载的比特数log₂M更多分摊了每次运算的能耗。3.2 系统化的设计空间探索方法论面对如此多维的设计空间盲目仿真是低效的。我们提出了一套层次化的设计空间探索流程旨在快速锁定在满足目标精度下能效最优的设计点。第一步确立数字定点FX基线首先我们需要一个锚点。对于给定的MIMO信道如Argos 96x8和调制方式QPSK/16-QAM/64-QAM我们仿真浮点FPLMMSE检测器的EVM vs. RX SNR曲线。找到满足3GPP EVM规范所需的工作SNR点并在此基础上预留约3dB的余量Margin。然后我们扫描输入和权重精度By, Bw找到能满足该EVM余量的最小定点精度组合。这个数字定点检测器的性能将成为后续IMC设计需要追赶的“基线”。例如对于Argos信道我们确定QPSK需要ByBw5比特16-QAM需要6比特64-QAM需要7比特。第二步逐项优化IMC电路参数在固定了By和Bw之后我们开始逐个优化IMC的电路参数每次只变动一个观察其对EVM的影响目标是使IMC的EVM degradation相对于数字FX基线控制在0.5 dB以内。优化存储电容CQR在设定BADC⌈log₂N⌉和σADC0.5 mV的前提下扫描CQR。我们发现对于N≤128的信道CQR 0.1 fF即可满足精度要求而对于N256的信道需要CQR 0.3 fF。考虑到28nm工艺下实现1 fF左右的MOM电容是可行且稳定的电容失配在设计中并不是主要瓶颈。优化ADC精度BADC固定CQR如1 fF和σADC扫描BADC。一个关键发现是存在一个最优的BADC值通常为⌈log₂N⌉。此时ADC的量化电平与电容线可能出现的电压电平完美对齐。低于此值量化误差大高于此值额外的量化电平会“放大”热噪声反而损害精度。通过对ADC输入范围进行最优限幅我们甚至可以将BADC需求再降低1-2比特从而大幅节约能耗因为ADC能耗随BADC指数增长。评估ADC热噪声σADC容限最后我们评估ADC热噪声的要求。对于N64的信道σADC ≤ 1.1 mV即可N96/128时需≤ 0.7 mV而对于N256要求则严苛到≤ 0.2 mV。这揭示了大规模阵列下的一个严峻挑战随着N增大电容线电压变化的LSB电压减小系统对噪声更加敏感。实践中设计σADC0.5 mV的SAR ADC是可行的但这限制了单Bank的最大行数N对于超大规模MIMO必须采用多Bank并行架构。4. 仿真结果与性能对比通过上述设计空间探索我们为不同规模的MIMO系统找到了SRAM-IMC检测器的可行设计点并与其数字对手进行了全面对比。4.1 精度表现满足标准代价可控图12源于论文展示了优化后的SRAM-IMC检测器在不同信道和调制下的EVM和SER性能。所有IMC检测器均能满足3GPP 5G NR的EVM上限要求。关键在于评估其“信噪比惩罚”RX SNR penalty即在达到相同EVM指标时IMC检测器相比理想数字浮点检测器需要额外多少dB的接收信噪比。对于N≤128的信道如64x8, 96x8, 128x16在所有调制方式下QPSK, 16-QAM, 64-QAMRX SNR penalty均低于0.1 dB。这意味着在付出可忽略的精度代价下我们获得了IMC的能效优势。对于N256的信道256x16RX SNR penalty增大到约1 dB。这主要是由于前文提到的ADC热噪声限制。当N很大时即使采用了最优的BADC和CQRσADC0.5 mV的噪声仍然成为了精度瓶颈。这从实践上指明了单一阵列的规模上限。4.2 能效优势显著且可扩展能效的提升是IMC方案最吸引人的地方。我们与一篇代表性的数字检测器工作Castañeda et al., JSAC 2020进行了归一化对比。能量效率以每比特信息消耗的能量Eb来衡量。图13源于论文清晰地表明SRAM-IMC检测器实现了7.2倍到18.7倍的能效提升且提升幅度随着基站天线数N的增加而增大。这完美印证了公式(22)的洞察IMC的能效优势Eb,IMC/Eb,DIG ∝ (αCQRVDD² (k1BADCk24^BADC)/N) / (EMACEread)。在数字架构中能量主要消耗在内存访问Eread和数字MAC运算EMAC上。而在IMC中核心能耗来自驱动电容αCQRVDD²和ADC开销。ADC的能耗被N行分摊因此N越大IMC的能效优势越明显。4.3 面积与吞吐量考量除了能效和精度实际部署还需考虑面积和吞吐量。面积SRAM-IMC架构将计算嵌入到高密度存储阵列中面积优势巨大。我们估算一个用于128x16 MIMO的IMC检测器在28nm工艺下总面积小于0.125 mm²其中存储阵列本身不到0.025 mm²。这比一个同等功能的数字CMVM核心文献[23]面积小约36.8倍。这意味着我们可以在同样面积下集成更多处理单元并行处理多个子载波。吞吐量与延迟IMC-based检测器的延迟L_IMC 2 * By * BADC / f_CK。对于5G NR最短的OFDM符号周期4.46 µs假设By7, BADC6所需的最小时钟频率f_CK,min仅为18.8 MHz。而现有的SRAM-IMC芯片工作频率可达200-566 MHz因此吞吐量完全不是瓶颈甚至有很大的余量。5. 实际部署考量与未来方向5.1 可扩展性与可编程性真正的Massive MIMO系统可能需要支持可变的天线配置如从64x8到256x32、不同的调制编码方案并适应变化的信道条件。这就要求硬件具备一定的可编程性和灵活性。扩展性对于超过单Bank规模如N256的超大规模MIMO可以通过多Bank并行的方式扩展。例如一个(64x512)x(512x1)的C-MVM可以分解为4个独立的(64x128)x(128x1)子运算分别映射到4组双Bank IMC中最后用数字逻辑合并结果。这样每个子Bank仍然工作在N128的优化点上保持了精度和能效。可编程性已有研究展示了用于深度学习的可编程IMC处理器能够重配置比特精度、数据流和权重加载机制。将这种思路引入通信基带处理是未来的方向。一个可编程的IMC Massive MIMO加速器需要支持1动态调整计算精度By, Bw以适应不同调制和信道条件2灵活映射不同规模的矩阵运算3可能集成简单的控制逻辑来切换检测算法如ZF, LMMSE。这会在能效和灵活性之间进行新的权衡。5.2 挑战与未竟之路尽管前景光明但将SRAM-IMC用于Massive MIMO检测仍面临挑战也是未来研究的焦点超越线性检测本文聚焦于LMMSE等线性检测器。然而更高性能的非线性检测算法如近似消息传递、球型解码能否有效映射到IMC架构上这些算法中的非线性操作如非线性函数计算、排序是模拟存内计算不擅长的可能需要数模混合的异构设计。信道估计与矩阵求逆我们假设了理想信道状态信息CSI并将研究重点放在C-MVM上。然而在实际系统中信道估计和检测矩阵W的计算本身也是计算密集型任务。探索用IMC加速信道估计如基于最小二乘的算法甚至矩阵求逆操作是构建完整IMC基带处理器的关键一步。工艺角与温度变化本文的行为模型基于典型的工艺角。在实际芯片中工艺偏差和温度变化会改变晶体管和电容的特性进而影响计算精度。需要研究校准技术如后台校准、数字辅助的模拟计算来增强IMC检测器的鲁棒性。系统集成与验证最终需要流片验证。设计一个包含IMC计算阵列、高精度ADC、数字后处理单元以及片上前端接口的完整原型芯片并在真实的或模拟的无线信道下进行系统级性能测试是证明其可行性的终极步骤。6. 总结与个人体会回顾这项研究SRAM存内计算为Massive MIMO信号检测这一通信领域的核心难题提供了一条极具吸引力的高能效解决路径。我们的工作系统性地证明了通过精心地协同设计算法、架构和电路可以在几乎不牺牲检测精度RX SNR penalty 0.1 dB for N≤128的前提下实现一个数量级左右的能效提升。从我个人的工程实践角度看这项工作的核心启示在于**“精准权衡”** 和“系统视角”。IMC不是银弹它的优势能效和劣势模拟非理想性同样突出。成功的秘诀不在于追求某个局部指标如最小化每比特操作能量E_op1的极致而在于从系统最终指标Eb, EVM出发反向推导对每个电路参数的要求。例如我们发现一味降低CQR来省电是行不通的因为微小的电容失配会迅速吞噬精度收益同样ADC精度也不是越高越好存在一个与阵列规模N相关的最优点。对于后来者如果你想踏入存内计算与通信交叉领域我的建议是首先吃透通信算法的计算本质哪些是线性/非线性哪些是静态/动态然后深刻理解模拟电路的非理想性如何被建模和传递最后用系统级的仿真工具如我们开发的Python行为模型将两者连接起来进行快速的设计空间探索。这个领域正在蓬勃发展从纯粹的学术研究走向原型芯片和潜在的实际应用充满了机遇。下一步我们实验室正着手将这套设计方法应用于更复杂的检测算法和完整的基带处理链并计划进行流片验证这将是检验这些想法能否真正落地的关键一战。

查看全文

http://www.gsyq.cn/news/1403673.html