1. 项目概述与核心价值在当今的集成电路设计领域我们正面临着一个日益尖锐的矛盾一方面物联网设备、可穿戴传感器和边缘计算节点对芯片的能效和面积提出了近乎苛刻的要求另一方面传统二进制逻辑在追求更高信息密度时遭遇了互连复杂度和功耗的瓶颈。这就好比在一条拥挤的高速公路上单纯增加车道晶体管数量并不能解决根本的拥堵问题反而可能因为更多的出入口互连导致效率更低。多值逻辑MVL正是在这种背景下为我们提供了一条“拓宽信息承载量”的新思路。它不再局限于非0即1的二元世界而是引入了第三个甚至更多的稳定状态从而在单个存储单元中塞入更多信息。我最近深入研究了基于碳纳米管场效应晶体管CNTFET的三态SRAMTSRAM设计这可以说是在这条新路上的一次极具潜力的探索。CNTFET本身因其优异的电学特性如近乎弹道输运和可调的阈值电压成为了实现多值逻辑的理想载体。而SRAM作为芯片中的高速缓存其性能直接决定了处理器的速度和能效。将两者结合目标直指下一代高能效计算的核心痛点。这次分享的核心是一个仅用10个晶体管实现的缓冲器基三态SRAM单元设计。与之前需要12个、14个甚至16个晶体管的同类设计相比这个方案在晶体管数量上做到了极致精简。更关键的是它通过巧妙的电路结构彻底消除了在生成中间逻辑电平“1”时电源到地之间的直流通路从而大幅降低了静态功耗。实测下来与现有最佳方案相比其读功耗降低了约54.94%写功耗降低了约67.06%面积减少了21.59%。对于依赖电池供电、需要常年待命的物联网传感器而言这些百分比背后意味着实实在在的续航提升和成本下降。这篇文章我将从一个一线芯片设计者的角度为你彻底拆解这个高能效TSRAM的设计精髓。我不会只停留在论文数据的罗列而是会结合实际的仿真经验和设计考量深入探讨其背后的电路原理、设计折衷、仿真验证方法并重点剖析其在一个非常接地气的应用——图像像素存储——中的硬件实现与性能评估。无论你是正在探索前沿存储架构的研究者还是寻求低功耗解决方案的工程师希望这些从仿真波形到版图布局的实操细节能给你带来切实的启发。2. 设计思路与核心架构解析2.1 为何选择三态逻辑与CNTFET在深入电路之前我们必须先理清选择这条技术路线的根本原因。传统二进制SRAM如经典的6T单元每个单元存储1比特信息。要存储一个0-255范围的灰度像素值需要8个这样的单元。互连线的数量随着单元数量线性增长这不仅占据了大量芯片面积更带来了可观的寄生电容导致动态功耗飙升。三态逻辑引入了第三个稳定的电平通常为VDD/2使得每个存储单元可以表示0、1、2三种状态即一个“三进制位”。从信息论角度看存储N位信息所需的三态单元数量约为 log2(N)/log2(3) ≈ 0.63 * N相比二进制理论上能减少约37%的单元数量和互连。这对于需要处理大量数据如图像帧缓冲区的应用面积和互连复杂度的优势是显而易见的。然而在传统的硅基CMOS工艺上实现稳定、高效的三态逻辑充满挑战。核心难点在于如何可靠地产生和维持那个中间电平“1”。常用的电阻分压或晶体管分压网络会引入持续的静态电流路径导致功耗增加并且对工艺波动非常敏感。这时CNTFET的优势就凸显出来了。CNTFET的阈值电压Vth与其碳纳米管通道的直径DCNT成反比而直径又由碳纳米管的“手性向量”n, m决定。这意味着我们可以在同一个芯片上通过设计不同手性向量的CNTFET轻松获得具有不同阈值电压的晶体管而无需复杂的工艺调整。例如采用19,0手性向量的CNTFET其|Vth|约为0.29V而采用10,0的|Vth|约为0.56V。这种特性使得构建对中间电平响应灵敏的电路变得异常直接。注意CNTFET的建模和仿真目前高度依赖于学术模型如斯坦福32nm CNTFET模型。在实际项目初期务必花时间理解模型参数如碳纳米管间距、氧化物厚度等对性能的影响这比直接套用模型更重要。2.2 核心创新高效三态缓冲器TBUF设计整个TSRAM单元的核心是一个高效的三态缓冲器。它的作用是将输入的三态信号A0, 1, 2原样传递到输出Q。设计的巧妙之处在于如何用最少的晶体管、且无静态功耗地实现这个功能。我们提出的TBUF结构如图所示其晶体管级原理图基于PTI和NTI构建。它摒弃了在输出级直接使用电阻或晶体管分压来产生VDD/2的传统方法。相反它利用了两组精心设计的互补晶体管对X1-X4其导通与否由输入信号A经过PTI和NTI变换后的信号AP和AN控制。当输入A‘0’GNDAP‘2’VDDAN‘2’VDD。这使得X1和X3关闭X2和X4导通。输出Q通过X4下拉到GND稳定在‘0’。当输入A‘1’VDD/2AP‘2’VDDAN‘0’GND。此时X2和X3导通X1和X4关闭。输出Q通过X2和X3连接到VDD/2电源稳定在‘1’。当输入A‘2’VDDAP‘0’GNDAN‘0’GND。这使得X1和X3导通X2和X4关闭。输出Q通过X1和X3连接到VDD稳定在‘2’。这里最关键的洞见是在生成逻辑‘1’时导通路径是X3和X2串联将VDD/2电源连接到输出。这条路径的一端是VDD/2另一端是输出节点并没有形成从VDD到GND的直流通路。而在其他一些设计中逻辑‘1’是通过一个连接在VDD和GND之间的分压器产生的只要输出需要维持‘1’这个分压器就持续消耗静态电流。我们的设计从根本上杜绝了这种功耗。2.3 10T TSRAM单元的整体架构与工作原理将上述TBUF与一个锁存结构、一个访问传输门结合就构成了完整的10晶体管TSRAM单元。其架构可以理解为一个具有正反馈回路的TBUF作为存储核心锁存器外加一个由传输门TG包含两个晶体管控制的单端位线BL访问端口。1. 写操作写操作时待写入的数据0, 1, 2被施加到位线BL上。字线WL置高打开传输门TG数据从BL传入内部节点X。TBUF会立刻驱动存储节点Q使其与X保持一致。由于TBUF的输出又反馈回其输入形成正反馈这个状态就被“锁存”住了。无论写入哪个值电路都会迅速进入一个稳定的平衡状态。2. 保持操作字线WL置低传输门TG关闭位线BL与内部存储节点隔离。此时TBUF和其正反馈回路构成了一个稳定的双稳态实际上是三稳态系统依靠电路自身的增益来抵抗噪声维持已存储的数据。其静态噪声容限SNM是衡量保持稳定性的关键指标。3. 读操作读操作前先将位线BL预充电至VDD。然后置高字线WL打开TG。此时如果存储节点Q为‘0’GNDBL上的电荷会通过TG放电到QBL电压下降读出‘0’如果Q为‘1’VDD/2BL会通过TG向Q充电或放电至VDD/2读出‘1’如果Q为‘2’VDD由于BL已预充至VDD两者电位相等没有电流但通过感测BL电压维持VDD可读出‘2’。单端读操作虽然不如差分读灵敏但极大节省了面积和布线。设计权衡使用单端位线和传输门访问牺牲了一定的读噪声容限和速度但换来了面积和功耗的显著降低。这对于密度优先、且读操作不极端频繁的缓存应用如图像帧缓冲是合理的折衷。3. 关键电路模块的深入设计与仿真验证3.1 晶体管级实现与版图规划在Synopsys HSPICE中我们使用斯坦福32nm CNTFET模型进行仿真。关键参数设置如下电源电压VDD0.9V碳纳米管直径根据手性向量计算氧化物厚度tox设为4.5nm碳纳米管间距Pitch设为20nm。位线负载电容设为10fF以模拟实际阵列中的寄生效应。TBUF的晶体管级实现需要精确分配10,0和19,0两种手性向量的CNTFET。例如在关键的通路晶体管如X2, X3上使用19,0低Vth器件可以降低导通电阻提高速度而在需要较好关断特性的位置使用10,0高Vth器件。版图设计采用Electric VLSI工具完成并进行了DRC和ERC验证。核心挑战在于两种不同尺寸CNT的集成与布线。我们的布局策略是将TBUF核心紧凑排列并确保VDD、VDD/2和GND电源线的均匀分布以减少IR压降。最终版图显示这个10T TSRAM单元的面积仅比传统二进制6T SRAM单元大约39%这个开销对于获得三态存储能力而言是非常可接受的。3.2 静态噪声容限SNM的分析与优化对于SRAM单元SNM是衡量其抗干扰能力、数据保持稳定性的黄金指标。对于三态SRAM我们需要关注两个最关键的SNM存储逻辑‘1’时的SNM1和存储逻辑‘2’时的SNM2。由于中间电平‘1’最容易受噪声影响而发生翻转因此SNM1通常是系统的短板。我们通过仿真绘制了单元的电压传输特性曲线和反馈环的“蝴蝶曲线”。对于提出的10T单元SNM1达到了0.18VSNM2约为0.37V。作为对比我们仿真了文献中的12T、14T、16T等设计。结果显示我们的设计与14T设计并列拥有最高的SNM1。这主要归功于TBUF内部的高增益设计。由于大量采用了低Vth19,0的CNTFET晶体管的跨导更大使得TBUF在‘1’电平附近的电压增益更高从而能更有效地抑制噪声。实操心得在仿真SNM时不要只满足于得到一个数值。建议扫描电源电压、温度等条件观察SNM的变化趋势。一个健壮的设计应该在PVT工艺、电压、温度角下都能保持足够的噪声容限。我们后续的PVT分析也证实了这一点。3.3 读写时序与功耗的精确仿真读写延迟和功耗是性能的直接体现。我们定义了清晰的测量标准写延迟从字线WL上升至10% VDD开始到存储节点Q达到目标电平‘1’为90% VDD/2 ‘2’为90% VDD的时间。读延迟从字线WL上升至50% VDD开始到位线BL放电至VDD-50mV读‘2’或VDD/2-50mV读‘1’的时间。功耗分别计算写入和读取‘0’、‘1’、‘2’三个值的平均功耗再取总平均值。仿真结果表明10T设计在功耗上的优势是压倒性的。其读写功耗大幅低于对比方案这直接得益于无静态功耗的TBUF设计和单端位线。在延迟方面10T设计约为15ps虽然不是最快GDI14T利用门扩散输入技术更快但考虑到其极低的功耗和晶体管数这个延迟表现是完全合格的。功耗-延迟积PDP综合衡量了能效10T设计的PDP比最佳对比设计降低了约25.97%。一个重要指标三态SRAM电学质量矩阵TEQM。这是一个综合了SNM1、读写‘1’时的能耗、总功耗和归一化面积的品质因数。我们的设计获得了最高的归一化TEQM比其他设计高出33.74%。这强有力地证明了其在存储最脆弱的逻辑‘1’时在能效、面积和稳定性之间取得了最佳平衡。4. 鲁棒性验证PVT分析与阵列性能评估4.1 工艺、电压、温度PVT变化分析芯片在实际工作中总会面临制造偏差和环境变化。一个优秀的设计必须在这些变化下保持性能稳定。电压变化0.8V, 0.9V, 1.0V随着VDD升高晶体管驱动能力增强延迟减小但动态功耗增加。仿真显示10T设计的功耗和延迟变化趋势与其他设计类似但其功耗-延迟积PDP在整个电压范围内保持相对稳定说明其能效受电压波动影响较小。温度变化-40°C 到 125°C温度影响载流子迁移率和阈值电压。有趣的是仿真发现我们提出的10T设计的总功耗、最大延迟和PDP随温度的变化曲线几乎是一条水平线表现出卓越的温度稳定性。这主要源于其对称的电路结构和两种特定手性CNTFET的互补特性使得温度对通路电流的影响相互抵消。工艺变化我们重点研究了CNTFET制造中关键参数的变化影响氧化物厚度tox从3.5nm到5.5nm变化。tox增加会导致栅极控制能力减弱等效于Vth增加从而使延迟略有增加但对功耗影响甚微。碳纳米管直径DCNT与间距Pitch我们进行了蒙特卡洛仿真假设这两个参数在标称值附近呈±5%到±15%的高斯分布。结果显示10T设计的性能参数功耗、延迟、SNM1波动范围最小。其根本原因在于整个设计只使用了10,0和19,0两种手性向量。相比于那些使用多种Vth晶体管、依赖复杂分压的设计我们的设计对CNT直径的绝对变化更不敏感因为电路功能依赖于这两种晶体管Vth的相对关系而非绝对值。4.2 8x8 TSRAM阵列仿真与系统级考量单个单元的性能好不代表阵列也能工作。我们将提出的10T单元扩展为一个8字×8三态位的微型存储阵列进行仿真。阵列引入了字线、位线的寄生电阻电容以及地址译码器、写入驱动器等外围电路的开销。仿真得到的阵列级性能参数见表6与单元级相比读写延迟和功耗都有所上升这是符合预期的。例如读延迟从单元级的皮秒量级增加到纳秒量级这主要是给长位线电容充放电所致。这些数据为评估更大规模阵列的性能提供了基准。系统级设计启示位线架构单端位线节省面积但限制了阵列的规模。对于更大的阵列可能需要引入位线分段或感应放大器来改善读出的速度和信噪比。电源分布设计中需要VDD和VDD/2两种电源。VDD/2可以通过片内低压差线性稳压器或开关电容电路产生。在版图规划时需要精心设计电源网格确保VDD/2的噪声和纹波足够低以免影响存储的稳定性。可扩展性该设计的核心优势低功耗、高稳定性在阵列规模扩大时依然存在。虽然互连延迟会随规模增大而增加但这是所有存储架构的共同挑战。本设计在单元层面的面积和功耗优势在构成大规模内存时会被进一步放大。5. 实战应用基于硬件算法的图像处理验证理论性能和仿真指标固然重要但能否解决实际问题才是最终检验标准。我们选择图像处理作为验证场景因为灰度图像的像素值0-255天然可以映射到三态逻辑0,1,2是检验三态存储际效益的绝佳用例。我们开发了一套硬件算法在MATLAB和HSPICE之间建立协同仿真流程预处理MATLAB读入一张RGB图像例如经典的“企鹅”图将其转换为255x255的灰度图像。每个像素值0-255通过公式[PIXEL × VDD / 255]量化为三个电压等级0V逻辑‘0’ 黑色0.45V逻辑‘1’ 灰色0.9V逻辑‘2’ 白色。然后生成一个对应的PWL分段线性电压源文件供HSPICE使用。电路仿真HSPICE将生成的电压波形作为输入施加到我们设计的TSRAM单元以及其他作为对比的TSRAM单元的位线上进行逐像素的写入、保持和读出操作仿真。仿真会记录存储节点Q上的电压波形。后处理与评估MATLAB将HSPICE仿真输出的电压值读回MATLAB反向映射回0-255的像素值重建出存储后的图像。通过计算重建图像与原始灰度图像之间的峰值信噪比PSNR和平均结构相似性指数MSSIM来客观评价存储质量。结果分析 所有参与对比的TSRAM结构重建的图像其PSNR都超过了可接受的30dB门槛说明基本功能都实现了。但从图14的视觉对比和表7的量化数据可以清晰看出我们提出的10T设计重建的图像质量最好细节保留最多。更重要的是我们计算了完成整个图像存储过程的硬件性能指标平均延迟、功耗、能耗。10T设计在硬件效率上相比性能最佳的对比方案有平均26.3%即1.35倍的功耗-延迟积优势。这个实验的深层意义在于它不仅仅是一个功能演示更是一个硬件-算法协同设计的范例。它证明了这种低功耗、高密度的TSRAM能够有效服务于图像处理这类数据密集型应用的硬件加速为后续设计集成图像处理算法的专用片上存储系统提供了坚实的基础。6. 设计总结、挑战与未来展望回顾整个设计这个基于CNTFET的10晶体管三态SRAM单元的成功关键在于抓住了几个核心矛盾并做出了明智的取舍用略微增加的面积39%和双电源的复杂度换来了功耗的大幅降低读写功耗降低超50%、静态功耗的消除、以及噪声容限的提升。它巧妙地利用了CNTFET阈值电压可调的特性构建了一个无静态功耗路径的三态缓冲器并将其作为锁存核心。在实际工程化过程中我们仍需面对一些挑战CNTFET制造成熟度尽管仿真模型成熟但CNTFET的大规模、高均匀度制造仍是产业界需要攻克的难题。手性向量的精确控制是关键。双电源管理VDD/2电源的生成、分配和噪声抑制需要额外的电路开销在系统级设计中必须仔细评估其成本和影响。外围电路设计针对三态信号的低功耗、高可靠性感知放大器、写入驱动器和地址译码器需要同步设计以充分发挥核心单元的优势。展望未来这项技术非常适合应用于对功耗和面积极度敏感的领域物联网终端与智能传感器设备常年电池供电需要超低功耗的片上内存用于存储传感器数据和轻量级模型参数。近似计算与存内计算三态逻辑为超越二值化的近似计算提供了自然载体。结合存内计算架构这种TSRAM有望直接在内存中执行三值神经网络推理等操作极大减少数据搬运功耗。高密度缓存在需要大容量片上缓存的处理器中采用三态SRAM可以显著减少缓存阵列的总面积和互连功耗。从我个人的仿真和设计体验来看超越二进制思维拥抱多值逻辑设计正在从一种学术探索变为一种切实可行的低功耗设计选项。这个10T TSRAM设计是一个清晰的信号通过器件特性与电路创新的深度结合我们完全有可能在纳米尺度上开辟出更高能效的信息处理路径。下一步我的工作将聚焦于设计与之配套的三态逻辑感知放大器和更复杂的存算一体宏单元让这个高效的存储单元真正在系统层面发挥威力。