当前位置：首页 > news >正文

FPGA架构创新：MRSA如何实现Scrypt算法23倍GPU能效？

news 2026/5/26 16:28:07

1. 项目概述为什么我们需要一个更好的Scrypt挖矿引擎如果你在加密货币领域尤其是像莱特币Litecoin这样的Scrypt算法币种里摸爬滚打过一定会对“算力军备竞赛”和“电费账单”这两个词深有感触。传统的SHA-256算法比特币所用早已被ASIC矿机统治形成了算力高度集中的矿池这与区块链去中心化的初衷背道而驰。Scrypt算法被设计为“抗ASIC”的核心思路是引入大量内存访问操作让依赖超多简单计算单元并行堆砌的ASIC芯片优势不再那么明显理论上给了GPU、CPU甚至FPGA等通用计算硬件一个公平竞争的机会。然而理想很丰满现实却很骨感。即便是在GPU上运行Scrypt其能效比也常常让人摇头——为了那点可怜的算力显卡风扇狂转电表飞转收益却微乎其微。CPU就更不用提了。这引出了一个根本性问题在抗ASIC和追求能效之间是否存在一个更优的硬件解我们的答案是将目光投向FPGA。FPGA不像ASIC那样“一锤子买卖”它可以通过编程灵活改变硬件逻辑也不像GPU那样有着固定的、为图形渲染优化的流水线它可以根据算法特点定制专属的数据通路。MRSAMulti ROMix Scrypt Accelerator正是基于这一思路诞生的。它不是一个简单的“FPGA版Scrypt矿机”而是一个经过深度架构优化的专用加速器。其核心目标是在FPGA平台上通过硬件架构创新将Scrypt算法的执行效率哈希率和能源效率每焦耳能量产生的哈希数提升到远超商用CPU和GPU的水平同时保持对抗ASIC算法参数变化的灵活性。简单说我们想用FPGA造一个既“聪明”灵活又“能干”高效的Scrypt计算引擎。2. 核心思路拆解MRSA的三大设计哲学要理解MRSA为何高效需要先深入Scrypt算法的“痛点”。Scrypt算法流程可以简化为PBKDF2 - ROMix - PBKDF2。其中ROMix阶段消耗了超过98%的总计算时间因为它涉及对一块大内存对于标准参数N1024, r1是128KB进行顺序的、大量随机访问的读写操作。这种内存密集型、高循环依赖的特性恰恰是GPU和CPU的软肋——它们的缓存层次和内存控制器并非为此类访问模式而生导致大量时间浪费在等待数据从慢速内存加载上。MRSA的设计哲学正是针对这些痛点从三个维度发起攻击2.1 维度一用“流水线工厂”对抗循环依赖——多ROMix处理单元阵列这是MRSA架构的灵魂。传统实现CVSC像一个手工作坊一个ROMix核心必须完整处理完一个输入数据的所有步骤写入内存、读取混合后才能开始处理下一个。这造成了巨大的硬件闲置。MRSA的思路是建立一个“流水线工厂”。它部署了多个例如64个独立的ROMix处理单元PE每个PE都拥有自己专属的128KB本地内存由FPGA的BRAM实现。整个处理流程被组织成一个环状流水线P1核心第一个PBKDF2像原料供应商快速生产出半成品P1输出。这个半成品被依次送入流水线上的第一个空闲ROMix PE进行深度加工ROMix计算。由于ROMix计算耗时极长约5.5万个时钟周期P1核心完全不必等待可以立刻开始准备下一个半成品并送往下一个空闲的ROMix PE。当一个ROMix PE完成加工后产出的中间品会被交给P2核心第二个PBKDF2进行最后的包装产出最终哈希值。P2核心处理速度很快总能及时“接货”。当P1核心为第65个输入准备好半成品时第一个ROMix PE恰好完成了对第一个输入的处理并已“交货”给P2此时它又变为空闲状态可以接收第65个输入。如此循环往复。这种设计彻底打破了ROMix阶段的顺序瓶颈。从第65个输入开始整个系统达到饱和吞吐状态哈希率稳定在峰值。根据阿姆达尔定律理论上这种多PE流水线设计能带来近66倍的加速。虽然硬件资源逻辑单元和内存的消耗会随着PE数量线性增加但由于P1和P2核心被所有PE共享资源增长远低于性能增长实现了极高的硬件利用率。2.2 维度二把内存搬到计算单元门口——近内存计算架构内存墙是性能的永恒敌人。如果64个ROMix PE都去争抢同一个外部内存如DDR的带宽那么再多的计算单元也会被卡在数据搬运上。MRSA的解决方案是近内存计算。每个ROMix PE都配备了专属的128KB BRAM作为工作内存。BRAM是FPGA芯片内部的高速存储单元其访问延迟和带宽远优于片外DDR内存。这意味着每个PE都可以全速、无冲突地访问自己的“私人工作区”进行ROMix算法要求的密集内存读写操作。这从根本上消除了多核心间的内存带宽竞争是FPGA能超越GPU的关键优势之一。GPU虽然有巨大的显存带宽但其SM流多处理器内的众多核心仍需共享缓存和内存控制器在面对Scrypt这种高度不规则、串行依赖的内存访问模式时效率大打折扣。2.3 维度三做减法比做加法更难——算法层面的资源重调度与优化优秀的硬件设计者不仅是电路的搭建师更是算法的解构者。MRSA在算法层面进行了两处关键的“手术式”优化1. PBKDF2中的SHA-256计算复用在Scrypt的第一个PBKDF2步骤中需要执行多次HMAC而每次HMAC都包含SHA-256计算。通过仔细分析算法我们发现其中IXOR和OXOR这两个中间值的SHA-256结果在所有后续的HMAC循环中都是相同的。MRSA巧妙地设计了IOXH模块在第一次计算后就将这两个结果IXH和OXH存储起来并通过流水线传递给后续的ROMix PE和P2核心复用。这样一来省去了大量重复的、昂贵的SHA-256计算显著降低了P1和P2核心的硬件复杂度和功耗。原本需要多个SHA-256核心的设计现在只需一个。2. BlockMix核心的硬件精简BlockMix是ROMix内部的核心混合函数其计算依赖于Salsa20/8算法。Salsa20/8由交替的列轮CR和行轮RR构成。传统实现会分别实例化CR和RR两个硬件模块。MRSA的工程师发现RR本质上只是对CR输出数据的一次特定重排。因此他们移除了独立的RR模块设计了一个极其简单的Mix Round模块仅由连线wire实现数据位的重新排列。在控制逻辑的调度下CR模块和这个轻量级的Mix Round模块交替工作同样完成了8轮混合计算。这一改动将BlockMix核心的硬件资源消耗降低了近一半。由于每个ROMix PE内部都有一个BlockMix核心这个优化对整体资源节省的贡献是乘数级的。3. 硬件架构深度解析MRSA的“五脏六腑”理解了设计哲学我们来看MRSA的具体硬件实现。整个加速器可以看作一个高度专业化、可配置的协处理器系统。3.1 可配置的系统接口与内存映射MRSA通过AXI总线与外部系统如嵌入式处理器通信。其内存空间被清晰地划分为三个区域这体现了其作为加速器的“黑盒”化设计思想配置内存区CFM这是控制中心。主机通过向特定地址写入控制字来指挥MRSA。最重要的两个寄存器是状态寄存器MRSA向主机报告“准备就绪”、“忙碌”、“未找到有效Nonce”、“数据错误”等状态。控制寄存器主机在这里下达命令启动、复位并设置Scrypt算法关键参数N,r,p,dklen。这使得MRSA能动态适应不同区块链网络或安全应用的需求无需重新烧录FPGA比特流实现了动态配置的灵活性。输入数据内存区IDM存放待处理的区块头等输入数据。哈希输出内存区HOM存放计算完成的Scrypt哈希结果。MRSA支持两种工作模式由控制寄存器配置挖矿模式在此模式下MRSA的Scrypt输入生成器SIG模块被激活。主机只需提供初始Nonce和挖矿目标值SIG会自动递增Nonce并循环计算直到找到低于目标的哈希或达到最大Nonce值。这极大减少了主机与加速器之间的通信开销实现了“设置后不管”的高效挖矿。通用模式适用于需要处理大量独立输入的数据安全应用如批量密钥派生。主机连续向IDM写入数据MRSA依次处理并将结果写回HOM。3.2 核心引擎多ROMix Scrypt核心MRSC的协同工作流MRSC是MRSA的“发动机”其内部数据流是性能的关键。我们以一个64 PE的实例来跟踪一个数据包的旅程注入P1核心从IDM读取一个区块头数据开始第一个PBKDF2计算。经过873个时钟周期它产生一个1024位的中间结果P1。分发P1结果被送入执行控制器。控制器像一个交通警察查看环状流水线上哪个ROMix PE是空闲的假设是PE0便将数据包路由至PE0的输入端。深度加工PE0开始漫长的ROMix计算。它将自己的128KB本地BRAM作为工作区执行1024次顺序写和1024次随机读的BlockMix操作。这个过程耗时约55872个时钟周期。与此同时P1核心早已开始处理下一个输入并将其结果分发给PE1依此类推。收集与完成PE0计算完成后产出另一个中间结果RM_out。执行控制器将其路由至P2核心。P2核心执行最后的PBKDF2计算仅需267个周期生成最终的256位Scrypt哈希值并写入HOM。循环饱和当P1核心开始处理第65个输入时PE0恰好已完成对第一个输入的处理并“空闲”下来于是顺利接收第65个输入。至此流水线完全充满系统达到最大吞吐量。哈希率由最慢的环节ROMix PE的吞吐量决定即频率 / (ROMix PE计算周期 / PE数量)。在259.94 MHz频率下64个PE的MRSA实现了约296.76 kHash/s的峰值哈希率。3.3 关键路径分析与折衷在硬件设计中“关键路径”决定了电路能运行的最高时钟频率。在MRSA中关键路径位于两个最复杂的计算单元内部ROMix PE内部在Salsa20/8算法的QR四分之一轮操作中存在一连串的加法、异或和循环移位操作形成了较长的组合逻辑链。P1/P2核心内部SHA-256压缩函数中的一系列位运算也构成了关键路径。一个自然的想法是将这些长路径用寄存器打断做成更深的流水线不就能提高频率了吗但MRSA的设计者经过评估后明智地放弃了这个方案。原因在于过度流水线化会显著增加整体计算所需的时钟周期数。对于ROMix这种本身就需要数万个周期的大循环来说频率的小幅提升会被周期数的大幅增加所抵消甚至可能降低总体吞吐量。因此MRSA选择了在合理的频率下~260 MHz通过增加并行处理单元PE的数量来提升吞吐量这是一种面积换性能Area-for-Performance的经典策略在FPGA上非常有效。4. 实战验证与性能对决FPGA的逆袭论文的价值最终要靠实验数据说话。研究团队在真实的Xilinx Alveo U280数据中心加速卡上实现了MRSA并与顶级CPU和GPU进行了正面较量。4.1 实验平台与验证方法验证系统是一个典型的异构计算平台主机PC通过PCIe和UART与Alveo U280 FPGA加速卡通信。FPGA上构建了一个包含MicroBlaze软核处理器、MRSA IP核以及调试IPChipScope ILA的片上系统SoC。验证使用了从莱特币、狗狗币等真实区块链网络中获取的100万个区块头数据。功能仿真和硬件在线调试结果均显示MRSA的计算结果正确率为100%证明了其硬件设计的正确性。4.2 与CPU/GPU的能效“屠杀”对比结果令人印象深刻。我们看最核心的指标能效Hash/J每焦耳能量产生的哈希次数。硬件平台半导体工艺哈希率 (kHash/s)功耗 (W)能效 (Hash/J)MRSA Alveo U280 (64 PE)16 nm296.7618.1216,384NVIDIA RTX 3090 GPU8 nm~246.4 (估算)~350 (典型)~704Intel i9-10940X CPU14 nm~15 (估算)~165 (典型)~91NVIDIA Tesla V100 GPU12 nm~533.6 (估算)~250 (典型)~2,134注意表格中CPU/GPU的哈希率和功耗为基于论文数据及典型TDP的估算旨在展示数量级差异。MRSA数据为实测值。结论是颠覆性的在Alveo U280上实现的64 PE版MRSA其能效是RTX 3090 GPU的23倍以上是i9-10940X CPU的180倍以上即使对比数据中心级的Tesla V100MRSA的能效也高出近8倍。这意味着完成同样的Scrypt计算任务MRSA所消耗的电量远低于GPU和CPU。这对于追求长期运行成本和利润的矿工来说具有决定性意义。更重要的是MRSA在16nm工艺上就实现了如此高的能效而对比的GPU和CPU使用了更先进的8nm和14nm工艺。这充分体现了定制化硬件架构对于特定计算任务的巨大优势。4.3 与同类FPGA设计的横向对比与另一项FPGA上的Scrypt加速器研究采用双ROMix核心流水线相比MRSA的优势同样明显对比1 PE版本虽然对方的双核心设计哈希率5.33 kHash/s高于MRSA的1 PE版本2.74 kHash/s但其消耗的LUT、FF和BRAM资源分别是后者的5.18倍、7.49倍和2倍。最终MRSA 1 PE版本的能效4986 Hash/J是对方900 Hash/J的5.5倍。对比32 PE版本MRSA 32 PE版本的哈希率89.38 kHash/s达到对方的16.8倍能效12721 Hash/J更是对方的14.1倍。这证明了多PE阵列架构的扩展性优势。4.4 资源与性能的扩展性分析研究团队在不同规模的FPGAVirtex 7, Kintex UltraScale上测试了不同PE数量的MRSA版本揭示了清晰的规律FPGA平台MRSA版本LUT数量FF数量BRAM数量哈希率 (kHash/s)能效 (Hash/J)Alveo U2801 PE10,2149,33728.54.561,293Alveo U28064 PE305,419272,8191,824296.7616,434Virtex 732 PE156,934159,43491289.3412,721Kintex UltraScale32 PE157,128142,51591299.9712,025核心发现性能超线性增长从1 PE到64 PE硬件资源LUT/FF增加了约30倍但哈希率提升了65倍能效提升了12.7倍。这是因为P1和P2核心被所有PE共享新增资源主要投入到了能直接提升并行度的ROMix PE上投资回报率极高。BRAM是瓶颈每个ROMix PE需要128KB独立BRAM。64 PE版本需要高达1824个BRAM块这限制了它在BRAM资源较少的Virtex 7或Kintex UltraScale FPGA上部署64 PE版本。因此选择FPGA型号时BRAM容量是决定能部署多少PE、从而决定最终性能的关键。能效随规模提升更大规模的MRSA版本更多PE不仅算力更强能效也更高。这是因为静态功耗被更多的有效计算单元所分摊。5. 常见问题与设计考量在实际部署和借鉴MRSA设计时会遇到一些典型问题。5.1 如何为我的项目选择合适的FPGA和PE数量这需要做一个简单的权衡分析确定性能目标你需要多大的哈希率参考上表的性能数据。评估FPGA资源查看目标FPGA的数据手册重点关注BRAM容量这是硬约束。总BRAM块数 / 每个PE所需BRAM块数 ≈ 最大PE数量。Alveo U280的BRAM非常丰富而消费级FPGA如Artix-7系列则受限很多。逻辑资源LUT/FF确保有足够资源容纳目标PE数量下的整个MRSA设计并留有余量通常20%-30%用于布局布线。功耗与散热更多PE意味着更高功耗。确保FPGA开发板的供电和散热设计能满足要求。计算能效比在满足性能的前提下选择能效最高的PE数量配置。通常在资源允许范围内PE数量越多能效越高。5.2 动态配置与静态重配置的实际意义是什么这是FPGA相比ASIC的核心优势之一MRSA通过架构设计放大了这一优势动态配置通过写寄存器在运行时改变Scrypt参数如N值。如果某个区块链为了进一步抗ASIC而调整了算法参数MRSA用户只需更新挖矿软件或驱动而ASIC矿机可能直接报废。静态重配置在烧录FPGA比特流前你可以决定实例化多少个ROMix PE。例如用于挖矿时可以最大化PE数量追求性能用于物联网设备的数据认证时可以只实例化少数PE以降低功耗和成本。你甚至可以针对不同的Salsa20/8或SHA-256优化版本重新设计P1/P2核心然后生成新的比特流文件。这种“硬件可定义”的能力是固定功能的ASIC完全无法比拟的。5.3 MRSA设计的关键优化点有哪些可以迁移到其他算法MRSA的成功并非偶然其优化思路具有普适性识别瓶颈并并行化首先通过性能剖析Profiling找到算法的绝对热点如Scrypt的ROMix。然后设计一种能打破其顺序依赖的并行架构如MRSA的环状多PE流水线。近内存计算对于内存访问密集型的算法尽可能将数据放在计算单元旁边。在FPGA上就是充分利用BRAM在其他架构上可能意味着优化缓存策略或使用HBM等高带宽内存。算法-硬件协同优化像MRSA对PBKDF2和BlockMix做的优化一样深入理解算法寻找可以复用计算结果、简化计算步骤的机会并在硬件架构上给予支持。面积-性能-功耗权衡不要盲目追求高频率。对于迭代密集型的计算通过增加并行处理单元来提升吞吐量往往是比单纯提高时钟频率更有效的策略尤其是在能效至关重要的场景。5.4 未来可能的改进方向是什么论文作者也指出了MRSA的局限和未来方向BRAM资源依赖这是当前架构的主要限制。未来的研究可以探索更高效的内存压缩技术、混合内存层次如BRAMURAM或者研究新的Scrypt硬件架构在保证安全性的前提下降低内存需求。更先进的FPGA平台随着AMD/Xilinx Versal等ACAP自适应计算加速平台的出现其集成的AI引擎和更丰富的片上内存可能为MRSA这类架构带来新的优化空间。支持更多抗ASIC算法将MRSA的设计理念可配置、多核心流水线、近内存计算扩展到其他内存硬Memory-Hard或计算硬Compute-Hard的PoW算法设计一个更通用的抗ASIC算法加速器框架。MRSA的设计展示了一条清晰的路径通过深入的算法分析和定制化的硬件架构FPGA完全可以在特定的关键计算任务上实现对通用处理器和甚至为特定算法优化的ASIC的能效超越。这不仅仅是关于挖矿更是为所有需要高性能、低功耗执行复杂序列化计算的任务提供了一个宝贵的硬件加速范本。

查看全文

http://www.gsyq.cn/news/1393553.html