当前位置：首页 > news >正文

AI 数据中心移除 GPU 会怎样？从旧模式到无 GPU 架构的变革之路

news 2026/5/28 17:09:24

AI 数据中心专为 GPU 而建，移除 GPU 会怎样？从旧模式到新架构的变革之路

过去几十年里，数据中心建设是大家熟知且可预测的公用工程实践，需配置计算服务器、连接存储阵列并构建网络，目标是降成本、提利用率。当时流量模式以南北向为主，少量东西向，网络设计处理突发流量，数据包丢失有 TCP/IP 重传，网站托管或云服务中轻微延迟可接受。

AI 训练改变模式

但 AI 训练改变了这一模式。在现代 AI 集群中，网络不再只是基础设施，而是直接决定加速器利用率。深度学习训练大型模型时，是庞大分布式超级计算机，数千个 GPU 持续交换参数，流量模式变为集群内部东西向通信，AI 工作负载执行特定通信模式，网络要处理“大象流”，这打破标准网络构建假设，关键指标从平均延迟变为作业完成时间和尾部延迟。因为深度学习训练工作负载同步执行，一个延迟数据包就可能让数千个 GPU 停滞。

传输层问题

AI 集群依赖的传输层放大对数据包延迟的敏感性。现代分布式训练用基于 RoCEv2 的 RDMA 技术，虽降低开销但对数据包丢失敏感，一个数据包丢失会触发重传等问题。为实现“丢包容忍”，RoCEv2 网络依赖优先级流控制（PFC），但这又引发“队首阻塞”问题，在持续负载下会导致无关流量被困，拥塞蔓延，队列深度增加，计算集群等待同步操作完成，GPU 会闲置。

硬件解决方案

为最大化 GPU 利用率，业界用投入硬件的方法，NVIDIA 的 InfiniBand 在 AI 数据中心占主导。它是原生无损网络，围绕确定性传输等特性构建。工程团队扩展集群要应对纵向扩展、横向扩展、跨数据中心互连三个维度。随着 NVIDIA 推出的完整机架，纵向扩展接近极限，未来将用 Connect - X NIC 连接不同机架。为管理大规模横向扩展网络，现代拓扑采用“轨道优化”，将网络架构划分为多个并行、隔离的物理交换平面，减少拥塞交互，提高故障隔离能力。

传统网络弱点

轨道优化架构暴露出传统网络弱点，传统路由协议无法有效处理。标准 IP 网络依靠等价多路径（ECMP）分配流量，在 Web 应用中有效，但 AI 流量产生“大象流”，ECMP 会导致冲突，使缓冲区压力增大等问题。现代 AI 交换机采用动态负载均衡和数据包分散机制，将大象流拆分成单个数据包并动态调度流量，这促使了超以太网联盟的诞生。

超以太网联盟

超以太网联盟对以太网全面重新架构，挑战 InfiniBand 同时保留以太网生态和规模经济优势。超以太网将智能引入传输层，引入原生数据包分散机制，在 NIC 层集成硬件级数据包重排序功能，推动采用虚拟输出队列等机制，减少队首阻塞等问题。与 InfiniBand 相比，超以太网有不同的网络特性、供应商情况、拥塞管理、成本与生态、互操作性、智能层面和技术机制。

Almartis 的新架构

InfiniBand 和超以太网都在解决大规模分布式深度学习的通信开销问题，但 Almartis 探索了另一种架构方向，围绕关联内存系统构建，强调结构化检索和组合内存操作，改变基础设施特征，可将数据中心简化为“无 GPU、无阻塞、单层全连接架构”，存储和计算在同一物理域运行。理想情况下，GPU 集群应是单层，且研究发现 GPU 流量有确定性，可移除轨道优化拓扑核心层。单层仅轨道集群的极限是 216 个 Blackwell Ultra GPU，其能耗是无 GPU 集群两倍多，但训练大语言模型能力有限。两种系统用途不同，Almartis 150 千瓦集群可从零开始训练具备常识的系统。