当前位置: 首页 > news >正文

PCIe如何从AI浪潮中获益,并借助扩展协议持续进化

核心要点:

PCIe仍是非AI处理场景的关键技术。

在AI领域,PCIe将因规模扩展、智能体AI及部分纵向扩展需求而得到强化。

CXL正逐步获得市场采用,部分观点认为其有望参与AI计算处理。

PCIe长期以来是处理器与外部设备之间数据传输的核心互连技术,而新兴的数据中心AI扩展网络同样承担着类似的职责。这一现象或许会让人误以为PCIe已无法胜任新的任务需求,但事实上,随着智能体AI等新型AI形态的兴起,PCIe非但没有被边缘化,反而得到了进一步的强化。

CXL与PCIe密切相关,构建于PCIe协议栈之上。由于开发者仍在评估其实用价值,CXL的起步相对迟缓,甚至有人质疑它能否真正普及。然而,随着交换机产品陆续入市、系统开发者逐渐明确其应用场景,CXL开始呈现出更为强劲的生命力。

悠久传承与缓慢起步

PCIe于2003年首次发布,作为一种串行互连方案,取代了此前用于连接计算机外设的PCI并行总线。其初始性能为每通道2.5 Gb/s,最大×16配置可提供4 GB/s的吞吐量。

此后,PCIe持续演进,于2025年发布了7.0版规范。该版本每通道速率达128 Gb/s(含纠错位),净吞吐量高达242 GB/s。

"PCIe的速率正在翻倍提升,"Cadence设计IP业务部门硅解决方案集团高级产品营销总监Arif Khan表示,"整个发展曲线在过去几年间呈现出明显的跃升态势。"

PCIe几乎成为所有计算机相关设备的标准互连接口。尽管最初主要面向个人计算机,但近年来更高版本的PCIe性能已远超PC的实际需求,目标市场也逐渐转向数据中心。

2019年,计算高速互连标准CXL(Compute Express Link)以1.0规范正式发布,与PCIe 5.0同期推出。CXL本质上是构建于PCIe之上的内存与一致性扩展协议。最新的CXL 4.0版本于2025年发布,基于PCIe 7.0构建。

CXL包含三个核心组成部分:

一是用于初始化、管理和设备发现等任务的基础非一致性标准(CXL.io);

二是允许所连接的CXL设备缓存主机内存并维护一致性的机制(CXL.cache);

三是采用加载/存储语义访问外挂内存的机制,使用体验如同访问服务器内部内存一般(CXL.mem)。

CXL的采用进程较为缓慢,令部分人士对其前景持观望态度。此外,行业对CXL的认知也存在一定惰性。"CXL尚未被充分理解,"Synopsys PCIe产品营销高级总监Antonio Costa表示,"随着更多应用场景的出现,人们将逐渐明白如何有效利用它。"

近期的市场动态表明,CXL正展现出更为积极的发展势头。

新兴力量的涌现

与此同时,AI热潮将数据中心的训练与推理工作负载推向了聚光灯下。GPU成为焦点,各方资源集中于提升GPU系统性能,包括其互连能力。

这一趋势催生了网络架构的分叉,形成了几种本质不同的扩展方式:

纵向扩展(Scale-up):将多个GPU聚合,使其呈现为一块拥有统一内存空间的超大GPU,采用内存语义进行访问。

横向扩展(Scale-out):采用RDMA语义访问更远端的资源。

跨域扩展(Scale-across):横向扩展的变体,覆盖距离更远的资源。

UALink是支持纵向扩展的新兴标准,英伟达专有的NVLink则提供包括纵向扩展在内的多种互连形式。

横向扩展意味着向网络更远端延伸,这一领域由以太网主导。然而以太网在尾延迟等方面存在一定不足,因此各类优化措施正被不断引入以提升其性能。

上述发展使AI扩展网络持续占据行业视野,而PCIe等传统互连技术则相对淡出了主流讨论。过去,纵向扩展通常以PCIe为基础,因为它是本地处理器互连的主要手段,但这一角色正在逐步收缩。那么,PCIe究竟还能扮演哪些角色?

关键在于连接对象

如果一味追踪AI相关的技术动态,很容易得出"GPU才是核心,扩展网络正在全面接管"的结论,但这并不准确。

GPU承担着AI计算中繁重的数学运算任务。纵向扩展网络专门用于GPU之间的直连,无需经过CPU——这与其他互连方式有着本质区别,后者通常需要经由CPU进行转发。

"你有没有想过,你的CPU与加速器卡之间依赖的是哪种芯片协议?在很多情况下,加速器就插在PCIe插槽上,"Khan指出。

这正是PCIe持续发挥作用的领域。CPU与GPU之间的通信不会走UALink,而是走PCIe,CPU所涉及的一切通信皆是如此。

这一点直接影响到横向扩展场景。"PCIe特别适合支撑横向扩展架构,"Rambus硅IP产品营销高级总监Lou Ternullo指出。

PCIe连接CPU与网络接口卡(NIC),因此即便横向扩展的讨论中通常不提PCIe,它实际上依然参与其中。"智能网卡的输入输出带宽很大,因此新一代PCIe的高速率在这一领域仍有广泛应用,"Khan补充道。

其他业内人士也持相同看法。"横向扩展实际上拓宽了PCIe的市场空间,因为网卡依赖PCIe,"Cadence高速SerDes产品营销总监Hui Wu表示。

这一逻辑自横向扩展概念出现以来便成立,但新兴AI应用正在进一步改变格局。传统AI工作负载以GPU为绝对核心,CPU的作用仅限于调度和支撑GPU;而智能体AI的兴起,正在打破这一局面。

智能体AI对CPU的迫切需求

AI智能体负责执行任务,目前主要帮助人类提升决策效率和工作生产力。而智能体的运行主要依托CPU,仅将部分推理工作负载卸载至GPU。智能体需要做出决策,而决策往往涉及分支操作,这恰恰是GPU不擅长处理的场景。因此,启动一个智能体,意味着工作负载将在CPU与GPU之间来回切换,直至任务完成。

"AI加速器负责计算下一步操作,但真正执行动作的是CPU,"Synopsys的Costa说道,"智能体AI越多,就需要越多的CPU来执行这些动作,进而需要扩展算力。"

随着智能体AI的快速崛起,CPU需求正在增长,而这些CPU都需要互连支撑。"过去GPU与CPU的比例是8:1,"Efinix企业副总裁兼市场营销负责人Bob Beachler表示,"在智能体AI时代,这一比例变成了1:1——一个CPU对应一个GPU。"

PCIe是此类连接的自然选择,这意味着PCIe在AI领域的作用将进一步提升。

PCIe同样胜任纵向扩展

UALink专为纵向扩展而生,这似乎暗示PCIe在某些方面存在不足。在某些高端场景中确实如此,但并非所有系统都追求极致吞吐量,PCIe实际上也完全可以胜任纵向扩展需求。

"当今几乎所有终端设备都支持通过PCIe与CPU互连,"Ternullo解释道,"如果将NVLink排除在外,几乎100%的加速器都以PCIe作为主要互连方式。这种普遍性是PCIe在纵向扩展场景中保持竞争力的关键原因——例如通过PCIe交换机连接多块GPU。尽管UALink等新兴网络在吞吐量上可能优于PCIe,但PCIe生态系统的开放性与广泛采用,使其在GPU/ASIC加速器纵向扩展应用中依然极具吸引力。我认为,PCIe规范快速推进(目前已在推进PCIe 8.0.5)的一个重要原因,正是为了进一步支持基于PCIe的纵向扩展。"

UALink在纵向扩展架构中无疑有其独特价值,并将在最适合的场景中发挥作用;但PCIe对所有终端的兼容性,使其在大多数环境中更易落地。此外需要注意的是,性能最优的方案未必会成为行业标准,成本与可及性往往是更具决定性的因素。

边缘侧的多样化协议

上述扩展讨论主要集中于数据中心,但AI在边缘侧的部署同样在快速增长,这一领域尤其在传感器场景中广泛采用其他协议。

以摄像头为例,MIPI协议专注于将摄像头数据高效传输至目标系统。"MIPI通常应用于边缘侧——摄像头、显示屏、传感器、移动存储等,"Silvaco旗下Mixel公司市场与销售总监Justin Endo表示,"它专为低功耗、低延迟、轻量协议栈的流媒体传输而设计。"

这并非PCIe的典型应用场景。"PCIe与CXL承担的是芯片间通用计算与存储的重量级互连任务。PCIe与MIPI在某些场景存在重叠,例如移动存储中基于M-PHY的UFS与基于PCIe的NVMe,但它们位于同一协议栈的不同层级,并非直接竞争关系,"Endo解释道。

边缘侧产生的数据通常需要上传至数据中心,但原始数据的传输带宽消耗极大。"以通过MIPI PHY传输的MIPI CSI-2为例,它将图像传感器的摄像头数据传输至手机、汽车、无人机和工业视觉系统中的边缘SoC,"他说,"在大多数推理部署场景中,无法将原始图像数据大量推送至数据中心,因为这在数据量、功耗和延迟方面的代价都难以承受。CSI-2将数据输入本地图像处理流水线,使时间敏感的工作——例如ISP处理、感知分析、传感器融合或设备端推理——直接在传感器侧完成。真正上传至数据中心(经由PCIe)的,通常是经过提炼的结果,如特征向量、嵌入表示和元数据,而非原始像素。CSI-2完成了流量的前置处理,从而让PCIe及其周边网络(如CXL、UALink、Ultra Ethernet)得以专注于它们最擅长的工作——训练、内存池化以及机架级加速器间通信。"

旧版PCIe依然生机勃勃

尽管AI应用追求极致带宽,但大量其他应用场景使用旧版PCIe便已绰绰有余。

"对于众多固态硬盘和消费类设备,用户对PCIe 2.0和3.0的速率已完全满意,这种情况还将持续相当长的时间,"Khan指出。

其他系统可能需要更高速率,但未必是最新一代。"目前市场上还没有PCIe 6.0的CPU系统,"Khan补充道,"主流OEM厂商尚未完成产品化,仍处于内部测试或客户测试阶段。即便是PCIe 5.0,从规范定稿到AMD和英特尔系统正式上市,也经历了相当长的时间。"

固态硬盘正在向更高版本的PCIe迁移,但并不总是最新的规格。"PCIe 6.0固态硬盘目前已相当普及,我们有客户正在基于此进行产品设计,"Khan表示,"也有客户已经启动PCIe 7.0的设计项目,希望在特定系统节点上率先落地。"

CXL的上升态势

由于PCIe依然强劲,它牢牢奠定了作为CXL底层PHY的地位。不过,规范迭代的时间节奏或许在一定程度上影响了CXL的市场接受度。"CXL受制于其对PCIe 5.0 PHY的依赖,而相关系统迟迟未能上市,"Khan指出,"与此同时,CXL规范本身也在快速演进。采用者究竟该怎么办?CXL 3.0系统刚刚完成设计、准备上市,规范就已经推进到4.0了。"

与此同时,CXL的不同应用场景并未获得同等程度的市场认可。官方正式定义了三种应用类型,对应的CXL设备分别为Type 1、Type 2和Type 3:

Type 1设备支持具备一致性内存的加速器接入;Type 2设备可访问主机内存,若自身搭载内存,主机也可对其进行访问;Type 3设备允许主机以一致性方式访问和管理远端内存,根据具体实现方式,可视为内存扩展或内存池化解决方案。

将CXL用于缓存扩展在业界遭遇了一定阻力,主要原因在于延迟问题。"我们观察到,用户希望利用CXL扩展缓存内存和主内存。在缓存侧,CXL表现稍显不足,因为缓存对低延迟的要求极为严格,目前还没有看到客户将其用于缓存扩展,"Costa表示,"但在内存扩展方面,CXL颇受欢迎,因为系统中的HBM或DDR内存容量有限。如果需要突破这一瓶颈,CXL是非常优秀的选择,它具备较低的访问延迟,数据回写至缓存的效率也有保障。"

内存池化之争

与此同时,内存池化的实际效果在业界引发了争论,这在一定程度上影响了CXL的整体采用速度,因为行业仍在探索CXL的最佳落地场景。

尽管如此,CXL生态系统正在持续扩展,为开发者提供了更强的信心。"更广泛的PCIe与CXL互连生态系统持续走向成熟,进一步提升了内存扩展的价值,"Ternullo表示,"CXL交换机在市场上的出现频率不断提高,PCIe覆盖范围的延伸也在进一步支持可扩展的内存池化架构。"

智能体AI或许也将为CXL注入新的活力。"我认为下一代CXL将更加重要,因为智能体AI对算力的需求持续攀升,我们相信CXL将在其中扮演重要角色,"Costa说道。

持续演进的技术路线

支撑PCIe与CXL持续需求的,还有对未来版本的明确预期。PCIe 8.0预计于2029年发布,带宽将在PCIe 7.0基础上再度翻倍。

"我们将看到每通道256 Gb/s的速率,最大支持16条通道,"Costa介绍道,"信令方式保持不变,控制器侧的Flit结构也沿用现有设计,不会有根本性的架构变化。"

CXL方面,5.0版本的修订工作正在进行,但CXL联盟暂未公布目标发布时间。

此外,业界正积极推动PCIe连接距离的延伸,并为此制定了新的线缆标准。其中最具代表性的是两年前发布的CopprLink标准,支持以PCIe 5.0和6.0的速率实现最长两米的连接。目前,将PCIe 7.0纳入其中的工作正在推进,但PCIe SIG暂未给出预计发布日期。

除铜缆方案外,业界还在积极探索承载PCIe流量的光互连方案,同样尚无明确的发布时间表。

"PCIe重定时器和交换机的大规模部署,加之CopprLink和PCIe光传输等新兴线缆技术的涌现,将有效延伸PCIe网络的覆盖范围,进一步支撑横向扩展和纵向扩展部署,"Ternullo总结道。

前景无限

综合以上各项指标,AI的发展非但没有削弱PCIe的地位,反而可能进一步强化它。大量设备将继续沿用旧版本,因为更高的速率主要服务于数据中心场景;而对高带宽的需求依然旺盛。

CXL虽然起步缓慢,但正在加速发展。现在宣告全面胜利为时尚早,但积极信号正在不断增强。

所有这些都印证了一个事实:新兴标准是在现有基础上的叠加与延伸,而非取而代之。面对日益多样的互连选项,网络架构的复杂度确实在上升,但各类应用场景的需求已相当清晰。哪些系统需要UALink,无需多言;而无论你是否在数据中心部署AI扩展,PCIe几乎都是绕不开的选择。

Q&A

Q1:PCIe在AI时代还有存在的必要吗?它的定位是什么?

A:PCIe在AI时代不仅没有被淘汰,反而得到了强化。虽然GPU之间的纵向扩展通信由NVLink、UALink等协议承担,但CPU与GPU之间、CPU与网卡之间的通信依然依赖PCIe。随着智能体AI兴起,CPU的需求大幅增加,CPU与GPU之间的比例从8:1变为1:1,这意味着PCIe的应用场景反而在扩大。

Q2:CXL为什么普及速度这么慢?现在情况有没有改善?

A:CXL普及缓慢主要有两个原因:一是其依托的PCIe 5.0系统迟迟未能上市,导致CXL落地延迟;二是CXL规范迭代过快,3.0系统刚准备好,4.0规范就已发布,让采用者无所适从。此外,CXL用于缓存扩展时延迟较高,限制了部分应用场景。不过近期CXL交换机陆续入市,内存扩展场景逐步获得认可,整体发展势头正在回暖。

Q3:PCIe 8.0有哪些新特性?预计什么时候发布?

A:PCIe 8.0预计于2029年发布,将在PCIe 7.0基础上实现带宽翻倍,每通道速率达到256 Gb/s,最大支持16条通道,整体吞吐量大幅提升。在架构层面,PCIe 8.0将沿用现有信令方式和Flit结构,不会有根本性的变化,保持良好的向下兼容性。

http://www.gsyq.cn/news/1502145.html

相关文章:

  • 3分钟学会零绿幕AI背景移除:OBS背景移除插件终极指南
  • 如何在5分钟内将Obsidian打造成个性化知识管理中心
  • JDspyder终极指南:如何用自动化脚本提升京东抢购成功率300%
  • WannierTools输入文件wt.in一键批量生成脚本
  • 告别卡顿!用ViewPager2和IjkMediaPlayer打造Android相册图片视频混合轮播(附完整Demo)
  • Gofile下载器技术深度解析:高效文件下载实战指南
  • BililiveRecorder终极修复指南:从原理到实践的完整解决方案
  • 如何在JavaScript项目中实现专业级数据加密保护:揭秘CryptoJS 4.2.0的强大功能
  • 反向海淘全流程实操指南:从选品到交付的落地方案
  • 录播姬BililiveRecorder:5分钟学会直播录制与文件修复完整指南
  • 2026PVC双壁波纹管技术解析:大口径中空缠绕管、方孔栅格管、滴灌管、热浸塑钢管、玻璃钢复合管、玻璃钢电缆保护管选择指南 - 优质品牌商家
  • 格赞赋活系列哪家性价比高,价格怎么样 - mypinpai
  • 嵌入式通信实战:用C语言把浮点数拆成HEX-ASCII码发送(附完整代码)
  • 汽车电子工程师必看:高速CAN与低速CAN实战选型指南(附ISO标准解析)
  • Speechless:无需登录的微博内容永久保存方案
  • 格图凸轮滚子转台维修成本高不高? - mypinpai
  • 别再被TensorBoard的Smoothing骗了!手把手教你正确解读GAN训练中的Loss曲线(附真实案例)
  • 不只是建个文件夹!深入NuGet包解析机制,彻底搞懂MSB4018错误的来龙去脉
  • Visual Studio 2019编译报错MSB4018?别慌,手把手教你定位并修复那个神秘的NuGet回退文件夹
  • 2026 淮安彩钢瓦修缮 TOP4 权威推荐(全区域服务) - 本地便民网
  • 用Pygame和DQN复刻经典AI实验:手把手教你从零搭建自己的Wumpus世界(Python 3.7环境)
  • 5分钟掌握跨平台媒体压缩:CompressO的零配置高效工作流
  • 2026 扬州彩钢瓦修缮 TOP4 权威推荐(全区域服务・适配高湿梅雨) - 本地便民网
  • 为什么你的下一个项目需要FlipClock.js?7个实战场景告诉你答案
  • 数据的加密与解密(05:49)
  • 2026山西冲击钻及钻探设备供应商推荐榜:山西喷浆机、山西坑道钻机、山西履带式切顶钻机、山西张拉机具、山西扩孔钻头选择指南 - 优质品牌商家
  • 烟台黄金回收五大靠谱商家实测2026年6月 - 余生黄金回收
  • 可视耳勺方便吗?可视挖耳勺怎么连接?可视挖耳勺的正确使用方法
  • LTspice仿真ZVS振荡器死活不起振?试试这个瞬态参数设置,亲测有效!
  • ZenTimings终极指南:免费解锁AMD Ryzen内存时序监控与超频优化工具