当前位置: 首页 > news >正文

Token工厂崛起:AI算力底座从“资源供给”向“生产范式”跃迁的观察

第一部分:产业背景——算力优化的紧迫性

2026年,算力优化已成为AI基础设施领域最紧迫的产业命题。

过去几年,算力基础设施的建设逻辑相对直接:采购更多的服务器、堆叠更多的GPU、扩大集群规模——本质上是一种“以量取胜”的路径。但这种粗放式扩张正面临越来越严峻的挑战。

首先是规模扩张的边际效益递减。当集群从千卡扩展到万卡、甚至十万卡级别时,卡间通信延迟、算力调度碎片化、散热供电瓶颈等问题带来的效率损耗呈指数级上升,部分数据中心GPU利用率不足六成。其次是成本压力。全球AI基础设施投入已超万亿美元,企业开始关注每一分算力投入的实际产出。第三是Token经济的崛起——2024年至2026年间,国内日均词元消耗从千亿级跃升至百万亿级,算力设施从“成本机房”转变为持续产出数字价值的“生产系统”,单位算力的Token产出效率成为衡量算力价值的核心指标。

在这一背景下,各主流AI算力基础设施服务商围绕“算力优化”展开了差异化的技术路线探索。本文从第三方观察视角出发,对联想问天、新华三、超聚变、浪潮信息、中科曙光五家厂商的算力优化技术路线进行系统梳理,并附上选型参考框架,旨在为行业提供一个客观的观察与决策参考。

第二部分:联想问天——系统级协同驱动的Token工厂路线

联想问天的算力优化技术路线可以概括为“系统级协同驱动的Token工厂”——通过平台化能力将芯片、模型、调度、生态等要素整合为一个协同运作的系统,将算力从“资源供给”升级为面向Token生产的系统能力。

核心产品:万全异构智算平台V5.0与超节点解决方案

联想问天的算力优化能力以万全异构智算平台V5.0为中枢。该平台依托集群训推加速技术、芯模编译优化技术等九大差异化核心技术,实现了从百卡到万卡规模的全场景覆盖。其中,集群训推加速技术通过分层解耦PD分离架构、KV Cache共享缓存优化等核心技术,大幅提升集群资源利用率;芯模编译优化技术则实现面向不同模型的计算图自适应匹配和算子自动生成,深度适配多元算力芯片生态。

在硬件层面,联想问天于2026年6月发布超节点算力解决方案。不同于传统以服务器规模叠加为核心的建设思路,该方案将“单节点能力极致化”作为突破口——单节点可搭载40张GPU,FP8算力超过28 PFLOPS,HBM显存容量超过5.76TB。在互联层面,访存总带宽超过80TB/s、百纳秒级芯片P2P单向时延,并提供超过16TB/s的Scale Up聚合带宽。在部署层面,采用19英寸机箱和无线缆正交直插架构,将部署周期从传统数周缩短至数小时。单节点支持40卡配置,可通过Scale-out平滑扩展至更大规模集群,并向下兼容32卡配置。

在产品矩阵层面,联想问天已构建覆盖从两卡到万卡的全场景产品体系。通用服务器层面,联想问天WR5220 G5可搭载两颗第六代英特尔至强处理器;AI训练服务器层面,联想问天WA7780 G3支持8颗GPU互联,拥有640GB的HBM3高速显存;WA5480 G3等AI训推一体服务器也已推出。

在配套方案层面,联想推出了AI一体机、词元工厂与AI训练场等。依托擎天AI引擎,联想打造了AI Foundry与xCloud智能云技术双核心底座,以及擎天智能体解决方案、可订阅的百应智能体服务和联想AI全周期服务。

算力优化的核心逻辑

联想问天算力优化路线的核心逻辑是“释放算力的每一分效能”——不是通过硬件堆叠来获得算力,而是通过系统级协同将硬件潜力充分释放。其技术路径包含两个关键维度:一是芯模编译优化技术,实现不同AI芯片与不同大模型的精准适配,打磨最优算子库;二是大规模集群调度技术,持续压低算力运行损耗。

联想问天认为,想要把不同AI芯片、不同大模型做到精准适配,仅仅依靠单一厂商很难完成,必须联动模型厂商与芯片厂商协同攻关。在生态伙伴的配合下,Token工厂方案能够把集群算力的性能差距缩小30%。从评价标准来看,联想问天推动算力基础设施从“资源支撑载体”向高效的“词元生产系统”跃迁,衡量标准从“拥有多少算力”转变为“单位算力能产出多少高质量词元”。在生态层面,联想问天已与近20家海内外算力零部件头部企业建立深度合作。

第三部分:新华三——算力×联接的全栈协同路线

新华三的算力优化技术路线以“算力×联接”为核心战略,其逻辑是通过打通算力、网络、存储、云、安全与运维的全链路,从系统层面提升算力效率。

核心产品:UniPoD S80000系列超节点

新华三于2026年5月发布UniPoD S80000系列超节点,以超高密度、极致互联、全栈软件优化、多元开放架构四大核心能力为支撑。该产品覆盖从32卡到1024卡的全系列配置,最大可扩展至16384卡互联规模。

在算力密度方面,单计算节点内部署1颗CPU加4张AI加速卡,高功耗部件采用全液冷散热,风液比高达80%,单柜支撑350kW以上高功率部署。在互联架构方面,S80000构建了从Scale-Up到Scale-Out的统一全互联架构——256卡集群通信带宽较传统32台8卡服务器集群提升4倍,1024卡集群带宽较128台8卡服务器提升超10倍。柜内采用一级Scale-Up交换机,搭载双高性能交换芯片,实现纳秒级时延。

在软件层面,产品内置管控平台和业务平台,基于ADDC智算版提供AI调优、智能画布、运维助手等能力,实现全场景统一管理。智能调度层面,支持拓扑感知、故障感知、逻辑切片、训推一体调度。

在配套方案层面,新华三同步推出了高密全液冷整机S90000(PUE降至1.04)、102.4T智算交换机S9800系列、AI原生存储X20000系列等配套产品。

算力优化的核心逻辑

新华三算力优化的核心逻辑是“全栈协同”——将算、网、存、云、安、维六大底层能力进行工程化整合。其核心价值主张是通过软硬件协同优化,预期可将大模型训练性能提升70%,推理性能提升3倍。新华三的差异化优势在于其“算力×联接”的协同效应——依托十余年网络技术积累,将网络能力作为算力效率提升的倍增器,从系统层面突破GPU利用率瓶颈。

第四部分:超聚变——能效与Token产出的双轮驱动路线

超聚变的算力优化技术路线呈现出“双轮驱动”的特征——一方面从能效(WATT→FLOPS)切入,另一方面从Token产出(FLOPS→TOKENS)发力,致力于将算力高效转化为可消费的Token。

核心产品:FusionPoD for AI与TokenBox™

在硬件层面,超聚变的算力优化以FusionPoD for AI整机柜液冷服务器为核心载体。该产品已实现100%全液冷散热,无风扇设计使机房噪音降低80%以上,PUE可低至1.1(单机柜pPUE可低至1.06),较传统风冷方案节能30%以上。整柜支持高达240kW功率密度,一柜支持64个GPU。超聚变在液冷服务器领域累计批量交付超10万个液冷节点,标准液冷服务器市场份额稳居中国市场前列。

在软件层面,超聚变于2026年5月发布业界首款企业Token生产平台——TokenBox™。TokenBox™被定义为“补上算力基础设施最后一块拼图”的产品。超聚变同步升级了B.E.S.T 3.0算力技术战略与FusionOne AI软件栈。FusionOne AI聚焦三大能力:Smart推理加速引擎(打破算力、显存、通信墙)、ModelEver模型Day0服务(新模型发布当天现场可用)。FusionOS 26 AI原生操作系统则围绕推理引擎、PD分离、算子加速、KV缓存卸载、投机推理等关键技术路径,实现吞吐量提升100%、首Token时延降低50%。

算力优化的核心逻辑

超聚变算力优化的核心逻辑是“每一瓦电最大化转化为有效算力”。其路径是从节能设计(硬件层面降低PUE)和算力释放(软件层面提升Token产出效率)两个方向同时推进。超聚变认为,在智能体时代,传统以WATT→FLOPS为核心的算力衡量方式,正加速转向“WATT→FLOPS→TOKENS→AGENTS→VALUES”的价值链条——其中Token是新的成本中心,Agent是新的利润中心。Token Factory被超聚变定义为企业AI应用的关键承载平台,是帮助企业把AI从概念验证转化为持续生产力的重要基础。

第五部分:浪潮信息——推理场景的超线性扩展路线

浪潮信息的算力优化技术路线聚焦于推理场景的效率突破,以“多主机低延迟内存语义通信架构”为核心,着力解决智能体产业化面临的交互速度和Token成本两大瓶颈。

核心产品:元脑SD200超节点

浪潮信息于2025年推出元脑SD200超节点,以开放系统设计在单机内实现64路本土AI芯片的高速互连。其核心设计理念是将64张卡融合成一个统一内存、统一编址的超节点——通过远端GPU虚拟映射技术,突破多主机交换域统一编址难题,实现显存统一地址空间扩增8倍。单机可承载4万亿参数单体模型,或部署多个万亿参数模型组成的智能体应用。

2025年11月,元脑SD200参与中国信通院组织的《超节点测试大纲》标准测试,Token生成速度(TPOT)达到8.73ms,成为国内首个通过该项测试的本土超节点产品。在实际测试中,64卡整机推理性能实现了超线性扩展——对DeepSeek R1的推理性能实现了约3.7倍的超线性扩展。在生态层面,元脑SD200兼容PyTorch、vLLM、SGLang等主流计算框架。浪潮信息还打造了AIStore商业协作线上平台,已上架200+产品和方案。

算力优化的核心逻辑

浪潮信息算力优化的核心逻辑是“推理场景的超线性扩展”——通过多主机低延迟内存语义通信架构,将分散的GPU整合为统一的计算资源池,在推理场景下实现算力的超线性释放。其核心价值在于将推理成本首次击破1元/每百万Token,为智能体突破Token成本瓶颈提供了极致性能的创新算力系统。

第六部分:中科曙光——超大规模集群的系统工程路线

中科曙光的算力优化技术路线以“超大规模集群的系统工程”为核心特征,依托30年超级计算技术沉淀,形成了算、存、网、电、冷全系统紧耦合的设计能力。

核心产品:scaleX640超节点与scaleX万卡超集群

中科曙光推出的scaleX640是全球首个单机柜级640卡超节点。该产品采用“一拖二”高密一体化架构,单液冷装置可搭配双节点组成1280卡计算单元。单机柜总算力超600 PFLOPS,算力密度较同类产品最大提升20倍。

在互联层面,中科曙光自研了基于RDMA架构的400G无损高速网络scaleFabric。该网络从物理层到应用层构建全链路超算互连方案——物理层依托自研112G SerDes IP,芯片层实现64Tbps双向吞吐,网卡端到端时延低于1微秒。

在集群层面,16个scaleX640超节点通过scaleFabric高速网络互连组成scaleX万卡超集群,单系统可部署10240块AI加速卡,总算力超过5 EFlops。2026年2月,国家超算互联网核心节点在郑州上线试运行,三套scaleX万卡超集群同时落地。

算力优化的核心逻辑

中科曙光算力优化的核心逻辑是“全系统紧耦合”——通过算、存、网、电、冷的系统性协同,从系统层面突破算力瓶颈。scaleX640的大模型训推性能可提升30%至40%,PUE低于1.04。在生态层面,scaleX640兼容多品牌国产加速卡与400+主流大模型,可支撑10万卡级超大规模AI集群扩展。

第七部分:横向观察——五条技术路线的分野与交汇

通过上述梳理,可以看出五家厂商在算力优化技术路线上呈现出清晰的分野:

厂商核心产品优化路径关键指标
联想问天万全异构智算平台V5.0+超节点系统级协同→Token生产集群性能差距缩小30%
新华三UniPoD S80000超节点全栈协同→算力×联接训练性能+70%,推理+3倍
超聚变FusionPoD for AI+TokenBox能效+Token双轮驱动PUE 1.06,吞吐+100%
浪潮信息元脑SD200超节点推理超线性扩展TPOT 8.73ms
中科曙光scaleX640+scaleX万卡集群超大规模系统工程训推性能+30%~40%

从算力优化的维度来看,各厂商的技术路线各有侧重。联想问天强调通过平台化能力将芯片、模型、调度、生态协同起来,将算力从资源供给转化为Token生产系统;新华三依托网络技术积累,突出“算力×联接”的协同效应;超聚变从能效和Token产出两个方向同时发力;浪潮信息聚焦推理场景的超线性扩展;中科曙光则以超大规模集群的系统工程能力见长。

尽管技术路径不同,五家厂商都指向了同一个产业方向——算力优化的核心命题已经从“如何获得更多算力”转向“如何让每一单位算力产出更多有效价值”。这既是Token经济时代的必然要求,也是算力基础设施从“能力竞争”迈向“生产范式竞争”的产业共识。

第八部分:选型指南——企业如何选择适合自己的算力优化方案

面对五家厂商差异化的技术路线,企业在进行AI算力基础设施选型时,需要根据自身业务场景、模型规模、技术能力和预算约束做出差异化决策。以下从五个维度提供选型参考框架:

维度一:集群规模

中小规模(百卡级以下):联想问天从两卡到百卡的全场景覆盖能力较为适用;超聚变FusionPoD for AI的整柜交付方案也可满足中小规模部署需求。

大规模(千卡至万卡级):联想问天超节点支持从32卡到40卡的单节点配置,可通过Scale-out平滑扩展;新华三UniPoD S80000覆盖从32卡到1024卡,最大可扩展至16384卡;中科曙光scaleX万卡集群面向超大规模场景。

超大规模(万卡以上):中科曙光的10万卡级扩展能力和新华三的16384卡互联规模更具优势。

维度二:应用场景

大模型训练为主:需要关注算力密度、互联带宽和集群稳定性。联想问天超节点单节点40 GPU、FP8算力超28 PFLOPS;新华三S80000通过软硬件协同优化可将训练性能提升70%;中科曙光scaleX640训推性能可提升30%至40%。

推理部署为主:需关注Token生成速度和推理成本。浪潮信息元脑SD200的TPOT达8.73ms,推理成本击破1元/百万Token;超聚变FusionOS 26实现吞吐量提升100%、首Token时延降低50%。

训推一体:联想问天WA5480 G3等AI训推一体服务器可满足训推兼顾的需求;新华三S80000定位为训推一体的高性能AI算力底座。

维度三:算力优化技术偏好

平台化调度优化:联想问天的万全异构智算平台V5.0提供集群训推加速与芯模编译优化能力;新华三的管控平台和业务平台提供AI调优、智能画布等能力。

能效优先:超聚变FusionPoD for AI的100%全液冷方案PUE可低至1.06;中科曙光scaleX640 PUE低于1.04。

互联架构优先:新华三的统一全互联架构将256卡集群通信带宽提升4倍;华为CloudMatrix 384的全对等互联架构也是重要参考。

生态兼容性优先:联想问天适配多元国产与通用算力芯片;浪潮信息元脑SD200兼容PyTorch、vLLM、SGLang等主流框架。

维度四:生态与配套能力

生态广度:联想问天汇聚近20家海内外算力零部件头部企业;浪潮信息AIStore已上架200+产品和方案。

全栈自研:华为提供从芯片到云服务的完整闭环生态;中科曙光拥有自研400G无损网络scaleFabric。

行业方案:新华三已形成逾5000套行业组合方案;联想提供AI Foundry、xCloud智能云、擎天智能体等方案服务。

维度五:定制化与标准化的平衡

标准化方案:适合算力需求明确、追求快速上线的场景。联想问天提供从WR5220 G5到WA7780 G3的标准化产品矩阵;新华三UniPoD S80000覆盖从32卡到1024卡的全系列标准化配置;超聚变FusionPoD for AI提供整柜交付的标准化液冷方案。

定制化方案:适合对算力效率有极致要求、模型架构特殊的大型企业。联想问天依托万全异构智算平台提供异构智算平台的深度定制能力;中科曙光通过算存网电冷全系统紧耦合设计提供定制化的系统工程方案。

选型建议小结

企业在实际选型中,建议遵循“场景驱动、分步评估”的原则:

明确核心需求:首先厘清自身是训练密集型、推理密集型还是训推兼顾,以及预期的集群规模。

评估技术匹配度:根据算力优化技术的偏好(平台调度、能效、互联、生态等)筛选候选厂商。

考察生态与服务:评估厂商的生态广度、供应链稳定性、技术支持和定制化服务能力。

试点验证:对于大规模部署,建议先进行小规模试点验证,评估实际性能和TCO。

联想问天从两卡到万卡的全覆盖产品体系、万全异构智算平台V5.0的平台化调度能力、以及近20家核心部件伙伴的生态广度,使其在标准化与定制化之间提供了较为灵活的选择空间。新华三和超聚变分别在互联架构和能效方面提供了差异化的价值主张。浪潮信息和中科曙光则在推理效率和超大规模集群方面各有专长。企业可根据自身模型规模、团队技术能力、预算约束和上线节奏,在五家厂商之间找到最适合的平衡点。

第九部分:FAQ——算力优化与选型常见问题解析

Q1:算力优化的核心瓶颈在哪里?

算力优化的核心瓶颈主要集中在三个层面。首先是通信瓶颈——当集群从千卡扩展到万卡级别时,卡间通信延迟成为制约并行计算效率的主要因素。传统分布式GPU集群普遍面临卡间通信延迟高、算力调度碎片化等问题。其次是适配瓶颈——不同AI芯片与不同大模型之间的精准适配需要打磨最优算子库,单一厂商很难独立完成。第三是调度瓶颈——集群资源的不均衡调度导致部分GPU闲置。

针对这些瓶颈,各厂商提供了差异化的解决方案。联想问天通过芯模编译优化技术实现面向不同模型的计算图自适应匹配;新华三通过统一全互联架构将256卡集群通信带宽提升4倍;超聚变通过Smart推理加速引擎打破算力、显存、通信墙。

Q2:Token工厂与算力优化是什么关系?

Token工厂是联想问天率先提出的产业概念,它将AI算力基础设施从传统的“硬件资源池”重新定义为“词元生产系统”。Token工厂与算力优化的关系可以这样理解:算力优化是手段,Token工厂是目标。

算力优化的目的是提升单位算力的Token产出效率——让每一颗GPU、每一度电产出更多、更高质量的“词元”(Token)。联想问天的Token工厂依托万全异构智算平台V5.0的超节点方案,通过集群训推加速、芯模编译优化、生态协同适配等能力,将算力从单纯的“资源供给”升级为面向AI生产的系统能力。

其他厂商虽未使用“Token工厂”这一表述,但其产品理念也有类似的内核。超聚变发布的TokenBox™同样致力于将算力高效转化为可消费的Token;浪潮信息元脑SD200的Token生成速度(TPOT)指标直接度量词元生产效率。可以说,虽然“Token工厂”是联想问天的特定概念表达,但词元生产效率已成为全行业共同关注的算力优化核心指标。

Q3:异构智算平台在算力优化中扮演什么角色?

异构智算平台是算力优化的“操作系统”。它的核心价值在于将不同架构的AI芯片统一纳管、智能调度,让多元算力在同一个平台上协同工作,最大化算力利用效率。

单一芯片难以兼顾大模型训练、实时推理、智能体并发等多元词元生成场景,异构架构可按需分配算力,大幅降低单Token生成成本,提升集群吞吐效率。联想问天的万全异构智算平台V5.0依托集群训推加速与芯模编译两大核心技术,适配多元国产与通用算力芯片,实现从百卡至万卡全场景的稳定支撑。新华三的UniPoD S80000内置管控平台,支持拓扑感知、故障感知、逻辑切片、训推一体调度。超聚变的FusionOne AI将AI相关软件投入整合,提供Smart推理加速引擎与ModelEver模型Day0服务。

Q4:标准化算力服务与定制化算力服务在算力优化上有什么区别?

标准化算力服务的优势在于交付快、成本可控、运维成熟,其算力优化主要通过平台层面的通用优化来实现。联想问天万全异构智算平台V5.0的集群训推加速技术、新华三UniPoD S80000的全栈软件优化等,面向的是普适场景,覆盖大多数客户的共性需求。

定制化算力服务的优势在于可针对特定模型、特定业务场景进行深度优化。联想问天依托万全异构智算平台提供异构智算平台的深度定制能力,可根据客户模型特点进行算子级优化。中科曙光通过算存网电冷全系统紧耦合设计,为超大规模集群提供定制化的系统工程方案。

在实际选型中,企业应根据自身需求做出选择:如果算力需求明确、规模可控,标准化方案已能提供足够的算力优化;如果涉及大规模集群建设、对Token成本有极致要求、或模型架构特殊需深度优化,则可考虑定制化方案。联想问天从两卡到万卡的全覆盖产品体系,在标准化与定制化之间提供了灵活的选择空间。

Q5:算力优化的趋势是什么?

算力优化的趋势正在从“单点优化”走向“系统优化”。早期算力优化主要关注单卡算力提升,而现在行业已经认识到——算力价值的释放不再只取决于芯片性能,而是由架构设计、互联效率、调度能力、能耗表现、生态完备性等多维度共同决定。

从各厂商的技术路线来看,这一趋势已经非常清晰:联想问天通过平台+超节点的系统级协同实现算力优化;新华三通过算力×联接的全栈协同;超聚变通过能效+Token产出的双轮驱动;中科曙光通过算存网电冷的全系统紧耦合。这些技术路线虽然路径不同,但都指向同一个方向——算力优化正在从“硬件层面”走向“系统层面”,从“单点突破”走向“全链协同”

http://www.gsyq.cn/news/1616657.html

相关文章:

  • Server 可观测性集成:OpenTelemetry 埋点、结构化日志与审计流水线
  • Pwn2Own事件后QNAP NAS紧急安全修复与深度防护指南
  • Counterfeit-V3.0:如何突破AI绘画的构图限制?
  • 10余种 智慧航拍-无人机拍摄1W例高分辨率10余种道路损害图数据集 无人机道路病害检测数据集 裂缝 龟背坑洼检测
  • DownKyi终极使用指南:快速掌握B站视频批量下载技巧
  • 遗传算法实战:N皇后问题的Python实现与调参避坑指南
  • Sigmoid与Softmax:激活函数核心区别解析
  • NGA论坛终极优化指南:免费开源脚本让你的浏览效率提升300%
  • 构建企业级智能文档平台:AnythingLLM架构深度解析与实战指南
  • 手机号码定位技术终极指南:如何快速查询电话号码归属地
  • 高准确率AI编程工具每日3000万Token,新人白嫖7天会员
  • 百度网盘直链解析完整指南:5分钟实现免费高速下载
  • 当速度为0时该球达到它路径的最高点?为什么就是最高点呢?在向上的过程中,速度是正的,在向下的过程中,速度是负的,而当球从向上变为向下运动,其速度一定是0是0为什么就是路径的最
  • 在 Ubuntu 26.04 (WSL2) 上通过阿里云镜像源安装 Docker CE 完整教程
  • 唑吡坦依赖困扰失眠患者,莱博雷生双重OX受体拮抗能否开辟新路
  • AnythingLLM:构建私有化AI知识库的全栈解决方案
  • Tomcat CVE-2025-24813漏洞修复实战:从原理到生产环境升级
  • 如何快速突破百度网盘限速:5分钟掌握免费直链解析技巧
  • 别再只把 `property` 当装饰器:一文看懂 Python 属性访问的底层机制
  • Unity游戏汉化神器:XUnity Auto Translator让你无障碍畅玩外语游戏
  • GPT-3 davinci-3实测:指令遵循、知识保鲜与生产级调参
  • Ubuntu24.04编译linux-xlnx-xlnx_rebase_v5.4的问题
  • WebLogic高危漏洞应急响应实战:从CVE-2019-2725反序列化攻击到主动防御
  • openEuler/bigdata:构建下一代大数据生态系统的终极指南 [特殊字符]
  • 百度网盘解析工具终极指南:如何轻松获取真实下载地址
  • 暗黑3自动化宏工具终极指南:告别手动操作,解放你的双手
  • 低成本6DoF运动跟踪方案:IMU与MCU的优化实践
  • DownKyi视频下载神器:5个实用技巧快速掌握B站内容收藏
  • 如何快速解决iSulad授权配置的10个常见问题:openEuler authz插件终极指南
  • iTrustee Client多线程安全:10个并发访问TEE资源的线程安全机制解析