当前位置：首页 > news >正文

第21章：并行策略：TP、PP、DP 与专家并行

news 2026/6/18 8:35:27

1. 项目背景

某AI平台团队成功将一个7B模型在单张A100上跑通后，CTO提出了更高的要求：部署公司自研的70B模型，并支撑日均100万次调用。团队采购了8台A100服务器（每台8卡），总计64张GPU——硬件投入超过200万元。

然而，当团队用--tensor-parallel-size 8启动70B模型时，发现吞吐远低于预期。8卡TP的理论吞吐应该是单卡的8倍，但实测只有3.2倍。更奇怪的是，当把模式改为"2卡TP + 4实例DP"时，8张卡的吞吐反而翻了一倍——比全卡TP高出近100%。

与此同时，隔壁团队部署的一个MoE（Mixture of Experts）模型遇到了更诡异的问题：8张GPU中，有3张的利用率在90%以上，另外5张只有20%——GPU负载严重不均衡。排查发现，MoE模型中的某些"热门专家"被过度调用，而其他专家几乎闲置。

痛点：并行策略不是"给更多的GPU就能跑得更快"。TP（张量并行）切分模型权重到多卡，通信开销随卡数增长；PP（流水线并行）切分模型层到多卡，存在"气泡"浪费；DP（数据并行）复制模型到多卡，各实例独立但需要负载均衡。盲目堆GPU而不理解各并行策略的通信模式、适用边界和性能收益曲线，是烧钱最快的方式。

本章将逐一拆解TP/PP/DP/EP四种并行策略的数学本质、通信开销和适用场景，并通过"2卡TP vs 4实例DP"的对比实验，展示"为什么更多GPU有时反而更慢"。

2. 项目设计

（场景：GPU服务器机房。小胖盯着一排A100的功耗指示灯——8张卡都在闪

http://www.gsyq.cn/news/1546626.html

相关文章：

智能动态系统建模：Stable-Worldmodel的深度应用指南

2026青岛门窗选购权威指南：五大技术派源头工厂深度实测与年度实力榜单 - GrowthUME

2027年成都五大郊区单招机构完整介绍 - 成都单招培训

计算机毕业设计之爱之家志愿者管理系统

压力变送器价格大揭秘：2025年最新报价 - GrowthUME

2026电脑显示器选购：4K高端型号推荐指南 - 服务品牌热点

2026年武汉助产学校招生简章官方发布！ - 武汉中职最新信息发布

武汉光谷科技职业技术学校2026年船舶驾驶专业招生入口 - 武汉中职最新信息发布

如何把一寸证件照变成电子版？从纸质到数字的完整证件照小工具操作指南 - 像素测评

千万注意！杭州这家淘宝代运营公司竟然如此可靠，选错损失大了！ - GrowthUME

南昌西湖区上门疏通管道 2026 真实评测最新综合排行榜 - 居顺联家政疏通

Windows 10/11系统下IE浏览器组件缺失的深度诊断与系统化修复指南

Geb与Selenium集成：构建企业级UI自动化测试环境

湖北民办中职—湖北省世达实用外国语学校 - 武汉中职最新信息发布

Convoviz性能优化：处理大规模ChatGPT导出文件的最佳实践

软考系统架构设计师历年真题集萃（283）

2026年武汉光谷科技职业技术学校怎么样？升学率高吗？ - 武汉中职最新信息发布

2025-2026年耀华国际学校电话查询：咨询前请核实招生政策与课程安排 - 品牌推荐

武汉助产学校招生简章（2026版） - 武汉中职最新信息发布

海口成人中专学校（电大中专）招生简章及官方报名入口 - 武汉中职最新信息发布

小一寸照片电子版怎么制作？从规格认知到实操的完整攻略 - 像素测评

Kotlin JDSL入门指南：5分钟快速构建类型安全的JPQL查询

武汉2026年中考落榜后还可以读哪些学校？ - 武汉中职最新信息发布

5步打造你的专属AI对话平台：Open WebUI完全指南

OpENer扩展开发：如何添加自定义CIP对象与服务实现特定功能

JAVA 基础知识总结

2026惠州日强机械制袋机靠谱商家测评排名，避坑指南精选 - 工业品牌热点

机器学习模型评估中的随机误差量化与稳定性分析

机器学习新手必避的七大认知陷阱与实战对策

CSS动画性能调优：从GPU合成层到will-change的工程化实践