当前位置: 首页 > news >正文

海光异构卡dcu 64BW *2 ZeRO-2 异构卡2 16g*4 zero-3微调deepseekf1-qwen2-14b模型速度对比

海光异构卡dcu 64BW2 ZeRO-2 异构卡2 16g4 zero-3微调deepseekf1-qwen2-14b模型速度对比

说明 16g*4 zero-3 没有办法启用flash-attention,报错
https://www.scnet.cn/
From国家超算中心_code/deepseed加速.md:

  1. 初始速度 (bs=2, 无ZeRO-2优化): ~17 s/it (line 476)
  2. 启用FA2后 (bs=4, ZeRO-2 + CPU Offload): 9.05 s/it (line 12)
  3. 关闭CPU Offload (bs=8, ZeRO-2): ~7 s/it (line 476, 501)
  4. 优化目标 (bs=8, ZeRO-2): 5~6 s/it (line 34, 396)

From经验1 zero3 变得好慢.txt:
.16*4 zero-3: 大概 256s/it (line 2) - this is 4x16 cards, different setup

So the user is asking about “异构卡 BW 64 两张” - this refers to the DCU cards at 曙光 (Shuguang) with 2 cards, BW64 model.

From the records:

  • 2张 BW64 (DCU异构卡), bs=2, 无优化: ~17 s/it
  • 2张 BW64 (DCU异构卡), bs=4, DeepSpeed ZeRO-2 + CPU Offload + FA2: ~9.05 s/it
  • 2张 BW64 (DCU异构卡), bs=8, DeepSpeed ZeRO-2 (无CPU Offload) + FA2: ~7 s/it
  • 2张 BW64 (DCU异构卡), ZeRO-2: 大概 8s/it

Let me present these findings clearly to the user.
根据你的历史记录,以下是**「异构卡 BW64 × 2 张(曙光超算中心 DCU)」** 训练 14B 模型的速度演变:


📊 训练速度记录汇总

阶段配置速度 (s/it)来源
最初bs=2,无 DeepSpeed,无 FA2~17 s/itdeepseed加速.md L476
中间bs=4,ZeRO-2 + CPU Offload + FA2 启用9.05 s/itdeepseed加速.md L12
优化后bs=8,ZeRO-2(关闭 CPU Offload)+ FA2~7 s/itdeepseed加速.md L476/L501
稳定态bs=4,ZeRO-2 + FA28~9 s/itdeepseed加速.md L199

另外一条对比记录:16*4 zero-3 大概 256s/it— 这是 4 卡 × 16 节点的 ZeRO-3 多节点配置,速度极慢是因为 NCCL 被限制走了 socket loopback(禁用了 SHM/P2P)。


📈 速度优化路径

17 s/it (bs=2, 原始) → 9 s/it (bs=4, +ZeRO-2 CPU Offload + FA2) → 7 s/it (bs=8, 关闭CPU Offload + FA2) → 5~6 s/it (bs=8, 进一步优化的目标)

核心结论:曙光 BW64 × 2 张异构卡,训练 DeepSeek-R1-14B LoRA 微调,稳定速度大约在 7~9 秒/步,取决于 batch size 大小和是否开 CPU Offload。
16g*4 zero-3微调deepseekf1-qwen2-14b 不启用flash-attention ,160s/步

bsbatch size(批大小)的缩写,在深度学习训练中非常常见。


📌 具体解释:

  • bs=2:即batch_size=2
    • 这意味着每次前向/反向传播处理的样本数量为 2 个
    • 训练时,模型会在每个batch(批次)中同时处理这 2 个样本,并累积梯度后再更新权重。

📚 结合你的训练场景(14B 模型 + LoRA + 双卡 DCU):

batch_size设置含义显存占用训练速度 (s/it)
bs=2每次处理 2 个样本,梯度累积步数多较低~17 s/it
bs=4每次处理 4 个样本中等~9 s/it
bs=8每次处理 8 个样本较高~7 s/it
  • 为什么bs越大,速度越快?
    • 处理样本越多,GPU 并行计算效率越高,同时减少了梯度同步(如gradient_accumulation_steps)的通信开销。
    • bs过大可能导致显存溢出(如你在经验1 zero3 变得好慢.txt中提到的 OOM)。

💡 实操建议:

  • 如果显存足够(如rocm-smi显示每卡占用 <28GB),优先选择bs=8,速度更快。

  • 如果显存紧张,可降低到bs=4bs=2,但需增加gradient_accumulation_steps保持总 batch 不变。

http://www.gsyq.cn/news/1538839.html

相关文章:

  • 2026年当下广西比较好的干冰灭火器生产厂商有哪些?盘点与选型指南 - 品牌鉴赏官2026
  • 2026年深圳保税区转厂报关服务商综合能力甄选指南 - 优质品牌商家
  • 2026年 江苏石墨换热器厂家推荐:石墨吸收器/盐酸石墨合成炉/石墨塔器,耐腐蚀性能与工艺精度标杆解析 - 品牌发掘
  • 零基础PHP从零到一手写堆排序的庖丁解牛
  • 从零搭建Java萌宠社交系统:WebSocket实时聊天+动态发布模块实现
  • Claude 旧模型退休后,接口迁移不要只改一个 model 字段
  • 2026年云南省PMP培训机构哪家好?官方授权R.E.P.报考指南 - 众智商学院课程中心
  • Typst 0.15 版本发布:多维度升级,为学术与技术写作带来排版新变革!
  • C++命令模式与请求封装
  • NGA论坛工作流优化工具:构建高效信息处理系统
  • 2026年上海铝合金门窗品牌选购指南:技术实力与服务体系深度评测 - 优质品牌商家
  • 嵌入式USB开发实战:从Freescale协议栈配置到调试优化全解析
  • 2026年工装装修公司推荐排行榜:办公楼/厂房/店铺/酒店/商场装修,专业设计与品质施工实力品牌精选 - 品牌发掘
  • 2026年青绿苔草优质生产企业官方甄选指南:从苗圃品质到景观工程的全维度分析 - 优质品牌商家
  • 2026年南宁装修墙板市场盘点:五家专业服务商深度解析与选择建议 - 品牌鉴赏官2026
  • 自动驾驶工程师:横跨感知、规控、安全的硬核工程角色
  • 2026乐山鳝丝品牌甄选本地人反复光顾的临江鳝丝门店指南 - 优质品牌商家
  • 2026年硼砂品牌官方甄选指南:从供应链到技术服务综合考量 - 优质品牌商家
  • 如何让重要网页永不消失?网页时光机浏览器扩展揭秘
  • 2026年 东三省体育培训/沈阳体育四项集训/辽宁体育升学指导榜单:体育统招升学与全日制补习机构深度推荐 - 品牌发掘
  • Grbl_Esp32架构革新:ESP32平台上的高精度CNC控制算法与模块化设计突破
  • 痛苦只在我痛的时候说话——沉默的伦理模块
  • 2026年深圳知识产权诉讼律师推荐:5位双资质实战专家 - 本地品牌推荐
  • 5个关键步骤:掌握VirtualApp安卓沙盒技术,实现应用多开与安全隔离
  • 2026成都艺考文化补习机构实测评测:聚焦核心维度 - 优质品牌商家
  • 如何为旧款Mac注入新生命:终极兼容性解决方案完整指南
  • 2026年紫外荧光硫测定仪厂商实力甄选:技术传承与行业应用深度解析 - 优质品牌商家
  • 2026年常州地板厂家推荐榜:SPC石塑地板/WPC木塑地板/强化复合地板/黑金刚地板/三层实木地板源头实力厂商精选 - 品牌发掘
  • 2026年成都防护网厂家权威排行:成都踏步钢格板/成都钢格栅板/成都防滑钢格板/成都鹿网/10家合规企业实测盘点 - 优质品牌商家
  • 2026年四川中青旅与同行服务能力实测评测:四川中青旅联系/稻城亚丁四姑娘山旅游/美国旅游/排行一览 - 优质品牌商家