当前位置：首页 > news >正文

【HCIA-AI笔记（微认证2）】1.2 DeepSeek训练过程介绍

news 2026/6/30 11:07:20

Deepseek R1模型训练架构：
- 训练阶段划分：整个过程分为监督微调（SFT）和基于推理的强化学习两个主要阶段。
- SFT阶段：从Deepseek V3 base基础模型开始，使用SFT数据（含长推理示例）进行监督微调，生成SFT checkpoint，使模型具有一定推理能力。
- 强化学习阶段：从SFT checkpoint开始，使用强化学习方法针对模型推理能力进行优化，最终得到Deepseek 21，拥有强大推理和通用能力。
Deepseek R1模型核心创新：
- 含R1 Zero的中间推理模型：推理导向的强化学习得到中间推理模型，首次验证纯强化学习能大幅提升大模型推理能力，开源的Deepseek R1 Zero能生成高质量推理数据支持SFT阶段。
- 通用强化学习：针对RL Zero出现的语言混合、非推理任务回复效果差问题，提出通用强化学习训练框架。
Deepseek R1 Zero模型训练流程：
- SFT阶段：从Deepseek V3 base模型开始，使用监督微调数据训练，生成SFT checkpoint模型，具备初步语言理解和生成能力。
- RL1阶段：以SFT checkpoint为起点，使用冷启动推理数据进行强化学习，得到Deepseek R1 Zero模型，具备强大推理能力，冷启动数据是训练关键。
Deepseek R1强化学习训练流程：
- 基础能力：SFT checkpoint具备初步语言能力，但缺乏高级推理和对话能力。
- 数据集与奖励模型：使用包含多种提示的数据集，设置衡量帮助性和安全性的奖励模型，帮助模型生成有益、安全且高质量输出。
- 规则校验机制：引入rule - BASED Verifier对模型输出进行评估，保证模型一致性和可靠性。
Deepseek长文本处理技术突破：
- 三重技术架构创新：智能信息分层系统（含语义压缩引擎、记忆机制、动态筛选系统）、滑动窗口优化降低冗余计算量；硬件级优化（内存访问优化器、指令流水线重构、解码预测器）提升处理速度和降低显存占用；原生可训练设计支持端到端梯度传播，提升准确率。
- 核心数据对比：NSA机制在64K超长文本处理中速度最高提升达11.6倍。
Deepseek技术突破影响：
- 技术层面：终结参数内卷时代，70亿参数模型在64K长文本任务中表现超越传统1.5万亿参数模型，推动行业竞赛转向计算效率维度；国产算力生态崛起，昇腾芯片原生稀疏算子库加速比达5.7倍。
- 行业层面：重构市场格局，传统大模型厂商面临战略调整；产业应用爆发，在法律、医疗、金融、教育等领域有显著应用效果。
- 社会层面：技术普及带来双重效应，企业AI部署成本降低，中小企业使用率提升，但引发数据隐私争议和深度伪造检测需求激增；就业市场岗位需求变化，催生新兴职业；教育体系转型，人才需求结构改变。
会议总结要点：
- 模型架构：Deepseek模型架构是Transformer的变体，有独特优势。
- 训练方式和数据：了解其使用的数据和训练策略以获得强大语言能力。
- 实际应用表现：对比其在不同NLP任务上与其他模型的区分能力。