当前位置: 首页 > news >正文

模型训练的概念速通

一、历史发展柯西提出梯度下降ML机器学习提出反向传播RLHF应用人类偏好的强化学习发扬光大OpenAI发布了PPO算法微软提出了LoRA微调极少参数撬动强大模型SFT作为范式ChatGPT横空出世DPO省去了复杂的奖励模型训练让偏好对齐变得大道至简Deepseek验证了GRPO摒弃了传统的评价网络Critic,用群体相对优势激发出模型惊人的纯粹推理能力二、训练的概念核心调整无序的权重到智慧的过程基础方法1.梯度下降 2.反向传播预训练PreTrain进行知识填充监督微调SFTLoRA学会对话、进行低阶矩阵微调RLHF(PPO, DPO, GRPO)符合人类思维方式的强化学习三、SFTSupervised Fine-Tuning核心把“只会续写的基座模型”变成“能听懂指令的对话模型聊天助手”区别输入数据变化。Pretrain是直接把整个问答组成的句子扔进去而SFT会告诉模型哪一部分是问题哪一部分是回答所以只计算回答部分的loss四、LoRALow-Rank Adaptation核心大矩阵拆分为AB小矩阵是一种低秩适应区别Lora允许每个人基于自己的数据微调出自己的模型,用极少的参数达到接近全参微调的性能。调整的是结构不是数据五、RLReinforcement Learning核心智能体在环境中通过试错来进行学习奖惩机制如训练小狗区别RL并没有现成的标准答案来模仿要靠自己进行探索六、RLHFReinforcement Learning from Human Feedback基于人类反馈的强化学习PPOProximal Policy近端策略优化自己做题自己预测对照奖励模型的答案进行修改。经典算法DPODirect Preference Optimization直接偏好优化只有对或者错。直接把偏好数据来进行优化即A好于B构造二元分类损失不训练单独奖励模型简化对齐GRPOGroup Relative Policy Optimization分组相对策略优化处理逻辑链条类似蚂蚁寻路在组内评估优势也不需要评估网络高效对齐总结如图所示
http://www.gsyq.cn/news/1296916.html

相关文章:

  • 安卓应用开发中通知点击后 PendingIntent 未触发问题详解
  • SAP BAPI调用避坑大全:从FICO过账到MM收货,这些参数和顺序错了就白干
  • 前端-低代码-jnpf:使用分享 / 积累使用分享
  • 如何快速获取26个高质量阅读APP书源:一键导入完整配置方案
  • Topit:macOS窗口置顶的终极免费解决方案,让开发效率飙升300%
  • G-Helper完整使用指南:3步解锁华硕笔记本最佳性能与显示效果
  • 从0到1搭建AI心理健康预警系统:我是如何用BERT+BiLSTM捕捉情绪拐点的
  • 边缘节点就地智能处理方案
  • 5分钟打造专业级交通网络可视化:Transit Map零门槛指南
  • github项目终于可以全款拿下?!
  • 数据库COUNT(*)性能优化与高并发计数方案全解析
  • 【AI编程】 模型订阅渠道、费用与体验
  • Midscene.js跨平台AI自动化测试:3步快速上手的终极配置指南
  • Go语言入门指南:从环境搭建到并发编程实战
  • (二十八)pom.xml文件-【坐标】+【引用jar包】
  • 分页查询示例
  • Simulink建模规范:从MAAB规范到工程实践,打造高质量模型
  • EPLAN_进阶#自定义导航器显示列与信息规划
  • 媚上者掌权,实干者退场
  • 电赛电源题实战:手把手教你用IR2103和STM32搭建单相PWM整流硬件(附PCB白嫖技巧)
  • 网安必备基础 计算机网络(中)基础必备知识简概
  • 基础实战:实现简单的图像轮廓检测(入门级)
  • 工业自动化工程师如何高效解决Modbus通信调试难题?
  • 微信小程序流式请求实战:绕过WebSocket,实现ChatGPT逐字回复的兼容方案
  • 别再搞混了!PCIe设计里那个100MHz时钟,到底给谁用的?(附同源时钟架构布线避坑指南)
  • 通过curl命令直接测试Taotoken多模型API的响应与延迟
  • Go语言设计模式:行为型模式
  • LabVIEW生产者消费者模式:队列解耦与多任务架构实战
  • 天地协同:卫星如何成为5G物联网“组合拳”的关键一环
  • 初创公司如何用Taotoken统一管理多个AI应用接口