当前位置: 首页 > news >正文

【调研报告】RL有哪些数据技巧?

LIMR(25.02,SJTU):从大数据集里面挑出小数据集。方法:
1. 计算第k步中所有样本平均奖励的变化情况(跑一小步就可以)
2. 对于第i个样本,计算其奖励和平均奖励曲线的对齐程度
3. 选出对齐程度高的样本作为训练样本
缺点:没有办法从大样本集合中选出高质量样本
DAPO:进行动态采样
RAFT:同样的,进行动态采样(学有对有错的题目);或者学全对的题目,也会很好;反之,学习
样本难度一比一比一配比:LightPPO
小红书的方法:

  1. 拿base模型rollout32次,一次都做不对的数据扔掉
  2. 先在全量数据上sft,将做不对的作为RL的训练样本
    R.Z的方法
  3. RL中混入数学数据集(GSM8K)效果可能会很好

clpo中提到, 可以使用模型自己的pass@k来衡量难度
JUSTRL中提到,或许没有任何trick也可以很好?

将训练数据集和测试集计算embedding相似度,进行筛选(见medical-gpt)

http://www.gsyq.cn/news/104619.html

相关文章:

  • 视觉opencv学习笔记Ⅴ-数据增强(2)
  • 最近在研究Amesim的电池热管理模块,发现这玩意儿真的挺有意思。如果你也在搞这块,可能会遇到一些坑,今天就来聊聊我的一些学习心得,顺便分享几个模型
  • 2025年12月干冰批发公司综合实力排行榜:专业评测对比分析与选购决策指南 - 品牌推荐
  • PyTorch安装失败?试试这个预配置CUDA工具链的基础镜像
  • LobeChat能否实现负载均衡?高可用架构设计建议
  • Miniconda安装后无法使用conda命令?原因与解决方法
  • LangChain实战快速入门笔记(三)--LangChain使用之Memory
  • Google搜索排名的CTR真相:为什么第一名这么重要?AI出海必看
  • Locust:可能是一款最被低估的压测工具
  • vLLM vs 传统推理框架:性能对比实测报告
  • 2025年12月深圳劳动仲裁律师推荐榜:专业能力与服务价值综合评测指南 - 品牌推荐
  • 2025年五大有名的品牌背书公司推荐,专业品牌口碑背书企业全 - myqiye
  • 2025绿色环保充电桩厂家TOP5权威推荐:助力新能源充电生 - 工业品牌热点
  • 使用pip install pytorch时报错?试试官方镜像源替换
  • ensp下载官网功能类比:网络仿真与AI推理有何共通点?
  • 2025年12月徐州风味汤底/复合调味料/火锅底料供应商专业测评 - 2025年品牌推荐榜
  • kettle调度系统- kettle文件资源库,轻松解决团队协作和脚本版本管理问题
  • 2025国产操作系统五大品牌盘点: 桌面端首选麒麟、统信、鸿蒙,哪些系统真正“好用”? - 资讯焦点
  • 免费下载Seed-Coder-8B-Base镜像,开启本地代码生成新时代
  • 2025年南京及周边地区推荐PDQ展箱厂家TOP5排行榜,精 - 工业品牌热点
  • 4.13、不信任,只验证:零信任架构在攻防中的实践
  • 2025静脉曲张袜真实测评十大品牌排行榜 - 资讯焦点
  • 2025年十大品牌传播权威服务商排行榜:品牌未来资金实力如何 - mypinpai
  • 4.14、云原生安全攻防:容器与 Kubernetes 的脆弱点
  • 水闸安全自动化监测系统主要应用场景
  • (开题报告/毕业设计)基于springboot+vue智慧校园管理系统毕业项目源代码
  • 制造行业项目管理工具选型经验分享(简直是高效选型指南,少走弯路)
  • Ubuntu安装后必做的10项配置,包括PyTorch环境准备
  • 全自动咖啡机有哪些品牌?国内外热门品牌推荐 - 品牌排行榜
  • (毕业设计/开题报告)基于Android Studio开发的个人理财APP 毕设源码