当前位置：首页 > news >正文

Rollout

news 2026/6/7 19:46:32

在强化学习（Reinforcement Learning, RL）中，Rollout（通常译为“轨迹采样”或“试错展开”）是一个极度高频的核心术语。

简单来说，Rollout 就是让智能体（Agent）按照当前的策略（Policy），在环境（Environment）中真正地跑一遍，从而收集一段“状态-动作-奖励”的实际运行轨迹。

它是强化学习连接“虚拟策略”与“现实反馈”的桥梁。

一个标准的 Rollout 过程是一个循环的、时间序列的时间步（Time-steps）展开。在一个 Episode（回合）中，Rollout 包含以下链条：

这个过程会一直持续，直到满足终止条件（比如游戏结束或达到最大步数TTT）。最终，这一次跑出来的完整数据序列：

τ=(s0,a0,r0,s1,a1,r1,…,sT)\tau = (s_0, a_0, r_0, s_1, a_1, r_1, \dots, s_T)τ=(s0,a0,r0,s1,a1,r1,…,sT)

就被称为一条Rollout Trajectory（轨迹）。

Rollout 在不同的强化学习范式里承担着完全不同的任务：

这类算法属于On-policy（同策略）算法。它们要求更新策略时所用的数据，必须是由当前最新策略生成的。

流程：策略πold\pi_{old}πold执行一波 Rollout→\rightarrow→收集到几千步的数据→\rightarrow→利用这些数据计算优势函数（Advantage）→\rightarrow→升级策略到πnew\pi_{new}πnew→\rightarrow→清空旧数据→\rightarrow→用πnew\pi_{new}πnew开启下一轮 Rollout。
在这些算法的代码实现中，通常会有一个专门的类或函数叫RolloutBuffer（轨迹缓存区），专门用来临时存放这些新鲜出炉的轨迹数据。

在 Model-Based RL 中，智能体内部学到了一个对真实世界建模的“世界模型”（World Model）。这时候，Rollout 不一定非要在真实的物理世界里跑。

虚拟 Rollout（Imagination）：智能体可以在自己大脑的虚拟网络中进行 Rollout。这使得它可以在不损耗现实机器人的情况下，在脑海里“预演”几十万步，极大地提高了样本效率。

在经典 MCTS 算法中，Rollout 专门指“快速走子评估”。

在实际的工业级 RL（如星际争霸 AI、大语言模型的 RLHF 阶段、或者复杂的工业控制）中，单进程跑 Rollout 慢得令人发指，因为环境推进（比如渲染游戏画面或物理引擎计算）往往是算力的瓶颈。

为了打破这个瓶颈，现代 RL 框架（如 Ray/RLLib, Stable-Baselines3, cleanrl）普遍采用Actor-Learner 架构：

Rollout Workers (Actors)：启动几十甚至上百个并行的 CPU/GPU 进程，每个进程各开一个环境。它们只负责从中央服务器下载最新的策略权重，然后在各自的环境里疯狂跑 Rollout，收集海量的轨迹数据。
Central Learner (Learner)：站在后方，专门负责接收四面八方传回来的 Rollout 数据，拼成大的大批次（Batch），然后用 GPU 猛烈进行梯度下降更新策略权重，更新后再同步给前方打工的 Workers。

这种“前方搜集数据，后方训练模型”的解耦，是强化学习能够吞噬海量算力的核心底层设计。