当前位置: 首页 > news >正文

自动驾驶调研-Day3

关于 WAM

一般说法是,VLA 输出只看 action ,world model 只预测未来世界状态。

既预测 action 又预测未来世界状态的叫 WAM。

相比 VA,WAM 不一定用视频模态来表示世界状态,也可能是点云什么的。

WAM 关注当前观察 o、语言指令 l、未来观察 o' 和动作 a 之间的联合关系:p(o', a \mid o, l)

[2605.12090] World Action Models: The Next Frontier in Embodied AI 这篇综述将 WAM 按照“先预测 o' 再生成 a” 还是 “同时推理 o' 和 a” 分成了级联 WAM 和 联合 WAM。

(1)级联 WAM (Cascaded WAM)显式地分解了该目标,形式化为 $p(o', a \mid o, l) = p(a \mid o', o, l)p(o' \mid o, l)$,即首先合成对预期未来状态的表示,随后从中推导出动作;

(2)联合 WAM (Joint WAM)直接对联合分布($p(o', a \mid o, l)$)进行建模,其中状态预测和动作生成在一个共享的表示空间内进行协同优化(这些架构的时间演变可参见相应的结构图)。

这篇综述还进行了二级分类,我在分类基础上补充了对各种流派优劣势的分析:

类别名代表工作优点及分析缺点及分析
显式级联UniPi、VLP、RoboEnvision、TesserAct、MVISTA-4D、Gen2Act、Veo-Act核心优点:可解释性强,因为模型的中间规划就是可直接查看的未来图像、视频或 RGB-D。
范式原生分析:该范式把决策分解为o,l→o′→ao,l \rightarrow o' \rightarrow ao,l→o′→a。由于o′o'o′ 位于可观测空间,人的检查对象与模型规划对象一致,因此可以直接诊断世界预测是否合理。
工程优势:可复用现成视频生成模型或图像到视频模型。
核心缺点:误差会沿级联链路传递,第一阶段想错会直接误导第二阶段动作。
范式原生分析:第二阶段实际求解的是p(a∣o^′,o,l)p(a\mid \hat{o}',o,l)p(a∣o^′,o,l)。只要第一阶段预测o^′\hat{o}'o^′ 偏离任务真实可达未来,动作解码器就会在错误条件上生成动作。这个问题来自两阶段条件分解本身。
工程问题:视频生成慢、显存占用大、长视频质量不足属于当前实现问题,不是“显式级联”这个范式必然要求。
几何级联AVDC、Im2Flow2Act、3DFlowAction、Dream2Flow、Dreamitate、RIGVid、LV-P核心优点:动作恢复更有物理结构,因为中间变量直接是光流、3D 流、物体姿态或轨迹。
范式原生分析:该范式引入几何变量ggg,把动作恢复近似为o′→g→ao' \rightarrow g \rightarrow ao′→g→a。当ggg 与末端执行器位姿、物体位移或接触轨迹直接相关时,动作搜索空间被结构化压缩,解码更受运动学约束。
核心缺点:几何瓶颈会丢失无法由所选几何变量表达的任务信息。
范式原生分析:该范式默认存在充分的几何摘要ggg。但接触力、材质、遮挡下的真实位姿、非刚体形变、语义目标等不一定能被光流或刚体姿态完整表示,因此ggg 可能不是动作的充分统计量。
工程问题:深度估计、点跟踪、分割、姿态估计模块不稳定,是具体感知栈的工程问题。
隐式级联VPP、S-VAM(SOTA)、Video Policy、mimic-video、MWM(最新)、OmniVTA、LAPA、villa-X核心优点:效率更高,因为模型不必完整生成像素未来。
范式原生分析:该范式形成o,l→z′→ao,l \rightarrow z' \rightarrow ao,l→z′→a,用潜在变量z′z'z′ 替代显式未来观察。如果z′z'z′ 保留任务相关动力学并丢弃纹理、光照、背景等无关视觉细节,动作头获得的是更紧凑的条件变量,统计效率和推理效率都会提高。
核心缺点:可解释性弱,因为潜在规划不是人可直接验证的物理量。
范式原生分析:z′z'z′ 不是可观察的图像、轨迹或姿态,因此无法直接判断“模型想象的未来是否合理”。如果潜在空间没有与可执行动作对齐,动作头可能读到对控制无用的压缩特征。
工程问题:潜在空间是否对齐动作,更多取决于预训练目标、蒸馏策略、数据覆盖和动作监督设计。
自回归联合GR-1、GR-MG、GR-2、CoT-VLA、WorldVLA、RynnVLA-002、VLA-JEPA(SOTA / 最新)核心优点:统一序列建模方便,因为语言、视觉和动作都可以放进同一个上下文生成过程。
范式原生分析:自回归分解为p(x1:T)=∏tp(xt∣x1:t−1)p(x_{1:T})=\prod_t p(x_t\mid x_{1:t-1})p(x1:T​)=∏t​p(xt​∣x1:t−1​)。这种因果分解天然适合长时程上下文、步骤化推理和 history-conditioned policy;动作 token 可以条件于此前生成或观测到的世界 token。
核心缺点:误差累积和逐 token 延迟是自回归联合的天然瓶颈。
范式原生分析:每一步都以历史生成值为条件,早期视觉或动作 token 一旦错误,后续条件分布会被污染,从而产生 compounding error。同时序列必须逐步生成,推理时间随 token 数增长,天然不利于高频控制。
工程问题:KV cache、speculative decoding、并行动作头等可以缓解延迟,但不能消除自回归因果链带来的根本限制。
扩散联合PAD、VideoVLA、UWM、DreamZero、Cosmos Policy(SOTA)、FLARE、FRAPPE、CoVAR、DiT4DiT(最新)、UVA、PhysGen核心优点:更适合连续动作和多峰未来,因为扩散/流匹配直接在连续空间建模整段联合分布。
范式原生分析:扩散或流匹配直接建模(o1:T′,a1:T)(o'_{1:T},a_{1:T})(o1:T′​,a1:T​) 的联合分布,不必把动作离散成 token;去噪过程可以从噪声中并行细化整段未来,因此更适合多模态动作分布和连续控制。
核心缺点:生成成本高,且世界目标可能和动作目标竞争。
范式原生分析:去噪或流匹配需要反复调用生成网络,这是生成机制带来的原生成本。联合训练优化Lworld+Laction\mathcal{L}_{world}+\mathcal{L}_{action}Lworld​+Laction​,如果世界重建项主导梯度,模型可能优先生成视觉上合理的未来,而不是控制上最有用的未来。
工程问题:采样步数过多、模型过大、蒸馏不足、损失权重没调好,是当前实现层面的工程问题。

个人比较看好隐式级联和联合(SOTA 和 最新 是 GPT-5.5 标的,如果和文章 claim 有冲突还请轻喷),调研了下这三种范式在自动驾驶中的应用,果不其然都有一些。

WAM 工作核心创新点自动驾驶中是否已有类似工作对应关系
S-VAM用自蒸馏把多步视频生成压缩成单步 latent foresight,并解耦几何/语义表征。有相近工作,但不完全一样。自动驾驶已有 latent future / BEV future world model,例如 DriveWorld-VLA、Latent-WAM、DriveFuture。它们同样避免完整像素 rollout,转向规划相关 latent。但 S-VAM 的“从多步视频扩散自蒸馏到单步几何+语义 foresight”在自动驾驶里还不是主流标准做法。
MWM不预测 RGB,而预测语义/掩码/结构化 future latent,并用它条件化动作扩散头。非常类似,自动驾驶本来就有。自动驾驶长期使用 BEV occupancy、semantic map、4D occupancy forecasting 作为 planning-friendly world state。类似工作包括 Drive-OccWorld、BEVWorld、IR-WM。这和 MWM 的“别生成好看的 RGB,生成对规划有用的语义/几何状态”高度一致。
VLA-JEPAJEPA 式 latent prediction:不重建像素,只预测未来高层表示,再服务动作。已经有直接对应。Drive-JEPA 基本就是把 V-JEPA 思路迁移到自动驾驶:用大规模驾驶视频预训练 planning-aligned predictive representations,再接轨迹 proposal/planner。Meta 的 V-JEPA 本身也强调 latent-space prediction 而非 pixel reconstruction。
Cosmos Policy把视频基础模型直接 fine-tune 成 policy + world model + value function,用 latent frame injection 表示动作、状态和价值。有相近方向,但驾驶里还少见完全同构实现。自动驾驶已有 world model + planning / value / trajectory selection 的组合,例如 DriveFuture、DriveWorld-VLA、Diffusion Planner。但 Cosmos Policy 的关键是“在同一个视频 diffusion latent sequence 中塞入 action、proprioception、future value”,驾驶里更多是 BEV latent、occupancy cost、trajectory scorer,还没有完全等价的 Cosmos-style latent frame injection。
DiT4DiT世界 DiT 产生 hidden states,动作 DiT 读取这些 hidden states 生成动作。已经非常接近。自动驾驶里已有双 DiT / world-action diffusion 架构。例如 Epona 用 VisDiT 和 TrajDiT 分别生成未来视觉和轨迹;Diffusion Transformer World-Action Model for AV Scene Prediction 做 action-conditioned future scene latent prediction;Diffusion Planner 则说明 DiT 轨迹生成在驾驶规划中已经很成熟。

----

关于任务场景、架构、流派什么的比较meta 的东西就调研到这里。接下来的内容由具体问题引出。

----

既然共识是图文模态的预训练对驾驶任务有增益,图文模态的数据对驾驶任务的影响应该有人研究过。

VL 数据对推理驾驶 action 有增益吗?

在 VLM(视觉语言模型)的预训练或微调阶段,注入自动驾驶专用的图文或视频-文本数据(Driving-specific Image-Text Data),不仅能让模型学会“解释”场景,还能直接且显著地提升下游自动驾驶 Benchmark(如开环轨迹预测、闭环仿真驾驶)的硬性性能指标。

核心代表工作与模型

  • DriveLM (OpenDriveLab & 清华):
    • 做法:提出了图结构的视觉问答(Graph VQA)机制,将驾驶逻辑拆解为带有逻辑递进关系的“感知 (Perception) -> 预测 (Prediction) -> 规划 (Planning)”。
    • 性能表现:研究表明,联合训练这些带有因果关系的图文数据,相比于纯视觉端到端模型,在 nuScenes 等开环 Benchmark 上的规划位移误差(L2 Error)和碰撞率显著降低
  • Lingo-1 & Lingo-2 (Wayve):
    • 做法:引入了“视觉-语言-动作 (VLA)”架构,使用了包含人类专家驾驶员“自然语言解说 (Commentary)”的视频-文本数据进行训练。模型不仅学习输出控制信号,还学习同步解释“我现在为什么这么开”。
    • 性能表现:在闭环驾驶评测中,引入这种语言条件和图文对齐后,车辆的违规率大幅下降,路线完成率(Route Completion)显著提升。文本数据作为一种强监督信号,帮助模型更好地对齐了视觉特征与驾驶意图。
  • DriveVLM & DriveGPT4:
    • 做法:引入了思维链(Chain-of-Thought, CoT)的自动驾驶图文微调数据。训练 VLM 先用语言描述场景、识别关键障碍物,再推理风险,最后输出控制规划。
    • 性能表现:这种基于图文数据的训练极大地提升了模型在长尾场景(Long-tail Scenarios)(如路面异物、极端天气、非常规形态车辆)下的鲁棒性,在感知和规划 Benchmark 上的安全指标有明显跃升。
  • VERDI 等蒸馏架构 (最新研究):
    • 做法:并非直接用巨大的 VLM 开车,而是在训练阶段,将 VLM 对驾驶图文数据的理解和推理能力“蒸馏”到小参数的端到端(e2e)驾驶模块中。
    • 性能表现:在 HugSim 或 CARLA 等闭环仿真器中,相比于没有融合语言推理的基础模型,无碰撞率(Non-Collision Rate)通常能获得10% 以上的提升
http://www.gsyq.cn/news/1545241.html

相关文章:

  • 采购难题终结者,规格齐全的17-4Ph不锈钢厂商在此 - 品牌2026
  • ZLUDA实战指南:在Intel显卡上运行CUDA应用的深度解决方案
  • CF2232D题解
  • 架构师视界 | 基于 Docker 的全栈边缘计算视频中台:解耦 GB28181/RTSP 协议,源码交付如何助力企业节省 95% 开发成本?
  • 2026年6月!绍兴做GEO优化的公司怎么选?5个判断标准避坑不踩雷 - 936品牌测评网
  • Ubuntu终端效率革命:从Terminator到ZSH的完整配置指南
  • 为什么越干净的价格数据,越让机器学习模型亏钱?
  • SHAP解释性实战:从原理到电信流失预测的全流程避坑指南
  • 5步实战部署DeepCode:从零构建AI智能体编程平台
  • GB/T 4857.17-2017标准简介
  • Visual C++运行库终极解决方案:AIO一键修复Windows程序运行问题
  • 微生物菌种采购新趋势:如何科学选择优质供应商
  • 工业遗留系统维护:从qmp32.dll缺失看DLL依赖与安全获取方案
  • 2026反向海淘业务复盘:垂直品类选品+代购系统架构落地+类目优化技术
  • 企业落地 AI Agent Harness Engineering 的第一个坑:说人话的需求与机器的工作流
  • cursor如何打开一个remote ssh
  • Kodiak如何借助AI与概率风险评估保障自动驾驶卡车安全
  • 无锡哪家羽毛球馆高手多
  • 3分钟搞定!macOS上QQ音乐加密文件批量解密终极指南
  • 抖音视频去水印:开源工具如何三步实现纯净视频下载?
  • 让撤回功能失效:揭秘微信QQ防撤回补丁的技术原理与实战指南
  • Java毕设选题推荐:基于 Spring Boot 的高校纵向科研项目信息管理系统的设计与实现 基于 Spring Boot 的校级纵向科研课题【附源码、mysql、文档、调试+代码讲解+全bao等】
  • 从写Prompt到设计Loop:真正让Agent干完活的,是一个会自我纠错的闭环
  • OBS Studio深度故障排查:从崩溃根源到专业修复的进阶指南
  • Windows Defender高效禁用终极指南:no-defender专业解决方案深度解析
  • 088、PCIE ASPM状态:L0s、L1、L2/L3——一次链路唤醒失败的排查手记
  • 2026年中清远液态光学产品直销工厂综合实力分析 - 品牌鉴赏官2026
  • 深度技术解析:Moonlight-Switch跨平台游戏串流配置优化指南
  • okbiye AI PPT 生成器实测解析:四步零门槛打造答辩汇报幻灯片,告别熬夜排版难题
  • 2026 年 6 月最新!浙江 GEO 优化公司哪家靠谱?2026 本地服务商实力对比全解析 - 936品牌测评网