当前位置: 首页 > news >正文

CMU团队提出RT-VLA:双分支解耦+多级蒸馏,让端到端自动驾驶模型提速44倍!

大模型当老师,小模型跑车上

目录

01 双分支解耦+多级蒸馏

02 性能小幅衰减,效率实现跨越式提升

03 行业定位与技术思辨

04 写在最后


在自动驾驶领域,VLA模型凭借感知、推理、决策一体化的能力,成为端到端自动驾驶的主流技术方向。

但主流大尺寸VLA模型依赖重型骨干网络与自回归推理逻辑,推理延迟居高不下,很难在车流密集、路况多变的城市道路实现实时响应。

卡内基梅隆大学团队推出的RT-VLA,创新性采用多级知识蒸馏+双分支解耦方案,在保留原有驾驶性能与语言解释能力的前提下,大幅压缩推理耗时,为高性能VLA模型走向车载量产提供了可行路径。

该方案区别于传统单一输出蒸馏的轻量化思路,从视觉、特征、轨迹、语言多维度迁移大模型能力,同时将实时驾驶与离线语言推理拆分,有效平衡了模型效率与可解释性。

01 双分支解耦+多级蒸馏

RT-VLA 整体由冻结的大型教师模型 SimLingo轻量化学生模型构成,核心设计分为双分支运行架构与分层蒸馏训练体系,摒弃了传统VLA模型推理、解释模块绑定的模式。

图 | RT-VLA学生模型整体架构

学生模型分为实时驾驶分支离线语言推理分支,两套分支共享视觉编码模块,实现特征复用。

  • 实时驾驶分支作为核心运行链路,选用轻量化EVA-02视觉编码器替代教师端的InternVL-2,结合可学习查询、路径与速度嵌入向量,直接输出几何轨迹点和时序速度指令,全程无自回归运算,以此保障毫秒级推理速度。
  • 语言推理分支为辅助模块,通过Perceiver重采样器压缩视觉特征,搭配小型Llama语言模块生成驾驶解说与决策说明。在车辆正常行驶时,该分支处于休眠状态;仅在故障复盘、行为分析等场景下,调用历史观测数据离线运行,彻底规避语言自回归带来的额外延迟。

图 | 多级蒸馏与在线微调框架

为缩小师生模型之间的能力差距,研究团队设计了全链路多级蒸馏策略,不再局限于最终动作输出。

训练阶段全程冻结SimLingo教师模型,从四个维度构建损失函数,完成知识迁移。由于师生模型的特征维度、序列长度存在差异,模型引入适配算子完成维度与序列对齐,再分别计算视觉特征损失、查询特征损失、轨迹预测损失与语言对数概率损失。

整套训练流程分为两个阶段:第一阶段优先优化驾驶相关损失,夯实模型行车能力;第二阶段冻结驾驶分支,单独微调语言模块。在此基础上,团队补充在线语言微调,让学生模型基于自身生成的文本继续学习,进一步弥合训练与推理之间的分布偏差。

02 性能小幅衰减,效率实现跨越式提升

本次实验基于CARLA仿真平台的Bench2Drive数据集开展,选取SimLingo、SimLingo-BASE作为横向对比对象,从驾驶得分、单帧推理耗时、语言解说质量三大维度完成评测,测试硬件统一为NVIDIA A100 40GB显卡。

图 | Bench2Drive数据集综合性能对比

从核心数据来看,RT-VLA在性能与效率之间取得了理想平衡。

纯视觉驾驶模式下,模型单帧推理耗时仅34.48毫秒,对比原版SimLingo的1544.34毫秒,提速达到44.8倍;启用视觉加语言全功能模式后,耗时为196毫秒,依旧实现7.9倍加速。

即便和轻量化基线SimLingo-BASE相比,推理速度也提升19%,延迟表现完全满足车载实时控制的硬性要求。

性能层面,RT-VLA驾驶得分为85.19分,略高于SimLingo的85.07分,与不带语言模块的SimLingo-BASE(85.94分)仅相差0.75分。语言解说评分50.9分,相比教师模型51.8分的分数差距极小,说明多级蒸馏完整继承了原模型的语言推理能力。

需要客观看待的是,该组实验均在仿真环境中完成,数据集路况、光照、干扰因素经过标准化处理,和真实复杂道路存在域偏差,仿真高分不能直接等同于实车表现,仅能证明算法架构的有效性。

为进一步验证蒸馏与微调模块的必要性,团队设置多组消融实验,直观展示各组件的作用。

图 | 蒸馏与在线语言微调消融实验

实验结果清晰体现了核心模块的价值:

未使用蒸馏的原生轻量化模型,驾驶得分仅34.05分,语言评分44.6分,单纯缩小模型规模无法习得有效的驾驶策略;加入多级蒸馏后,驾驶得分飙升至85.17分,语言能力同步提升,证明跨层级知识迁移是轻量化模型复刻大模型能力的关键;追加在线语言微调后,语言解说质量提升至50.9分,驾驶性能保持稳定,补齐了文本生成环节的分布缺陷。

除量化数据外,团队还开展闭环实景对比测试。

在驶出车位、高速变道两大典型场景中,RT-VLA的响应速度优势十分明显。驶出车位场景里,RT-VLA在1.5秒就完成避障并汇入车流,而SimLingo因延迟问题,27.5秒仍未完成操作;高速变道场景中,RT-VLA同样能更快完成轨迹调整。同时,模型支持离线语言解释功能,针对偏离路线、闯红灯、追尾等典型故障,可自动描述场景与行为,为模型迭代、故障溯源提供支撑。

图 | 闭环驾驶场景定性对比

03 行业定位与技术思辨

当前自动驾驶VLA模型的轻量化路线主要分为两类:

一类是网络剪枝、量化等传统模型压缩手段,操作简单,但容易破坏模型特征表达能力,造成性能大幅下滑;

另一类便是知识蒸馏,也是行业主流探索方向。

RT-VLA的差异化在于,多数蒸馏方案仅聚焦动作输出迁移,而该模型打通视觉、中间特征、轨迹、语言全链路,同时用分支解耦的方式隔离实时任务与解释任务,解决了“可解释性”和“低延迟”难以共存的行业难题,为VLA模型落地提供了新范式。

图 | 驾驶异常场景的离线语言解释示例

结合论文内容与行业现状,该方案的短板也较为突出。

首先,模型仅采用单目相机作为感知硬件,未融合激光雷达、毫米波雷达,在雨、雾、弱光等恶劣环境下,感知鲁棒性会明显下降。

其次,模型训练与测试全部依托仿真平台,仿真场景与真实路况存在天然差距,落地前需要完成大量真实场景适配与数据迭代。

最后,整套训练体系仅以模仿学习、蒸馏学习为主,未引入显式安全约束优化,面对极端突发场景,依旧存在碰撞等安全风险。这些问题也是目前多数仿真训练自动驾驶模型的共性短板。

04 写在最后

RT-VLA的核心价值,是用多级监督蒸馏结合分支解耦架构,破解了高端VLA模型“性能强但延迟高,无法落地”的行业痛点。它没有为了极致速度过度牺牲模型能力,而是通过分层知识迁移,让轻量化模型完整继承大模型的驾驶逻辑与语言推理能力,同时依靠架构拆分,实现实时控制与离线解释各司其职。

结合现有能力来看,该模型现阶段更适配园区接驳车、低速通勤车等封闭、半封闭自动驾驶场景,这类场景车速低、路况简单,对延迟和行为溯源需求较高。后续若补齐多传感器融合、安全约束优化、真实场景域适配等能力,有机会向城市乘用车领域延伸。

整体而言,RT-VLA不仅为自动驾驶VLA模型提供了轻量化落地思路,其多级蒸馏与分支解耦的设计,也可迁移至机器人、智能座舱等其他大模型应用场景,具备较强的参考价值。

http://www.gsyq.cn/news/1595335.html

相关文章:

  • 太流批了,断网神器
  • 目前正规的AI智能体APP哪家专业
  • 树莓派远程访问新方案:Raspberry Pi Connect零配置实战指南
  • 企业级智能体推荐|当业务跑在技术前面,九科信息智能体bit-Agent如何让创新不再等待
  • 汝南抓药实测:这两家药材最地道
  • 2026年AI爆发,小白也能轻松上手!收藏这些实用工具,让你不被时代抛下!
  • 登录页面跳转
  • 零门槛AI翻唱终极指南:用AICoverGen让任何人声唱任何歌
  • 【Springboot毕设全套源码+文档】基于SpringBoot的招聘系统的设计与实现(丰富项目+远程调试+讲解+定制)
  • JPEXS FFDec:5个步骤掌握Flash逆向工程与SWF文件反编译
  • 高层小区二次供水泵房物联网系统方案
  • CBCX外汇平台结构清楚吗?
  • 微信聊天记录如何永久保存?这份数字记忆守护指南让你告别遗憾
  • 实战案例:创建一个基础聊天机器人
  • 树莓派5 AI推理环境搭建:Hailo NPU硬件选型与组装避坑指南
  • 工业设备数据采集的解决方案
  • from langchain_openai import ChatOpenAI
  • 内景 展馆博物馆模型
  • 单目标跟踪算法Transformer 之VitTrack
  • 高频PCB干扰产生机理与三要素底层拆解
  • 郑州金水区代账
  • Kali Linux实战:用SEToolkit克隆Pikachu靶场,模拟钓鱼攻击与防御
  • 油田厂区防爆照明工程 LED 灯管选型适配规范参考
  • 国内高校毕业生高频使用的AI论文平台是哪款?
  • 2026年党建展厅设计趋势与标杆案例:当红色文化遇见数字科技
  • 错分样本到超平面距离作为损失函数的感知器准则函数 误差反馈学习机制的感知器神经元模型
  • 庆阳国考课程深度测评:3家靠谱机构横向对比,选课避坑必看!
  • 抖音批量下载器:5分钟掌握专业级素材收集方案
  • 5分钟终极指南:用DLSS Swapper轻松升级游戏画质与性能
  • AlienFX-Tools:开源Alienware设备控制与性能优化解决方案