当前位置：首页 > news >正文

CMU团队提出RT-VLA：双分支解耦+多级蒸馏，让端到端自动驾驶模型提速44倍！

news 2026/6/26 20:04:44

「大模型当老师，小模型跑车上」

01 双分支解耦+多级蒸馏

02 性能小幅衰减，效率实现跨越式提升

03 行业定位与技术思辨

04 写在最后

在自动驾驶领域，VLA模型凭借感知、推理、决策一体化的能力，成为端到端自动驾驶的主流技术方向。

但主流大尺寸VLA模型依赖重型骨干网络与自回归推理逻辑，推理延迟居高不下，很难在车流密集、路况多变的城市道路实现实时响应。

卡内基梅隆大学团队推出的RT-VLA，创新性采用多级知识蒸馏+双分支解耦方案，在保留原有驾驶性能与语言解释能力的前提下，大幅压缩推理耗时，为高性能VLA模型走向车载量产提供了可行路径。

该方案区别于传统单一输出蒸馏的轻量化思路，从视觉、特征、轨迹、语言多维度迁移大模型能力，同时将实时驾驶与离线语言推理拆分，有效平衡了模型效率与可解释性。

01 双分支解耦+多级蒸馏

RT-VLA 整体由冻结的大型教师模型 SimLingo和轻量化学生模型构成，核心设计分为双分支运行架构与分层蒸馏训练体系，摒弃了传统VLA模型推理、解释模块绑定的模式。

图 | RT-VLA学生模型整体架构

学生模型分为实时驾驶分支和离线语言推理分支，两套分支共享视觉编码模块，实现特征复用。

实时驾驶分支作为核心运行链路，选用轻量化EVA-02视觉编码器替代教师端的InternVL-2，结合可学习查询、路径与速度嵌入向量，直接输出几何轨迹点和时序速度指令，全程无自回归运算，以此保障毫秒级推理速度。
语言推理分支为辅助模块，通过Perceiver重采样器压缩视觉特征，搭配小型Llama语言模块生成驾驶解说与决策说明。在车辆正常行驶时，该分支处于休眠状态；仅在故障复盘、行为分析等场景下，调用历史观测数据离线运行，彻底规避语言自回归带来的额外延迟。

图 | 多级蒸馏与在线微调框架

为缩小师生模型之间的能力差距，研究团队设计了全链路多级蒸馏策略，不再局限于最终动作输出。

训练阶段全程冻结SimLingo教师模型，从四个维度构建损失函数，完成知识迁移。由于师生模型的特征维度、序列长度存在差异，模型引入适配算子完成维度与序列对齐，再分别计算视觉特征损失、查询特征损失、轨迹预测损失与语言对数概率损失。

整套训练流程分为两个阶段：第一阶段优先优化驾驶相关损失，夯实模型行车能力；第二阶段冻结驾驶分支，单独微调语言模块。在此基础上，团队补充在线语言微调，让学生模型基于自身生成的文本继续学习，进一步弥合训练与推理之间的分布偏差。

02 性能小幅衰减，效率实现跨越式提升

本次实验基于CARLA仿真平台的Bench2Drive数据集开展，选取SimLingo、SimLingo-BASE作为横向对比对象，从驾驶得分、单帧推理耗时、语言解说质量三大维度完成评测，测试硬件统一为NVIDIA A100 40GB显卡。

图 | Bench2Drive数据集综合性能对比

从核心数据来看，RT-VLA在性能与效率之间取得了理想平衡。

纯视觉驾驶模式下，模型单帧推理耗时仅34.48毫秒，对比原版SimLingo的1544.34毫秒，提速达到44.8倍；启用视觉加语言全功能模式后，耗时为196毫秒，依旧实现7.9倍加速。

即便和轻量化基线SimLingo-BASE相比，推理速度也提升19%，延迟表现完全满足车载实时控制的硬性要求。

性能层面，RT-VLA驾驶得分为85.19分，略高于SimLingo的85.07分，与不带语言模块的SimLingo-BASE（85.94分）仅相差0.75分。语言解说评分50.9分，相比教师模型51.8分的分数差距极小，说明多级蒸馏完整继承了原模型的语言推理能力。

需要客观看待的是，该组实验均在仿真环境中完成，数据集路况、光照、干扰因素经过标准化处理，和真实复杂道路存在域偏差，仿真高分不能直接等同于实车表现，仅能证明算法架构的有效性。

为进一步验证蒸馏与微调模块的必要性，团队设置多组消融实验，直观展示各组件的作用。

图 | 蒸馏与在线语言微调消融实验

实验结果清晰体现了核心模块的价值：

未使用蒸馏的原生轻量化模型，驾驶得分仅34.05分，语言评分44.6分，单纯缩小模型规模无法习得有效的驾驶策略；加入多级蒸馏后，驾驶得分飙升至85.17分，语言能力同步提升，证明跨层级知识迁移是轻量化模型复刻大模型能力的关键；追加在线语言微调后，语言解说质量提升至50.9分，驾驶性能保持稳定，补齐了文本生成环节的分布缺陷。

除量化数据外，团队还开展闭环实景对比测试。

在驶出车位、高速变道两大典型场景中，RT-VLA的响应速度优势十分明显。驶出车位场景里，RT-VLA在1.5秒就完成避障并汇入车流，而SimLingo因延迟问题，27.5秒仍未完成操作；高速变道场景中，RT-VLA同样能更快完成轨迹调整。同时，模型支持离线语言解释功能，针对偏离路线、闯红灯、追尾等典型故障，可自动描述场景与行为，为模型迭代、故障溯源提供支撑。

图 | 闭环驾驶场景定性对比