当前位置: 首页 > news >正文

VLA-Adapter论文解读(二):三大关键发现

论文链接:[2509.09372] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action ModelAbstract page for arXiv paper 2509.09372: VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Modelhttps://arxiv.org/abs/2509.09372

项目主页:VLA-Adapter

一、引言

尽管现有的VLA模型设计当中均采用了VL到A的各种桥接范式,但是关于如何将VL表征映射到动作空间是一个核心问题。目前几乎所有的方法都默认使用VLM最后一层特征作为动作生成的输入。然而,动作生成与图文检索有着本质的不同,动作需要细粒度的空间信息,而深层特征为了服务语义理解,已经丢失了这些细节。因此,论文作者详细探究了以下两个问题:

问题一:VLM内部的哪一层特征对Policy网络更有效?

问题二:ActionQuery特征是否比Raw特征更好的选择?

这两个问题属于论文的核心驱动,作者通过回答了这两个问题,得到了上一节提到的“三大关键发现”,并最终确定了VLA-Adapter的架构设计。

二、实验设计

2.1 两类特征

特征类型符号来源特点
Raw特征VLM前向传播的中间层输出

来自预训练VLM,

被动提供

ActionQuery特征可学习token插入VLM末尾从零训练,主动优化

2.2 四种条件配置

配置特征类型层级图示对应
aRaw单层(分别测试第1、8、9、13、17、21、24层)图a
bAQ单层(分别测试第1、8、13、17、21、24层)图b
cRaw全层(1-24层逐层对齐)图c
dAQ全层(1-24层逐层对齐)图d

2.3 评估基准:LIBERO-Long

论文的VLA-Adapter框架在LIBERO-Long中评估了四种条件,图中蓝色和绿色线条分别表示为单层和单层。蓝色和绿色柱状图分别为全层和全层

三、三大关键发现

  • 发现一:Raw特征中间层最优
Raw层数10任务平均成功率Subtask 7Subtask 9
187.6%78%92%
889.8%94%84%
9-1388-90%82-90%74-84%
2485.8%88%56%
全层融合96.6%96%96%

中间层效果最好,浅层信息太原始,缺少语义;深层过于抽象,丢失了空间细节。动作生成需要在‘看得清’和‘看得懂’之间找到平衡——中间层恰好提供了平衡点。

  • 发现二:AQ特征深层层最优
AQ层数10任务平均成功率Subtask 7Subtask 9
178.2%76%78%
1386.8%66%58%
2490.2%74%84%
全层融合92.6%96%96%

AQ是从零开始学习的可查询tokjen,它需要经过足够多的Transformer层才能充分聚合多模态信息。

  • 发现三:多层特征>单层特征
特征类型单层最优全层融合提升幅度
Raw89.8%96.6%+6.8%
AQ90.2%92.6%+2.4%

全层融合性能更好,更稳健——避免了单层在某些任务上表现极差的风险,还省去了手工选层的麻烦。

四、总结

VLA-Adpter的三大关键发现:动作生成需要‘中间层的视觉细节’+‘深层的任务语义’+‘全层的丰富信息’——三者缺一不可。这三条发现可以直接推导出Bridge Attention的设计,并且也解释了为什么0.5B模型可以跑出SOTA性能的原因。

http://www.gsyq.cn/news/1610929.html

相关文章:

  • Advanced XRay技术深度解析:如何通过方块渲染优化实现高效矿石定位
  • 灵衢协议学习——物理层(三)
  • 抖音内容保存终极指南:douyin-downloader让你的收藏变得轻松高效
  • 【数字孪生国标落地第一个月,我给新能源行业测了测段位】
  • 虚拟摇杆vJoy:Windows游戏控制器模拟的技术深度解析
  • 智慧矿场施工状态监测 推土机识别 装载机数据集 挖掘机等工程机械数据集第10096期
  • .NET 8加持:C#上位机调用国产PLC运动控制指令实战
  • lac_agent自愈链路上篇——crontab守护的那些坑与健康检查实战
  • YOLOv8一站式实战:图像分类、目标检测与实例分割全解析
  • 海上船舶识别数据集 渔船监测 货船识别 游艇数据集 油轮识别图像数据集 船舶类分类和测数据集 数据集第10163期 数字化智能化识别数据集
  • 如何用ShaderGlass为Windows桌面添加实时GPU着色器效果
  • 想做 AI 时代的 FDE?先过三关:找行业、定方向、以身入局
  • 3.2 APP测试实战:功能、性能与ADB全解析
  • 卡在 FDE 入门的哪一步了?先判断该扛还是该换
  • AUTOSAR E2E Profile规范介绍
  • 战略升级!从传统定位到数字定位
  • 终极Windows窗口强制调整工具:轻松解决顽固窗口大小问题
  • Python之yandex-annlib包语法、参数和实际应用案例
  • 数字校园SQL注入防御:从原理到实战的纵深检测与动态响应体系
  • Windows系统文件hidserv.dll丢失找不到问题解决
  • 数据分析师成长路径:从思维到工具,构建解决实际问题的核心能力
  • ai-image-gen-mcp MCP 服务说明文档
  • DART:采样两份草稿估计思考预算,节省 67% token 效果还更好
  • 机器学习与模式识别 第一章 机器学习导论 考点压缩
  • 数据安全检查,这3个API盲区最容易被问穿
  • 基于改进YOLOv8与无人机航拍的电动自行车违规行为智能检测系统实战
  • 别再傻傻手写了!Python一行代码判断是不是数字,爽到飞起
  • 如何免费使用Outfit字体:9种字重打造专业品牌设计的完整指南
  • File和IO
  • 与你的 Elasticsearch 数据对话:使用 Google ADK 和 MCP 构建一个实时语音 agent ,分为 3 个组件