当前位置: 首页 > news >正文

虚拟机器人学习自然语言指令技术解析

虚拟机器人学习自然语言指令技术解析

研究背景

具身人工智能(EAI)旨在训练具身代理在交互式模拟环境中解决涉及导航和物体操作的复杂多模态任务。开发此类具身代理需要长时程规划、视觉与语言基础理解,以及开发高样本效率算法。

DialFRED:对话增强的具身指令跟随

基准数据集

DialFRED是一个具身指令跟随基准,包含53,000个人工标注的对话,使代理能够:

  1. 与用户进行主动对话
  2. 利用对话信息更好地完成任务

该数据集的源代码和数据集已公开,鼓励研究人员提出和评估对话增强的具身代理。

数据收集方法

采用新颖、低成本、可扩展的数据收集方法,通过某众包平台实现:

  • 向标注者展示任务视频演示
  • 视频在每个子任务开始时暂停
  • 标注者接收子任务指令并生成澄清问题
  • 标注者观看下一段视频并提出问题答案

对话生成框架

DialFRED采用提问者-执行者框架构建具身对话代理:

提问者模型

  • 使用人工标注对话会话进行预训练
  • 预测何时询问澄清问题
  • 生成与给定情境相关的问题
  • 通过强化学习微调,在适当时机提出合适问题

执行者模型

  • 利用问答信息(除原始任务指令外)
  • 生成完成任务的动作序列

该框架在未见验证集上达到33.6%的成功率,相比被动跟随指令模型的18.3%有显著提升。

感知可用性多模态神经SLAM

技术突破

首次提出同时使用视觉和语言进行探索的感知可用性神经SLAM模型,解决了具身任务中的规划和导航瓶颈。

方法架构

对于给定任务T,方法分为两个阶段:

探索阶段

  • 代理在给定低级语言指令下探索环境
  • 考虑先前探索动作和已访问观察区域
  • 多模态模块选择三种动作之一:前进、左转、右转

执行阶段

  • 使用在探索期间获取的语义地图
  • 规划模块处理导航子目标
  • 对象交互变换器处理其他子目标

性能表现

在ALFRED基准测试中,相比先前工作实现超过20%的绝对改进,达到19.95%的最新泛化性能。

技术影响

这些创新方法显著降低了样本复杂度,实现了高效的长时程规划,并促进了视觉与语言的基础理解,为具身人工智能的发展提供了重要技术支撑。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.gsyq.cn/news/16972.html

相关文章:

  • 用 Haskell 实现英文数字验证码识别
  • 实用指南:【结构型模式】代理模式
  • 深入解析:Kotlin 中companion object {} 什么时候触发
  • libopenssl-1_0_0-devel-1.0.2p RPM 包安装教程(openSUSE/SLES x86_64)​
  • API异常信息如何实时发送到钉钉 - 详解
  • 实用指南:解决 xmlsec.InternalError: (-1, ‘lxml xmlsec libxml2 library version mismatch‘)
  • 高质量同人动画整理回顾记录的方式
  • 加拿大加密货币牌照:合规化加速数字资产成功
  • 【Hexo】4.Hexo 博客文章进行加密 - 实践
  • 思考的动力
  • 星闪开发之Server-Client 指令交互控制OLED灯案例 - 教程
  • Baklib内容中台AI重构智能服务 - 实践
  • 计算机网络学习分享-0
  • 预科02git使用
  • 预科01Python学习
  • 实用指南:用PyTorch从零开始编写DeepSeek-V2
  • 博客迁移到CSDN!!!
  • 手动实现一个C++绑定Lua脚本的库
  • 图解C++智能指针的循环引用
  • 详细介绍:在机器视觉测量和机器视觉定位中,棋盘格标定如何影响精度
  • 题解:P11219 【MX-S4-T3】「yyOI R2」youyou 的序列 II
  • 前端HTML contenteditable 属性使用指南 - 教程
  • C++ list数据删除、list资料访问、list反转链表、list数据排序
  • DP分析黑科技——闫氏DP分析法
  • MUGEN游戏引擎等一系列相关杂谈
  • # 20232313 2025-2026-1 《网络与系统攻防技术》实验一实验报告 - 20232313
  • 完整教程:【无标题】
  • vector使用中的一个小问题
  • 一生一芯学习:PA2:输入输出
  • 深入解析:人工智能-Chain of Thought Prompting(思维链提示,简称CoT)