当前位置: 首页 > news >正文

视觉和语言 国防科大清华城市空间无人机导航推理!GeoNav:赋予多模态大模型地理空间推理能力,实现语言指令导向的空中目标导航 - MKT

image

 

image

 

arXiv-2024 | 具身智能体要上天!CITYNAV:基于地理信息的无人机视觉语言导航数据集

原文链接:CITYNAV: LANGUAGE-GOAL AERIAL NAVIGATION DATASET WITH GEOGRAPHIC INFORMATION (https://arxiv.org/pdf/2406.14240)

代码链接:https://water-cookie.github.io/city-nav-proj/

 

主要贡献
开发了一个基于浏览器的在线3D飞行模拟器,并与Amazon Mechanical Turk(MTurk)集成,用于收集大规模的人类标注的飞行轨迹。

引入了CityNav数据集,最新的无人机空中导航数据集,包含32,637个语言目标描述和人类演示轨迹,利用了真实城市的3D扫描及其地理信息。

提供了一个MGP(Map-based Goal Predictor)基线方法,用于城市规模的空中导航,该方法利用语义地图解释文本和地理地标的语义类别。

证明了无论是在正常还是在具有挑战性的条件下,在结合人类驱动策略和地理信息时,可以显著提高城市规模空中导航的性能,。
————————————————

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

原文链接:https://blog.csdn.net/weixin_37990186/article/details/144474816

 

 

 

 

 

 

 

image

 基于地图的目标预测器 (MGP) 是我们提出的模型,它结合了最先进的现成模型来执行基于地图的目标预测。它利用每个时间步生成的导航地图,通过以下三个步骤进行:

(i) 使用 GPT-3.5 Turbo 提取目标、地标和周围环境的名称;

(ii) 使用 GroundingDINO 和 Mobile-SAM 进行物体检测和分割;

(iii) 使用 LLaVA-1.6-34b 进行可选的坐标细化(使用标记集提示)。

地图编码器使用包含地标地图、视野和探索区域地图以及目标和周围环境地图的导航地图,并与跨模态注意力机制的 RGB 和深度编码器一起进行训练。

http://www.gsyq.cn/news/25765.html

相关文章:

  • Python理论题目集
  • 以太坊账⼾模型的理解,合约账⼾、EOA账⼾认识
  • [Tool] fzf 模糊搜索神器基础功能和操作
  • 身份运算符
  • 赋值运算符
  • 解释这些区块链核⼼概念:区块、交易、Merkle Tree、共识机制(PoW、PoS)、Gas Fee 原理1
  • 微信如何开通wx.getPhoneNumber权限
  • 日志|JAVAWEB|maven
  • ManySpeech.MoonshineAsr 使用指南
  • C++在类定义内的函数包含static代表什么含义呢?
  • 2025/10/20~2025/?/? 做题笔记 - sb
  • ansible底层文件传输机制中默认模式遇到权限拒绝后启用管道模式可以得到解决
  • Android 源码解析系列1- Android init 进程启动流程
  • 2025.10.20总结
  • goframe框架命令行工具gf在zsh下不能用
  • 从18w到1600w播放量,我的一点思考。
  • 10.20java作业
  • 题解:Luogu P14175 【MX-X23-T5】向死存魏
  • 31_创蓝短信接入资料和定价
  • CSP-S 33
  • 10.20每日总结
  • 后缀树
  • CF1606E Arena 题解(动态规划)
  • 正睿 2025 NOIP20 连测 Day5 做题记录
  • CSP-S 20
  • Flutter应用设置插件 - 轻松打开iOS和Android系统设置
  • CSP-S 22
  • /usr/bin/sudo 二进制文件的权限有问题,导致所有用户都无法使用 sudo
  • CSP-S 19
  • 研1转码自学黑马程序员Python第7天 | Python函数知识 - 指南