当前位置: 首页 > news >正文

CVPR 2026|AnyVisLoc:为真实低空无人机视觉定位建立统一基准

CVPR 2026|AnyVisLoc:为真实低空无人机视觉定位建立统一基准

AnyVisLoc 是第一个面向真实低空多视角无人机视觉定位的大规模数据集与评测基准。

它不再局限于传统的高空俯视图像,而是系统覆盖低空飞行、倾斜视角、多高度、多航向、多场景以及航空图与卫星图双参考源。对于无人机视觉定位、跨视角图像检索、图像匹配、视觉地理定位和三维位姿估计等方向而言,AnyVisLoc 提供了一套规模大、场景复杂、任务完整、挑战性强的研究平台。

相关论文Exploring the Best Way for UAV Visual Localization under Low-altitude Multi-view Observation Condition: A Benchmark已被CVPR 2026 Findings接收,完整数据集和测试代码现已公开。

  • GitHub 项目主页
  • 百度网盘下载(提取码:fcw8
  • 论文原文(CVPR 2026 Findings)

图 1 AnyVisLoc工作流

AnyVisLoc 解决了什么问题?

现有无人机定位数据集往往更关注高空、近似垂直俯视的理想情况,但真实无人机在低空执行巡检、导航、测绘或自主飞行任务时,拍摄视角通常更加复杂。

无人机可能以不同高度、不同俯仰角和不同航向观察同一片区域。低空图像中还会出现明显的建筑立面、透视变化、遮挡、尺度变化、光照差异、季节变化以及跨时间地物变化。

这意味着,低空无人机定位远不只是“在地图中找一张相似图片”。它同时涉及大范围地图检索、跨视角匹配、像素级对应、三维几何恢复以及高精度位姿估计。

AnyVisLoc 正是针对这些真实问题构建的。它将无人机图像检索、图像匹配和 PnP 定位统一到同一个评测框架中,使研究者能够真正检验算法在复杂低空环境中的定位能力。

数据规模与场景覆盖

AnyVisLoc 当前公开版本包含24 个场景和 20,077 张全分辨率 DJI 无人机图像

无人机飞行高度约覆盖6 米至 500 米,相机俯仰角约覆盖5° 至 90°,既包含垂直俯视图像,也包含大量具有明显透视变化的倾斜视角图像。

数据由多种 DJI 无人机采集,包括 Mavic 2、Mavic 3、Mavic 3 Pro、Phantom 3、Phantom 4、Phantom 4 RTK 和 Mini 4 Pro。

场景覆盖城市建筑群、城镇、乡村、校园、公园、地标建筑、农田、草地、山地以及多种混合环境,同时包含不同季节、天气和光照条件。

相比只在单一城市、固定高度或固定视角下采集的数据集,AnyVisLoc 更接近真实无人机系统在复杂环境中遇到的视觉变化,也更适合研究模型的跨场景泛化能力。


图 3:AnyVisLoc数据集中的无人机图像示例

航空图与卫星图双参考定位

AnyVisLoc 的另一个重要特点,是同时提供高分辨率航空参考图和卫星参考图,并配套相应的 DSM 高程数据。

航空影像具有更高的空间分辨率,可以支持更精细的图像匹配和更高精度的位姿估计,但通常需要提前进行航空摄影测量和地图重建。

卫星影像的获取范围更广,也更适合大规模部署,但卫星图与低空无人机图像之间往往存在巨大的视角差异、分辨率差异、时间差异和外观变化。卫星影像还可能存在建筑倾斜、局部配准误差、拼接伪影、模糊和地物变化。

因此,卫星参考定位并不是航空参考定位的简单替代,而是一个难度更高、也更有实际价值的研究方向。

AnyVisLoc 将这两种参考条件放在同一套数据和评测体系中,为研究高精度航空定位与大范围卫星定位提供了统一平台。


图 2:AnyVisLoc数据集中的基准图示例

一套完整的无人机视觉定位 Benchmark

AnyVisLoc 不只是发布了一批无人机图像,还提供了完整的视觉定位评测流程:

图像检索 → 像素匹配 → PnP 位姿估计

图像检索负责从大范围航空图或卫星图中寻找候选区域,像素匹配负责建立无人机图像与参考图之间的精细对应关系,最后结合 DSM 中的三维信息,通过 PnP 估计无人机位置与姿态。

公开基线涵盖 CAMP、RoMa、SuperPoint、LightGlue、GIM、MINIMA、ALIKED、DISK 等多种检索与匹配方法,并支持不同 PnP 求解方式。

这使得 AnyVisLoc 不仅可以用于比较完整定位系统,也可以单独研究图像检索、局部特征匹配、跨视角匹配和三维定位中的具体问题。

总结

AnyVisLoc 的价值不只是“数据量大”,更重要的是它将真实低空无人机视觉定位中的关键难点集中到了一套统一基准中:

低空、多视角、多高度、多航向、多场景、跨时间变化、航空与卫星双参考,以及从粗定位到精确位姿估计的完整流程。

对于无人机自主导航、视觉地理定位、跨视角检索、图像匹配、卫星图定位和三维视觉定位等研究方向,AnyVisLoc 都是一套非常值得关注的数据集与 benchmark。

http://www.gsyq.cn/news/1618035.html

相关文章:

  • AI 辅助:前端框架反模式:过度封装、状态滥用与副作用失控
  • 【Springboot毕设全套源码+文档】基于springboot+协同过滤课程推荐的线上安全教育平的设计与实现(丰富项目+远程调试+讲解+定制)
  • STM32 printf 串口重定向代码完整解析
  • AI 效率工具产品化:从功能清单到 PMF 验证闭环
  • Vue3 全栈应用架构:组合式 API 不是把逻辑随便抽走
  • Go 并发编程:生产服务里 goroutine 要有退出路径
  • 机器人(狗)、AGV/AMR自动乘梯简易方案(技术解析与补充
  • 字节豆包AI编程助手扩展:深度解析其代码能力边界与实战表现
  • 极简架构设计:少一层抽象,少一类故障
  • 什么是数字工厂全要素智造中枢与适用于哪种企业
  • LeetCode 23.合并K个升序链表
  • Visa、Stripe等140余家机构联合推出Open USD稳定币,剑指Tether
  • HBM Predictor安装与配置教程:简单5步搭建预测环境
  • 年入100亿压缩机龙头IPO!1.66亿诉讼案未决,应收账款质量恶化
  • ChatGPT Plus / Pro 付款后没看到结果,先查这几步
  • 番茄小说下载器终极指南:三分钟打造个人离线图书馆的完整教程
  • 单帧像素推演三维空间,SpaceOS联动Pixel2Geo打通单画面实景重建全链路
  • YOLOv11 改进 - C2PSA C2PSA融合EDFFN高效判别频域前馈网络(CVPR 2025):频域筛选机制增强细节感知,优化复杂场景目标检测
  • 软件设计周期
  • 孩子确诊自闭症/多动症后该找谁?一份给迷茫家长的专业参考指南
  • M4Markets的长期使用感受顺不顺手?
  • 卡梅德生物科普:CD70(TNFSF7)的免疫共刺激机制与研究应用
  • 功能极简取舍:每个按钮都要为用户承担重量
  • Kiran-shell 显示桌面插件:一键隐藏所有窗口的底层机制
  • CPP 学习笔记 语法总结
  • 第91题 2026年国家级科研痛点:高压IGBT芯片场截止(FS)结构与背面减薄工艺
  • 选芯片编程烧录座,这3个专业性价比最稳
  • 直流电机静音控制方案:从PWM优化到PCB布局
  • SQL 复杂查询优化:先减少扫描,再谈语法漂亮
  • 6. 深入 Nginx 核心:HTTP 11 个处理阶段与模块开发实战