当前位置: 首页 > news >正文

VGGT: Visual Geometry Grounded Transformer

VGGT: Visual Geometry Grounded Transformer

VGGT(CVPR'25):基于预训练模型抽取特征,通过网络预测3D场景的多种信息。
代码仓库
注:笔者对3D场景重建相关领域工作并不熟悉,仅记录自己的理解。

动机

本文希望实现一个能够端到端从单图或多图预测多种3D场景信息的模型,输出结果包括相机参数、点云图、深度图和3D点轨迹。

方法

img

本文设定的场景为通过一个图片序列预测3D场景信息。该图片序列理论上是可以任意顺序输入,不过实际实现中是以第一帧为参考。

对于每帧图像,通过DINO提取特征,获得对应每帧图像的token序列。随后再在帧token序列上添加一个相机token和四个register token,作为可学习参数。

随后将组合的特征送入一个改装的自注意力模块,交替进行全局自注意力和帧内自注意力。输出的特征向量分解为相机token及图像特征,送入相应的后续网络完成后续任务。

训练方面似乎更多参照了已有工作,笔者对相关领域不太了解,详细内容请见原文。

实验

img

具有优秀的重建结果,在多种任务上达到了SOTA水平,详见原文。

总结

按照笔者的理解,本文的突出贡献主要在于完成了一个端到端的3D场景重建模型,能够输出多种信息。从技术角度理解,是利用自监督预训练模型提取的特征构建网络预测目标信息。

http://www.gsyq.cn/news/12348.html

相关文章:

  • 微信小程序使用地图map 实现定位和实时绘画轨迹
  • 嵌入式入门,基于keil5用stm32寄存器和标准库实现LED流水灯
  • 小人鱼的数学题 - Li
  • CentOS将软件源修改为国内源
  • 【C++进阶】C++11 的新特性 | lambda | 包装器 - 实践
  • orcad放置器件时器件不在预览框中心
  • 从零开始:VirtualBox 虚拟机安装与 CentOS 7 部署 + 双网卡网络配置指南
  • 【光照】[物理模型]中的[BRDF]是什么?
  • 《Linux Robust锁》
  • Manim实现气泡特效
  • C# Inno Setup
  • CF2139虚拟游记
  • 融合多元定位技术,帮助应用破解精准定位难题
  • hutool主要内容list
  • Kurt-Blender零基础教程:第2章:建模篇——第3节:陈列/父子级/蒙皮/置换修改器与小狐狸角色建模 - 教程
  • 学习:uniapp全栈微信小程序vue3后台(26) - 指南
  • HTML5介绍(HTML5特性、HTML5功能) - 指南
  • 读书笔记:Oracle 自动索引:让数据库自己管索引?
  • 故障处理:Oracle RAC集群CTSS时钟同步故障案例分析与解决
  • PostgreSQL技术大讲堂 - 第106讲:分区表索引优化
  • AI智能体:从认知到实践
  • vue3小坑之-为什么把ref定义的数组赋值给数组对象后取值为空数组?
  • 【C++STL详解】带头双向循环结构 + 双向迭代器,核心接口 + 排序效率 + 避坑指南 - 教程
  • VBA ETH功能应用 | “0”代码构建SOME/IP节点
  • ISUP协议视频平台EasyCVR在智慧灯杆综合管理中的应用
  • 视觉智能赋能产业数智化升级:JBoltAI多模态技术落地实践
  • 聚焦 Java AI 开发:JBoltAI 框架支持多模型适配,打造智能应用
  • Stylus For Chrome下载地址
  • 麒麟 Linux|深入解析 Linux 文件系统架构:理念、结构与工作机制 - 教程
  • 别等碳超支才慌!EMS 像 “碳导航”,提前预警能耗 “堵点”,双碳路上不绕路