VGGT: Visual Geometry Grounded Transformer

发布时间：2026/7/27 22:50:56

VGGT: Visual Geometry Grounded Transformer

VGGT: Visual Geometry Grounded Transformer

VGGT（CVPR'25）：基于预训练模型抽取特征，通过网络预测3D场景的多种信息。
代码仓库
注：笔者对3D场景重建相关领域工作并不熟悉，仅记录自己的理解。

动机

本文希望实现一个能够端到端从单图或多图预测多种3D场景信息的模型，输出结果包括相机参数、点云图、深度图和3D点轨迹。

方法

本文设定的场景为通过一个图片序列预测3D场景信息。该图片序列理论上是可以任意顺序输入，不过实际实现中是以第一帧为参考。

对于每帧图像，通过DINO提取特征，获得对应每帧图像的token序列。随后再在帧token序列上添加一个相机token和四个register token，作为可学习参数。

随后将组合的特征送入一个改装的自注意力模块，交替进行全局自注意力和帧内自注意力。输出的特征向量分解为相机token及图像特征，送入相应的后续网络完成后续任务。

训练方面似乎更多参照了已有工作，笔者对相关领域不太了解，详细内容请见原文。

实验

具有优秀的重建结果，在多种任务上达到了SOTA水平，详见原文。

总结

按照笔者的理解，本文的突出贡献主要在于完成了一个端到端的3D场景重建模型，能够输出多种信息。从技术角度理解，是利用自监督预训练模型提取的特征构建网络预测目标信息。