当前位置：首页 > news >正文

Meta与牛津联手发布VGGT-Ω：用2000万视频喂出的「3D重建巨无霸」！

news 2026/7/3 9:43:11

EasyRader 全文翻译、生成结构化导读、思维导图，节省80%阅读时间。

在大模型（LLM）领域，「规模定律（Scaling Law）」早已是人尽皆知的真理——模型越大、数据越多，实力就越恐怖。

但在3D计算机视觉领域，由于高质量3D数据的匮乏和几何计算的超高复杂度，Scaling Law 迟迟未能展现出其魔力。

就在最近，AI 3D 领域迎来了一颗重磅炸弹！由牛津大学视觉几何组（VGG）与Meta AI联合推出了全新的前馈3D重建基础模型——VGGT-Ω。这项研究不仅正面硬刚 3D 领域的数据瓶颈，更用实打实的数据向全行业宣告：3D几何重建，同样尊崇「大力出奇迹」的真理！

🚀 战绩一览：前馈3D重建的「新王登基」

过去，传统的3D重建（如 SfM、COLMAP）或者一些混合优化方法（如 MegaSaM），在面对复杂动态场景时，不仅速度慢得像老牛拉车，还经常出现几何漂移和纹理模糊。

而VGGT-Ω作为一个「端到端」的前馈 Transformer 模型，直接输入多张图片，就能瞬间吐出精准的相机轨迹和深度图！来看看它在业界公认的硬核测试集 Sintel 上的恐怖战绩：

📸相机姿态估计准确率：直接狂飙 77%！
📐深度估计精度：大幅提升 26%。
⚡速度：比大名鼎鼎的 MegaSaM 快了整整 50 倍！

无论是静态的地下珊瑚礁，还是动态的网球运动员轨迹、城市车流，VGGT-Ω 都能做到毫秒级的「一眼看穿几何结构」。

🛠 核心黑科技：它是如何把 GPU 显存「砍掉70%」的？

想要把 3D 重建模型扩展到前所未有的超大规模，原有的架构根本带不动。原版 VGGT 的全局注意力机制（Global Attention）是个严重的显存吞噬兽。

为了打破这个僵局，Meta 和牛津的科学家们对架构进行了精妙的「三板斧」魔改：

Register Attention（寄存器注意力机制）🧠
科学家们注意到，ViT 模型会自发使用少量 Token 来传递全局几何信息。于是他们在每帧图像中加入了 16 个可学习的「寄存器 Token」（也叫场景标记 Scene Tokens）。在部分网络层中，不允许帧与帧之间的图像 Token 直接对话，而是必须通过这些「场景 Token」进行全局信息中转。这一项改动，直接砍掉了大量的 FLOPs 和显存开销！
重塑密集预测头（Lightweight Heads）🪓
以前那些高分辨率的卷积层（如 DPT）极度浪费显存。VGGT-Ω 果断把最耗显存的卷机层换成了单个 MLP 加上 Pixel Shuffle（像素重组）算子，不仅显存暴降，重建出来的图依然丝滑流畅。
单预测头多任务监督（Multi-task Supervision）🎯
精简架构，精简到只保留一个深度预测头和一个相机预测头，但在训练时依然保留多任务损失（Loss）进行強力监督。

这三套组合拳下来，VGGT-Ω 成功在训练时省下了 70% 的 GPU 显存！正是这 70% 的空间，让团队能够用15倍于前作的庞大数据量对其进行疯狂投喂。

🌊 1800万互联网视频洗礼：解锁 4D 动态重建

3D 视觉最缺的是什么？高质量的几何真值（Ground Truth）数据。
VGGT-Ω 这次开发了一套极其硬核的高质量数据标注流水线：利用 VLM 预筛选、COLMAP、几何后验过滤等技术，从 4000 万个互联网野外视频中，硬生生筛选洗练出了 80 万个带有精准几何标注的动态/刚性序列。

更绝的是，他们还引入了类似DINO 的自监督学习协议（Teacher-Student 模型），直接把1800 万个毫无标注的互联网视频塞进去进行动态对齐训练！这直接解锁了模型对真实世界中各种复杂、动态、奇葩场景的恐怖泛化力。