当前位置: 首页 > news >正文

Meta与牛津联手发布VGGT-Ω:用2000万视频喂出的「3D重建巨无霸」!

EasyRader 全文翻译、生成结构化导读、思维导图,节省80%阅读时间 。

在大模型(LLM)领域,「规模定律(Scaling Law)」早已是人尽皆知的真理——模型越大、数据越多,实力就越恐怖。

但在3D计算机视觉领域,由于高质量3D数据的匮乏和几何计算的超高复杂度,Scaling Law 迟迟未能展现出其魔力。

就在最近,AI 3D 领域迎来了一颗重磅炸弹!由牛津大学视觉几何组(VGG)与Meta AI联合推出了全新的前馈3D重建基础模型——VGGT-Ω。这项研究不仅正面硬刚 3D 领域的数据瓶颈,更用实打实的数据向全行业宣告:3D几何重建,同样尊崇「大力出奇迹」的真理!


🚀 战绩一览:前馈3D重建的「新王登基」

过去,传统的3D重建(如 SfM、COLMAP)或者一些混合优化方法(如 MegaSaM),在面对复杂动态场景时,不仅速度慢得像老牛拉车,还经常出现几何漂移和纹理模糊。

VGGT-Ω作为一个「端到端」的前馈 Transformer 模型,直接输入多张图片,就能瞬间吐出精准的相机轨迹和深度图!来看看它在业界公认的硬核测试集 Sintel 上的恐怖战绩:

  • 📸相机姿态估计准确率:直接狂飙 77%!
  • 📐深度估计精度:大幅提升 26%
  • 速度:比大名鼎鼎的 MegaSaM 快了整整 50 倍!

无论是静态的地下珊瑚礁,还是动态的网球运动员轨迹、城市车流,VGGT-Ω 都能做到毫秒级的「一眼看穿几何结构」。


🛠 核心黑科技:它是如何把 GPU 显存「砍掉70%」的?

想要把 3D 重建模型扩展到前所未有的超大规模,原有的架构根本带不动。原版 VGGT 的全局注意力机制(Global Attention)是个严重的显存吞噬兽。

为了打破这个僵局,Meta 和牛津的科学家们对架构进行了精妙的「三板斧」魔改:

  1. Register Attention(寄存器注意力机制)🧠
    科学家们注意到,ViT 模型会自发使用少量 Token 来传递全局几何信息。于是他们在每帧图像中加入了 16 个可学习的「寄存器 Token」(也叫场景标记 Scene Tokens)。在部分网络层中,不允许帧与帧之间的图像 Token 直接对话,而是必须通过这些「场景 Token」进行全局信息中转。这一项改动,直接砍掉了大量的 FLOPs 和显存开销!
  2. 重塑密集预测头(Lightweight Heads)🪓
    以前那些高分辨率的卷积层(如 DPT)极度浪费显存。VGGT-Ω 果断把最耗显存的卷机层换成了单个 MLP 加上 Pixel Shuffle(像素重组)算子,不仅显存暴降,重建出来的图依然丝滑流畅。
  3. 单预测头多任务监督(Multi-task Supervision)🎯
    精简架构,精简到只保留一个深度预测头和一个相机预测头,但在训练时依然保留多任务损失(Loss)进行強力监督。

这三套组合拳下来,VGGT-Ω 成功在训练时省下了 70% 的 GPU 显存!正是这 70% 的空间,让团队能够用15倍于前作的庞大数据量对其进行疯狂投喂。


🌊 1800万互联网视频洗礼:解锁 4D 动态重建

3D 视觉最缺的是什么?高质量的几何真值(Ground Truth)数据。
VGGT-Ω 这次开发了一套极其硬核的高质量数据标注流水线:利用 VLM 预筛选、COLMAP、几何后验过滤等技术,从 4000 万个互联网野外视频中,硬生生筛选洗练出了 80 万个带有精准几何标注的动态/刚性序列。

更绝的是,他们还引入了类似DINO 的自监督学习协议(Teacher-Student 模型),直接把1800 万个毫无标注的互联网视频塞进去进行动态对齐训练!这直接解锁了模型对真实世界中各种复杂、动态、奇葩场景的恐怖泛化力。


🤖 终极彩蛋:3D 重建竟然是「具身智能」的催化剂?

如果仅仅是重建得准、速度快,它还不足以被称为「3D 空间基础模型」。

研究人员做一个非常大胆的尝试:他们把 VGGT-Ω 训练好后、原本用来做全局中转的「场景寄存器 Token(Scene Tokens)」直接冻结拔出来,当作一个外挂几何特征,塞进了具身智能大模型 OpenVLA 中

结果令人震惊:在机器人操控基准测试 LIBERO 上,套用了 VGGT-Ω 寄存器特征的机器人,在各项操纵任务中的成功率(Success Rate)获得了全面且显著的提升!

这证明了这些由几何重建任务训练出来的 Token,不单单包含了几何点云信息,更蕴含了极高层次的空间语义与结构理解,甚至能与语言空间自然对齐(符合大模型领域的「柏拉图表征假设 Platonic Representation Hypothesis」)。


💡 总结

VGGT-Ω 的诞生,不仅仅是刷榜了几个 3D 重建的 Benchmark。它更深刻的意义在于验证了:3D 空间理解不需要死磕传统的非刚性优化公式,只要架构对了、数据和参数规模上去了,网络自己就能学会真实世界的物理与空间几何规律。

未来的自动驾驶、机器人具身智能、以及 AR/VR 设备,或许都将装上这样一个由数千万视频喂出来的「几何大脑」。

👉项目开源主页:http://vggt-omega.github.io/
👉 现在下载,开启高效科研阅读新体验!EasyReader论文阅读 - 易读论文阅读 科研文献翻译

http://www.gsyq.cn/news/1333362.html

相关文章:

  • 花五分钟在NAS上搭了个Code-Server,结果成了我出场率最高的开发环境
  • 破解教育多重痛点,菩瓦纽课业平台以专业 AI 阅卷重塑智慧教学生态
  • 别再手动拉黑发件人了!用Python+深度学习模型,5步搞定智能垃圾邮件过滤器
  • 树状数组 - P2184 贪婪大陆
  • 科学引导搜索引擎蜘蛛,提升网站收录的实用方法
  • 全球数据治理:合规与AI双引擎驱动
  • MTK手机用上高通QC快充,背后多出的那颗‘xmusb350’芯片到底在忙啥?
  • Jetson Orin Nano刷机踩坑记:从‘dtc’缺失到‘sshpass’报错的完整修复指南
  • 2026年中频滚焊机源头厂家:解读行业核心趋势 - 资讯速览
  • 十大知识领域裁剪考量因素表
  • 每日算法快闪赛:15分钟手撕LeetCode,思维速度与工程落地全攻略
  • 2026年天津小程序制作推荐榜单:揭晓三大高口碑产品
  • 基于SpringBoot的民宿短租平台毕设
  • 秋招效率与人才战略兼备:前程无忧如何成为企业长期招聘首选
  • 知网维普同时压到10%,2026年5月降AI软件4款实测 - 我要发一区
  • 双率合规新赛道!九大论文辅助利器齐聚,okbiye 领衔解锁检测降重全新玩法
  • 初次使用Taotoken完成模型调用从注册到收到响应的全过程记录
  • 收藏干货:MySQL/PG/人大金仓/达梦语法差异对照表
  • Nmap - Zenmap GUI工具
  • 中山优才教育家庭教育指导师报名怎么样?靠谱吗?是官方授权机构吗? - 优选机构推荐
  • 敏捷开发在研发团队中的实践知识详解
  • 双网卡内外网同时访问
  • 下单扣库存,要把事务边界放在哪里
  • 防爆型红外热成像仪:原理、应用与工业安全监测实践
  • SAP ABAP实战:手把手教你调用CKM3函数ZFI003_GET_CKM3_DATA获取成本数据
  • 调理品腌料生产厂家如何破局?深度解析4C定制赋能方法论 - 资讯速览
  • CentOS 7服务器部署:NFS共享、Nginx-RTMP流媒体与Qt无GUI环境全攻略
  • PCB工程师必看:别再搞错1078玻纤布的Dk了,手把手教你算等效介电常数
  • OpenDevin实践踩坑记:搞定HuggingFace镜像,让你的AI程序员顺利跑起来
  • 别再只会用tail -f了!用journalctl实时追踪服务日志的5个高效姿势(附systemd服务排查实战)