当前位置: 首页 > news >正文

NeurlPS2025!香港大学等联合推出Concerto框架 突破单模态局限,为三维场景理解注入新范式

论文标题:Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

作者团队:香港大学、香港中文大学、哈尔滨工业大学(深圳)

发布时间:2025年10月28日

👉一键直达论文

👉Lab4AI大模型实验室论文阅读

✅Lab4AI平台提供AI导读和AI翻译等工具,辅助论文阅读。您还可以投稿复现这篇论文~

⭐核心问题

当前多模态视觉学习存在四大关键痛点

  1. 单模态局限:现有研究多聚焦二维图像或三维点云单一模态,缺乏跨模态协同,无法像人类多感官那样形成完整知识结构;
  2. 浅层融合缺陷:简单拼接二、三维特征未挖掘模态间潜在交互,导致空间表征能力受限;
  3. 效率瓶颈:传统模型对参数和标注数据依赖度高,在低资源场景下性能骤降;
  4. 开放世界适配缺失:现有自监督表征难以与人类语言对齐,无法支撑开放词汇的概念接地任务。

针对上述问题,提出Concerto框架:以“模内自蒸馏”优化单模态表征,以“跨模态嵌入预测”关联二、三维数据,二者协同形成更优空间表征,同时通过线性探针设计提升参数与数据效率,引入语言映射模块实现开放世界感知。

⭐研究亮点

研究亮点聚焦“创新+性能+实用”三维价值,成果显著:

  1. 框架创新:首次将“模内自蒸馏”与“跨模态嵌入预测”结合,模仿人类认知机制,突破传统单模态与浅层融合范式;2. 性能顶尖:在ScanNet、S3DIS等基准上刷新纪录,如ScanNet200语义分割达80.7% mIoU,实例分割性能超全量微调模型,尤其擅长细粒度语义几何信息捕获;
  2. 效率突出:参数量较小时仍优于监督学习模型,仅用1%-5%标注数据,通过线性探针即可实现优于解码器微调的效果,降低低资源场景应用门槛;
  3. 拓展性强:引入线性投影翻译器实现表征与CLIP语言空间对齐,支持开放世界任务,还推出视频适配变体,提升框架通用性。
http://www.gsyq.cn/news/64087.html

相关文章:

  • 03.修改网站并再次使用Git
  • 2025广州知名留学中介机构有哪些
  • 处理开机瞬间灯光抖动问题——开机后延时PWM的初始化
  • 2025年云南十大职业技能培训学校推荐:云南新华轨道交通
  • 2025 年 11 月人力资源管理咨询公司权威推荐榜:组织效能提升与人才战略规划专业服务深度解析
  • 2025年国内评价高的云南臭豆腐销售企业推荐
  • 2025草莓分拣柔性夹爪专业选型指南及优质供应商推荐
  • 2025青岛办理出国留学机构
  • 2025 年 11 月集成供应链咨询公司权威推荐榜:高效协同与智能优化解决方案深度解析
  • 2025广州知名留学中介机构排名
  • git submodule update
  • 油头必藏!2025年实测优质的控油蓬松洗发水,清爽不贴头
  • 2025 年 11 月geo优化哪个公司做得好:最新的权威geo优化公司推荐榜!
  • 【Kotlin相机开发实战指南】:从零构建高性能相机应用的7大核心技术 - 详解
  • 2025年度十大高性价比汽车机油保养服务排行榜,途安星机油保
  • 2025青岛出国留学机构排名榜单
  • 2025留学中介哪个机构好大家有推荐的吗
  • 2025年本土管理咨询公司权威推荐榜:十大战略智囊深度解析,专业赋能与实战经验并重的行业标杆精选
  • iOS搜索派对深度解析:FindMy网络追踪与加密数据库取证
  • 2025 年 11 月战略管理咨询公司权威推荐榜:赋能企业变革与增长,深度解析行业领先者的核心优势与实战价值
  • 2025留学中介去哪个
  • 2025北京的留学机构有哪些
  • 什么时候用 DeepSeek-V3-0324,什么时候用 DeepSeek-R1?
  • 2025年十大靠谱IT人才外包企业推荐,选择服务好有名的IT
  • 深入解析:Go语言设计模式:建造者模式详解
  • ReentrantReadWriteLock 和 ReentrantLock 的联系与区别
  • 贝赛思速提分攻略!2025贝赛思备考机构TOP5,无老师领衔,提分率超90%
  • 2025 年 11 月企业咨询公司权威推荐榜:战略规划、组织优化与数字化转型顶尖服务商深度解析
  • 2025 年 11 月企业管理咨询公司十强权威推荐榜:战略规划与组织优化实力派首选,助力企业高效成长与持续领先
  • 数字马力笔试