当前位置: 首页 > news >正文

免训练开放词汇分割范式突破!将 SAM 3 零微调适配遥感图像分析领域,17个数据集上刷新SOTA

超高分辨率的遥感图像上的分割结果,原文链接:SAM3+遥感https://mp.weixin.qq.com/s/2Dq2vhtPjdfGcGbgnvlDag

在之前谈到开放词汇分割方案时,必然离不开免训练的 CLIP 派系和 SAM 辅助派系两大类,但前者在精确定位方面常常面临挑战,后者则通常依赖于复杂的多阶段流程。

典型的如遥感图像分析领域,上述问题更为突出。如何在包含成千上万密集小型目标(如车辆、小型建筑)与广阔无定形背景(如农田、水域)的复杂场景中,实现精准的像素级识别?

更棘手的是,真实世界的遥感应用需要处理几乎无限的视觉概念,从突发的灾害损毁到新建的城市设施,模型必须能够理解从未见过的物体类别。

具备可提示概念分割的SAM3非常适配开放词汇分割任务,但直接应用预训练的SAM3模型进行特定任务的处理可行吗?在特定领域中应用SAM3到底需不需要微调呢?

今天给大家介绍的来自西交大的一篇工作,基于 SAM 3 的统一架构提供了一个比复杂的 CLIP 集成方法更强大且更简单的基础模型,用于遥感图像分析,且完全无需额外训练!项目代码已开源、论文链接如下。

# Paper SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images # 论文 https://arxiv.org/pdf/2512.08730 # 代码 https://github.com/earth-insights/SegEarth-OV-3

一、传统方法的双难困境

长期以来,遥感开放词汇语义分割领域被两大技术路线所主导,但它们各自存在明显缺陷:

CLIP 派系:基于CLIP的免训练方法(如MaskCLIP、SCLIP)虽然避免了训练成本,但由于CLIP本身是为图像级分类设计,将其直接用于像素级定位时,往往产生粗糙、模糊的边界。

SAM 辅助派系:RemoteSAM 和 InstructSAM 利用基于SAM的流程将分割与更广泛的解耦任务统一起来。然而,这些方法通常依赖于复杂的多阶段流程需要多个独立模型协同工作,或者需要针对遥感场景仍需专门训练。

二、SAM3:统一架构的降维打击

SAM3 的架构特性与遥感场景完美适配,而且能力都是原生内置的,无需额外的训练或复杂的集成。比如密集小目标、无定形背景、类别稀疏性以及开放词汇需求都是遥感分析面临的四大挑战。

SAM3 将分割、识别、存在性判断统一在一个简洁的框架中。其中三项技术与视觉无限概念的遥感图像场景天然适配。

  • 解耦的三头架构:语义头、实例头、存在性头各司其职;

  • 可提示的概念分割:用户可通过文本描述直接指导模型;

  • 内置前景判断:存在性头能自动判断目标是否存在于场景中;

三、SegEarth-OV3:无需训练的遥感分割

遥感图像中存在两种截然不同的区域:需要像素级语义连续性的无定形物体,以及需要实例级边界精确度的可计数事物。

利用 SAM3 的实例头专门处理可计数对象,保证边界精确,利用其语义头处理无定形区域,保持土地覆盖的完整性。

另外在遥感场景中,一个完整的土地覆盖词汇表可能包含上百个类别,但单个图像块通常只包含其中少数几个。这种高类别稀疏性导致大量不必要的计算和误报。

SAM3 的存在性头提供了完美的解决方案:它能够快速判断某个概念是否存在于当前场景中,从而在早期就过滤掉大量无关类别,将计算资源集中在真正相关的识别任务上。

SegEarth-OV3 的有效性在17个遥感数据集和三个通用场景基准上进行了评估,展示了在多类语义分割和单类提取任务中的最先进性能:

  • 零训练成本:完全使用原始 SAM3 权重,无需任何微调;

  • 边界精度提升:相比 CLIP 基线上边界清晰度提升30%以上;

  • 处理效率优化:存在性过滤减少40%不必要的计算;

  • 通用性强:不仅在遥感场景有效,在自然图像分割基准上也表现优异;

SAM3 的解耦架构本身就能胜任遥感开放词汇分割,复杂流程和领域训练可能不再是必选项

文末有其他几篇遥感领域大模型的文章介绍,小伙伴们可留言区回复‘加群’进入大模型交流群、视觉应用落地交流群!

http://www.gsyq.cn/news/105073.html

相关文章:

  • Laravel 13多模态事件监听实战:如何实现高响应性应用架构?
  • QDK API文档精读实战:快速定位接口问题的黄金法则
  • 【Q#编程入门指南】:掌握量子计算的5个核心示例与实战技巧
  • Alpha版本测试报告
  • 我在小米推了两年的方向,字节用豆包手机助手做出来了
  • 掌握这4种初始化模式,轻松玩转R量子计算模拟包
  • AIDL进程间通信
  • 【高并发场景下的EF Core调优实战】:支撑每秒万级请求的3个关键配置
  • 手握证书,赢得先机|信创产品评估证书的办理全流程与核心价值
  • 半导体分立器件静态参数测试仪系统使用价值和选型参考
  • 客户来一单就走人?先搞懂这 3 个复购率关键指标!
  • 基于51单片机实现俄罗斯方块游戏的设计
  • 【独家】PHP × GraphQL缓存架构设计:大型系统稳定运行的底层逻辑
  • Shopify 独立站运营方案与工作计划参考(含预算)
  • 基于Arduino单片机的输液监测报警控制系统设计
  • R qubit初始化性能优化(专家级调优策略首次公开)
  • 医疗Agent赛道又一笔融资,红杉领投
  • DataFrame基础:创建、索引、切片与合并超详细教程
  • 2023A卷,双十一
  • 幻颜之约工厂的精益生产:永不满足的品质追求 - 速递信息
  • Laravel 13多模态数据校验实战:5个你必须掌握的核心模式与最佳实践
  • 分析openstack中快照占用存储空间问题
  • UGUI重建流程和优化
  • 【流程】——Wordpress零代码快速建站
  • 【EF Core迁移避坑宝典】:解决模型与数据库不一致的终极方案
  • 【Symfony 8微服务架构新纪元】:手把手搭建高可用服务注册中心
  • 揭秘低代码PHP组件事件触发:3个你必须知道的设计模式
  • 基于单片机的城市交通控制系统的设计
  • 2025年昆明黄金店推荐:国民金匠只做黄金,藏着温度与匠心的黄金优选品牌 - charlieruizvin
  • 用计算机图形学优化服装定制与尺寸算法