当前位置：首页 > news >正文

TPAMI 2026 | DC-SAM 横空出世！融合 SAM 特征，打造图像视频通用上下文分割框架

news 2026/5/30 20:39:03

点击上方“小白学视觉”，选择加"星标"或“置顶” 重磅干货，第一时间送达

在计算机视觉领域，Segment Anything Model（SAM）及其升级版SAM2凭借强大的交互式分割能力，成为了诸多下游任务的重要基础。但SAM系列模型却存在一个关键短板——无法根据单个实例提示，在多张图像或视频中分割同一类别实例，也就是缺乏上下文分割能力。近期，一篇名为《DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency》的论文，针对性地解决了这一问题，不仅提出了全新的DC-SAM方法，还构建了首个上下文视频对象分割基准IC-VOS，让SAM在图像和视频上下文分割任务中实现了性能飞跃。

论文信息

题目： DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency

双一致性SAM：通过双重一致性实现图像与视频中的上下文任意分割

作者： Mengshi Qi, Pengfei Zhu, Xiangtai Li, Xiaoyang Bi, Lu Qi, Huadong Ma, Ming-Hsuan Yang

源码：https://github.com/zaplm/DC-SAM

SAM上下文分割能力缺失，视频基准空白

SAM虽然在交互式分割中表现顶尖，但它没有利用单例提示完成多图像同类别实例分割的能力，而这正是上下文分割的核心诉求。此前的少样本分割方法要么泛化能力差，要么需要海量标注数据和计算资源；更关键的是，视频领域还没有专门的上下文分割基准，现有视频分割数据集仅关注像素跟踪和时序分割，无法评估模型在动态场景下的上下文泛化能力。同时，现有基于SAM的方法在提示生成时，仅依赖主干网络特征，忽视了SAM自身特征的价值，导致提示精度不足，最终影响分割效果。

DC-SAM整体架构：双一致性加持，打通图像与视频分割

DC-SAM的核心设计围绕“双重一致性”展开，整体架构如图3所示，它以SAM/SAM2为基础，通过特征融合、循环一致交叉注意力、双分支提示生成三大核心模块，为SAM打造了高质量的提示生成体系，还能无缝扩展到视频领域。

图3

简单来说，DC-SAM的工作逻辑分为三步：首先融合SAM编码器和主干网络的特征，为查询图像生成更精准的先验掩码；接着通过循环一致交叉注意力机制过滤模糊、冲突的语义特征，优化提示生成过程；最后利用双分支策略生成正负样本提示，结合SAM提示编码器的正负嵌入，实现对掩码的细粒度控制。而针对视频任务，DC-SAM只需将图像掩码扩展为掩码管格式，结合SAM2的内存模块，就能完成视频帧的掩码传播，实现上下文视频分割。

关键创新点：四大设计破解分割难题

1. 特征提取与融合：兼顾SAM与主干网络优势

此前方法仅用ResNet、DINOv2等主干网络提取特征，完全忽略SAM编码器的特征价值。DC-SAM则将两者融合：先从支持图像和查询图像中提取主干网络特征，再结合SAM编码器输出的同尺寸特征，通过卷积操作整合，让生成的特征既保留主干网络的语义先验，又贴合SAM提示编码器的特性，大幅提升提示与SAM解码器的匹配度，为后续提示生成打下基础。

2. 循环一致交叉注意力：过滤噪声，聚焦关键区域

为解决提示生成中语义模糊、冲突的问题，DC-SAM设计了循环一致交叉注意力机制（如图4所示）。该机制先计算查询与支持特征的亲和力图，找到彼此最相似的像素点，再通过支持掩码的语义信息，给不一致的像素点设置负无穷偏置，直接过滤掉这些噪声特征。

图4

这一过程相当于给模型加了“语义过滤器”，迫使模型只关注与目标类别高度相关的区域，确保生成的提示精准聚焦关键目标，而非被背景或无关语义干扰。而且该机制会进行两轮优化，还会加入自注意力操作，进一步强化提示的全局一致性。

3. 双分支提示生成：正负样本联动，细化掩码边缘

SAM本身支持正负提示嵌入，但此前方法并未充分利用这一特性。DC-SAM设计了双分支结构：正分支用支持图像的前景掩码生成正样本提示，负分支则用背景掩码（前景掩码取反）生成负样本提示，再分别叠加SAM的正负嵌入。

如图5所示，仅用正样本提示时，分割掩码边缘粗糙；加入负样本提示后，边缘精度显著提升。DC-SAM通过这种方式，让模型能利用正负提示的相互作用，实现对掩码的细粒度控制，解决了分割边缘不精准的问题。

图5

4. 首个上下文视频分割基准IC-VOS：填补领域空白

为评估视频上下文分割能力，论文团队构建了IC-VOS基准。该基准从DAVIS、MOSE、LVOS v2等现有视频分割数据集中筛选样本，经过手动掩码选择、专家交叉验证等三阶段严格标注，最终包含369个视频、99549帧，覆盖30个语义类别（如表1、图2所示）。

表1

图2

IC-VOS要求模型仅通过一张带掩码的支持图像，分割视频中同语义类别的所有实例，既考验模型的语义迁移能力，也能验证动态场景下的分割鲁棒性。数据分布上，LVOS v2占比63.7%，MOSE占27.9%，DAVIS占8.4%；类别上，人、狗、猫的剪辑数最多，风筝、冲浪板等类别虽剪辑少但帧数多，形成长尾分布，能更全面地测试模型性能。

全场景领先，性能与泛化能力双优

1. 图像分割：刷新COCO-20i、PASCAL-5i基准

在经典的少样本分割数据集上，DC-SAM表现远超现有方法：在COCO-20i上达到55.5 mIoU（+1.4），在PASCAL-5i上实现73.0 mIoU（+1.1）。即使对比SegGPT这类依赖大规模数据预训练的模型，基于DINOv2-B的DC-SAM也能领先6%，充分体现了其数据效率和泛化能力。

从视觉效果来看（图7），DC-SAM能精准分割瓶子、鸟、自行车等复杂物体，完整捕捉轮廓细节，背景无误分割，而其他方法易出现边缘模糊、漏分割等问题。

图7

2. 视频分割：IC-VOS基准上大幅领先

在全新的IC-VOS基准上，DC-SAM取得71.52的J&F分数，比第二名VRP-SAM高出6.4%。如图8所示，面对“摩托车”语义分割任务，DC-SAM能准确识别并跟踪摩托车，而PFENet会漏分割车轮、误分割人物，VRP-SAM也无法区分人与摩托车，充分体现了DC-SAM在视频上下文分割中的优势。

图8

3. 消融实验：验证核心组件价值

消融实验进一步证明了各模块的有效性：在PASCAL-5i上，以VRP-SAM为基线，加入正负分支后性能提升，融合SAM特征后进一步优化，最终加入循环一致交叉注意力后，各折叠的mIoU均达到最优；而针对循环一致性模块的消融显示，掩码偏置和循环一致性分别带来0.7%的性能提升，两者缺一不可。此外，当单分支查询数量设为25时，模型达到最佳平均性能。

4. 跨领域泛化：工业、医学场景同样适用

为验证鲁棒性，DC-SAM还在工业数据集XYZ-IBD（无纹理金属物体分割）、医学数据集ADAM和RIM-ONE DL（视网膜结构分割）上测试，相比VRP-SAM分别提升29.1%、10.0%、6.2%，证明其不仅在通用场景有效，还能落地到实际工业、医疗领域。

SAM上下文分割的全新范式

DC-SAM通过双分支提示生成、循环一致交叉注意力、多源特征融合三大核心设计，补齐了SAM在上下文分割中的短板，无需大规模重训练就能实现高精度的图像/视频上下文分割；同时，IC-VOS基准的构建，填补了视频上下文分割评估体系的空白。无论是在经典的COCO-20i、PASCAL-5i数据集，还是全新的IC-VOS基准，甚至跨领域的工业、医学数据集，DC-SAM都展现出领先的性能，为SAM系列模型在上下文分割任务中的应用提供了全新范式。

该论文的源码已开源，感兴趣的研究者可以深入探索，相信这一方法也能为少样本分割、视频编辑等下游任务带来新的思路。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

查看全文

http://www.gsyq.cn/news/1429753.html