当前位置: 首页 > news >正文

TPAMI 2026 | DC-SAM 横空出世!融合 SAM 特征,打造图像视频通用上下文分割框架

点击上方“小白学视觉”,选择加"星标"或“置顶” 重磅干货,第一时间送达

在计算机视觉领域,Segment Anything Model(SAM)及其升级版SAM2凭借强大的交互式分割能力,成为了诸多下游任务的重要基础。但SAM系列模型却存在一个关键短板——无法根据单个实例提示,在多张图像或视频中分割同一类别实例,也就是缺乏上下文分割能力。近期,一篇名为《DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency》的论文,针对性地解决了这一问题,不仅提出了全新的DC-SAM方法,还构建了首个上下文视频对象分割基准IC-VOS,让SAM在图像和视频上下文分割任务中实现了性能飞跃。

论文信息

题目: DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency
双一致性SAM:通过双重一致性实现图像与视频中的上下文任意分割
作者: Mengshi Qi, Pengfei Zhu, Xiangtai Li, Xiaoyang Bi, Lu Qi, Huadong Ma, Ming-Hsuan Yang
源码:https://github.com/zaplm/DC-SAM

SAM上下文分割能力缺失,视频基准空白

SAM虽然在交互式分割中表现顶尖,但它没有利用单例提示完成多图像同类别实例分割的能力,而这正是上下文分割的核心诉求。此前的少样本分割方法要么泛化能力差,要么需要海量标注数据和计算资源;更关键的是,视频领域还没有专门的上下文分割基准,现有视频分割数据集仅关注像素跟踪和时序分割,无法评估模型在动态场景下的上下文泛化能力。同时,现有基于SAM的方法在提示生成时,仅依赖主干网络特征,忽视了SAM自身特征的价值,导致提示精度不足,最终影响分割效果。

DC-SAM整体架构:双一致性加持,打通图像与视频分割

DC-SAM的核心设计围绕“双重一致性”展开,整体架构如图3所示,它以SAM/SAM2为基础,通过特征融合、循环一致交叉注意力、双分支提示生成三大核心模块,为SAM打造了高质量的提示生成体系,还能无缝扩展到视频领域。

图3

简单来说,DC-SAM的工作逻辑分为三步:首先融合SAM编码器和主干网络的特征,为查询图像生成更精准的先验掩码;接着通过循环一致交叉注意力机制过滤模糊、冲突的语义特征,优化提示生成过程;最后利用双分支策略生成正负样本提示,结合SAM提示编码器的正负嵌入,实现对掩码的细粒度控制。而针对视频任务,DC-SAM只需将图像掩码扩展为掩码管格式,结合SAM2的内存模块,就能完成视频帧的掩码传播,实现上下文视频分割。

关键创新点:四大设计破解分割难题

1. 特征提取与融合:兼顾SAM与主干网络优势

此前方法仅用ResNet、DINOv2等主干网络提取特征,完全忽略SAM编码器的特征价值。DC-SAM则将两者融合:先从支持图像和查询图像中提取主干网络特征,再结合SAM编码器输出的同尺寸特征,通过卷积操作整合,让生成的特征既保留主干网络的语义先验,又贴合SAM提示编码器的特性,大幅提升提示与SAM解码器的匹配度,为后续提示生成打下基础。

2. 循环一致交叉注意力:过滤噪声,聚焦关键区域

为解决提示生成中语义模糊、冲突的问题,DC-SAM设计了循环一致交叉注意力机制(如图4所示)。该机制先计算查询与支持特征的亲和力图,找到彼此最相似的像素点,再通过支持掩码的语义信息,给不一致的像素点设置负无穷偏置,直接过滤掉这些噪声特征。

图4

这一过程相当于给模型加了“语义过滤器”,迫使模型只关注与目标类别高度相关的区域,确保生成的提示精准聚焦关键目标,而非被背景或无关语义干扰。而且该机制会进行两轮优化,还会加入自注意力操作,进一步强化提示的全局一致性。

3. 双分支提示生成:正负样本联动,细化掩码边缘

SAM本身支持正负提示嵌入,但此前方法并未充分利用这一特性。DC-SAM设计了双分支结构:正分支用支持图像的前景掩码生成正样本提示,负分支则用背景掩码(前景掩码取反)生成负样本提示,再分别叠加SAM的正负嵌入。

如图5所示,仅用正样本提示时,分割掩码边缘粗糙;加入负样本提示后,边缘精度显著提升。DC-SAM通过这种方式,让模型能利用正负提示的相互作用,实现对掩码的细粒度控制,解决了分割边缘不精准的问题。

图5

4. 首个上下文视频分割基准IC-VOS:填补领域空白

为评估视频上下文分割能力,论文团队构建了IC-VOS基准。该基准从DAVIS、MOSE、LVOS v2等现有视频分割数据集中筛选样本,经过手动掩码选择、专家交叉验证等三阶段严格标注,最终包含369个视频、99549帧,覆盖30个语义类别(如表1、图2所示)。

表1
图2

IC-VOS要求模型仅通过一张带掩码的支持图像,分割视频中同语义类别的所有实例,既考验模型的语义迁移能力,也能验证动态场景下的分割鲁棒性。数据分布上,LVOS v2占比63.7%,MOSE占27.9%,DAVIS占8.4%;类别上,人、狗、猫的剪辑数最多,风筝、冲浪板等类别虽剪辑少但帧数多,形成长尾分布,能更全面地测试模型性能。

全场景领先,性能与泛化能力双优

1. 图像分割:刷新COCO-20i、PASCAL-5i基准

在经典的少样本分割数据集上,DC-SAM表现远超现有方法:在COCO-20i上达到55.5 mIoU(+1.4),在PASCAL-5i上实现73.0 mIoU(+1.1)。即使对比SegGPT这类依赖大规模数据预训练的模型,基于DINOv2-B的DC-SAM也能领先6%,充分体现了其数据效率和泛化能力。

从视觉效果来看(图7),DC-SAM能精准分割瓶子、鸟、自行车等复杂物体,完整捕捉轮廓细节,背景无误分割,而其他方法易出现边缘模糊、漏分割等问题。

图7

2. 视频分割:IC-VOS基准上大幅领先

在全新的IC-VOS基准上,DC-SAM取得71.52的J&F分数,比第二名VRP-SAM高出6.4%。如图8所示,面对“摩托车”语义分割任务,DC-SAM能准确识别并跟踪摩托车,而PFENet会漏分割车轮、误分割人物,VRP-SAM也无法区分人与摩托车,充分体现了DC-SAM在视频上下文分割中的优势。

图8

3. 消融实验:验证核心组件价值

消融实验进一步证明了各模块的有效性:在PASCAL-5i上,以VRP-SAM为基线,加入正负分支后性能提升,融合SAM特征后进一步优化,最终加入循环一致交叉注意力后,各折叠的mIoU均达到最优;而针对循环一致性模块的消融显示,掩码偏置和循环一致性分别带来0.7%的性能提升,两者缺一不可。此外,当单分支查询数量设为25时,模型达到最佳平均性能。

4. 跨领域泛化:工业、医学场景同样适用

为验证鲁棒性,DC-SAM还在工业数据集XYZ-IBD(无纹理金属物体分割)、医学数据集ADAM和RIM-ONE DL(视网膜结构分割)上测试,相比VRP-SAM分别提升29.1%、10.0%、6.2%,证明其不仅在通用场景有效,还能落地到实际工业、医疗领域。

SAM上下文分割的全新范式

DC-SAM通过双分支提示生成、循环一致交叉注意力、多源特征融合三大核心设计,补齐了SAM在上下文分割中的短板,无需大规模重训练就能实现高精度的图像/视频上下文分割;同时,IC-VOS基准的构建,填补了视频上下文分割评估体系的空白。无论是在经典的COCO-20i、PASCAL-5i数据集,还是全新的IC-VOS基准,甚至跨领域的工业、医学数据集,DC-SAM都展现出领先的性能,为SAM系列模型在上下文分割任务中的应用提供了全新范式。

该论文的源码已开源,感兴趣的研究者可以深入探索,相信这一方法也能为少样本分割、视频编辑等下游任务带来新的思路。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

http://www.gsyq.cn/news/1429753.html

相关文章:

  • 2026年专业做床垫的公司哪家强?南宁市雅兰床垫值得一探! - 资讯快报
  • 2026年华为OD机试(A卷,100分)- 机器人(Java JS Python)带详细答案和源码
  • 终极JSON转Java实体类工具:3分钟掌握GsonFormatPlus完整使用指南
  • 虚表 —— 表头多按钮示例
  • 别再对着空白界面发愁了!手把手教你用AVL Cruise自带模型快速搞定纯电动车仿真
  • AI漫剧制作平台2026服务与实力盘点 - 速递信息
  • AI行业进入“夏天”:多公司融资扩张,多维度打分揭示发展阶段与入场策略
  • 周四日子
  • 校园快递信息管理系统
  • 2026年小红书营销:如何用AI降CPA?
  • ESP32+GC9A01圆形屏播放视频,为什么你的TF卡读不出来?SPI引脚配置详解与排查指南
  • 2026二氧化碳减压阀品牌推荐:进口国产对比与高性价比选型指南 - 资讯纵览
  • 别再折腾蓝屏了!用这个一键脚本在Ubuntu 18.04上搞定Xrdp远程桌面
  • 3分钟解锁全球影视:PotPlayer百度翻译插件让外语字幕消失不见
  • 毕业论文神器!盘点2026年断层领先的的降AI率软件 - 降AI小能手
  • 液压挖泥船使用效果怎么样 - 舒雯文化
  • Python混入类高级设计
  • 2026年6月浪琴官方维修服务网点汇总:全国统一售后电话+门店地址一览 - 资讯纵览
  • Play Integrity API Checker:Android设备安全检测的终极免费指南
  • 象棋AI连线工具终极指南:5分钟学会用深度学习帮你下棋
  • [特殊字符]论文写完最怕啥?这个免费查重神器你还不知道?
  • 企业级多租户SaaS平台:RuoYi-Vue-Multi-Tenant如何实现高效数据隔离与统一管理
  • 无人机敏捷门穿越控制:MPC与神经网络的混合框架解析
  • Java学习Six -
  • FPGA仿真环境搭建:除了Vivado/Quartus,如何用Modelsim 10.4搭建独立的第三方仿真平台?
  • Qt跨平台音视频工具:支持RTMP推拉流、软硬解切换、多画面同屏、本地录像与截图
  • 第五节A+B 5
  • 2026年华为OD机试(A卷,100分)- 计算数组中心位置(Java JS Python)带详细答案和源码
  • 用数据说话 降AIGC工具深度测评与推荐 - 降AI小能手
  • 2026年4月市场头部石墨坩埚生产厂家推荐,等静压石墨坩埚/石墨粘土坩埚/氧化锌专用坩埚,石墨坩埚生产厂家怎么选择 - 品牌推荐师