当前位置: 首页 > news >正文

跨数据与任务的可扩展图像分割技术

跨数据与任务的可扩展图像分割

在2025年计算机视觉与模式识别会议(CVPR)上提出的一篇论文中,我们介绍了一种新的图像分割方法,该方法能够跨不同数据集和任务进行扩展。传统分割模型虽然在孤立任务上有效,但随着新任务或陌生场景数量的增加,往往表现不佳。我们提出的方法使用称为混合查询变换器(MQ-former)的模型,旨在实现跨多个任务和数据集的联合训练和评估。

可扩展分割

图像分割是一种计算机视觉任务,涉及将图像划分为不同的区域或片段。每个片段对应于场景中的不同对象或部分。存在多种类型的分割任务,包括前景/背景分割(区分不同距离的对象)、语义分割(将每个像素标记为属于特定对象类别)和实例分割(识别每个像素属于对象类别的特定实例)。

“可扩展性”意味着分割模型能够随着训练数据集大小的增加、执行任务的多样性或两者的增加而有效改进。大多数先前的研究都集中在其中一个方面——数据或任务多样性。我们同时解决了这两个问题。

两种查询的故事

在我们的论文中,我们展示了阻碍分割模型有效可扩展性的一个问题是对象查询的设计。对象查询是一种表示场景中对象假设的方式——这种假设可以针对图像进行测试。

对象查询主要有两种类型。第一种,我们称之为“可学习查询”,是学习的向量,与图像特征交互并编码有关位置和对象类别的信息。可学习查询在语义分割上往往表现良好,因为它们不包含对象特定的先验。

第二种类型的对象查询,我们称之为条件查询,类似于两阶段对象检测:区域提议由变换器编码器生成,然后将高置信度的提议作为查询馈送到变换器解码器中以生成最终预测。条件查询与对象类别紧密对齐,并且在语义定义明确的对象上的对象检测和实例分割方面表现出色。

我们的方法是结合两种类型的查询,这提高了模型在任务间迁移的能力。我们的MQ-Former模型使用可学习查询和条件查询来表示输入,并且解码器的每一层都具有交叉注意力机制,以便可学习查询的处理可以考虑来自条件查询处理的信息,反之亦然。

利用合成数据

混合查询有助于跨分割任务的可扩展性,但分割模型可扩展性的另一个方面是数据集大小。扩展分割模型的关键挑战之一是高质量标注数据的稀缺。为了克服这一限制,我们建议利用合成数据。

虽然分割数据稀缺,但对象识别数据却很丰富。对象识别数据集通常包括边界框或标识标记对象所在图像区域的矩形。

要求训练好的分割模型仅分割边界框内的对象显著提高了性能;因此,我们能够使用较弱的分割模型将对象识别数据集转换为可用于训练更强分割模型的分割数据集。

边界框还可以将自动字幕生成模型聚焦于图像中的感兴趣区域,以提供训练语义分割和实例分割模型所需的对象分类类型。

实验结果

我们使用涵盖一系列分割任务的15个数据集评估了我们的方法,并发现,使用MQ-Former,同时扩展训练数据量和任务多样性持续增强了模型的分割能力。

例如,在SeginW基准测试中(包括25个用于开放词汇野外分割评估的数据集),将数据和任务从100,000个样本扩展到600,000个,对象掩码的平均精度提高了16%。结合合成数据将性能又提高了14%,建立了新的技术水平。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.gsyq.cn/news/19992.html

相关文章:

  • 实用指南:大语言模型LLM解决AI幻觉方法的深度分析
  • ZKsync Baby Alpha里程碑达成:zkEVM技术架构全面解析
  • 深入解析:【MySQL✨】MySQL 入门之旅 第十一篇:常见错误排查与解决方案
  • 2025年10月家纺摄影公司最新推荐榜单,专业拍摄与创意设计一站式服务首选!
  • JAVA工具包
  • 2025年10月储罐源头厂家最新权威榜单:技术实力与市场口碑深度解析
  • 2025 年试验箱厂家最新推荐排行榜:聚焦高低温 / 恒温恒湿 / 冷热冲击等设备研发实力与 ISO 质量管控的标杆企业精选
  • 完整教程:PyTorch深度学习实战【12】之基于RNN的自然语言处理入门
  • 深入解析:用AI重塑电商,京东零售发布电商创新AI架构体系Oxygen
  • 2025 年最新推荐!防水堵漏工程公司权威榜单重磅发布,覆盖地下室 / 污水池 / 伸缩缝等场景,帮业主避开乱象选靠谱企业
  • 2025 药包材辅导公司最新推荐榜:含 GMP 验证 / 质量管理体系 / 实验室装修等服务优质机构盘点公司推荐
  • 2025年10月氢氧化镁厂家最新推荐排行榜,阻燃剂氢氧化镁,环保型氢氧化镁,高纯度氢氧化镁公司推荐!
  • 多进程环境中解决 PHP 文件系统锁定问题指南
  • mysql数据库定时执行sql语句
  • iSolarBP如何用技能重构全流程评估与设计?
  • 2025 年同声传译 APP 推荐!翻译鸥:AI 智能同传、视频 / 图片翻译工具,跨语言沟通实用之选
  • [数据模型/大数据] 数据建模之缓慢变化维
  • python第四天
  • Win10如何彻底关闭自动更新
  • 在AI技术唾手可得的时代,挖掘新需求成为核心竞争力——某知名媒体系统生态需求洞察
  • 20232403 2025-2026-1 《网络与系统攻防技术》实验一实验报告
  • 2025 年快速退火炉优质厂家最新推荐榜单:真空 / 半导体 / 晶圆 / 高温 / 桌面 / 半自动 / 全自动 / 芯片 / 硅片 / RTP 设备企业核心竞争力全面解析
  • 2025 年窗帘品牌最新推荐权威排行榜:精准剖析各品牌优势,定制 / 设计领先 / 家居等多类型窗帘优选母婴/遮光/智能/蕾丝/百叶/阳台/隔音/卷帘窗帘厂家推荐
  • 2025 年最新推荐!停车场系统厂商榜单重磅发布,涵盖管理 / 收费 / 无人值守 / 道闸 / 车牌识别系统优质服务商
  • oo
  • 实用指南:20250926的学习笔记
  • 2026 NOI 做题记录(六)
  • WPF 通过RawInput获取系统全局触摸事件
  • chmod只修改文件或者只修改目录权限
  • 深入解析:246-基于Django的美食菜谱数据分析推荐系统