当前位置: 首页 > news >正文

ANOMALYCLIP

对象无关的零样本异常检测

创新点有三个:(1)对象不可知文本提示关注图像的异常/正常,而不是对象语义;(2)文本编码器调优来优化原始文本空间;(3)DPAM(V-V)通过增强局部视觉语义来提高分割性能。

论文主要用的是辅助AD数据集(提前标注好“正常/异常图像 + 像素级掩码”的数据集,如MVTec AD(含金属螺母、胶囊等15类缺陷)),医疗辅助数据集(如ColonDB)。

VLM有强大的零样本识别能力(包括异常检测在内的各种视觉任务)
需要对象无关的零样本识别能力(当目标域不具有相关训练数据时(违反数据隐私策略、保护患者敏感信息等))

类似CLIP之类的VLM被训练成更关注class语义而不是正常/异常。原因是:文本提示模板是“A photo of a [cls]”

回顾一下CLIP:
CLIP的文本编码器:传递类名为cls的文本提示模板G(A photo of a [cls]),以得到对应的文本嵌入。
CLIP的图像编码器:传递图像,得到全局视觉嵌入和局部视觉嵌入。


异常模式保持相似,例如金属螺母和板上的划痕、晶体管和印刷电路板的错位、各种器官表面的肿瘤/病变等。所以我们改变文本提示模板为:

image

这里的[V]、[W]都是可学习的(在训练过程中值会不断调整)。这里的[V1][V2]可能在训练之后分别代表着[表面平滑]、[形状规则],[W1][W2]可能在训练之后分别代表着[局部划痕]、[边缘突变],这样gn、ga两个模板在训练之后就分别充分吸取了正常、异常的特征。

一、优化gn、ga模板的过程(全局-局部上下文优化):

总损失 = 全局损失 + λ × 局部损失的加权和

image

(1)全局损失:判断这张图是异常图还是正常图

image

这里的fi是全局视觉嵌入匹配的也是gn、ga对应的文本嵌入

Lglobal:分别计算fi和gn、ga的余弦相似度,用交叉熵损失来优化。

(2)局部损失:定位“异常在图像的哪个像素”

image

image

image

image

掩码S一般公开数据集自带。

二、文本编辑器的调整

为什么要调整文本编码器?

因为CLIP的文本编码器原本是为“图像-物体类别语义对齐”预训练的,而我们希望文本空间能捕捉“异常/正常”的通用语义,所以需要对文本编码器进行调整。

对文本编码器的优化集中在“前9层”

image

image

为什么只替换“前缀”?
原始token的后P-Q个包含CLIP预训练的通用语义(如“[object]、[damaged]”的基础语义),保留它们可避免文本空间完全偏离视觉-语言对齐的基础。

image

三、图像编码器的调整

DPAM机制:将原始的Q-K注意力替换为V-V自注意力。

CLIP的Q-K注意力机制会导致视觉编码器过度关注全局物体语义,而忽略局部异常特征。(DeCLIP提出的注意力偏移问题)

四、推理过程

1、图像级异常检测:用P(ga,fi)判断是否异常。

image

2、像素级异常分割:定位“异常在哪里”

image

image

image

image

最后给个推理实例:

image

五、下面是实验部分:

工业检测数据集(7个):MVTec AD、VisA、MPDD、BTAD、SDD、DAGM、DTD-Synthetic

医学成像数据集(10个):皮肤癌ISIC、结肠息肉CVC-ClinicDB、CVC-ColonyDB、Kvasir、Endo、甲状腺结节TN3K、脑肿瘤HeadCT、脑MRI、Br35H、新冠肺炎COVID-19

对比的SOTA:CLIP、CLIP-AC、WinCLIP、VAND、CoOp

工业异常检测评价指标(3个):AP、AUROC、AUPRO

工业检测的比较结果(table 1):

image

医疗影像的比较结果(table 2):

image

http://www.gsyq.cn/news/28210.html

相关文章:

  • 基于伪距差分定位技术实现方案
  • Go开发者必备:5款提升代码质量的顶级Linter工具
  • 函数作用域在解决 JavaScript 自定义元素类跨环境兼容问题中的应用
  • React-router v6学生管理系统笔记 - 教程
  • NOIP模拟赛R8
  • 钡铼技术预测:未来工业AI发展的七大趋势
  • 2025 年集成房屋生产厂家最新推荐榜:聚焦企业专利技术、品质管控及知名客户合作案例的权威解析
  • 2025 年东莞石排到南通物流专线公司最新推荐榜:聚焦企业专利技术、品质管控及知名客户合作案例的权威解析
  • 分类概念 - -一叶知秋
  • 2025 年报警器经销商最新推荐排行榜:深度解析优质服务商,海湾 / 青鸟 / 利达等品牌优选,郑州安创消防实力领衔
  • 2025 年最新推荐灭火器维修公司权威榜单:覆盖干粉 / 水基 / 二氧化碳 / 七氟丙烷 / 锂电池灭火器维修,帮您选出专业可靠服务单位
  • 深入解析:机器学习——聚类算法
  • ASP.NET Core Blazor 路由配置和导航
  • 2025年常州健身房私教权威推荐榜:专业教练资质与个性化课程服务的口碑之选
  • 电脑没声音怎么办?4种方法快速修复电脑无声问题(实测有效)
  • 易基因:JAR (IF13):西农陈玉林团队多组学分析揭示绵羊早期胚胎发育的分子与表观遗传调控机制|项目文章
  • 2025 年一线门窗厂家最新推荐榜:聚焦企业专利技术、品质管控及知名客户合作案例的权威解析
  • 2025 年北京杜拉维特马桶公司最新推荐榜:聚焦企业专利技术、品质管控及知名客户合作案例的权威解析
  • 2025 年铝门窗厂家最新推荐榜:系统/智能/断桥/窄边/定制/全景/阳光房/隐框/隔声/防火铝门窗公司推荐
  • MATLAB实现蒙特卡洛法的10负荷点配电网可靠性计算
  • 可调恒压恒流直流电源的技术特性与应用价值分析
  • AI元人文:创新决策、躺平懒人与针砭机制(修订版)
  • 《性能之巅:洞悉系统、企业与云计算》笔记——应用程序
  • 2025年10月兰花油品牌推荐:全维度排行帮你锁定心头好
  • 2025年10月朝阳门粤菜馆对比榜:福宫等五家真实评测
  • 2025年10月朝阳门美食酒店推荐榜:福宫领衔五强对比评测
  • WPF开发库推荐
  • MyEMS 核心功能拆解:数据采集、能耗分析、智能调控如何落地?
  • 赋能未来测试英才:“测吧”一站式实训平台,为高校软件测试教学按下“加速键”
  • ​FAQ: 如何在 WPF 项目中强制指定统一输出目录并确保 VS 调试正常? - 教程