当前位置：首页 > news >正文

Variance in Adversarial Attack for Customized Diffusion Models

news 2026/6/25 19:02:13

一种对抗性噪声编码器，用于防范保留身份的图像生成

Related Works

Tuning-based Customized Generation

DreamBooth, Custom Diffusion, LoRA and Textual Inversion

需要多图像微调，它们需要大量的计算资源和时间

Encoder-based ID-Preserving Generation

基于编码器的定制生成方法利用预训练编码器提取外观特征，促进实时的零样本生成。这些方法从领域无关的编码器发展到了领域特定的编码器。

InstantID包含三个关键组件：
（1）一个捕获鲁棒语义面部信息的ID嵌入；（工业级预训练人脸识别模型作为 ID 嵌入的提取基础，论文中明确使用的是antelopev2）
（2）一个具有解耦交叉注意力的轻量级适配模块，便于将图像用作视觉提示；
（3）一个IdentityNet，通过额外的空间控制对参考面部图像的细节特征进行编码。

Problem Definition

研究目标：给定一幅包含人像的图像x，我们的目标是生成对抗性扰动δ，以防止身份保留生成。我们旨在最大化未受扰动的生成图像与受扰动的生成图像之间的身份一致性差异，其中g是身份保留生成器。为了统一对不同模型的保护，我们可以找到一个能同时干扰多个特征空间的δ，降低相似度值的总和。因此，我们训练了一个噪声编码器网络，求解

，约束条件为。这里，S表示身份相似性度量，我们使用ArcFace和CLIP特征空间中的余弦相似度进行评估。

Method

我们方法的整体示意图。我们方法的关键设计包括噪声编码器、损失函数以及允许反向传播的梯度优化路径。

Noise Encoder

该网络以224×224的RGB图像作为输入，输出三通道的对抗性扰动。这些扰动被投射到[-1, 1]范围内，然后进行反归一化处理（），调整为原始图像的尺寸后添加到图像中。我们使用视觉Transformer（ViT）来生成对抗性噪声，其输入和输出维度均设置为224×224。

从经验来看，我们发现添加一个额外的先验掩码通道（用于指示人脸位置）有助于训练。这个人脸定位掩码是由InsightFace管道基于面部特征点生成的，这些特征点指定了图像中人脸的区域。该掩码作为第四个输入通道与图像拼接，省去了网络从零开始学习人脸定位能力的过程，从而降低了训练难度。

Adversarial ID Protection

为了实现身份保护，我们可以使从受保护图像中提取的特征与原始特征有显著差异，从而阻止生成模型获取正确的面部特征。基于这一原理，我们分析了InstantID、IP-Adapter、IP-Adapter-Plus和PhotoMaker的具体流程，以设计有针对性的攻击目标和损失函数。

InstantID通过两个步骤获取面部特征，如图2所示。首先，它将人脸对齐到预定义的位置，然后将对齐后的人脸输入ArcFace特征提取器以获取面部信息。我们选择欺骗ArcFace模型，最小化原始图像与受保护图像的ArcFace特征之间的余弦相似度。

IP-Adapter、IP-Adapter-Plus和PhotoMaker均依赖于CLIP视觉编码器提取的面部特征，尽管它们使用的CLIP视觉版本不同。IP-Adapter和PhotoMaker利用CLIP视觉的输出，而IP-Adapter-Plus则采用CLIP视觉倒数第二层之前的特征。如图2所示，来自不同层的嵌入提供了不同的攻击面。我们根据三个原则选择用于攻击的目标嵌入：
（1）阻断所有潜在路径，确保任何从左到右的信息流都至少经过一个目标嵌入，以保证所有信息流都会被中断；
（2）在网络中尽早选择特征（图2中越靠左的位置），以缩短反向传播路径长度，从而简化优化过程；
（3）以具有密集语义信息的嵌入为目标，以便更有效地进行操控。

最终，我们选择图2中标记为红色的嵌入作为主要攻击目标。与InstantID类似，其目标是最大化受扰动嵌入与原始嵌入之间的余弦相似度，从而在攻击后有效地使它们对齐。因此，最终的对抗损失是所有损失的加权平均值，

给出，其中和分别表示干净图像和受保护图像的人脸嵌入。

Imperceptibility (不可感知性)

为了将对图像质量的视觉影响降至最低，我们对预测的对抗性噪声δ施加了正则化。我们进一步对任何超过ϵ球边界的噪声值引入了辅助惩罚。这些项共同构成了我们的正则化损失，如下所示：

因此，最终损失是对抗性损失和正则化的总和，具体如下：

第一项：是标准的L1 正则化。它惩罚噪声的绝对值之和。

特性 L1 正则化 L2 正则化
效果稀疏性（很多像素=0）平滑性（所有像素都小）
几何形状菱形（有尖角）圆形（光滑）
视觉表现局部集中噪声全局均匀噪声
L1 正则化倾向于让大部分像素点的噪声为 0 或接近 0，只在关键区域（如面部特征边缘）产生噪声。这比 L2 正则化更能保持图像的原始纹理，减少“雾状”模糊感。
人眼特性：人眼对全局均匀的微弱噪声比局部稀疏的噪声更敏感

特性	L1 正则化	L2 正则化
效果	稀疏性（很多像素=0）	平滑性（所有像素都小）
几何形状	菱形（有尖角）	圆形（光滑）
视觉表现	局部集中噪声	全局均匀噪声

第二项： (硬边界软约束)
- 表示将噪声值强制截断在范围内
- 计算的是超出边界的那部分噪声。
- 允许网络在训练时“试探”边界，但一旦越界就会受到惩罚，从而引导网络主动学习生成始终在范围内的噪声。

Robustness (鲁棒性)

InstantID 等模型在提取特征前，会先进行人脸对齐 (Face Alignment)。这是一个仿射变换（Affine Transformation），会根据关键点计算一个矩阵把脸“摆正”。如果在训练时假设矩阵是固定的，但在实际推理时，由于添加了噪声，人脸关键点检测可能会发生微小偏移，导致实际使用的对齐矩阵与训练时的不同。这种错位会导致精心设计的噪声失效。

(带噪声的仿射矩阵)
- ：原始计算出的标准仿射变换矩阵。
- ：添加到矩阵上的高斯噪声（均值为 0，方差为，文中设定）。
- 模拟“关键点检测不准”或“图像轻微变形”的情况。
(模拟的对齐后坐标)
- 使用这个“被污染”的矩阵去变换人脸关键点，得到新的坐标。
- 这意味着网络在训练时看到的“对齐后的人脸”是带有轻微几何形变的。

实验设置

数据集

训练集：CelebA(190,000 张未裁剪图像)，包含任意尺寸和长宽比的人脸。
测试集：
- CelebA(50 张未见过的图像)。
- VGG Face(50 张图像)，用于评估跨数据集泛化能力。

模型架构

核心网络：ViT-S/8(Vision Transformer Small, patch size 8)。
输入：224×224 RGB 图像 + 1 通道人脸掩码 (Face Mask) (由 InsightFace 生成，辅助定位)。
输出：3 通道对抗噪声，范围限制在。

训练策略

分3 个阶段训练，逐步缩小噪声允许范围 () 并调整损失权重。
- Stage 1: , 120 epochs.
- Stage 2: , 20 epochs.
- Stage 3: (即 9/255), 20 epochs.
优化器设置：
- Warm-up: 前 2,500 步线性预热。
- 梯度裁剪: L2 范数最大值为 10。
- Batch Size: 112。
- 硬件: 4 × NVIDIA H100 (80GB)，训练耗时约10 天。
鲁棒性增强：在 InstantID 分支的仿射变换矩阵中加入高斯噪声 () 进行数据增强。

评估指标

保护效果：
- ISM (Identity Score Matching): 原始图与生成图的 ArcFace 特征余弦相似度 (越低越好)。
- FDR (Face Detection Rate): 生成图中检测到人脸的比例 (越低越好，反映是否导致无法生成人脸)。
图像质量：
- PSNR / SSIM: 原始图与保护后图像的相似度 (越高越好)。
- SER-FIQ: 生成图像的质量评分。
效率：单张图像保护耗时 (秒)。

对比基线

ACE, AdvDM, Anti-DreamBooth, PhotoGuard, SimAC。
以及作者方法的 PGD 变体 (Ours-PGD，用于验证上限但速度慢)。

PID: Prompt-Independent Data Protection Against Latent Diffusion Models

Related Work

1. 基于代理模型的对抗样本生成

这类方法的核心思想是“以攻代守”，通过模拟攻击者的训练过程来生成能够干扰模型学习的对抗性图像。

构建代理模型：防御者首先使用干净的原始数据微调一个代理模型（surrogate model, ），使其模拟潜在的攻击者模型。
最大化损失：在获得代理模型后，防御者在原始图像上添加扰动，生成对抗样本，最大化该代理模型在扰动数据上的训练损失。

其中，是条件扩散模型的训练损失，是文本提示词，是视觉编码器，限制扰动的不可见性。

2. 基于双层优化的不可学习样本生成

这类方法借鉴了经典“不可学习样本”（Unlearnable Examples）的思想，旨在生成一种特殊的数据，使得模型即使在上面进行训练，也无法学到任何有用的概念。
特性对抗样本 (Adversarial Examples) 不可学习样本 (Unlearnable Examples)
主要目标欺骗推理 (Inference) 破坏训练 (Training)
应用场景模型已训练好，输入扰动图片让模型预测错误。模型正在训练中，输入扰动图片让模型学不到特征。

特性	对抗样本 (Adversarial Examples)	不可学习样本 (Unlearnable Examples)
主要目标	欺骗推理 (Inference)	破坏训练 (Training)
应用场景	模型已训练好，输入扰动图片让模型预测错误。	模型正在训练中，输入扰动图片让模型学不到特征。

采用最小 - 最大（Min-Max）的双层优化策略。
内层优化（Min）：模拟攻击者，试图找到最优的模型参数以最小化训练损失。
外层优化（Max）：防御者寻找最优的扰动图像，使得即使攻击者找到了最优模型，其训练损失依然尽可能大。

Anti-DreamBooth的两种变体，即全训练替代模型引导（FSMG）和交替替代与扰动学习（ASPL）。这两种方法都使用投影梯度下降（PGD）来生成对抗性噪声δ，以最大化替代模型的重建损失。左图：FSMG使用在小型干净图像集上完全微调的固定替代模型来指导PGD优化。右图：ASPL在以下两个步骤之间交替进行：（i）在干净图像上微调克隆替代模型；（ii）使用该克隆模型通过PGD为当前图像集生成δ。然后，在下次迭代之前，在扰动图像上微调实际的替代模型θ。

查看全文

http://www.gsyq.cn/news/1588512.html