当前位置：首页 > news >正文

别再只测分类模型了！用PyTorch复现论文：自动驾驶回归模型对抗攻击实战（附Udacity数据集）

news 2026/6/11 16:49:37

自动驾驶回归模型对抗攻击实战：从论文复现到PyTorch实现

自动驾驶系统正逐渐从实验室走向现实道路，而对抗攻击这一"隐形杀手"却可能让最先进的AI模型做出致命误判。与常见的图像分类攻击不同，自动驾驶模型作为回归任务的代表，其对抗攻击具有独特的评价标准和实现方式。本文将带您深入实战，使用PyTorch复现经典论文中的攻击方法，在Udacity数据集上构建完整的攻击验证流程。

1. 环境准备与数据加载

1.1 基础环境配置

复现对抗攻击实验需要准备以下核心组件：

# 基础环境安装 conda create -n adv_drive python=3.8 conda install pytorch==1.12.1 torchvision==0.13.1 cudatoolkit=11.3 -c pytorch pip install opencv-python pandas matplotlib tqdm

硬件配置建议：

GPU：NVIDIA RTX 3060及以上（显存≥8GB）
内存：16GB以上
存储空间：至少50GB可用空间（用于存储数据集和模型）

1.2 Udacity数据集处理

Udacity自动驾驶数据集包含33805张训练图像和5614张测试图像，每张图像对应归一化到[-1,1]范围的转向角度值。我们需要自定义PyTorch Dataset类：

from torch.utils.data import Dataset import cv2 import pandas as pd class UdacityDataset(Dataset): def __init__(self, csv_path, img_dir, transform=None): self.df = pd.read_csv(csv_path) self.img_dir = img_dir self.transform = transform def __len__(self): return len(self.df) def __getitem__(self, idx): img_path = os.path.join(self.img_dir, self.df.iloc[idx]['filename']) image = cv2.cvtColor(cv2.imread(img_path), cv2.COLOR_BGR2RGB) angle = self.df.iloc[idx]['steering_angle'] if self.transform: image = self.transform(image) return image, torch.tensor([angle], dtype=torch.float32)

注意：原始图像尺寸为640x480，建议统一resize到224x224以适应常见CNN架构

2. 自动驾驶模型构建与训练

2.1 三种经典模型实现

论文中对比了Epoch、DAVE-2和VGG16三种架构，以下是PyTorch实现要点：

DAVE-2模型架构（NVIDIA提出的轻量级网络）：

class Dave2(nn.Module): def __init__(self): super().__init__() self.conv_layers = nn.Sequential( nn.Conv2d(3, 24, 5, stride=2), nn.ELU(), nn.Conv2d(24, 36, 5, stride=2), nn.ELU(), nn.Conv2d(36, 48, 5, stride=2), nn.ELU(), nn.Conv2d(48, 64, 3), nn.ELU(), nn.Conv2d(64, 64, 3), nn.ELU() ) self.linear_layers = nn.Sequential( nn.Linear(1152, 100), nn.ELU(), nn.Linear(100, 50), nn.ELU(), nn.Linear(50, 10), nn.ELU(), nn.Linear(10, 1) ) def forward(self, x): x = self.conv_layers(x) x = x.view(x.size(0), -1) return self.linear_layers(x)

训练关键参数对比：

参数	Epoch模型	DAVE-2	VGG16
学习率	1e-4	1e-4	1e-5
Batch Size	32	32	16
训练轮数	50	50	30
优化器	Adam	Adam	AdamW
损失函数	MSE	MSE	Huber

2.2 模型训练技巧

自动驾驶回归任务特有的训练注意事项：

数据增强策略：
- 随机亮度调整（模拟光照变化）
- 水平翻转（同时取反转向角度）
- 随机平移（模拟车辆位置变化）

train_transform = transforms.Compose([ transforms.ToPILImage(), transforms.RandomApply([transforms.ColorJitter(brightness=0.2)], p=0.5), transforms.RandomHorizontalFlip(p=0.5), transforms.RandomAffine(degrees=0, translate=(0.1, 0.1)), transforms.Resize((224, 224)), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ])

评估指标：
- 平均绝对误差（MAE）
- 均方根误差（RMSE）
- 预测角度分布直方图

3. 对抗攻击方法实现

3.1 回归攻击的特殊性

与分类攻击不同，自动驾驶回归攻击的成功标准是：

|f(x') - f(x)| > Δ

其中Δ为对抗阈值（论文中设为0.3）。这意味着攻击需要使模型输出的转向角度偏离原始预测超过0.3（归一化值）。

3.2 核心攻击方法代码实现

IT-FGSM攻击（迭代目标FGSM）：

def it_fgsm_attack(model, image, target_angle, epsilon=0.05, alpha=0.01, iters=10): perturbed_image = image.clone().detach().requires_grad_(True) for _ in range(iters): output = model(perturbed_image) loss = F.mse_loss(output, target_angle) loss.backward() with torch.no_grad(): perturbation = alpha * perturbed_image.grad.sign() perturbed_image += perturbation perturbed_image = torch.clamp(perturbed_image, 0, 1) perturbed_image.grad.zero_() return perturbed_image.detach()

AdvGAN攻击实现框架：

class AdvGAN(nn.Module): def __init__(self, target_model): super().__init__() self.generator = nn.Sequential( nn.Conv2d(3, 32, 3, padding=1), nn.LeakyReLU(0.2), nn.Conv2d(32, 64, 3, padding=1), nn.LeakyReLU(0.2), nn.Conv2d(64, 3, 3, padding=1), nn.Tanh() ) self.discriminator = nn.Sequential( nn.Conv2d(3, 64, 3, stride=2), nn.LeakyReLU(0.2), nn.Conv2d(64, 128, 3, stride=2), nn.LeakyReLU(0.2), nn.AdaptiveAvgPool2d(1), nn.Flatten(), nn.Linear(128, 1) ) self.target_model = target_model def forward(self, x): perturbation = self.generator(x) return torch.clamp(x + perturbation, 0, 1)

提示：AdvGAN训练时需要交替优化生成器和判别器，同时加入针对目标模型的攻击损失

3.3 攻击效果评估指标

建立完整的评估体系：

def evaluate_attack(model, test_loader, attack_fn, delta=0.3): total = 0 success = 0 mae_before = 0 mae_after = 0 for images, angles in test_loader: perturbed = attack_fn(model, images, angles + delta) with torch.no_grad(): orig_output = model(images) perturbed_output = model(perturbed) mae_before += F.l1_loss(orig_output, angles, reduction='sum') mae_after += F.l1_loss(perturbed_output, angles, reduction='sum') success += (torch.abs(perturbed_output - orig_output) > delta).sum() total += len(images) return { 'success_rate': success / total, 'mae_increase': (mae_after - mae_before) / total, 'avg_perturbation': ... # 计算平均扰动大小 }

4. 防御策略与实践

4.1 对抗训练实现

将生成的对抗样本加入训练集：

def adversarial_train(model, train_loader, optimizer, attack_fn, epochs=10): for epoch in range(epochs): for images, angles in train_loader: # 生成对抗样本 adv_images = attack_fn(model, images, angles + 0.3) # 混合原始和对抗样本 mixed_images = torch.cat([images, adv_images]) mixed_angles = torch.cat([angles, angles]) # 训练步骤 optimizer.zero_grad() outputs = model(mixed_images) loss = F.mse_loss(outputs, mixed_angles) loss.backward() optimizer.step()

4.2 特征压缩防御

实现两种特征压缩方法：

def bit_depth_reduction(x, bits=4): """将图像颜色位深降低到指定位数""" x_quantized = torch.round(x * (2**bits - 1)) / (2**bits - 1) return x_quantized def median_filter(x, kernel_size=3): """应用中值滤波""" pad = kernel_size // 2 x_padded = F.pad(x, (pad, pad, pad, pad), mode='reflect') unfolded = F.unfold(x_padded, kernel_size) median = torch.median(unfolded, dim=1)[0] return median.view_as(x)

防御检测逻辑：

def detect_attack(model, x, threshold=0.1): original_pred = model(x) # 应用两种压缩方法 x_bit = bit_depth_reduction(x) x_median = median_filter(x) pred_bit = model(x_bit) pred_median = model(x_median) # 计算差异 diff_bit = torch.abs(pred_bit - original_pred) diff_median = torch.abs(pred_median - original_pred) return (diff_bit > threshold) | (diff_median > threshold)

5. 完整实验流程与结果分析

5.1 实验设计矩阵

建立系统的实验评估框架：

实验维度	具体设置
模型架构	Epoch / DAVE-2 / VGG16
攻击方法	IT-FGSM / Opt / AdvGAN / 通用扰动
攻击强度	ε ∈ [0.01, 0.05, 0.1]
防御策略	对抗训练 / 特征压缩 / 异常检测
评估指标	攻击成功率 / MAE变化 / 扰动可视化

5.2 典型攻击效果对比

不同攻击方法在DAVE-2模型上的表现：

攻击方法	白盒成功率	黑盒成功率	平均扰动L2范数
IT-FGSM	98.2%	15.7%	0.032
Opt	99.1%	18.3%	0.028
AdvGAN	97.5%	22.4%	0.035
Opt_uni	96.8%	25.1%	0.038
AdvGAN_uni	95.3%	30.2%	0.042

5.3 关键问题排查

复现过程中常见问题及解决方案：

攻击成功率低
- 检查梯度是否正常回传
- 调整对抗阈值Δ
- 验证模型预测范围是否匹配标签范围
生成图像出现伪影
- 添加图像范围约束（clip操作）
- 在GAN损失中加入感知损失
- 调整生成器网络结构
防御效果不理想
- 检查防御参数（如特征压缩的bit数）
- 验证防御模块是否真正参与前向计算
- 平衡防御强度与模型原始精度

# 梯度检查示例 def check_gradient_flow(model, x): x.requires_grad = True output = model(x) loss = output.mean() loss.backward() grad_norm = x.grad.norm() print(f"Gradient norm: {grad_norm.item():.6f}") return grad_norm > 1e-6 # 检查梯度是否非零

6. 可视化分析与案例研究

6.1 对抗样本可视化

def visualize_attack(original, perturbed, delta): plt.figure(figsize=(10, 5)) # 原始图像和扰动图像 plt.subplot(1, 3, 1) plt.imshow(original) plt.title("Original") plt.subplot(1, 3, 2) plt.imshow(perturbed) plt.title("Perturbed") # 扰动放大显示 plt.subplot(1, 3, 3) perturbation = (perturbed - original + 1) / 2 # 调整到可视范围 plt.imshow(perturbation) plt.title(f"Perturbation (Δ={delta:.2f})") plt.tight_layout() plt.show()

6.2 转向角度预测对比

构建预测轨迹对比图：

def plot_steering_comparison(orig_angles, adv_angles, delta=0.3): plt.figure(figsize=(12, 6)) frames = range(len(orig_angles)) plt.plot(frames, orig_angles, 'b-', label='Original Prediction') plt.plot(frames, adv_angles, 'r--', label='Adversarial Prediction') # 标记攻击成功区域 mask = np.abs(adv_angles - orig_angles) > delta plt.fill_between(frames, -1, 1, where=mask, color='red', alpha=0.1, label='Attack Success') plt.axhline(y=delta, color='k', linestyle=':', label='Threshold') plt.axhline(y=-delta, color='k', linestyle=':') plt.ylim(-1.1, 1.1) plt.xlabel('Frame Sequence') plt.ylabel('Steering Angle') plt.legend() plt.title('Steering Angle Deviation Under Attack') plt.show()

在实际项目中，我们发现DAVE-2模型对右侧车道线扰动特别敏感，这可能与其训练数据分布有关。通过定向分析这类脆弱性特征，可以更有针对性地设计防御策略。

查看全文

http://www.gsyq.cn/news/1505067.html