当前位置：首页 > news >正文

PyTorch实战优化DCGAN：稳定生成64×64人脸的全链路调优指南

news 2026/6/15 6:03:54

1. 项目概述：这不是教科书里的DCGAN，而是能跑通、能收敛、能生成真实人脸的实战版本

“Creating our first optimized DCGAN”——光看标题，你可能以为这是某门深度学习课的作业题，或者GitHub上又一个star数寥寥的tutorial仓库。但在我带过二十多个AI工程实践项目、亲手调烂过三百多张GPU卡之后，我敢说：90%标着“DCGAN实现”的代码，连第一轮训练都跑不完，更别说生成一张像样的脸。不是模型写错了，是数据没对齐、归一化没做透、梯度爆炸没抑制、判别器太强把生成器直接干废了。这个“first optimized”里的“optimized”，根本不是指加个Adam优化器就叫优化，而是从数据管道、网络结构、损失函数、训练节奏到硬件适配，全链路重新校准的结果。它解决的核心问题非常朴素：让一个刚学完PyTorch基础的工程师，在A100或甚至RTX 3060上，用不到2小时搭起一条能稳定输出64×64清晰人脸的生成流水线。适合谁？适合正在准备AI岗位面试需要作品集的应届生，适合想把GAN嵌入产品原型的数据科学家，也适合被“生成对抗”四个字吓退多年、今天决定亲手撕开黑箱的中级开发者。关键词很直白：DCGAN、PyTorch、图像生成、GAN训练稳定性、人脸数据集、模型收敛。它不讲博弈论纳什均衡，不推导JS散度变分下界，只告诉你：为什么batch size设为128而不是64，为什么LeakyReLU的alpha必须是0.2而不是0.1，为什么生成器最后一层用Tanh而判别器用Sigmoid会死得更快。这是一份从报错日志里长出来的笔记，不是从论文摘要里抄来的讲义。

2. 整体设计思路与关键决策逻辑：为什么放弃“标准DCGAN”，选择这套组合拳

2.1 标准DCGAN的三大隐形陷阱，我们一个都没绕开

原始DCGAN论文（Radford et al., 2015）提出了一套看似优雅的架构：生成器用转置卷积堆叠上采样，判别器用普通卷积下采样，全部用BatchNorm+ReLU/LeakyReLU，权重初始化用正态分布。但实操中，这套设计在真实数据上漏洞百出。我们拆解三个最致命的点：

第一，数据归一化失配。论文说“输入图像归一化到[-1,1]”，但很多人直接拿PIL.Image.open读图后除以255，得到[0,1]，再乘2减1——这步看似正确，实则埋雷。因为OpenCV和PIL对JPEG解码的YUV→RGB转换存在微小差异，导致像素值在边界处出现0.001级抖动。当输入进Tanh激活的生成器时，这种抖动会被放大成梯度噪声。我们实测发现，同一张CelebA图片，用PIL读取后归一化，训练第15轮开始loss剧烈震荡；换成OpenCV读取+手动YUV校准，震荡消失。这不是玄学，是浮点精度在非线性激活下的指数级放大。

第二，判别器过强导致的模式崩溃。标准设计里判别器每轮更新一次，生成器也更新一次。但实际中，判别器收敛速度远快于生成器——尤其当使用高分辨率人脸时，判别器能在3轮内就把生成样本识别准确率拉到99.7%。此时生成器收到的梯度几乎全是负向惩罚，参数更新方向混乱，很快陷入局部极小。我们记录过梯度范数：第1轮生成器梯度均值是0.042，第10轮跌到0.003，第20轮只剩1.7e-5。这不是训练好了，是彻底瘫痪了。

第三，转置卷积的棋盘效应（checkerboard artifacts）被严重低估。DCGAN依赖转置卷积做上采样，但其反卷积核的重叠区域会导致输出特征图出现周期性强度偏差。在64×64输出上，这种偏差表现为头发边缘的条纹、皮肤纹理的网格状伪影。我们用频谱分析对比过：标准转置卷积输出的高频能量集中在(8,8)、(16,16)等坐标，而真实人脸的高频能量是弥散分布的。这不是画质差，是生成机制本身在伪造空间结构。

2.2 我们的四层优化策略：从数据到训练节奏的全链路重校准

针对上述陷阱，我们没选择推翻重来，而是在DCGAN骨架上做精准外科手术。整个优化方案分四层，像俄罗斯套娃一样层层嵌套：

第一层：数据预处理层——用OpenCV+Lab色彩空间重建输入管道
放弃PIL，全部改用OpenCV读取JPEG。关键一步：不直接转RGB，而是先转Lab空间，对L通道做CLAHE（对比度受限自适应直方图均衡化），再转回RGB。Lab空间的L通道表征亮度，对光照变化鲁棒性强，CLAHE能增强面部阴影细节而不放大噪声。实测表明，同样用Adam(lr=0.0002)，Lab预处理的数据集让生成器在第8轮就能生成可辨识的眼睛轮廓，而RGB直输要等到第22轮。

第二层：网络结构层——用PixelShuffle替代部分转置卷积，插入SpectralNorm
生成器中，将最后两层转置卷积替换为：先用1×1卷积升维，再用PixelShuffle做亚像素上采样。PixelShuffle没有重叠核，彻底消除棋盘效应。判别器中，对所有卷积层添加Spectral Normalization（谱归一化），约束权重矩阵的最大奇异值≤1。这不是为了数学漂亮，而是实测发现：加SpectralNorm后，判别器判别准确率稳定在85%~92%区间，不再冲到99%+，给生成器留出了梯度更新空间。我们用PyTorch的torch.nn.utils.spectral_norm实现，计算开销仅增加3.2%，但训练稳定性提升400%。

第三层：损失函数层——Wasserstein Loss + Gradient Penalty（WGAN-GP）重构对抗目标
放弃原始的二元交叉熵（BCELoss）。改用Wasserstein距离，核心优势是：梯度处处连续，不会出现“判别器太强导致梯度消失”。但WGAN原版要求判别器满足Lipschitz连续，靠权重裁剪（weight clipping）实现，这会导致训练缓慢且模式崩溃。我们采用Gulrajani 2017年的Gradient Penalty方案：在真实样本和生成样本的随机插值点上，强制梯度范数等于1。公式很简单：gp = ((grad.norm(2, dim=1) - 1) ** 2).mean()，但效果惊人——生成器loss曲线从锯齿状变为平滑下降，第50轮时FID分数（Frechet Inception Distance）比BCELoss低28.6。

第四层：训练调度层——动态平衡判别器/生成器更新频率，引入EMA平滑
不固定1:1更新。我们设计了一个动态调度器：初始5轮，判别器更新3次、生成器更新1次（3:1），快速建立判别能力；第6~30轮，逐步过渡到2:1；第31轮起稳定在1:1。同时，为生成器维护一个EMA（指数移动平均）副本，衰减率设为0.9999。最终生成用EMA权重，而非实时权重。实测显示，EMA使生成图像的肤色一致性提升63%，避免单轮训练抖动导致的脸色忽明忽暗。

这四层不是孤立的，而是形成闭环：Lab预处理降低输入噪声 → PixelShuffle减少结构伪影 → WGAN-GP提供稳定梯度 → 动态调度防止判别器垄断话语权 → EMA固化优质参数。少一层，整个系统就可能在第20轮崩溃。

3. 核心细节解析与实操要点：每一行代码背后的血泪教训

3.1 数据加载器的魔鬼细节：为什么DataLoader(num_workers=4)反而拖慢训练

很多人以为num_workers越大越快，但在DCGAN这种I/O密集型任务里，这是个经典误区。我们对比过不同配置：

num_workers	预处理耗时/轮	GPU利用率	生成质量（FID@100）
0（主进程）	1.8s	92%	32.4
2	1.2s	88%	33.1
4	0.9s	76%	35.8
8	0.7s	54%	41.2

问题出在内存拷贝竞争。当num_workers>2时，多个子进程同时向GPU显存搬运数据，触发PCIe总线争抢。更致命的是，PyTorch的pin_memory=True在多worker下会创建大量锁，导致主线程等待时间激增。我们的解决方案是：用num_workers=2+persistent_workers=True+ 自定义collate_fn做预加载。persistent_workers让worker进程常驻，避免反复启停开销；collate_fn里提前把batch内所有图像转成float32并归一化，省去DataLoader内部类型转换。实测下来，0.9s的预处理耗时压到了0.45s，GPU利用率回升至90%+。

提示：永远用nvidia-smi监控Volatile GPU-Util%，如果长期低于80%，立刻检查DataLoader配置。不要迷信文档里的“推荐值”。

3.2 生成器网络的初始化陷阱：为什么正态分布初始化会失败

DCGAN论文说“权重用N(0,0.02)初始化”，但没人告诉你：这个0.02是针对特定网络深度和激活函数的。当我们把生成器从4层扩展到6层（为适配128×128人脸），沿用0.02初始化，第3轮就出现梯度爆炸（loss变成inf）。根源在于：深层网络中，正态分布的权重方差会随层数指数级累积。数学上，若每层权重方差为σ²，经过L层后，输出方差≈σ²ᴸ。当L=6，σ=0.02时，输出方差≈6.4e-11，远小于激活函数所需范围。

我们改用Kaiming初始化（He initialization）：对每个卷积层，权重初始化为N(0, √(2/fan_in))，其中fan_in是该层输入通道数×卷积核面积。例如，第一层输入是100维噪声，卷积核是4×4，fan_in=100×4×4=1600，标准差=√(2/1600)=0.035。实测表明，Kaiming初始化让生成器前向输出的标准差稳定在0.8~1.2之间，完美匹配Tanh的输入敏感区（-2~2）。代码实现只需一行：

torch.nn.init.kaiming_normal_(m.weight, mode='fan_in', nonlinearity='leaky_relu')

注意nonlinearity参数必须设为'leaky_relu'，因为生成器中间层用的是LeakyReLU，不是ReLU。

3.3 判别器的SpectralNorm实现：为什么不能直接套用官方API

PyTorch的torch.nn.utils.spectral_norm默认对权重矩阵做奇异值分解（SVD），但SVD计算开销大，且在分布式训练中同步困难。我们实测发现，当batch_size=128时，SVD占单轮训练时间的18%。更严重的是，官方API的n_power_iterations=1（默认只迭代1次），在深层网络中会导致谱范数估计不准，判别器仍会过强。

我们的改进方案是：自定义SpectralNorm层，用Power Iteration法手动实现，n_power_iterations设为3，并缓存u/v向量。Power Iteration比SVD快12倍，且3次迭代足够保证误差<0.5%。关键代码如下：

class SpectralNorm(nn.Module): def __init__(self, module, name='weight', power_iterations=3): super().__init__() self.module = module self.name = name self.power_iterations = power_iterations # 缓存u/v向量，避免每次forward重建 self.u = nn.Parameter(torch.randn(module.weight.size(0)), requires_grad=False) self.v = nn.Parameter(torch.randn(module.weight.size(1)), requires_grad=False) self._make_params() def _make_params(self): w = getattr(self.module, self.name) height = w.size(0) width = w.view(height, -1).size(1) u = self.u v = self.v u.data.normal_(0, 1) v.data.normal_(0, 1) u.data /= torch.norm(u.data) v.data /= torch.norm(v.data) def forward(self, *args): self._update_u_v() return self.module(*args) def _update_u_v(self): w = getattr(self.module, self.name) w_mat = w.view(w.size(0), -1) u = self.u v = self.v for _ in range(self.power_iterations): v = F.normalize(torch.mv(w_mat.t(), u), dim=0) u = F.normalize(torch.mv(w_mat, v), dim=0) sigma = torch.dot(u, torch.mv(w_mat, v)) setattr(self.module, self.name, w / sigma)

这个实现把SpectralNorm开销降到单轮训练的2.3%，且梯度稳定性提升显著。

3.4 WGAN-GP的Gradient Penalty计算：为什么插值点必须在batch内混合

WGAN-GP要求在真实样本x和生成样本G(z)的随机插值点x̂ = εx + (1−ε)G(z)上计算梯度惩罚。但很多实现错误地让ε在[0,1]内均匀采样，导致x̂偏离数据流形。我们发现，当ε=0.3时，x̂可能落在“半张脸+半段背景”的无效区域，梯度惩罚失去意义。

正确做法是：ε在每个batch内独立采样，且强制x和G(z)按batch索引一一对应插值。即，对batch中第i个样本，x̂_i = ε_i * x_i + (1−ε_i) * G(z)_i，其中ε_i ~ Uniform(0,1)。这样确保每个x̂_i都在x_i和G(z)_i的线段上，始终位于数据流形附近。代码实现：

def gradient_penalty(discriminator, real_img, fake_img, device): batch_size = real_img.size(0) # 生成[0,1]间随机eps eps = torch.rand(batch_size, 1, 1, 1, device=device) # 按batch索引插值，不是全局插值 x_hat = eps * real_img + (1 - eps) * fake_img x_hat.requires_grad = True pred_hat = discriminator(x_hat) gradients = torch.autograd.grad( outputs=pred_hat.sum(), inputs=x_hat, create_graph=True, retain_graph=True, only_inputs=True )[0] gradient_norm = gradients.view(batch_size, -1).norm(2, dim=1) return torch.mean((gradient_norm - 1) ** 2)

这个细节让GP loss从波动±0.8降到±0.15，训练曲线平滑度提升300%。

4. 实操过程与核心环节实现：从零搭建可复现的优化DCGAN

4.1 环境与依赖：为什么必须锁定PyTorch 1.12.1+cu113

不同PyTorch版本对CUDA算子的实现有细微差异，直接影响DCGAN的数值稳定性。我们踩过的坑包括：

PyTorch 1.13.0：torch.nn.functional.interpolate在mode='nearest'时，对偶数尺寸上采样出现1像素偏移，导致生成图像左右不对称；
PyTorch 1.10.0：torch.nn.utils.spectral_norm在AMP（自动混合精度）下失效，梯度爆炸频发；
PyTorch 1.12.1+cu113：经NVIDIA认证，对Ampere架构GPU（A100/3090）的Tensor Core支持最完善，FP16训练下loss波动<0.001。

因此，环境配置必须精确：

# 创建conda环境 conda create -n dcgan-env python=3.9 conda activate dcgan-env # 安装指定版本PyTorch（以Ubuntu 20.04 + CUDA 11.3为例） pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113 # 其他依赖 pip install opencv-python==4.6.0 numpy==1.21.6 tqdm==4.64.0

特别注意：torchvision必须与PyTorch版本严格匹配，否则transforms.Resize等操作会出现尺寸错乱。

4.2 数据集准备：CelebA的3个隐藏坑及清洗脚本

CelebA是DCGAN最常用的人脸数据集，但官网下载的zip包包含3个致命问题：

文件名编码错误：部分Windows打包的图片文件名含中文字符（如“张三_001.jpg”），Linux系统解压后变成乱码，DataLoader无法读取；
损坏JPEG：约0.7%的图片在JPEG解码时抛出OSError: image file is truncated；
标注框偏移：CelebA提供的bounding box（5 landmarks）在部分侧脸图像上不准确，导致中心裁剪切掉半张脸。

我们的清洗流程（Python脚本）：

import cv2 import os from pathlib import Path def clean_celeba(root_dir: str): img_dir = Path(root_dir) / "img_align_celeba" # 步骤1：重命名所有文件为纯数字 for i, img_path in enumerate(img_dir.glob("*.jpg")): new_name = f"{i+1:06d}.jpg" img_path.rename(img_dir / new_name) # 步骤2：过滤损坏图片 valid_imgs = [] for img_path in img_dir.glob("*.jpg"): try: img = cv2.imread(str(img_path)) if img is None: img_path.unlink() continue # 检查是否为灰度图（CelebA应为RGB） if len(img.shape) != 3 or img.shape[2] != 3: img_path.unlink() continue valid_imgs.append(img_path) except Exception as e: img_path.unlink() # 步骤3：中心裁剪并调整大小（128×128） for img_path in valid_imgs: img = cv2.imread(str(img_path)) h, w = img.shape[:2] # CelebA标注的bbox中心在(89,121)，宽高约178×218，我们取更大安全区 center_x, center_y = w // 2, h // 2 crop_size = min(h, w) * 0.85 # 取85%保证脸部完整 x1 = max(0, int(center_x - crop_size // 2)) y1 = max(0, int(center_y - crop_size // 2)) x2 = min(w, int(center_x + crop_size // 2)) y2 = min(h, int(center_y + crop_size // 2)) cropped = img[y1:y2, x1:x2] resized = cv2.resize(cropped, (128, 128)) cv2.imwrite(str(img_path), resized) clean_celeba("/path/to/celeba")

运行后，原始202,599张图片剩下198,432张，损坏率从0.7%降至0.02%。

4.3 模型定义：生成器与判别器的完整PyTorch实现

以下是可直接运行的模型代码，已集成前述所有优化：

import torch import torch.nn as nn import torch.nn.functional as F class Generator(nn.Module): def __init__(self, nz=100, ngf=64, nc=3): super().__init__() # 输入：nz维噪声 -> 通道数ngf*8的特征图 self.fc = nn.Sequential( nn.Linear(nz, ngf * 8 * 4 * 4), nn.BatchNorm1d(ngf * 8 * 4 * 4), nn.LeakyReLU(0.2, inplace=True) ) # 上采样模块：用PixelShuffle替代转置卷积 self.up1 = self._make_upsample_block(ngf * 8, ngf * 4) # 4x4 -> 8x8 self.up2 = self._make_upsample_block(ngf * 4, ngf * 2) # 8x8 -> 16x16 self.up3 = self._make_upsample_block(ngf * 2, ngf) # 16x16 -> 32x32 self.up4 = self._make_upsample_block(ngf, ngf // 2) # 32x32 -> 64x64 # 最终输出层：64x64 -> 128x128（可选） self.conv_out = nn.Conv2d(ngf // 2, nc, 3, padding=1) self.tanh = nn.Tanh() def _make_upsample_block(self, in_channels, out_channels): return nn.Sequential( nn.Conv2d(in_channels, out_channels * 4, 3, padding=1), nn.BatchNorm2d(out_channels * 4), nn.LeakyReLU(0.2, inplace=True), nn.PixelShuffle(2) # 2x上采样 ) def forward(self, z): x = self.fc(z).view(-1, 512, 4, 4) # nz=100 -> 512x4x4 x = self.up1(x) x = self.up2(x) x = self.up3(x) x = self.up4(x) x = self.conv_out(x) return self.tanh(x) class Discriminator(nn.Module): def __init__(self, nc=3, ndf=64): super().__init__() # 使用SpectralNorm包装卷积层 self.conv1 = self._make_spectral_conv(nc, ndf) self.conv2 = self._make_spectral_conv(ndf, ndf * 2) self.conv3 = self._make_spectral_conv(ndf * 2, ndf * 4) self.conv4 = self._make_spectral_conv(ndf * 4, ndf * 8) self.conv5 = self._make_spectral_conv(ndf * 8, 1) self.leaky = nn.LeakyReLU(0.2, inplace=True) def _make_spectral_conv(self, in_channels, out_channels, kernel_size=4, stride=2, padding=1): conv = nn.Conv2d(in_channels, out_channels, kernel_size, stride, padding, bias=False) return SpectralNorm(conv) def forward(self, x): x = self.leaky(self.conv1(x)) x = self.leaky(self.conv2(x)) x = self.leaky(self.conv3(x)) x = self.leaky(self.conv4(x)) x = self.conv5(x) return x.view(-1, 1).squeeze(1) # 输出标量logit

4.4 训练循环：动态调度器与EMA的完整实现

训练主循环是成败关键，这里给出生产级实现：

import torch.optim as optim from torch.cuda.amp import autocast, GradScaler def train_epoch(generator, discriminator, dataloader, device, epoch, g_optimizer, d_optimizer, scaler, ema_generator, ema_decay=0.9999): generator.train() discriminator.train() g_loss_total = 0.0 d_loss_total = 0.0 # 动态更新频率：epoch 1-5: d:g = 3:1; 6-30: 线性过渡; 31+: 1:1 if epoch <= 5: d_steps = 3 g_steps = 1 elif epoch <= 30: # 线性过渡：5轮到30轮，d_steps从3降到1 d_steps = max(1, 3 - (epoch - 5) * 2 // 25) g_steps = 1 else: d_steps = 1 g_steps = 1 for i, real_imgs in enumerate(dataloader): real_imgs = real_imgs.to(device) batch_size = real_imgs.size(0) noise = torch.randn(batch_size, 100, device=device) # ===== 判别器训练 ===== d_optimizer.zero_grad() with autocast(): fake_imgs = generator(noise) real_pred = discriminator(real_imgs) fake_pred = discriminator(fake_imgs.detach()) # WGAN-GP loss d_loss = fake_pred.mean() - real_pred.mean() gp = gradient_penalty(discriminator, real_imgs, fake_imgs, device) d_loss = d_loss + 10.0 * gp scaler.scale(d_loss).backward() scaler.step(d_optimizer) scaler.update() d_loss_total += d_loss.item() # ===== 生成器训练（按g_steps执行）===== if i % g_steps == 0: g_optimizer.zero_grad() with autocast(): fake_imgs = generator(noise) fake_pred = discriminator(fake_imgs) g_loss = -fake_pred.mean() # 最大化fake_pred scaler.scale(g_loss).backward() scaler.step(g_optimizer) scaler.update() g_loss_total += g_loss.item() # 更新EMA生成器 with torch.no_grad(): for p_ema, p_model in zip(ema_generator.parameters(), generator.parameters()): p_ema.copy_(p_ema * ema_decay + p_model.data * (1 - ema_decay)) return g_loss_total / len(dataloader), d_loss_total / len(dataloader) # 初始化EMA生成器 ema_generator = Generator().to(device) for p_ema, p_model in zip(ema_generator.parameters(), generator.parameters()): p_ema.data.copy_(p_model.data)

4.5 推理与评估：如何用EMA权重生成高质量图像

训练完成后，绝不能用最后保存的generator.pth直接生成。必须用EMA权重：

# 加载EMA权重 ema_generator.load_state_dict(torch.load("ema_generator.pth")) ema_generator.eval() # 生成16张图 noise = torch.randn(16, 100, device=device) with torch.no_grad(): fake_imgs = ema_generator(noise) # 输出范围[-1,1] # 反归一化到[0,255]并保存 fake_imgs = (fake_imgs + 1) / 2 # [-1,1] -> [0,1] fake_imgs = (fake_imgs * 255).clamp(0, 255).byte() grid = make_grid(fake_imgs, nrow=4, padding=2) save_image(grid, "generated_samples.png")

评估指标我们用FID（Frechet Inception Distance），它比单纯看图更客观。计算FID需Inception-v3特征，我们用pytorch_fid库：

pip install pytorch-fid pytorch_fid /path/to/generated_images /path/to/celeba_test_set

在CelebA上，我们的优化DCGAN在100轮后FID达到18.3（标准DCGAN为25.6），说明生成分布更接近真实人脸。

5. 常见问题与排查技巧实录：那些让项目卡住三天的诡异Bug

5.1 问题速查表：从报错信息直达根因

报错信息	根本原因	解决方案	经验指数（★☆☆☆☆~★★★★★）
`RuntimeError: CUDA error: device-side assert triggered`	WGAN-GP中插值点x̂超出图像范围，导致discriminator输出nan	检查`gradient_penalty`函数，确保`x_hat`在`real_img`和`fake_img`之间，添加`x_hat = torch.clamp(x_hat, -1, 1)`	★★★★★
`loss becomes inf or nan`	生成器最后一层Tanh输入过大，或判别器未加SpectralNorm导致梯度爆炸	在生成器forward末尾加`torch.nan_to_num(x, nan=0.0)`；确认所有判别器卷积层都包裹了SpectralNorm	★★★★☆
`Generated images are all gray/blurry`	数据归一化错误（如用了[0,1]而非[-1,1]），或BatchNorm在eval模式下未冻结	打印`real_imgs.min(), real_imgs.max()`确认为[-1,1]；训练时`model.train()`，推理时`model.eval()`	★★★★☆
`Training loss oscillates wildly`	判别器过强，或学习率过高	启用动态调度器；将判别器学习率设为生成器的0.5倍（如gen_lr=2e-4, dis_lr=1e-4）	★★★☆☆
`CUDA out of memory`	Batch size过大，或PixelShuffle中间特征图尺寸爆炸	将batch_size从128降到64；在`up1`后添加`nn.Dropout2d(0.1)`抑制过拟合	★★★☆☆

5.2 调试技巧：如何用3行代码定位梯度消失点

当生成器loss长时间不降，怀疑梯度消失时，不要盲目调参。用以下代码插入训练循环，定位具体哪一层梯度异常：

# 在生成器backward后插入 for name, param in generator.named_parameters(): if param.grad is not None: grad_norm = param.grad.data.norm(2).item() if grad_norm < 1e-6: print(f"GRAD VANISHING at {name}: {grad_norm}")

我们曾用此法发现：up3模块的PixelShuffle层输入梯度为0，根源是前一层Conv2d的权重初始化方差过大。改用Kaiming初始化后，该层梯度恢复至0.012。

5.3 性能瓶颈分析：为什么GPU利用率只有40%

用nvidia-smi dmon -s u实时监控，若util列长期<50%，大概率是CPU瓶颈。我们总结出三个高频原因：

OpenCV JPEG解码阻塞：cv2.imread是单线程，当num_workers=2时，两个worker争抢CPU。解决方案：改用imageio.imread（多线程JPEG解码）或预解码为NPZ格式；
PyTorch DataLoader的prefetch_factor不足：默认prefetch_factor=2，在高速SSD上不够。设为prefetch_factor=4，让DataLoader预取更多batch；
AMP（自动混合精度）未启用：添加scaler = GradScaler()并在forward/backward中包裹autocast()，可提升30%吞吐量。