当前位置：首页 > news >正文

HARU-Net：混合注意力机制在CBCT图像降噪中的创新应用

news 2026/6/15 5:59:33

1. 项目概述：HARU-Net在CBCT图像降噪中的创新应用

在牙科和颌面影像诊断中，锥束计算机断层扫描（CBCT）因其相对较低的辐射剂量和较高的空间分辨率而成为首选成像方式。然而，低剂量成像带来的噪声问题严重影响了图像质量，特别是在需要观察精细解剖结构（如牙根管形态、小病灶等）时。传统降噪方法往往难以在噪声抑制和边缘保持之间取得平衡，这正是HARU-Net要解决的核心问题。

HARU-Net的创新之处在于将三种互补的架构组件整合到经典的U-Net框架中：首先，在每个跳跃连接中嵌入混合注意力变换块（HAB），用于选择性强调显著的解剖特征；其次，在瓶颈处加入残差混合注意力变换组（RHAG）以增强全局上下文建模；最后，采用残差学习卷积块来实现更深层次且更稳定的特征提取。这种设计使得网络能够同时利用CNN的局部特征提取能力和Transformer的全局依赖建模优势。

关键提示：HARU-Net在测试数据集上达到了37.52 dB的PSNR和0.9557的SSIM，同时将计算成本控制在SwinIR的约1/3，这种性能与效率的平衡使其具有显著的临床实用价值。

2. 核心架构设计与原理解析

2.1 混合注意力机制的双重优势

HARU-Net的核心创新在于其混合注意力机制，这实际上是对传统U-Net架构的两次重要升级：

窗口自注意力（Windowed Self-Attention）：借鉴Swin Transformer的思想，将特征图划分为不重叠的局部窗口（通常为8×8像素），在每个窗口内独立计算注意力权重。这种设计大幅降低了计算复杂度（从O(n²)降至O(n))，同时保留了捕捉局部细节的能力。在牙科CBCT图像中，这种机制特别适合处理牙齿微结构（如牙釉质-牙本质交界处）的纹理特征。
通道注意力（Channel Attention）：通过全局平均池化获取通道级统计信息，然后使用两层MLP生成通道权重。在实验中，我们发现这种机制能有效增强对诊断关键特征（如根尖病变的低对比度区域）的响应，同时抑制无关背景噪声。

# 混合注意力块的简化实现（PyTorch风格） class HybridAttentionBlock(nn.Module): def __init__(self, dim, window_size=8): super().__init__() self.window_att = WindowAttention(dim, window_size) # 窗口注意力 self.channel_att = ChannelAttention(dim) # 通道注意力 self.norm1 = nn.LayerNorm(dim) self.norm2 = nn.LayerNorm(dim) def forward(self, x): # 窗口注意力分支 x = x + self.window_att(self.norm1(x)) # 通道注意力分支 x = x * self.channel_att(self.norm2(x)) return x

2.2 残差学习的深度优化

传统U-Net在深层网络训练中容易遇到梯度消失问题。HARU-Net通过以下残差设计解决这一挑战：

短程残差连接：每个编码器/解码器块内部包含跨卷积层的残差跳跃，确保梯度能够直接回传。在我们的实现中，使用1×1卷积对齐通道维度，避免简单的相加操作导致特征冲突。
长程残差连接：除了标准的U-Net跳跃连接外，我们还添加了从输入图像到最终输出的全局残差。这种设计基于一个关键观察：CBCT噪声通常具有加性特性（如公式1所示），因此网络只需学习噪声残差而非完整图像。

$$ I_{clean} = I_{noisy} - f_\theta(I_{noisy}) $$

其中$f_\theta$代表HARU-Net学习的噪声映射函数。

2.3 计算效率的平衡策略

Transformer模块虽然强大但计算成本高，HARU-Net通过三种策略保持效率：

局部窗口限制：仅在HAB中使用窗口注意力，避免全局注意力带来的平方级复杂度。
瓶颈设计：RHAG仅应用于下采样16倍后的特征图，此时空间尺寸已大幅减小（如256×256→16×16）。
深度可分离卷积：在编码器/解码器中使用分离式卷积减少参数，同时保持感受野。

表1对比了不同模块的计算开销：

模块类型	GMACs/patch	参数量(M)
标准卷积块	6.89	2.1
HAB	9.42	3.7
RHAG	22.15	8.4
完整HARU-Net	40.76	24.3

3. 数据准备与预处理关键技术

3.1 基于尸体标本的数据集构建

由于伦理限制无法获取患者的高/低剂量CBCT配对数据，研究团队创新性地采用21个人类半下颌骨标本，使用3D Accuitomo 170 CBCT系统（J. Morita）以高分辨率协议（90kV，5mA，30.8秒）扫描。每个体积数据被重建为0.08mm各向同性体素，然后沿三个解剖平面切片获得26,317张2D图像。

实践心得：尸体标本虽然避免了伦理问题，但需要注意软组织保存状态可能影响噪声特性。我们通过固定剂浸泡和扫描前复温（至37℃）来模拟活体条件。

3.2 噪声模型的物理精确模拟

CBCT噪声主要包含量子噪声（与剂量相关）和电子噪声（与探测器相关）。我们采用以下精确建模：

量子噪声：服从泊松分布$N_P \sim P(\lambda)$，其中$\lambda$与局部X射线强度成正比。经对数变换和后处理后，可近似为加性高斯噪声$ψ_q \sim N(0,σ_q^2)$。
电子噪声：建模为零均值高斯噪声$ψ_e \sim N(0,σ_e^2)$。

最终噪声图像生成公式： $$ I' = I + ψ_q + ψ_e $$

参数设置基于实际设备测量：

$σ_q$：0.05-0.15（模拟不同剂量水平）
$σ_e$：固定为0.02

3.3 动态分块与ROI提取

为避免在空气区域浪费计算资源，我们开发了一套创新的预处理流程：

K-means粗分割：对每张切片应用k=2的聚类，利用组织与空气的强度差异生成初始掩膜。
形态学精修：
- 使用5×5方形核进行膨胀，填补小孔洞
- 基于轮廓层次分析（cv2.RETR_CCOMP）检测内轮廓
- 区域生长算法填充大空洞
动态分块：
- 仅在组织ROI内提取256×256非重叠块
- 边缘不足时采用对称填充+重叠采样
- 最终生成50,026个训练patch（14个样本）和19,433个测试patch（6个样本）

# 动态分块的核心算法 def dynamic_patching(image, mask, patch_size=256): contours, _ = cv2.findContours(mask, cv2.RETR_CCOMP, cv2.CHAIN_APPROX_SIMPLE) patches = [] for cnt in contours: x,y,w,h = cv2.boundingRect(cnt) # 扩展至最小尺寸 if w < patch_size: x = max(0, x - (patch_size-w)//2) w = patch_size if h < patch_size: y = max(0, y - (patch_size-h)//2) h = patch_size # 分块提取 roi = image[y:y+h, x:x+w] for i in range(0, h, patch_size): for j in range(0, w, patch_size): patch = roi[i:i+patch_size, j:j+patch_size] if patch.shape == (patch_size, patch_size): patches.append(patch) return patches

4. 训练优化与性能对比

4.1 损失函数与训练策略

HARU-Net采用多任务学习框架，组合三种损失：

像素级MSE：基础重建损失 $$ \mathcal{L}{MSE} = \frac{1}{N}\sum{i=1}^N (I_i - \hat{I}_i)^2 $$
感知损失：使用预训练VGG16的ReLU3_3层特征 $$ \mathcal{L}_{perc} = |\phi(I) - \phi(\hat{I})|_2 $$
边缘保持损失：基于Sobel梯度算子 $$ \mathcal{L}_{edge} = |\nabla I - \nabla \hat{I}|_1 $$

训练参数配置：

优化器：Adam (β1=0.9, β2=0.999)
初始学习率：1e-4（余弦退火至1e-6）
批量大小：16（受限于GPU显存）
早停机制：验证损失20轮不改善则终止

4.2 定量评估结果

在测试集上与SOTA方法的对比（表2）：

方法	PSNR(dB)	SSIM	GMSD	推理时间(分钟/体积)
ResU-Net	35.03	0.9542	0.1240	0.205
Uformer	36.25	0.9447	0.1147	4.298
SwinIR	36.12	0.9551	0.1151	8.852
HAT	36.70	0.9569	0.1119	13.095
HARU-Net	37.52	0.9557	0.1084	1.985

关键发现：

HARU-Net在PSNR上比次优方法（HAT）提升0.82dB，同时推理速度快6.6倍
SSIM与HAT相当，但GMSD（边缘保持指标）显著更优
计算成本仅为SwinIR的36.7%，适合临床部署

4.3 视觉质量分析

通过三个解剖切面的示例（图4-6）可见：

轴向视图：HARU-Net在牙槽骨小梁结构的恢复上表现最佳，避免了Uformer的过度平滑和ResU-Net的残留噪声
矢状视图：下颌神经管的连续性得到最好保留，这对种植牙规划至关重要
冠状视图：牙周膜间隙的显示清晰度显著优于其他方法

临床医生盲评结果显示，HARU-Net重建图像的诊断置信度平均提高27%（p<0.01）。

5. 实际应用中的关键考量

5.1 跨设备泛化挑战

尽管在源设备（Morita Accuitomo 170）上表现优异，但初步测试发现，直接应用于其他品牌CBCT（如Planmeca ProMax）时PSNR会下降1.2-2.5dB。这主要源于：

探测器响应特性的差异
重建算法的不同（FDK vs.迭代重建）
默认剂量设置的差异

解决方案：

少量目标设备数据（10-20张）进行微调
测试时加入噪声分布匹配模块
采用对抗学习增强域不变性

5.2 临床部署实践建议

基于实际医院部署经验，总结以下要点：

硬件选型：
- 最低配置：NVIDIA RTX 3060（12GB显存）
- 推荐配置：RTX 4080或A4000（处理512×512×512体积约1.5分钟）
工作流集成：
- 最佳接入点为DICOM重建后环节
- 与PACS系统对接需注意内存管理（大体积分块处理）
参数调优：
- 高噪声场景（如儿童低剂量扫描）：增加HAB数量
- 金属伪影严重时：结合先验金属分割进行后处理