当前位置：首页 > news >正文

LEPA架构：解决遥感图像几何等变性的创新方法

news 2026/6/18 20:09:22

1. 几何等变性在遥感图像处理中的核心挑战

在卫星遥感领域，我们每天需要处理海量的地球观测数据。想象一下，当一颗卫星以每秒数公里的速度掠过地球表面时，它从不同角度、不同高度捕捉到的同一片森林或城市区域，在计算机看来却是完全不同的图像。传统计算机视觉模型在处理这些数据时，往往会被视角变化所迷惑——同一物体旋转30度后，模型就可能完全认不出来了。

这就是几何等变性（Geometric Equivariance）要解决的根本问题：如何让模型理解，经过旋转、缩放或平移后的图像，本质上表示的是同一个地理实体。在遥感图像分析中，这种能力尤为重要，因为卫星拍摄角度、轨道高度和传感器位置的变化，使得同一地区在不同时间拍摄的图像必然存在几何差异。

1.1 传统方法的致命缺陷

当前主流的解决方案是使用预计算嵌入（precomputed embeddings）——先通过基础模型（foundation model）将原始图像转换为紧凑的特征向量。这种方法确实大幅降低了数据存储和传输的开销，但面临一个棘手的现实问题：

当用户定义的感兴趣区域（AOI）与预计算嵌入的固定网格不匹配时，常规做法是对嵌入向量进行插值调整。然而，我们的实验发现，这种看似直观的方法在实际应用中表现糟糕。原因在于，高质量的嵌入空间通常是高度非凸的复杂流形，简单的线性插值会生成大量"不存在于真实数据分布中"的无效向量。

实测案例：使用Prithvi-EO-2.0模型对HLS数据集（Harmonized Landsat-Sentinel）的嵌入进行90度旋转插值后，重建图像出现明显的块状伪影，关键地理特征完全失真。定量评估显示，这种方法的平均倒数排名（MRR）仅为0.2左右，几乎不可用。

2. LEPA架构的设计哲学与实现细节

2.1 从JEPA到LEPA的进化之路

联合嵌入预测架构（JEPA）是近年来计算机视觉领域的重要突破。其核心思想是通过预测器（predictor）学习恢复输入图像经过变换后的嵌入表示，迫使编码器（encoder）学习更具语义意义的特征。传统JEPA模型在训练完成后会丢弃预测器，而我们发现这正是解决几何等变性的关键所在。

LEPA（Learned Equivariance-Predicting Architecture）的创新点在于：

预测器保留机制：将训练阶段的预测器作为核心组件保留，专门用于处理几何变换
参数化条件预测：将旋转角度、缩放比例等变换参数作为预测器的额外输入条件
中心化位置编码：改进ViT的位置编码方式，使其更适应几何变换的数学性质

2.2 架构实现的关键组件

图1展示了LEPA的完整训练架构（见原论文图1）。三个核心组件协同工作：

学生编码器（Student Encoder）：

基于ViT-base架构（86.4M参数）
输入：原始图像块（patch）
输出：初始嵌入向量
特殊设计：去除了传统的[CLS]token，改用全局平均池化

教师编码器（Teacher Encoder）：

学生编码器的EMA（指数移动平均）版本
输入：经过几何变换的图像
输出：目标嵌入向量
关键作用：提供稳定的学习目标

几何预测器（Predictor）：

3层MLP结构
输入：学生编码器的嵌入+变换参数（θ, Δx, Δy, s）
创新点：变换参数先通过小型MLP投影到嵌入维度
训练目标：最小化预测嵌入与教师嵌入的余弦距离

# 预测器的简化PyTorch实现 class GeometricPredictor(nn.Module): def __init__(self, embed_dim=768): super().__init__() self.param_proj = nn.Sequential( nn.Linear(4, 256), # 4个变换参数 nn.GELU(), nn.Linear(256, embed_dim) ) self.cross_attn = nn.MultiheadAttention(embed_dim, num_heads=12) self.mlp = nn.Sequential( nn.Linear(embed_dim, 4*embed_dim), nn.GELU(), nn.Linear(4*embed_dim, embed_dim) ) def forward(self, x, params): # x: [N, L, D] 嵌入序列 # params: [N, 4] 变换参数 param_embed = self.param_proj(params).unsqueeze(1) # [N,1,D] context = torch.cat([param_embed, x], dim=1) out, _ = self.cross_attn(x, context, context) return self.mlp(out)

2.3 中心化位置编码的创新设计

传统ViT的位置编码从图像左上角开始索引，这在几何变换时会产生问题。我们提出中心化位置编码（Conditioned Positional Encoding）：

将坐标原点移至图像中心
使用极坐标表示每个patch的位置
变换参数直接作用于位置编码计算

数学表达：

r = sqrt((x - cx)^2 + (y - cy)^2) # 径向距离 φ = atan2(y - cy, x - cx) # 角度 PE(pos,2i) = sin(r/10000^(2i/d) + θ) # θ为旋转参数 PE(pos,2i+1) = cos(r/10000^(2i/d) + θ)

这种设计使得位置编码能自然地适应旋转、缩放等操作，实测显示MRR提升约15%。

3. 训练策略与优化技巧

3.1 两阶段训练范式

阶段一：基础表征学习

数据集：HLS或ImageNet-1k
批次大小：1024
优化器：AdamW (lr=1.5e-4, β1=0.9, β2=0.95)
关键技巧：渐进式掩码比例（15%→50%）
训练时长：50epoch（约3天 on 8×A100）

阶段二：几何等变微调

冻结编码器权重
仅训练预测器
专注几何变换预测任务
学习率降至基础阶段的1/10
关键技巧：课程学习（先易后难变换）

3.2 数据增强策略

不同于传统color jitter等增强，我们设计专门的几何增强组合：

弹性变换组合：
- 旋转：θ ∼ U(-30°, 30°)
- 平移：Δx, Δy ∼ U(-0.2, 0.2) * image_size
- 缩放：s ∼ logU(0.8, 1.2)
多模态对齐：对于多光谱数据（如HLS的13个波段），保持所有波段变换参数一致，确保光谱一致性。
时空一致性：对时序数据，相邻时间片的变换参数采用随机游走策略，模拟卫星轨道连续性。

3.3 损失函数设计

复合损失函数平衡三个目标：

L = λ1·L_cos + λ2·L_rank + λ3·L_reg

余弦相似度损失：直接优化预测与目标的向量对齐
排序损失：确保变换程度与相似度单调递减
正则化损失：防止预测器过度自信

实测发现λ1=1.0, λ2=0.5, λ3=0.1在多数场景表现最佳。

4. 实战效果与性能分析

4.1 定量评估结果

在PANGAEA基准测试中（表II），LEPA展现出惊人优势：

指标	双线性插值	最近邻插值	LEPA (Ours)
MRR (几何等变)	0.18	0.21	0.83
mIoU (语义分割)	-	-	56.17
推理速度 (img/s)	120	110	85

特别值得注意的是：

在Sen1Floods11洪水检测任务上达到87.37 mIoU
对旋转变化的鲁棒性提升4倍以上
仅增加约3%的计算开销

4.2 可视化对比分析

图5（原论文）展示了30度旋转的预测效果对比：

图像空间插值：出现明显模糊和锯齿
嵌入空间插值：块效应严重，地物边界断裂
LEPA预测：保持清晰的线性特征和纹理细节

这种优势在城区场景尤为明显——建筑物轮廓、道路网络等几何特征得到完美保持。

4.3 内存与计算优化

实际部署时的关键技巧：

嵌入缓存机制：
- 首次计算后存储原始嵌入
- 后续变换通过预测器实时生成
- 节省约75%的编码器计算量
量化部署：
- 预测器采用8-bit量化
- 几乎无损精度（MRR下降<0.01）
- 内存占用减少65%

批处理优化：对批量变换请求，共享上下文嵌入计算

# 批量预测示例 def batch_predict(embeddings, params_list): ctx = encoder.get_context(embeddings) # 共享计算 return torch.cat([predictor(ctx, p) for p in params_list])

5. 典型应用场景与实操指南

5.1 多时相分析工作流

典型应用场景：监测森林砍伐或城市扩张

graph TD A[获取不同时相的卫星图像] --> B[基础编码器提取特征] B --> C{几何对齐需求?} C -->|是| D[LEPA预测变换后嵌入] C -->|否| E[直接比较原始嵌入] D --> F[变化检测分析] E --> F

实操建议：当时相间隔超过3个月时，建议强制使用LEPA对齐，因为卫星轨道参数可能已发生变化。

5.2 农业遥感监测案例

以农作物分类为例，标准流程：

获取目标区域的Sentinel-2多光谱图像
使用Prithvi-EO-2.0提取初始嵌入

发现农田边界与嵌入网格不匹配时：

# 计算需要的变换参数 dx = (field_boundary[0] - grid[0]) / grid_size dy = (field_boundary[1] - grid[1]) / grid_size theta = calculate_rotation_angle(field_shape) # 应用LEPA预测 adjusted_embed = lepa.predict(original_embed, [theta, dx, dy, 1.0])

将调整后的嵌入输入分类器

5.3 灾难响应快速制图

关键优势：避免对每个新视角重新运行耗时的编码过程

地震前后对比：即使拍摄角度不同，也能准确对齐
洪水淹没分析：处理无人机倾斜摄影数据时特别有效
火灾损毁评估：支持多源数据（卫星+航空）的统一分析

6. 常见问题与解决方案

6.1 预测结果不稳定的可能原因

现象：相同输入得到差异较大的预测结果排查步骤：

检查变换参数范围是否超出训练范围（建议限制在：θ∈[-30°,30°], s∈[0.7,1.5]）
验证输入嵌入是否来自同一编码器版本
检查位置编码实现是否正确中心化

解决方案：

# 稳健预测实现 def robust_predict(embed, params, n_ensemble=3): params = clip_params(params) # 约束参数范围 outputs = [predictor(embed, params) for _ in range(n_ensemble)] return torch.mean(outputs, dim=0)

6.2 处理超大图像的内存优化

当图像超过标准patch大小时：

分块处理：

def process_large_image(image, block_size=512): patches = image.split(block_size, dim=2).split(block_size, dim=3) embeds = [encoder(p) for p in patches] return combine_embeddings(embeds)

重叠分块+加权融合：在边界区域使用汉宁窗减少接缝效应

6.3 多光谱数据的特殊处理

对于非RGB的多通道数据：

保持前3个通道为RGB用于可视化
其他通道采用相同的几何变换参数
在编码器第一层扩展输入通道数

实测发现，对Sentinel-2的13个波段，这种处理比单独处理每个波段准确率高22%，且计算量仅为1/5。

7. 扩展方向与未来改进

虽然LEPA已经取得显著成果，但我们发现几个有潜力的改进方向：

动态预测器架构：当前固定结构的预测器可能不是最优的。实验表明，简单变换（如小角度旋转）可能只需要轻量级预测器，而复杂变形则需要更强表达能力。可探索：
- 基于变换复杂度的动态深度
- 混合专家（MoE）架构
流形感知的正则化：通过显式建模嵌入流形的几何特性，可能进一步提升预测质量。初步尝试包括：
- 对抗正则化：确保预测嵌入位于真实数据流形上
- 曲率约束：防止预测路径穿过流形的高曲率区域
跨模态等变性：当前工作集中在图像模态内。对于多模态EO数据（SAR+光学），需要开发跨模态等变预测器，关键技术挑战包括：
- 异质模态的联合嵌入空间对齐
- 模态特定变换的参数共享机制
边缘设备部署：通过以下技术实现端侧部署：
- 知识蒸馏到小型预测器
- 差分量化（对关键层保留更高精度）
- 提前终止机制（对简单变换使用浅层预测）