当前位置：首页 > news >正文

Wasserstein距离在强化学习策略评估中的应用与优化

news 2026/6/8 2:37:03

1. Wasserstein距离与强化学习策略评估基础

Wasserstein距离（又称Earth Mover's Distance）作为概率分布间差异的度量工具，近年来在强化学习领域展现出独特的理论价值。与KL散度等传统度量不同，Wasserstein距离通过计算将一个分布"搬运"成另一个分布的最小成本来量化差异，这种特性使其特别适合处理支撑集不重叠的分布比较问题。

在强化学习策略评估场景中，我们通常需要比较不同策略下状态-动作值函数Z(s,a)的分布特性。传统基于期望值的评估方法会丢失分布形态信息，而Wasserstein距离则能完整保留分布的全部矩信息。具体而言，对于两个随机变量Z₁和Z₂，其1-Wasserstein距离定义为：

W₁(P₁,P₂) = inf_γ∈Γ(P₁,P₂) E_(X,Y)∼γ[|X-Y|]

其中Γ(P₁,P₂)表示所有边缘分布为P₁和P₂的联合分布集合。这个定义直观反映了将分布P₁"改造"为P₂所需的最小工作量。

关键理解：Wasserstein距离在强化学习中的核心优势在于它能够保持分布间的几何关系，这对策略梯度计算和值函数更新至关重要。相比之下，KL散度在分布无重叠支撑集时会发散，而Wasserstein距离仍能给出有意义的数值。

2. 分布贝尔曼算子的收缩性质

2.1 基本理论框架

分布贝尔曼算子T^π是强化学习分布视角下的核心概念，它对值函数分布进行迭代更新：

(T^πZ)(s,a) = R(s,a) + γP^πZ(s',a')

其中P^π表示在策略π下的状态转移。Bellemare等人在2017年证明了关键结论：在最大Wasserstein距离d₁下，T^π是一个γ-收缩算子：

d₁(T^πZ₁, T^πZ₂) ≤ γd₁(Z₁,Z₂)

这个性质的证明依赖于Wasserstein距离的耦合特性。考虑两个初始分布Z₁和Z₂，经过T^π作用后，我们可以构造特定的耦合来保持收缩性。

2.2 固定点唯一性证明

利用收缩映射原理，我们可以严格证明策略评估的固定点唯一性。假设存在两个固定点Z₁和Z₂，则有：

d₁(Z₁*,Z₂*) = d₁(T^πZ₁*, T^πZ₂*) ≤ γd₁(Z₁*,Z₂*)

由于γ∈(0,1)，这迫使d₁(Z₁*,Z₂*)=0，即两个固定点必须完全相同。这个证明展示了Wasserstein距离如何为策略评估提供稳定的理论保证。

技术细节补充：

最大Wasserstein距离d₁定义为所有(s,a)对上W₁距离的上确界
收缩性质依赖于奖励函数的有界性和折扣因子γ
证明中需要处理条件分布P(Z|s,a)的测度理论问题

3. 实际算法实现与优化

3.1 基于Wasserstein的分布策略评估

算法实现的核心是构建有效的分布表示和距离计算框架。我们采用以下技术路线：

分布表示：使用粒子集{z_i}近似表示Z(s,a)分布
距离计算：通过线性规划求解Wasserstein距离
策略改进：基于分布差异的梯度更新

具体算法步骤如下：

def wasserstein_policy_evaluation(env, policy, n_iterations): # 初始化值函数分布 Z = initialize_distribution() for _ in range(n_iterations): new_Z = {} for s in env.states: for a in env.actions: # 采样下一个状态和奖励 s_prime, r = env.step(s, a) # 应用分布贝尔曼算子 new_Z[(s,a)] = apply_bellman_operator(Z, r, s_prime, policy) # 计算分布差异 delta = max_wasserstein_distance(Z, new_Z) Z = new_Z if delta < threshold: break return Z

3.2 计算优化技巧

实际实现中面临的主要挑战是Wasserstein距离的计算复杂度。我们采用以下优化策略：

熵正则化：使用Sinkhorn算法近似计算，将复杂度从O(n³)降至O(n²)
投影方法：将分布投影到参数化族（如高斯混合模型）简化计算
并行计算：利用GPU加速距离矩阵计算

实测建议：在Atari游戏等复杂环境中，建议使用Wasserstein-GAN架构来学习值函数分布的隐含表示，这能大幅提升计算效率。

4. 实验分析与案例研究

4.1 典型策略比较实验

我们设计了三类策略对比实验：

均匀策略 vs 高斯策略：
- 状态空间：5维连续空间
- 动作空间：1维连续动作
- 核参数：Matérn(ν=7.5, ℓ=3)
- 结果：Wasserstein距离清晰区分了两种策略的探索特性
确定性策略 vs 随机策略：
- 在MountainCar环境中测试
- 随机策略展现出更平滑的分布演化
- Wasserstein距离有效捕捉了探索-利用平衡
风险敏感策略比较：
- 设计CVaR优化策略与期望回报策略对比
- 通过Wasserstein距离分析尾部风险差异