当前位置：首页 > news >正文

（论文速读）PFGM++：释放受物理启发的生成模型的潜力

news 2026/6/25 23:55:00

论文题目：PFGM++: Unlocking the Potential of Physics-Inspired Generative Models（PFGM++：释放受物理启发的生成模型的潜力）

会议：ICML2023

摘要：我们介绍了一类新的受物理启发的生成模型，称为PFGM++，它统一了扩散模型和泊松流动生成模型(PFGM)。这些模型通过在N+D维空间中嵌入路径来实现N维数据的生成轨迹，同时仍然用D个附加变量的简单标量范数来控制级数。当D=1时，新模型简化为PFGM模型；当D→∞时，新模型简化为扩散模型。选择D的灵活性允许我们在稳健性和刚性之间进行权衡，因为增加D会导致数据和附加变量规范之间更集中的耦合。我们摒弃了PFGM中使用的有偏大批量场目标，而是提供了一个类似于扩散模型的基于扰动的无偏目标。为了探索D的不同选择，我们提供了一种直接对齐方法，用于将经过良好调整的超参数从扩散模型(D→∞)转换到任意有限的D值。实验表明，在CIFAR-10/FFHQ×数据集上，具有有限D的模型可以优于已有的扩散模型，当D=2048/128时，FID得分为1.91/2.43。在类别条件设置中，D=2048在CIFAR-10上得出当前最先进的FID为1.74。此外，我们还证明了D越小的模型对建模误差的稳健性越好。
代码可在https://github.com/Newbeeer/pfgmpp上获得

PFGM++：用一个参数D统一扩散模型与泊松流生成模型

一、研究背景：两类物理启发的生成模型

近年来，受物理学启发的深度生成模型取得了令人瞩目的进展，其中两个代表性方向是：

扩散模型（Diffusion Models）：受热力学启发，通过逐步去噪生成样本，以 EDM（Karras et al., 2022）为代表，在图像生成上取得了极高质量，但对估计误差极为敏感，鲁棒性较差。
泊松流生成模型（PFGM）：受静电学启发，将N维数据视为电荷，在N+1维增广空间中学习电场线方向，沿电场线轨迹生成新样本，对误差更鲁棒——但仅在1维增广空间中定义，训练时需要大批量样本近似积分（有偏），且与条件生成不兼容。

这两类模型此前被视为相互独立的方法，缺乏理论联系，也无法系统地在两者之间进行性能权衡。

本文的核心问题：能否构建一个统一框架，将PFGM和扩散模型纳入同一体系，并从中找到性能更优的中间点？

二、核心思想：把增广维度D变成一个连续旋钮

【此处配图：Fig 1 PFGM++统一框架概览图（D轴从PFGM到扩散模型的谱）】

PFGM++ 的核心洞察极为简洁：将PFGM中固定的1维增广空间推广为D维增广空间，D成为一个可调超参数。

当 D=1 时，退化为原始 PFGM
当时，等价于扩散模型
中间的有限D值（如D=128、D=2048）则是两者之间的"甜蜜点"

这个看似简单的推广，实际上蕴含了深刻的物理意义和数学结构。

三、PFGM++ 的数学框架

3.1 高维增广空间中的电场

将N维数据视为电荷，在N+D维增广空间（）中定义电场：

关键的对称性简化：增广变量 z 的D个分量在 D维柱面上具有 SO(D) 旋转对称性，因此只需追踪增广变量的标量范数，将高维问题降维为标量ODE：

这个ODE定义了从先验分布（大处）到数据分布（r=0 处）的双射，即生成过程。

3.2 基于扰动核的无偏训练目标

原始PFGM需要大批量样本来近似电场积分（有偏），本文设计了一个扰动核：

从而将训练目标转化为类似去噪得分匹配的无偏平方损失：

这一目标的三大优势：无需大批量近似（计算高效）；最小化器是电场方向的无偏估计；天然支持条件生成的配对样本训练。

3.3 超参数对齐：从扩散模型"零样本"迁移到任意D

扩散模型的超参数（、等）已被前人大量调优。本文证明了相变对齐公式：

在此公式下，不同D的中间分布的"相"保持近似不变，从而可以直接将 EDM/DDPM 的超参数迁移到任意有限D——只需令，。

【此处配图：Fig 3 相对齐前后不同D的TVD曲线对比图】

3.4 D→∞ 等价扩散模型（定理4.1）

本文严格证明：当，固定时，PFGM++ 的电场方向收敛到扩散模型的得分函数方向，且两者的采样ODE轨迹完全一致。其根本原因是扰动核在时收敛到高斯核：

四、D 控制鲁棒性与刚性的权衡

【此处配图：Fig 4 (a)(b)(c) 不同D下的电场差异、半径分布方差、训练样本范数密度图】

D 的选择决定了模型在两个对立属性之间的平衡：

鲁棒性（Robustness）：指模型对估计误差的不敏感程度。

小D → 训练样本范数分布宽泛（重尾），采样轨迹偏离时不会灾难性崩溃
大D（D→∞）→ 训练样本范数高度集中，对偏差极为敏感

刚性（Rigidity）：指训练是否容易收敛。

大D → 扰动核接近高斯，分布集中，学习目标稳定清晰
小D → 重尾输入使有限容量的神经网络难以全面覆盖

两者此消彼长，既不是D=1也不是D→∞提供最优平衡，中间存在一个甜蜜点。

五、实验结果

5.1 图像生成质量

【此处配表：Table 1 CIFAR-10 FID和NFE对比表】

【此处配表：Table 2 FFHQ 64×64 FID对比表】

主要发现：

中间D超越扩散模型：在 CIFAR-10 无条件生成中，D=2048 取得 FID=1.91，D=128 取得 FID=1.92，均优于 EDM（D→∞，FID=1.98），均使用 35 次函数估计（NFE）。在类条件生成中，D=2048 以 FID=1.74刷新 CIFAR-10 SOTA，超过 EDM 的 1.79。
FFHQ 64×64：D=128 取得 FID=2.43，D=2048 取得 2.46，均优于 EDM 的 2.53。
甜蜜点存在：D=64/128/2048 均优于 D→∞，而极小的 D（如D=1）因重尾问题性能下降，确认了中间甜蜜点的存在。
理论验证：D=3072000 ≫ N=3072 时，模型性能与扩散模型完全一致（FID均为1.90），验证了D→∞等价性定理。