当前位置: 首页 > news >正文

FLOW MATCHING FOR GENERATIVE MODELING

生成建模中的流匹配

这是首次提出Flow Matching的论文。

“流匹配兼容一类一般的高斯概率路径,用于噪声样本和数据样本之间的转换——该路径将现有扩散路径作为特定实例。有趣的是,我们发现采用带有扩散路径的FM(即Flow Matching)能为训练扩散模型提供更稳健和稳定的替代方案。此外,流匹配为用其他非扩散概率路径训练CNF(连续归一化流)打开了大门。一个特别值得关注的例子是使用最优输运(OT)位移插值来定义条件概率路径。这些路径比扩散路径更高效,提供更快的训练和采样速度,并实现更好的泛化。”

“然而,仅限于简单的扩散过程导致抽样概率路径空间相当有限,导致训练时间非常长,需要采用专门的方法(例如,Song 等人(2020a);Zhang 和 Chen (2022))用于高效抽样。”

解读: diffusion 的路径通常像是:先从数据逐渐扩散成噪声;生成时再反向去噪。这个路径未必是最短、最直、最好学的路径。论文甚至指出,diffusion path 的采样轨迹可能会 “overshoot 超过”,也就是冲过目标后又回调,造成不必要的 backtracking;而 OT path 保证是更直的轨迹。 直观类比: diffusion 像是你从 A 到 B,先绕很多弯路,最后慢慢靠近目标; Flow Matching + OT 则试图让每个样本更像沿着直线、恒定速度从噪声移动到数据。Flow Matching 做了什么?Flow Matching 不从 “加噪扩散过程” 出发,而是直接问:我想让分布沿某条路径pt从噪声变成数据,那么对应的速度场/向量场vt(x) 应该是什么?神经网络能不能直接学这个速度场?也就是说,diffusion 多数时候学的是 score(这里的score指的是score = ∇_x log p_t(x | x_1) 它表示概率密度上升最快的方向。也就是:概率密度的 log 对 x 求梯度。),即 ∇ x log⁡ pt(x)然后通过 reverse SDE/ODE 采样;Flow Matching 学的是 velocity / vector field,也就是某个点在时间 t 应该往哪里流动。进一步的,论文提出Conditional Flow Matching,解决了直接学整体 marginal vector field边缘矢量场 不可求的问题:把路径拆成对每个数据样本的 conditional path,然后证明这个条件目标和原始 Flow Matching 目标有相同梯度,因此可以无模拟、可扩展地训练 CNF。

“然而,除了可以通过如去噪分数匹配(Vincent, 2011)高效训练的扩散外,尚无可扩展的CNF训练算法。事实上,最大似然训练(如Grathwohl等(2018))需要昂贵的数值常微分方程模拟,而现有无仿真方法要么涉及不可解积分(Rozen等,2021),要么涉及有偏梯度(Ben-Hamu等,2022)。”

解读:

一下,为什么无解?diffusion存在无解的情况吗,是怎么样的无解?fm为什么就能克服这种情况?为什么 FM 可以超越 diffusion?在 FM 之前,diffusion 是少数能大规模训练的连续生成模型,因为 denoising score matching 绕开了不可解的整体分布;而普通CNF要么训练时解ODE太贵,要么无仿真训练目标有不可解积分或有偏梯度。FM 的贡献是把 diffusion 的“条件监督无偏训练”思想推广到 CNF 的 vector field 学习上,从而让通用 CNF 也能无仿真、无偏、可扩展地训练。所以:不是 diffusion 无解。更准确地说: 真实 score / 真实 marginal vector field 不可直接解析求解;diffusion 靠 denoising score matching 绕过去;FM 靠 Conditional Flow Matching 把这个绕法推广到更一般的 CNF。 因为 diffusion 虽然训练高效,但它的路径设计受限:通常来自简单扩散过程,比如 VP、VE diffusion。FM 不再必须从扩散过程出发,而是可以直接设计 probability path。论文中特别强调,FM 可以使用 diffusion path,也可以使用非 diffusion path,比如 Optimal Transport path。 OT path 的好处是更直、更简单。论文中说,OT conditional path 的粒子沿直线、恒定速度运动;diffusion path 可能会 overshoot,导致不必要的回退。OT vector field 的方向在时间上更稳定,因此回归任务更简单。所以 FM 克服的不只是“训练 CNF 难”的问题,还克服了 diffusion 的一个路径限制:diffusion 有高效训练法,但路径受限;CNF 路径自由,但以前训练不高效;FM 让 CNF 既路径自由,又能高效训练。

首先本文先介绍了问题背景:

  1. p_t(x):随时间变化的概率密度

t=0 时是简单分布,比如高斯噪声 p_0。

t=1 时希望变成复杂的数据分布 p_1,比如图像分布。

中间的 p_t 可以理解为“噪声逐渐变成数据”的每一帧分布。

  1. v_t(x):随时间变化的向量场

它告诉你:如果当前某个点在位置 x,时间是 t,它应该往哪个方向、以多快速度移动。

接着是Flow Matching:

“设x1表示根据某个未知数据分布q(x1)分布的随机变量。我们假设只能访问 q(x1) 的数据样本,但无法访问密度函数本身。此外,设 pt 为一条概率路径,使得 p0 = p 是一个简单分布,例如标准正态分布 p(x) = N (x|0, I),且 p1 分布大致等于 q。我们稍后将讨论如何构建这样的路径。随后设计了流量匹配目标,以匹配该目标概率路径,使我们能够从p0流向p1。

给定目标概率密度路径pt(x)和对应的矢量场ut(x),生成pt(x),我们定义流匹配(FM)目标为:

解读:FM 是理论上最直接的目标:

学整体速度场 u_t(x)

但整体速度场不可直接算。

CFM 是实际可训练的目标:

用每个数据样本 x_1 的条件速度 u_t(x | x_1) 做监督

接着提出CFM:

“不幸的是,由于边际概率路径和VF(方程6和8)定义中的积分难以解,计算ut仍然难以计算,因此也难以自然计算原始流量匹配目标的无偏估计量。相反,我们提出一个更简单的目标,令人惊讶的是,这会得到与原始目标相同的最优解。具体来说,我们考虑条件流匹配(CFM)目标,”

这里相当于基于已知的x1到x的概率值,来去预测流。即附录中有所体现,基于已知的小尺寸的图片来预测大尺寸的图片,或者基于不清晰的图片来预测清晰的图片

“4.1 高斯条件概率路径的特殊实例

我们的表述对于任意函数μt(x1)和σt(x1)完全通用,并且可以将它们设置为满足所需边界条件的任何可微函数。我们首先讨论恢复对应于先前扩散过程的概率路径的特殊情况。由于我们直接处理概率路径,因此可以完全放弃对扩散过程的推理。因此,在下面的第二个例子中,我们直接基于Wasserstein-2最优运输解(作为一个有趣的实例)构建了概率路径。

示例 I:扩散条件性向量场。

扩散模型从数据点开始,逐渐添加噪声,直到接近纯噪声。这些可以被表述为随机过程,对于在任意时间t获得闭式表示有严格要求,从而产生高斯条件概率路径pt(x|x1),并有特定的平均μt(x1)和std σt(x1)(Sohl-Dickstein等,2015;Ho 等,2020;Song 等,2020b)。例如,反向(噪声→数据)方差爆炸(VE)路径的形式为

“示例二:最优运输(OT)条件VF。条件概率路径中更自然的选择是定义均值和标准值,使其随时间线性变化,即,

解读:

相当于OT 路径是在用最直接的搬运方式把噪声分布搬到目标数据点附近。

所以具体工程实践上需要注意三个层面的事:

  1. 网络架构:DiT 或 U-Net

  2. 训练目标:diffusion objective 或 Flow Matching objective

  3. 概率路径:diffusion path 或 OT path

    它们不是同一类东西。

    第一层:网络架构

    DiT 和 U-Net 都是“函数近似器”。

    它们做的事情本质上都是:

    输入:x_t, t, 条件信息

    输出:一个和 x_t 同形状的张量

    比如图像 latent 是:

    x_t shape = [C, H, W]

    模型输出也是:

    output shape = [C, H, W]

    区别只是网络结构不同:

    U-Net:卷积结构,多尺度下采样/上采样,扩散模型里很常见

    DiT:Transformer 结构,把图像 latent 切成 patch token,用 self-attention 建模

    所以 DiT 本身不决定你训练什么目标。它只是 backbone。

    第二层:diffusion objective

    传统 diffusion 常见训练方式是:

    x_1 = 真实数据

    ε ~ N(0, I)

    x_t = α_t x_1 + σ_t ε

    模型输入 x_t, t,训练它预测噪声:

    ε_θ(x_t, t) ≈ ε

    损失是:

    L = E || ε_θ(x_t, t) - ε ||^2

    这就是最典型的 diffusion objective。

    也可以预测 score、x_0、velocity v,但核心思想类似:

    > 模型学习如何从带噪样本中恢复去噪方向。

    所以:

    DiT + diffusion objective

    意思是:

    > 用 DiT 作为网络,让它预测 diffusion 训练目标,比如噪声 ε。

    同理:

    U-Net + diffusion objective

    意思是:

    > 用 U-Net 作为网络,让它预测 diffusion 训练目标。

    Stable Diffusion 早期主要是 U-Net + diffusion objective。

    DiT 则是把 U-Net 换成 Transformer。

    第三层:Flow Matching objective

    Flow Matching 不让模型预测噪声,而是让模型预测速度场。

    它构造:

    x_0 = 噪声

    x_1 = 数据

    x_t = 某条路径上的中间点

    然后训练:

    v_θ(x_t, t) ≈ u_t(x_t | x_1)

    损失是:

    L_FM = E || v_θ(x_t, t) - u_t(x_t | x_1) ||^2

    这里的 u_t 是“当前点应该怎么移动”的速度。

    生成时,从噪声开始解 ODE:

    dx/dt = v_θ(x, t)

    从 t=0 解到 t=1,得到图像。

    所以:

    DiT + Flow Matching objective

    意思是:

    > 用 DiT 作为网络,让它预测速度场。

    U-Net + Flow Matching

    意思是:

    > 用 U-Net 作为网络,让它预测速度场。

    网络可以换,训练目标还是 FM。

    第四层:OT path Flow Matching

    Flow Matching 还需要指定路径。

    OT path 是一种特别简单的路径。论文里大概是:

    x_t = [1 - (1 - σ_min)t] x_0 + t x_1

    如果忽略很小的 σ_min,近似就是:

    x_t ≈ (1 - t)x_0 + t x_1

    也就是从噪声 x_0 直线走到数据 x_1。

    目标速度是:

    u_t = x_1 - (1 - σ_min)x_0

    近似就是:

    u_t ≈ x_1 - x_0

    所以:

    DiT + OT path Flow Matching

    意思是:

    > 用 DiT 作为网络,用 Flow Matching 损失训练,路径选 OT 直线路径。

    完整训练大概是:

    x_1 = 数据

    x_0 ~ N(0, I)

    t ~ Uniform(0, 1)

    x_t = [1 - (1 - σ_min)t] x_0 + t x_1

    target = x_1 - (1 - σ_min)x_0

    loss = || DiT(x_t, t) - target ||^2

    如果换成 U-Net,就是:

    loss = || U-Net(x_t, t) - target ||^2

http://www.gsyq.cn/news/1540793.html

相关文章:

  • AI电商进入“答案页时代”:电商卖家为什么必做GEO? - 资讯焦点
  • 2026山南本地噪音检测哪家专业?TOP 正规机构榜单 + 环境噪声 + 工业噪音 + 低频噪音检测 附电话地址 - 鉴安检测
  • 跨越工具链鸿沟:Vivado IP在第三方仿真器中的无缝集成实战
  • 2026南平业主高频选择的 5 家专业验房检测机构实地测评整理 毛坯验房 + 精装验房 + 空鼓开裂检测 附电话地址 - 科信检测
  • 2026年6月阳泉黄金回收价格表及靠谱变现技巧 - 余生黄金回收
  • 2026抚州卖黄金避坑全解析五家连锁实体回收门店实地测评 - 润富黄金回收
  • 2026临汾业主高频选择的 5 家专业验房检测机构实地测评整理 毛坯验房 + 精装验房 + 空鼓开裂检测 附电话地址 - 科信检测
  • 2026乐山业主高频选择的 5 家专业验房检测机构实地测评整理 毛坯验房 + 精装验房 + 空鼓开裂检测 附电话地址 - 科信检测
  • Linux进程管理实战:从ps、top到信号、优先级与生产环境排错
  • 2026 上海百达翡丽腕表奢侈品回收 主流品牌综合测评报告 - 奢侈品回收
  • 【深入理解】Java的类加载过程
  • 【计算机毕业设计案例】基于 SpringBoot 的商圈商品展示与线上购物系统设计 新零售模式下爱琴海购物公园商城系统设计与实现(程序+文档+讲解+定制)
  • C++智能指针循环引用破解
  • QorIQ T系列处理器深度解析:架构、DPAA与电源管理实战
  • 乌海黄金回收实测|正规实体老店,全城免费上门无套路✨ - 行行星
  • 2026宁波本地噪音检测哪家专业?TOP 正规机构榜单 + 环境噪声 + 工业噪音 + 低频噪音检测 附电话地址 - 鉴安检测
  • 2026宜宾本地承载力检测哪家专业?高口碑TOP 正规机构榜单 + 联系方式+ 实地测评 - 中安检测集团
  • 2026松原业主高频选择的 5 家专业验房检测机构实地测评整理 毛坯验房 + 精装验房 + 空鼓开裂检测 附电话地址 - 科信检测
  • 2026天津本地环评检测哪家专业?TOP 正规机构榜单+环境监测 + CMA 检测 + 环保验收 附电话地址 - 中检检测集团
  • 无需纯化,直接在天然环境中玩转分子互作
  • ZFX山海证券:“甲骨文云需求推升目标价”
  • 延迟直降90%!国标GB28181视频平台EasyGBS支持WebRTC WHIP推流设备接入,让万物互联更简单
  • 2026山南本地环评检测哪家专业?TOP 正规机构榜单+环境监测 + CMA 检测 + 环保验收 附电话地址 - 中检检测集团
  • 重庆闲置女款积家约会腕表,近期回收行情怎么样? - 讯息早知道
  • 北京分手协议履行纠纷律所指南:书面约定反悔后如何依法维权? - 品牌2026
  • 【录取率TOP1】四川普华教育2027届单招培训火热报名中...... - 四川单招培训
  • 杭州黄金回收实测:5家门店套路拆解与避坑指南 - 奢侈品回收评测
  • 2026南宁业主高频选择的 5 家专业验房检测机构实地测评整理 毛坯验房 + 精装验房 + 空鼓开裂检测 附电话地址 - 科信检测
  • 2026北京出手欧米茄别踩坑!为何别人能多卖上千? - 逸程
  • 天津黄金回收门店排行榜|禹竞名奢汇稳居榜首,本地变现首选不踩坑 - 名奢变现站