CVPR 2026:无需训练,让 Rectified Flow 生成模型推理加速 2 到 3 倍
我们的 CVPR 2026 工作 VDE:无需训练,让 Rectified Flow 生成模型推理加速 2 到 3 倍
论文:VDE: Training-Free Accelerating Rectified Flow Model via Velocity Decomposition and Estimation
会议:CVPR 2026
作者:Junwen Tan, Jinglin Liang, Hongyuan Chen, Shuangping Huang
单位:South China University of Technology
项目地址:https://github.com/Tan-Junwen/VDE
论文地址:CVF Open Access / arXiv
大家好,分享一下我们被CVPR 2026接收的一项工作:VDE。
这项工作的目标很直接:在不重新训练模型、不蒸馏模型、不改模型权重的情况下,加速当前主流的Rectified Flow视觉生成模型推理。VDE 可以用于图像生成、视频生成和编辑场景,目前已经支持FLUX.1-dev、Qwen-Image、Z-Image、Wan2.1等模型。
一句话概括:VDE 不再简单地缓存并复用旧的模型输出,而是把速度场分解成更可预测的几何分量,并对后续步的速度进行解析估计,从而减少昂贵的模型前向次数。
为什么要做这件事
近两年,Rectified Flow 及其相关生成模型在图像、视频和多模态生成任务中表现非常强。以 FLUX、Qwen-Image、Wan2.1 等模型为代表,生成质量已经很高,但实际部署时仍然有一个非常现实的问题:推理慢。
对于扩散模型或 Rectified Flow 模型来说,一次生成通常需要多步迭代。每一步都要调用大模型进行前向计算,尤其在高分辨率图像和视频生成中,计算代价非常可观。
已有的一类训练免费加速方法通常采用cache-and-reuse思路:把某些时间步的计算结果缓存下来,并在后续时间步复用。这个思路简单有效,但也存在一个问题:生成过程中的输入状态一直在变化,静态缓存值和当前输入之间会逐渐产生 mismatch,导致质量下降。
我们在 VDE 中尝试回答一个问题:
如果不直接复用旧输出,而是理解速度场在生成轨迹中的变化结构,能不能更准确地估计后续速度?
VDE 的核心思想
VDE 的全称是Velocity Decomposition and Estimation,即速度分解与估计。
在 Rectified Flow 模型中,模型每一步输出的是一个 velocity。VDE 的关键观察是:这个 velocity 可以相对于当前输入分解成两个部分:
平行于输入的分量
正交于输入的分量
这样做的好处是,原本复杂的速度场变化会被拆成更容易建模的结构:
平行和正交分量的系数在时间维度上具有较强的可预测性;同时,正交方向本身在局部时间段内也具有一定稳定性。因此,VDE 不需要每一步都调用原始生成模型,而是周期性地使用真实模型输出作为 anchor,再在后续若干步中通过分解后的几何结构来估计 velocity。
和传统缓存方法相比,VDE 的重点不是“把旧值拿来继续用”,而是“把旧状态作为锚点,对当前输入自适应地估计”。这使得它在加速的同时能更好地保持生成质量。
方法特点
VDE 有几个比较实用的特点:
Training-Free:无需重新训练或蒸馏模型,可以直接作用于已有 Rectified Flow 模型。
Input-Adaptive:估计过程依赖当前输入状态,不是简单复用静态缓存。
Model-Agnostic:可以迁移到多种图像和视频生成模型。
Plug-and-Play:适合和现有推理框架、ComfyUI、Diffusers 等生态继续集成。
质量损失小:相比单纯减少采样步数或直接缓存,VDE 在 SSIM、PSNR、LPIPS 等指标上保持更好的结果。
实验结果
在多个主流生成模型上,VDE 都取得了比较稳定的加速效果。
FLUX.1-dev 文生图
基线设置为 50 步采样,延迟为8.20s。
| Method | Speedup | Latency | Steps | SSIM | PSNR | LPIPS | CLIP | ImageReward |
|:–😐:–😐:–😐:–😐:–😐:–😐:–😐:–😐:–😐
| VDE-fast | 3.01x | 2.72s | 16 | 0.8267 | 23.19 | 0.1997 | 0.3109 | 0.969 |
| VDE-medium | 2.70x | 3.04s | 18 | 0.8499 | 24.02 | 0.1679 | 0.3102 | 0.973 |
| VDE-slow | 2.21x | 3.70s | 22 | 0.8877 | 25.81 | 0.1243 | 0.3095 | 0.978 |
Qwen-Image 文生图
基线设置为 50 步采样,延迟为12.53s。
| Method | Speedup | Latency | Steps | SSIM | PSNR | LPIPS | CLIP | ImageReward |
|:–😐:–😐:–😐:–😐:–😐:–😐:–😐:–😐:–😐
| VDE-fast | 2.70x | 4.64s | 18 | 0.8967 | 25.46 | 0.1096 | 0.3163 | 1.287 |
| VDE-slow | 2.04x | 6.14s | 24 | 0.9362 | 28.58 | 0.0691 | 0.3159 | 1.295 |
Wan2.1 文生视频
基线设置为 50 步采样,生成81 帧、832x480视频,延迟为175.35s。
| Method | Speedup | Latency | Steps | SSIM | PSNR | LPIPS | VBench |
|:–😐:–😐:–😐:–😐:–😐:–😐:–😐:–😐
| VDE-fast | 2.50x | 70.11s | 20 | 0.8658 | 24.69 | 0.0754 | 80.43 |
| VDE-slow | 2.08x | 84.18s | 24 | 0.8902 | 25.92 | 0.0554 | 80.32 |
整体来看,VDE 在图像和视频生成任务中都能实现约2.04x 到 3.22x的推理加速,同时保持较小的视觉质量损失。在图像生成实验中,相比较强的 cache-based baseline,VDE 在 SSIM 上提升19.5%,PSNR 提升30.3%,LPIPS 降低55.4%。
当前支持的模型
目前 VDE 已经覆盖了图像生成、视频生成和编辑任务中的多个模型:
图像生成:FLUX.1-dev、Qwen-Image、Z-Image
视频生成:Wan2.1
后续计划:ComfyUI 节点、Hugging Face Diffusers 集成,以及更多图像、视频、3D 生成模型支持
我们也希望这项工作能成为一个比较通用的 Rectified Flow 推理加速工具,而不仅仅服务于某一个具体模型。
为什么我觉得这个方向值得关注
大模型生成能力越来越强之后,推理效率会成为一个越来越关键的问题。
一方面,用户希望更快地得到结果;另一方面,实际部署中 GPU 成本、显存占用、并发吞吐都会直接影响产品可用性。对于图像生成来说,几秒钟的差距会影响交互体验;对于视频生成来说,几十秒到几分钟的差距会直接决定它能否进入真实工作流。
VDE 的意义在于,它提供了一种相对轻量、无需训练、可迁移的加速路线。它不是通过额外训练一个小模型去逼近原模型,也不是简单砍掉采样步数,而是利用 Rectified Flow 速度场本身的几何结构来做估计。
这也是我们认为它适合开源社区继续扩展的原因:如果一种加速方法能够以插件形式接入不同生成模型和推理框架,它的应用空间会非常大。
开源与使用
代码已经开源,欢迎大家 star、试用和提 issue:
https://github.com/Tan-Junwen/VDE
项目目前包含不同模型的 VDE 适配版本:
VDE4FLUXVDE4QwenImageVDE4Wan2.1VDE4Z-Image
论文和项目链接:
GitHub:https://github.com/Tan-Junwen/VDE
CVF:https://openaccess.thecvf.com/content/CVPR2026/html/Tan_VDE_Training-Free_Accelerating_Rectified_Flow_Model_via_Velocity_Decomposition_and_CVPR_2026_paper.html
arXiv:https://arxiv.org/pdf/2605.23381
Citation
如果这项工作对你的研究或应用有帮助,欢迎引用:
@inproceedings{tan2026vde, title={VDE: Training-Free Accelerating Rectified Flow Model via Velocity Decomposition and Estimation}, author={Tan, Junwen and Liang, Jinglin and Chen, Hongyuan and Huang, Shuangping}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, pages={37918--37928}, year={2026} }最后也欢迎大家交流 Rectified Flow、生成模型推理加速、图像/视频生成部署相关问题。感谢关注!
