当前位置：首页 > news >正文

Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer

news 2026/6/15 6:24:48

4.3. 预训练Z-Image 采用流匹配目标函数 [44, 48] 进行训练：首先通过高斯噪声
x
0

与原始图像
x
1

的线性插值构造带噪输入，即
x
t

=t⋅x
1

+(1−t)⋅x
0

；随后训练模型预测定义二者间路径的向量场的速度(即
v
t

=x
1

−x
0

)。训练目标可表示为：
L=E
t,x
0

,x
1

,y

[∥u(x
t

,y,t;θ)−(x
1

−x
0

)∥
2
],(1)
其中
θ
是可学习参数，
y
是条件嵌入。我们参考 SD3 [18]，采用 logit - 正态噪声采样器将训练过程集中在中间时间步。此外，为应对多分辨率训练设置下信噪比(SNR)的波动，我们借鉴 Flux [34] 所使用的动态时间偏移策略，确保不同图像分辨率下的噪声水平得到合理缩放，从而提升训练效果。Z-Image 的预训练大致分为两个阶段：低分辨率预训练和全尺度预训练。

http://www.gsyq.cn/news/108177.html

相关文章：

Wechaty v1.20.2终极指南：5大RPA功能让聊天机器人开发效率飙升300%

为什么Langchain-Chatchat成为本地知识库问答标杆？

解锁PS3全部潜能：webMAN MOD终极指南，打造完美游戏娱乐中心

现代化存储系统架构设计与优化策略完整指南

开源vs商业大模型之争：Anything-LLM能否替代ChatGPT？

3步搞定Hadoop在Kubernetes的存储配置：PVC与StorageClass实战指南

DSU-Sideloader：安卓双系统体验的革命性突破

基于Transformer的嵌入模型如何增强Anything-LLM的搜索精度？

B站广告一键跳过神器：BilibiliSponsorBlock完全使用指南

Typst数学公式完美对齐指南：告别错位困扰

终极CompreFace人脸识别部署指南：从零到生产的完整解决方案

CloudStream智能文件管理：告别杂乱无章的媒体库

Linly-Talker与Hugging Face模型生态的兼容性测试

C语言HTML5解析终极指南：gumbo-parser完整使用手册

ExoPlayer状态恢复：如何让视频播放器记住你的“续播点“？

FreeCAD Python自动化脚本终极指南：从零到精通

秒开体验：SmartTube视频缩略图加载与缓存优化实战

Auto-Subtitle终极教程：3步为视频添加智能字幕

LangFlow拖拽式界面让AI工作流开发变得如此简单

构建专属AI客服系统——基于Anything-LLM的智能问答架构设计

前端剪贴板革命：告别Flash，用clipboard.js实现优雅复制

ComfyUI与Golang后端服务集成：高性能接口支撑

SmartTube视频缩略图优化：3大策略让加载速度提升5倍

告别多线程调试困境：5个技巧掌握VS Code的Worker_threads调试实战

3步搞定IDM长期使用：从试用期管理到代码贡献全攻略

情感陪伴AI技术革命：20,000条心理咨询对话语料库深度解析

WordPress块编辑器极速优化指南：7个实用技巧让编辑体验飞升

5个AdGuardHome性能翻倍的隐藏技巧：从基础配置到深度优化

CloudStream下载目录管理：从混乱到有序的进阶指南

26、探索Linux系统中的图形与音频应用