当前位置: 首页 > news >正文

Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer

4.3. 预训练Z-Image 采用流匹配目标函数 [44, 48] 进行训练:首先通过高斯噪声
x
0

与原始图像
x
1

的线性插值构造带噪输入,即
x
t

=t⋅x
1

+(1−t)⋅x
0

;随后训练模型预测定义二者间路径的向量场的速度(即
v
t

=x
1

−x
0

)。训练目标可表示为:
L=E
t,x
0

,x
1

,y

[∥u(x
t

,y,t;θ)−(x
1

−x
0

)∥
2
],(1)
其中
θ
是可学习参数,
y
是条件嵌入。我们参考 SD3 [18],采用 logit - 正态噪声采样器将训练过程集中在中间时间步。此外,为应对多分辨率训练设置下信噪比(SNR)的波动,我们借鉴 Flux [34] 所使用的动态时间偏移策略,确保不同图像分辨率下的噪声水平得到合理缩放,从而提升训练效果。Z-Image 的预训练大致分为两个阶段:低分辨率预训练和全尺度预训练。

http://www.gsyq.cn/news/108177.html

相关文章:

  • Wechaty v1.20.2终极指南:5大RPA功能让聊天机器人开发效率飙升300%
  • 为什么Langchain-Chatchat成为本地知识库问答标杆?
  • 解锁PS3全部潜能:webMAN MOD终极指南,打造完美游戏娱乐中心
  • 现代化存储系统架构设计与优化策略完整指南
  • 开源vs商业大模型之争:Anything-LLM能否替代ChatGPT?
  • 3步搞定Hadoop在Kubernetes的存储配置:PVC与StorageClass实战指南
  • DSU-Sideloader:安卓双系统体验的革命性突破
  • 基于Transformer的嵌入模型如何增强Anything-LLM的搜索精度?
  • B站广告一键跳过神器:BilibiliSponsorBlock完全使用指南
  • Typst数学公式完美对齐指南:告别错位困扰
  • 终极CompreFace人脸识别部署指南:从零到生产的完整解决方案
  • CloudStream智能文件管理:告别杂乱无章的媒体库
  • Linly-Talker与Hugging Face模型生态的兼容性测试
  • C语言HTML5解析终极指南:gumbo-parser完整使用手册
  • ExoPlayer状态恢复:如何让视频播放器记住你的“续播点“?
  • FreeCAD Python自动化脚本终极指南:从零到精通
  • 秒开体验:SmartTube视频缩略图加载与缓存优化实战
  • Auto-Subtitle终极教程:3步为视频添加智能字幕
  • LangFlow拖拽式界面让AI工作流开发变得如此简单
  • 构建专属AI客服系统——基于Anything-LLM的智能问答架构设计
  • 前端剪贴板革命:告别Flash,用clipboard.js实现优雅复制
  • ComfyUI与Golang后端服务集成:高性能接口支撑
  • SmartTube视频缩略图优化:3大策略让加载速度提升5倍
  • 告别多线程调试困境:5个技巧掌握VS Code的Worker_threads调试实战
  • 3步搞定IDM长期使用:从试用期管理到代码贡献全攻略
  • 情感陪伴AI技术革命:20,000条心理咨询对话语料库深度解析
  • WordPress块编辑器极速优化指南:7个实用技巧让编辑体验飞升
  • 5个AdGuardHome性能翻倍的隐藏技巧:从基础配置到深度优化
  • CloudStream下载目录管理:从混乱到有序的进阶指南
  • 26、探索Linux系统中的图形与音频应用