当前位置: 首页 > news >正文

PTQ 量化数值范围与优化

一、PTQ 模型量化问题

1.1、模型问题

基于公版模型训练,没有对模型做范围做约束,weight_decay=1e-6, 训练出的 float 模型数值分布很大,如图 2,可以看到模型的后面几层数据分布范围很广,最大阈值超过了 8000,对我们量化来说并不友好。

1.2、算子问题

如图 2,基于全 int16 算子配置量化,当前版本 resize 算子有约束(请查阅工具链算子支持情况),只能支持 int8 量化,即使配置了 int16,但算子依旧退化到 int8,因此算子的 cosine 相似度也比较低,基于此阈值,max_qscale=6653/127=52.385,此 scale 过于大,并不能精细化量化模型,所以全 BPU 算子的整体精度都不高。

图 1 公版训练 float 模型

二、精度优化

2.1、cpu 高精度定位

resize 算子有限制,但对于回退 cpu 算子,就能实现 float 精度推理,配置如图 2,

图 2 配置 cpu 算子

配置了算子后,精度提升了,如图 3,可视化效果对比如图 4,整体量化精度可对齐,定位到了具体问题就是 resize 算子限制导致。

图 3 cpu 算子精度

图 4 cpu 算子可视化精度

2.2、添加 bn,加大 weight_decay

在最后的 conv 层后加上 bn 算子限制特征数据分布,同时 weight_decay 从 1e-6 调整到 1e-3,整体数据范围如图 5、图 6,模型的数据分布变小了,最后的 cosine 相似度精度也很高,非常利于 int8 量化,后期配置了 int8 量化,模型也可实现高精度量化。

图 5 全 int16 量化

图 6 部分 int16 量化

http://www.gsyq.cn/news/105529.html

相关文章:

  • 使用Ollama运行Seed-Coder-8B-Base:轻量级代码生成解决方案
  • 巧了
  • 2026毕设ssm+vue基于的作业管理系统论文+程序
  • 大模型应用开发面经汇总:30+大厂面试经验与学习资源,小白程序员必看
  • 企业级部署首选:Stable-Diffusion-3.5-FP8生产环境搭建指南
  • 关于浔川 AI 翻译项目推进建议的公告
  • 滚动轴承缺陷动力学模型:从理论到实践
  • 如何将gpt-oss-20b封装成REST API供外部调用
  • GG3M (鸽姆) Global Governance Meta-Mind Model: 商业计划书 Global Civilization Governance OS (Eastern Wisdom
  • 【自然语言处理】自然语言处理中数据集的开发与测试:从基础划分到稳健评估的全维度实践
  • 基于springboot的药店药品管理系统的设计与实现(源码+lw+远程部署)
  • 深度解析 Google JAX 全栈:带你上手开发,从零构建神经网络
  • 百度搜索不到的Qwen3-VL-8B安装包获取渠道揭秘
  • Stm32_2:蜂鸣器、按键、继电器
  • ENSP抓包分析Qwen3-VL-30B API通信协议细节
  • 【优化分配】基于遗传算法GA求解机场登机口分配优化问题(目标函数:油耗 靠桥率)附Matlab代码
  • Hadoop与Python:PySpark大数据处理指南
  • 千匠供应链商城系统:AI赋能、灵活部署,全力助推产业互联网平台建设与发展
  • 千匠网络B2B商城系统:赋能渠道数字化升级的全链路智能解决方案
  • 云手机在教育领域中的作用
  • 三菱FX5U PLC与扫码枪的串口通讯方案分享
  • 飞控开发——熟悉uORB
  • 基于区块链的房产交易服务平台的设计与实现(源码+lw+远程部署)
  • 先看段有意思的代码,这是Matlab里魔术公式的典型实现
  • 策略路由实验配置
  • VB编程的现代实践:从经典到创新的全面指南
  • kotin基础语法汇总
  • 基于SpringBoot框架的房产交易服务平台的设计与实现(源码+lw+远程部署)
  • STL deque 的详细特征
  • 从关系型数据库到时序数据库的思维转变