当前位置：首页 > news >正文

大模型量化技术原理-ZeroQuant系列（一）

news 2026/6/27 0:58:24

简单的看第一篇，这个系列目前有四篇左右，感兴趣可以去搜搜

ZeroQuant: Efficient and Affordable Post-Training Quantization for Large-Scale Transformers
ZeroQuant-V2: Exploring Post-training Quantization in LLMs from Comprehensive Study to Low Rank Compensation
ZeroQuant-FP: A Leap Forward in LLMs Post-Training W4A8 Quantization Using Floating-Point Formats
ZeroQuant-HERO: Hardware-Enhanced Robust Optimized Post-Training Quantization Framework for W8A8 Transformers

推荐一个整理很详细的链接

大模型量化技术原理-ZeroQuant系列 - 知乎

端到端的量化和推理流程，主要有三个组成：

（1）对于权重和激活的精细的硬件友好的量化计划

（2）一个全新的可以应用的层次知识蒸馏算法，这种算法甚至不需要使用原始的训练数据

（3）一个高度优化的量化系统后端支持，可以消除量化、反量化开销

QAT是传统的量化方法，PTQ是近期的量化方法，以下是他们的核心差异：

QAT	PTQ
定义和流程	在模型训练过程中就引入量化操作，模拟推理时的量化行为，让模型在训练阶段就“适应”量化带来的信息损失。	在模型训练完成后直接对权重和激活值进行量化，不重新训练或仅做极少量校准。
是否需要重新训练	需要在原始训练流程中插入伪量化节点，并微调模型	直接量化已训练好的模型，通常只需用少量数据（如 100~1000 张图像）做校准以确定量化参数（如 min/max）
精度	高（接近 FP32）	中等（可能下降明显）
实现复杂度	实现较复杂，需修改训练代码。训练时间长，计算资源消耗大。但最终模型鲁棒性强。	实现简单，多数框架（TensorFlow Lite、PyTorch、ONNX Runtime）都提供一键量化工具。几乎零训练成本。但可能因量化误差导致性能下降。

PTQ的常见策略是将训练数据喂入网络进行校准，并得到缩放因子。但是这种方法有个问题：量化不能完全捕捉在权重矩阵和激活token中的不同行的不同数据范围。解决方法有两个：对于权重的分组量化，对于激活值的分token量化。

对于权重的分组量化：权重矩阵被分成g个组，每个组分别被量化。

对于激活值的分token量化：使用更细颗粒度的分token量化，并动态计算每个token最小/最大范围，从而减少来自激活值的量化误差。但是直接应用这个方法会导致相当大的量化和反量化成本因为这种量化方法会产生额外的操作，导致在GPU计算单元和内存之间的昂贵的数据移动消耗。为了解决这个问题，建造了一个高度优化的推理后端。比如说，zeroquant采用了核融合（kernel fusion）技术将量化算子和前面的算子融合，再将反量化算子和后面的算子融合，从而降低成本。

从KD到LKD

知识蒸馏（KD）的局限性：