当前位置：首页 > news >正文

vLLM--量化技术

news 2026/5/26 9:06:09

量化的核心思想大模型默认用 FP1616 位浮点数存储权重和 KV 数据每个元素占 2 字节。量化就是把这些高精度的数据转换成更低精度的数据比如 INT8、INT4、FP8每个元素只占 1 字节甚至 0.5 字节。核心价值显存占用减半INT8 量化后权重和 KV-Cache 的显存占用直接减半吞吐量翻倍更小的数据意味着更快的内存读写量化分为两大类vLLM 都支持权重量化对模型的权重参数进行量化降低权重的显存占用KV-Cache 量化对 KV-Cache 进行量化降低 KV-Cache 的显存占用这两个可以独立开启也可以同时开启vLLM 支持的主流量化方式FP8 量化原理目前工业界首选用 8 位浮点数FP8来存储权重和 KV-Cache是 NVIDIA Hopper 架构H100、H200的原生支持。精度损失极小几乎和 FP16 无差异不需要校准直接转换支持硬件加速计算速度比 FP16 更快显存占用减半适用场景有 H100/H200 GPU 的生产环境对精度要求高的场景高吞吐量的服务场景vLLM 配置bash运行vllm serve model_name --quantization fp8 --kv-cache-dtype fp8AWQ 量化最成熟的 INT4 量化原理Activation-aware Weight Quantization激活感知权重量化。针对权重进行 INT4 量化每个权重只占 0.5 字节会根据激活值的分布对权重进行分组量化精度损失非常小几乎可以忽略是目前 INT4 量化中精度最高、最稳定的方案适用场景消费级 GPU 部署大模型显存不足的场景对精度要求较高的场景vLLM 配置bash运行vllm serve model_name --quantization awq --kv-cache-dtype int8GPTQ 量化经典 INT4 量化原理GPT Post-training Quantization后训练量化。也是 INT4 权重量化和 AWQ 类似是最早的 INT4 量化方案生态最成熟精度比 AWQ 略低一点但差距很小支持的模型非常多适用场景已经有 GPTQ 量化好的模型老版本的 vLLM 部署对精度要求不是特别高的场景vLLM 配置bash运行vllm serve model_name --quantization gptq --kv-cache-dtype int8纯 KV-Cache 量化如果你不想量化权重只想量化 KV-Cache也可以单独开启bash运行vllm serve model_name --kv-cache-dtype int8权重还是 FP16保证精度KV-Cache 用 INT8 存储显存占用减半吞吐量提升 30% 左右适合对精度要求极高但又想提升吞吐量的场景vLLM 量化参数调优核心参数参数作用推荐值--quantization权重量化方式fp8/awq/gptq--kv-cache-dtypeKV-Cache 的数据类型fp8/int8/fp16--max-lora-rank多 LoRA 时的 rank64--max-loras最大同时加载的 LoRA 数量128

查看全文

http://www.gsyq.cn/news/1373320.html