当前位置: 首页 > news >正文

vLLM--量化技术

量化的核心思想大模型默认用 FP1616 位浮点数存储权重和 KV 数据每个元素占 2 字节。量化就是把这些高精度的数据转换成更低精度的数据比如 INT8、INT4、FP8每个元素只占 1 字节甚至 0.5 字节。核心价值显存占用减半INT8 量化后权重和 KV-Cache 的显存占用直接减半吞吐量翻倍更小的数据意味着更快的内存读写量化分为两大类vLLM 都支持权重量化对模型的权重参数进行量化降低权重的显存占用KV-Cache 量化对 KV-Cache 进行量化降低 KV-Cache 的显存占用这两个可以独立开启也可以同时开启vLLM 支持的主流量化方式FP8 量化原理目前工业界首选用 8 位浮点数FP8来存储权重和 KV-Cache是 NVIDIA Hopper 架构H100、H200的原生支持。精度损失极小几乎和 FP16 无差异不需要校准直接转换支持硬件加速计算速度比 FP16 更快显存占用减半适用场景有 H100/H200 GPU 的生产环境对精度要求高的场景高吞吐量的服务场景vLLM 配置bash运行vllm serve model_name --quantization fp8 --kv-cache-dtype fp8AWQ 量化最成熟的 INT4 量化原理Activation-aware Weight Quantization激活感知权重量化。针对权重进行 INT4 量化每个权重只占 0.5 字节会根据激活值的分布对权重进行分组量化精度损失非常小几乎可以忽略是目前 INT4 量化中精度最高、最稳定的方案适用场景消费级 GPU 部署大模型显存不足的场景对精度要求较高的场景vLLM 配置bash运行vllm serve model_name --quantization awq --kv-cache-dtype int8GPTQ 量化经典 INT4 量化原理GPT Post-training Quantization后训练量化。也是 INT4 权重量化和 AWQ 类似是最早的 INT4 量化方案生态最成熟精度比 AWQ 略低一点但差距很小支持的模型非常多适用场景已经有 GPTQ 量化好的模型老版本的 vLLM 部署对精度要求不是特别高的场景vLLM 配置bash运行vllm serve model_name --quantization gptq --kv-cache-dtype int8纯 KV-Cache 量化如果你不想量化权重只想量化 KV-Cache也可以单独开启bash运行vllm serve model_name --kv-cache-dtype int8权重还是 FP16保证精度KV-Cache 用 INT8 存储显存占用减半吞吐量提升 30% 左右适合对精度要求极高但又想提升吞吐量的场景vLLM 量化参数调优核心参数参数作用推荐值--quantization权重量化方式fp8/awq/gptq--kv-cache-dtypeKV-Cache 的数据类型fp8/int8/fp16--max-lora-rank多 LoRA 时的 rank64--max-loras最大同时加载的 LoRA 数量128
http://www.gsyq.cn/news/1373320.html

相关文章:

  • AArch64断点异常机制与调试实践详解
  • 数学建模小白必看:用GM(1,1)灰色预测搞定‘数据少、规律乱’的预测题(附Python代码)
  • 告别虚拟机!在WSL2上搞定Mujoco物理引擎(保姆级避坑指南)
  • (干货整理)亲测靠谱的一键生成论文工具,毕业生收藏备用
  • 【论文解读】Ensembling LLM-Induced Decision Trees for Explainable and Robust Error Detection(一)
  • 企业直播平台选型,90%的人第一次都会踩这4个坑
  • Windows 11/10 系统关机拦截实战:从注册表到API挂钩的完整避坑指南
  • 别再只会用图形界面了!手把手教你用aplay/arecord在Linux命令行里玩转音频(附实时监听脚本)
  • 别再乱改/etc/profile了!Kylin麒麟系统环境变量配置的3种正确姿势(附永久生效方法)
  • 第二周周学习报告
  • C语言三大经典排序算法详解:快速排序、冒泡排序与选择排序
  • 李白的思乡诗 / 山水诗 / 豪放诗有哪些?诗词在线app手工整理
  • 四川型钢厂家现货批发|工程专用钢材一站式配送 - 四川盛世钢联营销中心
  • 别急着重装!Linux FTP登录报530错误的真正元凶,可能是这个不起眼的文件
  • 保姆级教程:用OpenCV和Python从零搭建双目测距系统(附完整代码与避坑指南)
  • WSL2终端颜值与效率双飞:保姆级oh-my-zsh配置指南(含autojump、语法高亮插件)
  • UE Mobility
  • 告别被动模式错误!手把手教你配置通信UOS的vsftpd,让Windows资源管理器也能顺畅访问
  • 你的Ubuntu软件源该换了!手把手教你为20.04/22.04配置国内镜像(阿里云/清华源)
  • 学生用户画像-考勤主题扩展标签构建实验报告
  • CentOS 7.9下Lustre 2.12.9集群部署避坑指南:从内核安装到客户端挂载的完整流程
  • Linux音频调试不求人:用amixer命令行精准控制音量与声道,解决‘有画面没声音’问题
  • 别再死记硬背了!通过一个成绩分析项目,彻底搞懂Linux静态库和共享库的区别
  • AI校园失物招领助手(实践团队总结)
  • 微软Fara1.5:开源浏览器智能体全面超越OpenAI和Google,27B小模型如何做到的?
  • 【脑机接口】迁移学习 域自适应 自监督 EEG 大模型术语解释(第9弹)
  • 长沙装修设计供应商
  • 2026年Q2智能安全头盔帽专业选型技术解析:交警执法记录仪/人员定位安全帽/单兵执法记录仪/安全生产检查记录仪/选择指南 - 优质品牌商家
  • 量子基准测试与PyQBench框架实践指南
  • C166开发中HEX文件生成问题解析与解决方案