当前位置: 首页 > news >正文

vLLM常用参数解释

vLLM常用参数解释

--max-model-len 16384 :设置模型能处理的最大上下文长度(输入 + 输出)token数量,典型值:8192, 16384, 32768, 131072
--max-num-batched-tokens 8192 :一次批处理(batch)中,最多允许的总 token 数量(包括所有请求的 prompt + 已生成的 token)
--max-num-seqs 64:一个 batch 中最多同时处理的请求数量(即并发序列数),即使总 token 数远低于 8192,也不能超过 64 个请求同时处理

 --quantization awq:指定量化方式

--dtype=auto:自动选择精度

--trust-remote-code 

 --distributed-executor-backend=ray :通过ray群集运行

--pipeline-parallel-size 2  :指定节点群集数量

--tensor-parallel-size 2:指定每个节点所使用的显卡数量

--gpu-memory-utilization 0.9:限制每个显卡使用量

http://www.gsyq.cn/news/8020.html

相关文章:

  • k8s学习笔记8——Service
  • 读书笔记:索引组织表(IOT):让数据库查询飞起来的黑科技
  • Docker是什么?最全Docker使用教程(小白到高手) - 实践
  • 408学习之c语言(结构体) - 教程
  • TDMQ CKafka 版客户端实战指南系列之一:生产最佳实践
  • 完整教程:MySQL并发问题解析
  • 从“被动监控”到“主动优化”:MyEMS 重构能源管理价值的路径
  • 为什么企业需要高防IP - 详解
  • 论文解读-《Graph Retrieval-Augmented Generation A Survey》 - zhang
  • AI编程问题处理与传统网页搜索对比分析
  • WPF Canvas 网格线背景样式
  • 常见开源安全工具列表
  • 天使美容 V2 微信小程序管理系统:美业数字化运营新选择
  • 接龙大师微信小程序管理系统:一站式社群信息收集与活动管理解决方案
  • YOLOv7安全评估揭示11个漏洞:RCE攻击与模型差异风险
  • 从零开始:C# 拼音首字母搜索、字符串编码、关键词高亮的原理即实现考虑
  • 【完整源码+数据集+部署教程】机器人足球场景分割环境: yolov8-seg-C2f-DCNV2
  • 信号处理相关
  • k8s系列--组件说明
  • 详细介绍:AWS WAF 防护敏感配置文件泄露完整指南
  • JUC 学习笔记
  • pytorch读书报告
  • 分布式 笔记
  • Windows Server 2019 中文版、英文版下载 (2025 年 9 月更新)
  • Windows Server 2025 中文版、英文版下载 (2025 年 9 月更新)
  • 袋鼠云跻身榜单2025中国Data+AI创新企业榜Top15,入选“2025中国隐形独角兽500强”榜单等多项荣誉
  • Optimization Theory
  • VulkanAPI细节梳理2
  • 事件总线之初步学习
  • 实用指南:域名市场中,如何确认域名的价值