当前位置：首页 > news >正文

vLLM常用参数解释

news 2026/6/13 6:40:27

vLLM常用参数解释

--max-model-len 16384 ：设置模型能处理的最大上下文长度（输入 + 输出）token数量，典型值：8192, 16384, 32768, 131072
--max-num-batched-tokens 8192 ：一次批处理（batch）中，最多允许的总 token 数量（包括所有请求的 prompt + 已生成的 token）
--max-num-seqs 64：一个 batch 中最多同时处理的请求数量（即并发序列数），即使总 token 数远低于 8192，也不能超过 64 个请求同时处理

--quantization awq：指定量化方式

--dtype=auto：自动选择精度

--trust-remote-code

--distributed-executor-backend=ray ：通过ray群集运行

--pipeline-parallel-size 2 ：指定节点群集数量

--tensor-parallel-size 2：指定每个节点所使用的显卡数量

--gpu-memory-utilization 0.9：限制每个显卡使用量

http://www.gsyq.cn/news/8020.html

相关文章：

k8s学习笔记8——Service

读书笔记：索引组织表（IOT）：让数据库查询飞起来的黑科技

Docker是什么？最全Docker使用教程（小白到高手） - 实践

408学习之c语言（结构体） - 教程

TDMQ CKafka 版客户端实战指南系列之一：生产最佳实践

完整教程：MySQL并发问题解析

从“被动监控”到“主动优化”：MyEMS 重构能源管理价值的路径

为什么企业需要高防IP - 详解

论文解读-《Graph Retrieval-Augmented Generation A Survey》 - zhang

AI编程问题处理与传统网页搜索对比分析

WPF Canvas 网格线背景样式

常见开源安全工具列表

天使美容 V2 微信小程序管理系统：美业数字化运营新选择

接龙大师微信小程序管理系统：一站式社群信息收集与活动管理解决方案

YOLOv7安全评估揭示11个漏洞：RCE攻击与模型差异风险

从零开始：C# 拼音首字母搜索、字符串编码、关键词高亮的原理即实现考虑

【完整源码+数据集+部署教程】机器人足球场景分割环境： yolov8-seg-C2f-DCNV2

信号处理相关

k8s系列--组件说明

详细介绍：AWS WAF 防护敏感配置文件泄露完整指南

JUC 学习笔记

pytorch读书报告

分布式笔记

Windows Server 2019 中文版、英文版下载 (2025 年 9 月更新)

Windows Server 2025 中文版、英文版下载 (2025 年 9 月更新)

袋鼠云跻身榜单2025中国Data+AI创新企业榜Top15，入选“2025中国隐形独角兽500强”榜单等多项荣誉

Optimization Theory

VulkanAPI细节梳理2

事件总线之初步学习

实用指南：域名市场中，如何确认域名的价值