当前位置：首页 > news >正文

H100 + DeepSeek-V4-Flash 生产级推理部署实战

news 2026/6/20 20:44:17

1. 项目概述：这不是“跑个模型”那么简单，而是面向生产级推理的硬件-软件协同工程

在 H100 上部署 DeepSeek-V4-Flash 服务——这行标题背后，藏着当前大模型落地最硬核的一道分水岭。它不是教你怎么用pip install装个包、跑通一个hello worlddemo；它是一整套从 GPU 架构特性出发，逆向推导出的推理服务工程实践。我带团队在 DGX H100 A800 集群上实测过三轮完整部署，从首次启动失败到稳定支撑 120 QPS 的长连接 API 服务，踩过的坑比文档里写的参数还多。核心关键词H100、DeepSeek-V4、Flash、vLLM、API，每一个都不是孤立存在：H100 的 FP8 张量核心和 3TB/s 的 HBM3 带宽决定了你不能照搬 A100 的配置；DeepSeek-V4 是一个 671B 参数、支持 128K 上下文、含 MoE 稀疏激活结构的混合专家模型，它的“Flash”后缀特指官方发布的 Flash-Inference 优化版本，而非泛指“快速”；vLLM 则是目前唯一能真正吃透 H100 硬件红利的开源推理引擎，它的 PagedAttention 内存管理机制与 H100 的显存带宽特性形成强耦合。最终交付的不是一个 Python 脚本，而是一个可通过标准 OpenAI 兼容 API（/v1/chat/completions）被任何前端、Agent 框架或 Codex 插件调用的、具备健康检查、自动扩缩容、请求队列熔断能力的生产级服务。适合谁？不是刚学完 PyTorch 的新手，而是正在搭建私有大模型中台的 SRE 工程师、需要将 DeepSeek-V4 接入内部知识库系统的后端架构师，或是为金融/医疗场景做合规模型服务的 MLOps 团队。它解决的不是“能不能跑”，而是“能不能稳、能不能快、能不能省、能不能管”。

2. 整体设计与思路拆解：为什么必须放弃“通用部署模板”，转向 H100+DeepSeek-V4-Flash 的专属路径

2.1 根本矛盾：通用 vLLM 配置在 H100 上会“饿死”GPU

很多工程师拿到 vLLM 官方文档，第一反应是直接vllm run --model deepseek-ai/DeepSeek-V4-Flash。实测结果：在单卡 H100-80G 上，吞吐量只有 8.2 tokens/sec，GPU 利用率长期卡在 45% 以下，显存占用却高达 72GB。问题出在哪？根源在于 vLLM 默认的--tensor-parallel-size和--pipeline-parallel-size是为 A100/A800 的 80GB 显存和 2TB/s 带宽设计的。H100 的 HBM3 带宽是 3TB/s，但它的 FP8 计算单元对数据搬运的“饥饿感”远超 A100。当 vLLM 用默认的 16-bit KV Cache 时，H100 的高带宽优势完全无法释放，大量时间花在等数据从显存加载到计算单元上，GPU 就像一个高速引擎配了窄轮胎——空转。

提示：H100 的关键硬件指标不是“显存大”，而是“带宽高+计算密”。部署方案必须围绕“如何让数据流持续喂饱 FP8 核心”来设计，而不是“如何把模型塞进显存”。

2.2 DeepSeek-V4-Flash 的“Flash”二字，是硬件感知的编译指令，不是营销话术

DeepSeek 官方发布的-Flash版本，其核心差异在于模型权重的量化格式和注意力层的 kernel 实现。它并非简单的 INT4 量化，而是采用了一种名为FP8-E4M3 + Block-wise Quantization的混合精度策略：MoE 的专家权重用 E4M3（4-bit 指数，3-bit 尾数），而主干 Transformer 层则用 E5M2（5-bit 指数，2-bit 尾数）。这种设计精准匹配了 H100 的 FP8 tensor core 的原生支持范围。更重要的是，其 FlashAttention-3 kernel 经过 NVIDIA cuBLASLt 的深度定制，能自动识别 H100 的CUTLASS_GEMM配置，并启用WMMA（Warp Matrix Multiply-Accumulate）指令进行块级矩阵乘。这意味着，如果你用普通 PyTorch 加载这个模型，它只会走通用 CUDA kernel，性能损失超过 40%。vLLM 的价值，就在于它内置了对 FlashAttention-3 的自动检测和绑定逻辑，但前提是——你必须告诉它：“这是 H100，用 FP8，别犹豫”。

2.3 vLLM 是唯一可行的引擎，但必须“手术式”改造其启动流程

为什么不用 Text Generation Inference（TGI）或 llama.cpp？TGI 对 MoE 模型的支持尚不成熟，其路由层（Router）在 H100 上会出现严重的负载不均衡，导致部分专家 GPU 利用率 95%，另一些却只有 15%；llama.cpp 本质是 CPU 推理框架，强行用 CUDA 后端在 H100 上跑 671B 模型，内存拷贝开销巨大，延迟不可控。vLLM 是目前唯一同时满足三个条件的引擎：1）原生支持 MoE 模型的专家并行（Expert Parallelism）；2）PagedAttention 机制能将 KV Cache 的显存碎片率从传统方式的 35% 降至 8% 以下，这对 H100 的 80GB 显存是救命稻草；3）其--dtype auto参数能智能识别模型权重的 FP8 格式并启用对应 kernel。但官方 vLLM 0.4.2 的启动脚本有一个致命缺陷：它默认启用--enforce-eager模式来兼容旧卡，这在 H100 上会强制关闭所有图优化（Graph Optimization），让 FP8 kernel 失效。我们必须在启动前，通过环境变量VLLM_USE_V1=0和VLLM_ENABLE_FLASHINFER=1进行双重覆盖，否则“Flash”就真的只是名字。

2.4 API 层不是“加个 FastAPI 就完事”，而是服务治理的起点

很多教程止步于vllm serve --host 0.0.0.0 --port 8000，然后告诉你“用 curl 调用就行”。这在生产环境是灾难。DeepSeek-V4 的 128K 上下文意味着单次请求可能携带 200MB 的 tokenized 输入，如果 API 层没有请求体大小限制、没有连接超时熔断、没有速率限制（Rate Limiting），一个恶意请求就能让整个服务雪崩。我们最终采用的方案是：在 vLLM 前置一层Envoy Proxy，它不处理业务逻辑，只做四件事：1）HTTP/2 连接复用与 Keep-Alive 管理；2）基于 IP 和 API Key 的每分钟请求数（RPM）与每秒请求数（RPS）双维度限流；3）对/v1/chat/completions请求体做 JSON Schema 校验，拒绝max_tokens > 8192或temperature < 0.01的非法参数；4）将所有请求日志以 OpenTelemetry 格式输出到 Loki，供 Grafana 监控。这层代理的加入，让 vLLM 进程本身可以专注计算，不再被网络抖动和异常请求干扰。

3. 核心细节解析与实操要点：从驱动、CUDA 到模型加载的每一处“魔鬼”

3.1 系统底座：NVIDIA 驱动与 CUDA 版本的“黄金组合”不是选出来的，是试出来的

H100 对驱动和 CUDA 的版本极其敏感。我们测试了 7 个驱动版本（515.65.01 至 535.129.03）和 4 个 CUDA Toolkit（12.1 至 12.4），最终锁定NVIDIA Driver 535.129.03 + CUDA 12.3这一组合。原因如下：

Driver 535.129.03 是首个为 H100 的Hopper架构正式启用NVSwitch多卡互联带宽优化的版本，它修复了早期驱动中nvidia-smi dmon报告的 HBM3 带宽虚高问题（实际只有理论值的 68%）；
CUDA 12.3 是最后一个完整支持cuBLASLt的版本，而 FlashAttention-3 的 kernel 编译严重依赖cuBLASLt的GEMM配置器。CUDA 12.4 移除了部分旧版 API，导致 vLLM 的flash_attn插件编译失败；
二者组合后，在nvidia-smi -q -d MEMORY中看到的FB Memory Usage稳定在 78.2GB/80GB，且utilization.gpu曲线平滑无锯齿，证明显存带宽被充分压榨。

注意：不要迷信“最新版即最好”。我们在 CUDA 12.4 + Driver 535.104.05 组合下，vLLM 启动时会报错CUDA driver version is insufficient for CUDA runtime version，尽管nvidia-smi显示驱动正常。这是因为 CUDA 12.4 的 runtime 对驱动的 ABI 兼容性要求更苛刻，必须用 535.129.03 才能通过校验。

3.2 vLLM 安装：源码编译是唯一选择，wheel 包是“温柔陷阱”

官方 PyPI 的vllm-0.4.2-py3-none-manylinux2014_x86_64.whl在 H100 上无法启用 FP8。原因在于 wheel 包是用 CUDA 11.8 编译的，它链接的是旧版libcublas.so.11，而 H100 的 FP8 GEMM 必须调用libcublasLt.so.12。因此，必须从源码编译：

# 克隆官方仓库，checkout 适配 H100 的分支（非 main） git clone https://github.com/vllm-project/vllm.git cd vllm git checkout h100-flash-v4-support # 这是社区维护的 H100 专用分支 # 设置编译环境变量，强制使用 CUDA 12.3 export CUDA_HOME=/usr/local/cuda-12.3 export PATH=$CUDA_HOME/bin:$PATH export LD_LIBRARY_PATH=$CUDA_HOME/lib64:$LD_LIBRARY_PATH # 关键：启用 FlashAttention-3 和 FP8 支持 pip install -e ".[flashinfer,fp8]" --no-build-isolation

其中--no-build-isolation是关键。它让 pip 在当前 Python 环境中编译，而非创建隔离环境，从而确保能正确找到系统级的cuda.h和cublasLt.h头文件。如果跳过此参数，编译会成功，但运行时import vllm会报ModuleNotFoundError: No module named 'vllm._C'。

3.3 模型权重加载：`--quantization awq`是伪命题，`--load-format pt`才是真相

DeepSeek-V4-Flash 的权重文件是.safetensors格式，但其内部存储的是 FP8 的E4M3和E5M2混合精度张量。vLLM 的--quantization awq参数是为 INT4 量化设计的，强行指定会导致权重加载时精度溢出，生成结果全为乱码。正确的做法是：

vllm serve \ --model deepseek-ai/DeepSeek-V4-Flash \ --load-format pt \ # 强制使用 PyTorch 原生加载器，它能识别 safetensors 中的 FP8 meta --dtype auto \ # 让 vLLM 自动探测权重精度，而非手动指定 float16 --tensor-parallel-size 2 \ # H100 单卡 80G 不足以容纳 671B 全参数，必须 2 卡 TP --pipeline-parallel-size 1 \ --max-model-len 131072 \ # DeepSeek-V4 支持 128K，预留 3K buffer 防越界 --gpu-memory-utilization 0.95 \ # H100 显存带宽高，可激进压到 95% --enforce-eager false \ # 关键！必须关闭 eager mode，启用 CUDA Graph --enable-chunked-prefill \ # 启用分块预填充，应对超长上下文 --max-num-batched-tokens 8192 \ # 批处理 token 总数上限，防 OOM

--load-format pt是核心。它绕过了 vLLM 默认的 safetensors 加载器，直接调用 PyTorch 的torch.load()，后者能读取.safetensors文件头中的__metadata__字段，识别出quant_type: "fp8_e4m3"并自动调用torch.float8_e4m3fndtype 加载。这是官方文档从未提及，但实测唯一有效的加载方式。

3.4 网络与 API 配置：Envoy 的 YAML 不是配置，是服务 SLA 的法律契约

Envoy 的配置文件envoy.yaml是整个服务的“宪法”。我们定义了三条铁律：

连接保活：idle_timeout: 300s，防止客户端长连接因网络中间件（如 Nginx）超时断开；
请求体限制：max_request_bytes: 262144000（250MB），精确匹配 DeepSeek-V4 在 128K 上下文下的最大输入 tokenized size；
熔断策略：circuit_breakers: { thresholds: [{ priority: DEFAULT, max_connections: 1000, max_pending_requests: 1000, max_requests: 10000 }] }，确保单节点故障不影响集群其他节点。

完整的envoy.yaml片段如下：

static_resources: listeners: - name: main-listener address: socket_address: { address: 0.0.0.0, port_value: 8000 } filter_chains: - filters: - name: envoy.filters.network.http_connection_manager typed_config: "@type": type.googleapis.com/envoy.extensions.filters.network.http_connection_manager.v3.HttpConnectionManager stat_prefix: ingress_http codec_type: AUTO route_config: name: local_route virtual_hosts: - name: local_service domains: ["*"] routes: - match: { prefix: "/v1/" } route: { cluster: vllm_cluster, timeout: { seconds: 300 } } http_filters: - name: envoy.filters.http.router clusters: - name: vllm_cluster connect_timeout: 0.25s type: STRICT_DNS lb_policy: ROUND_ROBIN load_assignment: cluster_name: vllm_cluster endpoints: - lb_endpoints: - endpoint: address: socket_address: address: 127.0.0.1 port_value: 8080 # vLLM 实际监听端口 circuit_breakers: thresholds: - priority: DEFAULT max_connections: 1000 max_pending_requests: 1000 max_requests: 10000

实操心得：Envoy 的max_requests: 10000不是指总请求数，而是“并发请求数上限”。我们曾设为 5000，结果在 120 QPS 下，5 分钟内就触发了熔断，服务返回503 Service Unavailable。调高到 10000 后，SLA 稳定在 99.99%。

4. 实操过程与核心环节实现：从裸机到 API 服务的 12 步完整流水线

4.1 环境初始化：在 DGX H100 上的 5 分钟标准化准备

我们使用 NVIDIA 的dgx-os作为基础镜像，但必须进行 5 项关键加固：

禁用 Nouveau 驱动：echo "blacklist nouveau" | sudo tee /etc/modprobe.d/blacklist-nouveau.conf && sudo update-initramfs -u，否则 H100 会被 Nouveau 错误识别为“老款 GPU”；
设置 CPU 频率策略：sudo cpupower frequency-set -g performance，H100 的 NVLink 通信高度依赖 CPU PCIe Root Complex 的稳定性，节能模式会导致 NVLink 带宽波动；

调整内核网络参数：

echo 'net.core.somaxconn = 65535' | sudo tee -a /etc/sysctl.conf echo 'net.ipv4.tcp_tw_reuse = 1' | sudo tee -a /etc/sysctl.conf sudo sysctl -p

挂载高性能存储：H100 的推理 I/O 瓶颈常在模型加载。我们将模型目录挂载到NVMe RAID0阵列，并启用noatime：

sudo mkfs.xfs -f /dev/nvme0n1 sudo mkdir -p /models echo '/dev/nvme0n1 /models xfs defaults,noatime 0 0' | sudo tee -a /etc/fstab sudo mount -a

创建专用用户与组：sudo groupadd -g 1001 vllm && sudo useradd -u 1001 -g vllm -m -s /bin/bash vllm，所有服务进程以该用户运行，符合最小权限原则。

4.2 模型下载与校验：`huggingface-cli`的隐藏参数才是关键

直接git lfs clone会因网络不稳定中断。我们改用huggingface-cli的断点续传模式：

# 使用 HF_ENDPOINT 环境变量指向国内镜像（如 https://hf-mirror.com） export HF_ENDPOINT=https://hf-mirror.com # 下载时启用分块校验和并发 huggingface-cli download \ --resume-download \ --max-workers 8 \ --local-dir /models/deepseek-v4-flash \ deepseek-ai/DeepSeek-V4-Flash \ --include "*.safetensors" \ --include "config.json" \ --include "tokenizer.model"

下载完成后，必须校验config.json中的关键字段：

{ "architectures": ["DeepseekV4ForCausalLM"], "model_type": "deepseek_v4", "flash_attention": true, // 必须为 true "fp8_quantization": { "enabled": true, "expert_weights": "e4m3", "mlp_weights": "e5m2" } }

如果flash_attention为false，说明下载的是非 Flash 版本，必须重新下载。

4.3 vLLM 服务启动：一行命令背后的 17 个环境变量

真正的启动命令远比vllm serve复杂。我们封装了一个start_vllm.sh脚本，其核心是设置 17 个环境变量，其中 5 个是 H100 专属：

#!/bin/bash # H100 专属环境变量 export VLLM_USE_V1=0 # 强制使用 vLLM v2 引擎，启用 CUDA Graph export VLLM_ENABLE_FLASHINFER=1 # 启用 FlashInfer kernel export VLLM_FP8_E4M3_ENABLED=1 # 显式启用 FP8 E4M3 export VLLM_CUDA_GRAPH_MAX_SEQ_LEN=4096 # CUDA Graph 最大序列长度，H100 最优值 export VLLM_DISABLE_CUSTOM_ALL_REDUCE=1 # 禁用自定义 AllReduce，H100 的 NCCL 更优 # 通用环境变量 export PYTHONPATH="/home/vllm/vllm:$PYTHONPATH" export CUDA_VISIBLE_DEVICES="0,1" # 指定使用 GPU 0 和 1 export VLLM_LOG_LEVEL=INFO # 启动命令 vllm serve \ --model /models/deepseek-v4-flash \ --load-format pt \ --dtype auto \ --tensor-parallel-size 2 \ --pipeline-parallel-size 1 \ --max-model-len 131072 \ --gpu-memory-utilization 0.95 \ --enforce-eager false \ --enable-chunked-prefill \ --max-num-batched-tokens 8192 \ --port 8080 \ --host 127.0.0.1 \ --api-key "your-secret-api-key" \ --served-model-name "deepseek-v4-flash"

实测对比：未设置VLLM_CUDA_GRAPH_MAX_SEQ_LEN=4096时，vLLM 会默认用 2048，导致 H100 的 CUDA Graph 无法覆盖长上下文场景，GPU 利用率下降 22%。这个参数是 H100 的“秘密开关”。

4.4 Envoy 代理启动：用 systemd 管理，实现真正的“零停机”

Envoy 不能用&后台运行，必须由 systemd 管理，以实现崩溃自动重启和日志归集：

# /etc/systemd/system/envoy.service [Unit] Description=Envoy Proxy for vLLM After=network.target [Service] Type=simple User=vllm Group=vllm WorkingDirectory=/home/vllm ExecStart=/usr/local/bin/envoy -c /home/vllm/envoy.yaml --log-level info Restart=always RestartSec=10 StandardOutput=journal StandardError=journal [Install] WantedBy=multi-user.target

启用服务：

sudo systemctl daemon-reload sudo systemctl enable envoy sudo systemctl start envoy

此时，curl http://localhost:8000/health应返回{"status":"OK"}，表示 Envoy 已就绪，等待 vLLM 启动。

4.5 API 调用验证：不只是`curl`，而是全链路压力测试

验证不能只用单次curl。我们编写了一个test_api.py脚本，模拟真实业务场景：

import asyncio import aiohttp import time async def call_api(session, i): payload = { "model": "deepseek-v4-flash", "messages": [{"role": "user", "content": f"请用中文解释量子纠缠，第{i}次请求"}], "max_tokens": 1024, "temperature": 0.7 } start = time.time() try: async with session.post("http://localhost:8000/v1/chat/completions", json=payload) as resp: result = await resp.json() latency = time.time() - start print(f"Request {i}: {latency:.2f}s, tokens: {len(result.get('choices', [{}])[0].get('message', {}).get('content', ''))}") except Exception as e: print(f"Request {i} failed: {e}") async def main(): connector = aiohttp.TCPConnector(limit_per_host=100, limit=0, keepalive_timeout=30) async with aiohttp.ClientSession(connector=connector) as session: tasks = [call_api(session, i) for i in range(100)] await asyncio.gather(*tasks) if __name__ == "__main__": asyncio.run(main())

运行python test_api.py，观察输出。在 H100 双卡配置下，我们实测：

P50 延迟：1.82s
P95 延迟：2.45s
吞吐量：120.3 QPS
GPU 利用率：平均 89.7%，峰值 94.2%

这证明整个链路已达到生产可用水平。

5. 常见问题与排查技巧实录：那些让你凌晨三点还在看`nvidia-smi`的真实场景

5.1 问题速查表：高频故障与一键定位命令

现象	可能原因	一键定位命令	解决方案
`vllm serve`启动后立即退出，无错误日志	`CUDA_VISIBLE_DEVICES`未设置或设置错误	`echo $CUDA_VISIBLE_DEVICES`	在启动脚本中显式设置`export CUDA_VISIBLE_DEVICES="0,1"`
`nvidia-smi`显示 GPU 利用率 < 30%，但`nvidia-smi dmon -s u`显示`sm`利用率 > 80%	vLLM 未启用 CUDA Graph，陷入 kernel launch 开销	`vllm serve --enforce-eager true`启动，对比`sm`利用率	确保`VLLM_USE_V1=0`和`--enforce-eager false`同时生效
API 返回`503 Service Unavailable`	Envoy 熔断触发	`sudo journalctl -u envoy -n 100 --no-pager \| grep "circuit breaker"`	调高`envoy.yaml`中`max_requests`和`max_pending_requests`
生成结果出现大量重复 token（如“的的的的”）	`--temperature`过低或`--top_p`过高	检查请求 payload 中`temperature`是否 < 0.05	在 Envoy 层添加 JSON Schema 校验，拒绝非法参数
`curl http://localhost:8000/health`返回`Connection refused`	vLLM 进程未监听 127.0.0.1:8080	`sudo ss -tuln \| grep :8080`	检查 vLLM 启动命令中`--host`是否为`127.0.0.1`，而非`0.0.0.0`

5.2 “nv h100 gemm” 错误：不是驱动问题，是 kernel 编译失败

搜索热词nv h100 gemm常指向RuntimeError: CUDA error: operation not supported when calling cudaGetErrorString(cudaError_t)。这通常发生在 vLLM 启动时尝试加载 FlashAttention-3 kernel 失败。根本原因是flash_attn插件未正确编译。排查步骤：

检查flash_attn是否安装：python -c "import flash_attn; print(flash_attn.__version__)"，应输出2.6.3+cu123；
检查 CUDA 版本是否匹配：python -c "import torch; print(torch.version.cuda)"，必须为12.3；

如果 1 和 2 都正确，但仍有错误，则进入 vLLM 源码目录，手动编译：

cd /home/vllm/vllm/csrc/flash_attn make clean make BUILD_TARGET=cu123 # 显式指定 CUDA 12.3

5.3 “API error: the model has reached its context window limit”：不是模型问题，是 tokenizer 的隐式截断

DeepSeek-V4 的 128K 上下文是理论值。实际使用中，tokenizer.encode()会将输入文本转换为 token ID，但某些特殊字符（如 emoji、控制字符）会被 tokenizer 映射为多个 subword，导致实际 token 数超出max_model_len。解决方案不是调大--max-model-len（这会 OOM），而是前置截断：

from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("/models/deepseek-v4-flash") def truncate_input(text, max_tokens=128000): tokens = tokenizer.encode(text, add_special_tokens=False) if len(tokens) > max_tokens: # 保留最后 max_tokens 个 token，保证上下文连贯性 tokens = tokens[-max_tokens:] return tokenizer.decode(tokens, skip_special_tokens=True) # 在 API 请求到达 vLLM 前，用此函数处理 input

5.4 “vllm冷启动问题”：不是 vLLM 的锅，是 Linux 的`vm.swappiness`

vLLM 首次加载 671B 模型时，会触发大量内存页分配，如果系统vm.swappiness过高（默认 60），内核会将部分匿名页 swap 到磁盘，导致冷启动时间长达 8 分钟。解决方案：

# 临时生效 sudo sysctl vm.swappiness=1 # 永久生效 echo 'vm.swappiness=1' | sudo tee -a /etc/sysctl.conf sudo sysctl -p

实测将swappiness从 60 降到 1，冷启动时间从 482s 缩短至 93s。

5.5 “error: flash download failed - target dll has been cancelled”：与嵌入式无关，是 Hugging Face Hub 的 SSL 证书问题

这个错误常出现在huggingface-cli download过程中，与嵌入式开发中的 Flash 编程完全无关。它是由于企业防火墙或代理拦截了 HF Hub 的 HTTPS 流量，导致 TLS 握手失败。解决方案：

# 临时禁用 SSL 验证（仅限内网可信环境） export HF_HUB_DISABLE_SSL=1 # 或者，导入企业 CA 证书 sudo cp your-company-ca.crt /usr/local/share/ca-certificates/ sudo update-ca-certificates

踩过的坑：我们曾以为是网络问题，花了两天排查代理配置，最后发现是公司安全设备对huggingface.co的 SNI 检查过于严格。HF_HUB_DISABLE_SSL=1是最快捷的绕过方案。

6. 运维监控与性能调优：让 H100 的每一分钱都花在刀刃上

6.1 Prometheus + Grafana 监控栈：不止看 GPU 利用率

我们部署了轻量级的prometheus-node-exporter+vllm-exporter（社区开源）+grafana。关键监控面板包括：

H100 硬件健康：DCGM_FI_DEV_GPU_UTIL（GPU 利用率）、DCGM_FI_DEV_MEM_COPY_UTIL（显存带宽利用率）、DCGM_FI_DEV_SM_CLOCK（SM 频率）；
vLLM 服务指标：vllm:gpu_cache_usage_ratio（KV Cache 显存占比）、vllm:request_waiting_time_seconds（请求排队时间）、vllm:generation_tokens_total（生成 token 总数）；
Envoy 代理指标：envoy_cluster_upstream_rq_5xx（上游 5xx 错误）、envoy_http_downstream_cx_active（活跃连接数）。

一个关键发现：当DCGM_FI_DEV_MEM_COPY_UTIL长期 > 95% 时，vllm:request_waiting_time_seconds会指数级上升。这表明 H100 的 HBM3 带宽已成为瓶颈，此时唯一的优化是降低--max-num-batched-tokens，牺牲一点吞吐换取更低延迟。

6.2 动态批处理（Dynamic Batching）调优：`--max-num-batched-tokens`不是越大越好

vLLM 的动态批处理是其核心优势，但--max-num-batched-tokens参数需要根据业务流量模式精细调整。我们做了三组实验：

`--max-num-batched-tokens`	P95 延迟	吞吐量 (QPS)	GPU 利用率	适用场景
4096	1.21s	85.4	72%	低延迟优先，如实时对话
8192	1.82s	120.3	89.7%	均衡模式，推荐默认值
16384	2.95s	138.7	93.1%	高吞吐优先，如批量摘要