Docker+vLLM内网离线部署Qwen3 流程

发布时间：2026/7/26 22:51:13

Docker + vLLM 内网离线部署 Qwen3-32B 完整教程

环境准备

Nvidia显卡驱动、CUDA、nvidia-container安装
参考：http：
Docker环境安装
参考：http:

注意：在进行VLLM容器化部署之前，需要确保已在服务器上安装了Docker 和
Nvidia显卡驱动、CUDA、nvidia-container。

一、部署流程概述

部署流程主要分为三个关键步骤：

准备vLLM镜像- 在联网环境下载并导入内网
获取模型文件- 从模型仓库下载Qwen3-32B模型
启动推理服务- 使用Docker运行vLLM服务

下面详细介绍每个步骤的具体操作。

二、详细操作步骤

1. 离线获取 vLLM 镜像

由于内网服务器无法直接访问Docker Hub，需要在有网络的机器上先拉取镜像，然后传输到内网服务器。

在可联网的机器上执行：

# 拉取官方vLLM镜像（大小约20GB，下载需要较长时间）docker pull vllm/vllm-openai# 将镜像打包保存为文件docker save -o vllm-openai-image.tar vllm/vllm-openai:latest

在内网服务器上执行：

# 进入保存镜像文件的目录cd/data# 从文件加载镜像到本地Dockerdocker load<vllm-openai-image.tar# 验证镜像是否加载成功（应该能看到vllm/vllm-openai镜像）docker images|grepvllm-openai

2. 下载 Qwen3-32B 模型文件

模型可以从以下几个平台下载（推荐使用国内源提升下载速度）：

Hugging Face Hub（国内镜像）：https://hf-mirror.com/
ModelScope 魔搭社区：https://www.modelscope.cn/models
GitCode：https://gitcode.net/

本文以魔搭社区为例，使用git下载：

# 确保已安装git-lfs（大文件支持）gitlfsinstall# 克隆模型仓库（模型大小约62GB，下载需要很长时间）gitclone https://www.modelscope.cn/Qwen/Qwen3-32B.git

下载完成后，将整个模型文件夹复制到内网服务器的/data/Qwen3-32B目录下。

3. 启动 vLLM 推理服务

使用以下命令启动服务容器，请根据实际情况调整参数：

docker run -d --privileged --gpus all\--restart unless-stopped\--networkhost\-v /data/Qwen3-32B:/app/model\--shm-size 32G\--name vllm-qwen3\vllm/vllm-openai:latest\--model /app/model\--served-model-name qwen3:32b

新闻详情

Docker+vLLM内网离线部署Qwen3 流程

Docker + vLLM 内网离线部署 Qwen3-32B 完整教程

一、部署流程概述

二、详细操作步骤

相关新闻

AutoGPT与TensorFlow Serving集成：模型部署自动化

any-listen：构建专属私人音乐空间的完整解决方案

企业物流外包如何选择靠谱伙伴？2025年年终北京地区物流服务商综合评估与5家推荐！ - 十大品牌推荐

影院票房预测与排片优化系统技术解析

国内玻璃圆盘检测机主流厂家技术参数实测排行 - 互联网科技品牌测评

AI模型自动化测试框架对比｜pytest/Great Expectations/DeepChecks/LangSmith

SCMP供应链管理证书在哪里报名 - 众智商学院官方

基于视觉感知的跨平台AI自动化框架：Midscene.js的技术架构深度解析

ARM Cortex-M异常模型与TI CC26x0事件总线实战解析

技术焦虑下的业务聚焦：构建可持续的技术竞争力

仅限本周开放｜GMAT AI备考效能评估工具（含ETS官方题库行为轨迹比对模块），免费生成专属「提分热力图」与瓶颈突破路线图

AI时代SEO新标配：Schema结构化数据与llms.txt实战指南

技术焦虑下的业务聚焦：构建可持续的技术竞争力

仅限本周开放｜GMAT AI备考效能评估工具（含ETS官方题库行为轨迹比对模块），免费生成专属「提分热力图」与瓶颈突破路线图

AI时代SEO新标配：Schema结构化数据与llms.txt实战指南

[C++]内存管理：串顺序存储的内存回收

足球口袋教练 HarmonyOS 离线应用实战（03/20）：ArkUI 首页仪表盘搭建

移动端游戏功耗测试实战：电流、功率、亮度和场景对比