当前位置: 首页 > news >正文

Docker+vLLM内网离线部署Qwen3 流程

Docker + vLLM 内网离线部署 Qwen3-32B 完整教程

环境准备

Nvidia显卡驱动、CUDA、nvidia-container安装
参考:http:
Docker环境安装
参考:http:

注意:在进行VLLM容器化部署之前,需要确保已在服务器上安装了Docker 和
Nvidia显卡驱动、CUDA、nvidia-container。

一、部署流程概述

部署流程主要分为三个关键步骤:

  1. 准备vLLM镜像- 在联网环境下载并导入内网
  2. 获取模型文件- 从模型仓库下载Qwen3-32B模型
  3. 启动推理服务- 使用Docker运行vLLM服务

下面详细介绍每个步骤的具体操作。

二、详细操作步骤

1. 离线获取 vLLM 镜像

由于内网服务器无法直接访问Docker Hub,需要在有网络的机器上先拉取镜像,然后传输到内网服务器。

在可联网的机器上执行:

# 拉取官方vLLM镜像(大小约20GB,下载需要较长时间)docker pull vllm/vllm-openai# 将镜像打包保存为文件docker save -o vllm-openai-image.tar vllm/vllm-openai:latest

在内网服务器上执行:

# 进入保存镜像文件的目录cd/data# 从文件加载镜像到本地Dockerdocker load<vllm-openai-image.tar# 验证镜像是否加载成功(应该能看到vllm/vllm-openai镜像)docker images|grepvllm-openai

2. 下载 Qwen3-32B 模型文件

模型可以从以下几个平台下载(推荐使用国内源提升下载速度):

  • Hugging Face Hub(国内镜像):https://hf-mirror.com/
  • ModelScope 魔搭社区:https://www.modelscope.cn/models
  • GitCode:https://gitcode.net/

本文以魔搭社区为例,使用git下载:

# 确保已安装git-lfs(大文件支持)gitlfsinstall# 克隆模型仓库(模型大小约62GB,下载需要很长时间)gitclone https://www.modelscope.cn/Qwen/Qwen3-32B.git

下载完成后,将整个模型文件夹复制到内网服务器的/data/Qwen3-32B目录下。

3. 启动 vLLM 推理服务

使用以下命令启动服务容器,请根据实际情况调整参数:

docker run -d --privileged --gpus all\--restart unless-stopped\--networkhost\-v /data/Qwen3-32B:/app/model\--shm-size 32G\--name vllm-qwen3\vllm/vllm-openai:latest\--model /app/model\--served-model-name qwen3:32b
http://www.gsyq.cn/news/97831.html

相关文章:

  • AutoGPT与TensorFlow Serving集成:模型部署自动化
  • any-listen:构建专属私人音乐空间的完整解决方案
  • 企业物流外包如何选择靠谱伙伴?2025年年终北京地区物流服务商综合评估与5家推荐! - 十大品牌推荐
  • 实用指南:如何使用WPF做工控主页
  • 秒会Python基础:函数的介绍与用法
  • 2025年度南京AI排名品牌权威盘点,口碑与实力并存,ai排名/GEO/ai和数字人/ai数字人/企业短视频矩阵AI排名老牌公司口碑推荐榜 - 品牌推荐师
  • 基于微信小程序的大学校园失物招领系统的设计与实现论文案例
  • 在低配云服务器上实现自动化部署:Drone CI + Gitee Webhook 的轻量级实践
  • 1、深入探索 Linux API 与 Kylix 开发
  • 26万token上下文+4B参数:PyDevMini1重新定义轻量级AI的商业价值
  • MS-SSIM图像质量评估终极指南:多尺度结构相似性深度解析
  • 2、探索 Linux API:从基础到应用
  • Signal-Android终极优化:7步让你的隐私通讯应用更轻更快
  • MATLAB/Simulink平台搭建同步电机、异步电机和双馈风机仿真模型
  • LXGW Neo XiHei 字体终极使用指南:从入门到精通
  • ALVR无线串流性能调优终极指南
  • FlashAttention突破性指南:如何用IO感知技术实现20倍内存节省
  • 网页前端如何配合JSP完成1T文件分块上传?
  • 学Simulink——机器人力控场景实例:基于Simulink的永磁同步电机重力补偿力矩控制仿真
  • PKHeX插件完全指南:解锁宝可梦数据管理新维度
  • OpenPLC Editor开源工具在工业自动化领域的应用实践
  • 4大突破:Flash-Attention在AMD GPU上的性能跃迁实战指南
  • 分治算法精解:归并排序技术的深度剖析与实践指南
  • 学Simulink——机器人轨迹跟踪场景实例:基于Simulink的永磁同步电机多关节同步轨迹跟踪仿真
  • 学Simulink--风电基础控制场景实例:基于Simulink的PMSG三闭环(功率/转速/电流)基础控制仿真
  • 开源BI与商业BI深度对比:中小企业如何做出明智选择
  • Armbian网络配置终极指南:从零开始掌握单板计算机联网技巧
  • Grok-2 Tokenizer:马斯克大模型生态的关键拼图,部署效率提升300%
  • 15、TinyOS 开发:`unique()`、`uniqueCount()` 与通用配置的深度解析
  • 3D角色骨骼自动化绑定革命:UniRig智能系统完全指南