当前位置: 首页 > news >正文

单端口部署多模型最简单解决方案(vllm sglang 等均适用)

TLDR

将不同模型部署在不同端口,使用litellm的proxy功能统一管理转发

步骤1:本地部署好模型在若干端口上

vllm serve Qwen/Qwen3.5-2B --port 8031 vllm serve Qwen/Qwen3.5-4B --port 8032 vllm serve Qwen/Qwen3.5-9B --port 8033

步骤2:安装配置litellm

安装

# 选项1:使用uv安装 uv tool install 'litellm[proxy]' # 选项2:脚本直接安装 curl -fsSL https://raw.githubusercontent.com/BerriAI/litellm/main/scripts/install.sh | sh

配置litellm

当前目录创建litellm_config.yaml,写入以下内容

model_list: - model_name: Qwen/Qwen3.5-4B litellm_params: model: openai/Qwen/Qwen3.5-4B # add openai/ prefix to route as OpenAI provider api_base: http://localhost:8031/v1 api_key: none - model_name: Qwen/Qwen3.5-2B litellm_params: model: openai/Qwen/Qwen3.5-2B # add openai/ prefix to route as OpenAI provider api_base: http://localhost:8032/v1 api_key: none - model_name: Qwen/Qwen3.5-9B litellm_params: model: openai/Qwen/Qwen3.5-9B # add openai/ prefix to route as OpenAI provider api_base: http://localhost:8033/v1 api_key: none

步骤3:用你需要的端口启动litellm

litellm --config ./litellm_config.yaml --port 8088

然后如下,之后直接使用8088端口就可以访问部署的三个模型了

INFO: Started server process [214508] INFO: Waiting for application startup. ██╗ ██╗████████╗███████╗██╗ ██╗ ███╗ ███╗ ██║ ██║╚══██╔══╝██╔════╝██║ ██║ ████╗ ████║ ██║ ██║ ██║ █████╗ ██║ ██║ ██╔████╔██║ ██║ ██║ ██║ ██╔══╝ ██║ ██║ ██║╚██╔╝██║ ███████╗██║ ██║ ███████╗███████╗███████╗██║ ╚═╝ ██║ ╚══════╝╚═╝ ╚═╝ ╚══════╝╚══════╝╚══════╝╚═╝ ╚═╝ Thank you for using LiteLLM! - Krrish & Ishaan LiteLLM: Proxy initialized with Config, Set models: Qwen/Qwen3.5-4B Qwen/Qwen3.5-2B Qwen/Qwen3.5-9B INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:8088 (Press CTRL+C to quit)
http://www.gsyq.cn/news/1594999.html

相关文章:

  • 豆包提示词工程实战:5大工作流嵌入指南
  • 打破垄断:国产七位半数字多用表AMC93200的技术突破与应用
  • AI幻觉治理实战:DeepRAG+RAT+神经符号混合架构
  • 智慧气象盒子4G云连接方案与优化实践
  • 技术求助实战指南:从树莓派相机栈调试到高效社区协作
  • 5分钟快速指南:如何安全高效地管理游戏DLSS版本升级
  • 论文 deadline 只剩 3 天?Gradpaper 极简操作 5 分钟填参数,半天出合格初稿
  • 谷歌不收录中文网站语言设置:改错这3个地方流量直接掉没
  • 免费虚拟桌面伴侣终极指南:Mate Engine打造你的专属二次元伙伴
  • STM32CubeMX中FATFS文件系统创建失败的排查与解决
  • 完整指南:如何用VisualCppRedist AIO一键解决Windows运行库依赖问题
  • 数据分析入门:用Python做异常检测
  • NSC_BUILDER:Switch游戏文件管理的终极免费工具箱
  • 你还在点UI?智能体运维已经进入“说句话就行”时代
  • 苹果激进调整Mac芯片路线:跳过M6高端款,M7全力押注端侧AI
  • 微信支付V3商家转账到零钱:从安全配置到代码集成的完整避坑指南
  • Rancher UI 应用快速部署与公网访问实操指南
  • Windows平台iOS模拟器技术解析:如何通过系统调用翻译实现跨平台应用运行
  • Adobe-GenP二进制修补技术深度解析:高效破解Adobe Creative Cloud的实现原理
  • Web Font Loader与BrowserStack集成:实现跨浏览器字体加载自动化测试
  • Video2X视频超分辨率工具:3步让老旧视频焕发新生
  • 计算机毕业设计之C语言网上考试系统
  • 2026降AIGC软件实测:10款网站对比,论文质量提升秘籍
  • AI视频修复革命:让老旧影像重获新生的开源神器
  • Adams迹定理在乘积Morrey空间的推广:理论与应用
  • vector<bool>的致命缺陷:大部份开发者踩过的内存雷区
  • 谷歌不收录中文网站语言分类目录:避开这5个坑让爬虫天天来
  • 3步掌握XUnity.AutoTranslator:让外语游戏秒变中文的终极解决方案
  • 身份证登报挂失有没有法律效应?身份证登报挂失怎么办理?
  • 0012.示波器探头未校准导致的问题