当前位置：首页 > news >正文

HeteroFlow V2：提供全自动化 GPU 推理服务，兼容 OpenAI API

news 2026/6/16 9:19:54

推理服务HeteroFlow V2 提供完整的 GPU 推理服务管理能力支持从模型发现到 API 服务的全自动化流程。通过 TaskGroup 统一管理推理服务生命周期内置 OpenAI 兼容网关实现一键部署和调用。系统架构系统架构包含用户 / LLM 客户端浏览器 / curl / OpenAI SDK、HeteroFlow Server、PostgreSQL Storage 和 HeteroFlow Agentper GPU Node等部分。用户 / LLM 客户端通过 Web UI (React Vite) 或 OpenAI API 与 HeteroFlow Server 交互HeteroFlow Server 包含 REST API、Gateway、Scheduler 和 Model Route 等组件负责任务组 CRUD、伸缩策略、滚动更新、用户认证等职责。PostgreSQL Storage 存储任务组、任务、推理端点和模型路由等信息。HeteroFlow Agent 负责 Docker 容器生命周期、引擎路由、模型挂载等任务。三层职责系统分为 Server、Agent 和 Frontend 三层各层组件有不同职责。Server 层的组件包括 REST API、Gateway、Scheduler 和 ModelRoute分别负责任务组 CRUD、OpenAI 兼容代理、GPU 感知调度和模型路由注册等。Agent 层的组件包括 Executor、Engine Router、Model Scanner 和 GPU Detection负责 Docker 容器生命周期、引擎选择、本地模型发现和 GPU 检测等。Frontend 层的组件包括 InferenceList、InferenceCreateModal 和 InferenceControlPanel负责服务列表展示、创建表单和 API Key 管理等。核心概念任务组 (TaskGroup)任务组是推理服务的管理单元包含一个或多个任务 (Task)。其状态机为 pending → scheduling → running ⇄ sleeping还有 failed 和 completed 状态。任务组有 id、name、status 等多个字段。任务 (Task)任务是实际的执行单元对应一个 Docker 容器。有 id、group_id、rank 等字段。推理端点 (InferenceEndpoint)对外暴露的 API 访问入口有 id、name、task_group_id 等字段。模型路由 (ModelRoute)同一模型多版本/多引擎的路由规则有 id、model_name、task_group_id 等字段。支持的推理引擎支持 vLLM、SGLang、llama.cpp、MINDIE、vLLM - MTT 和 Transformers 等推理引擎不同引擎支持不同 GPU 类型各有特点。默认按 GPU 类型选择最优引擎不同 GPU 类型有对应的优先级链。各引擎还有相应的启动参数。创建推理服务部署模式前端选项有单卡、多卡 TP 和多卡 Split 等模式不同模式有不同的 parallelism 值、GPU 标签和 world_size。并行策略对 GPU 分配有不同影响。配置项详解基本配置包括服务名称、Docker 镜像、启动命令等。API 访问配置启用后自动创建 InferenceEndpoint 和 API Key可通过 OpenAI 兼容接口访问。路由配置包括流量权重、优先级、负载均衡和版本标签等。QoS 级别分为 Gold、Silver 和 Bronze有不同的说明、GPU 分配和适用场景。健康检查有检查路径、检查间隔等字段。自动伸缩有最小副本数、最大副本数等配置。共调度有单卡最大模型数、预估显存占用等配置。推理服务生命周期创建流程用户填写表单前端校验后 POST /api/v1/task - groups经过参数校验、计算 nodeCount 等步骤Scheduler 拾取 Task 分配 GPUAgent 启动容器。调度流程Scheduler 每秒查询 pending/scheduled 任务经过 GPU 类型过滤、VRAM 感知过滤等步骤CAS 状态更新Agent 抢占后任务 running。休眠/唤醒流程运行中任务可自动休眠或手动唤醒。自动休眠时 Agent 检测空闲超时调用 vLLM /sleep 或 docker pause上报 sleeping 状态Server 释放 GPU 占用计数。手动唤醒时用户点击唤醒按钮或 API 请求到达 Gateway状态更新调用 vLLM /wake_up 或 docker unpause重新分配 GPU 资源。滚动更新流程有 rolling 和 recreate 两种策略。rolling 策略逐个替换任务recreate 策略全量替换任务。服务操作服务操作包括休眠、唤醒、停止、重试、删除和扩缩等各操作有对应的 API、显示条件和效果。OpenAI 兼容 API推理服务完全兼容 OpenAI API 格式提供了 Chat Completions 和列举可用模型的 curl 示例还有 Python SDK 的使用示例。API 接口任务组 API任务组 API 包括 GET、POST、DELETE、PUT 等方法对应不同的路径和说明。任务 API任务 API 包括 GET、POST 等方法对应不同的路径和说明。常见问题推理服务一直 pending可能原因有节点不在线、GPU 类型不匹配、GPU 显存不足和镜像拉取失败等可通过相应方法排查。GPU OOM可使用更小的模型或量化版本、张量并行分布到多 GPU、减小上下文或降低 --gpu - memory - utilization 等方法解决。推理速度慢可确认 GPU 利用率、使用 vLLM、多副本部署负载均衡或启用连续批处理等方法解决。你对 HeteroFlow V2 的推理服务有什么看法呢

查看全文

http://www.gsyq.cn/news/1361303.html