当前位置：首页 > news >正文

vllm与sgLang

news 2026/7/3 7:10:15

一、基本概念

先看kvcache概念：可以看作模型的短期记忆，模型每生成一个新词就疯狂吃gpu显存

1、对于vLLM框架有PagedAttention:按需分配、非连续存储的方式

PagedAttention：把每个请求的 KV Cache 切割成固定大小的“块（Block）”。这些块在物理显存中不需要连续存储，系统只需维护一个“块表（Block Table）”来记录逻辑块与物理块的映射关系。

优势：按需分配、非连续存储，提升显存利用率

2、SGLang有RadixAttention

它引入了一种叫基数树（Radix Tree）的数据结构来管理 KV Cache，在实际业务中（比如多轮对话、少样本学习或思维树搜索），很多请求之间拥有大量相同的前缀，当新的请求进来时，系统会自动识别它是否包含已有的公共前缀。如果有，就直接复用树上已经计算好的 KV Cache，只计算新增的部分。

优势：跨请求的前缀共享机制，消除了大量的重复计算

二、两种框架的最佳使用场景

vllm sglang tensordt-llm区别

http://www.gsyq.cn/news/1618503.html

相关文章：

机器人即服务（RaaS）时代来了：机器人租赁平台的技术架构与落地实践

90%的iPhone用户都踩过的坑：弹窗、发烫、掉电池，根源全在这

unordered_map 与 unordered_set 使用技巧（C++哈希容器高性能实战全解）

2026年门店小程序平台怎么选？预约、核销和会员储值能力对比

景观设计师转型AI：2个月掌握大模型的实战路径

STM32与AD74413R构建高精度数据采集系统

把AI流式响应当成编译问题：用状态机消灭200空白

从成本中心到价值引擎：License许可优化的进阶之路

【硬核详解】基于 CH340G 的 STM32 一键下载电路设计：从数据手册到参数计算全流程指南（一）

2026年腾讯云秒杀活动抢购攻略

西城微科SIC8833高精度胎压计芯片方案

AS717芯片规格 8K@60Hz外围少 AS717电路图参考

鸿蒙原生 ArkTS 布局容器切换：Column ↔ Row 的响应式转换深度实践

安卓手机远程控制另一部手机怎么远程控制安卓手机

2026年企业办公与数字员工工具实测：五个平台的搭建路径与适用场景

2026年中药洗发水代工：非遗传承工厂如何重塑品质标准

易元 AI 深度解析：一站式 AI 电商素材与内容生产全链路工具，赋能信息流广告批量制作

AI模型门控发布机制与安全治理实践

【AI全栈】日常内存管理 SOP-Windows + WSL2 + Docker Desktop 组合中最经典的“内存黑洞”问题！

windows远程桌面下载教程如何远程控制win桌面

实操笔记：vscode+opencode+deepseek

什么企业需要上线机房磁控U位管理？

DeepSeek OCR：面向业务落地的结构化视觉理解引擎

2026法国名义雇主EOR服务权威推荐榜单

Claude Code 被封后，我才意识到，Agent 工作流必须能一键迁移

【MO MTSP】麝牛算法MO求解单仓库多旅行商问题【含Matlab源码 15683期】

如何降低大模型调用带来的成本

VBA技术资料502_VBA_检索文件名及文件的扩展名

ManageEngine卓豪-零信任架构