当前位置: 首页 > news >正文

vllm与sgLang

一、基本概念

先看kvcache概念:可以看作模型的短期记忆,模型每生成一个新词就疯狂吃gpu显存

1、对于vLLM框架有PagedAttention:按需分配、非连续存储的方式

PagedAttention:把每个请求的 KV Cache 切割成固定大小的“块(Block)”。这些块在物理显存中不需要连续存储,系统只需维护一个“块表(Block Table)”来记录逻辑块与物理块的映射关系。

优势:按需分配、非连续存储,提升显存利用率

2、SGLang有RadixAttention

它引入了一种叫基数树(Radix Tree)的数据结构来管理 KV Cache,在实际业务中(比如多轮对话、少样本学习或思维树搜索),很多请求之间拥有大量相同的前缀,当新的请求进来时,系统会自动识别它是否包含已有的公共前缀。如果有,就直接复用树上已经计算好的 KV Cache,只计算新增的部分。

优势:跨请求的前缀共享机制,消除了大量的重复计算

二、两种框架的最佳使用场景

vllm sglang tensordt-llm区别

http://www.gsyq.cn/news/1618503.html

相关文章:

  • 机器人即服务(RaaS)时代来了:机器人租赁平台的技术架构与落地实践
  • 90%的iPhone用户都踩过的坑:弹窗、发烫、掉电池,根源全在这
  • unordered_map 与 unordered_set 使用技巧(C++哈希容器高性能实战全解)
  • 2026年门店小程序平台怎么选?预约、核销和会员储值能力对比
  • 景观设计师转型AI:2个月掌握大模型的实战路径
  • STM32与AD74413R构建高精度数据采集系统
  • 把AI流式响应当成编译问题:用状态机消灭200空白
  • 从成本中心到价值引擎:License许可优化的进阶之路
  • 【硬核详解】基于 CH340G 的 STM32 一键下载电路设计:从数据手册到参数计算全流程指南(一)
  • 2026年腾讯云秒杀活动抢购攻略
  • 西城微科SIC8833高精度胎压计芯片方案
  • AS717芯片规格 8K@60Hz外围少 AS717电路图参考
  • 鸿蒙原生 ArkTS 布局容器切换:Column ↔ Row 的响应式转换深度实践
  • 安卓手机远程控制另一部手机 怎么远程控制安卓手机
  • 2026年企业办公与数字员工工具实测:五个平台的搭建路径与适用场景
  • 2026年中药洗发水代工:非遗传承工厂如何重塑品质标准
  • 易元 AI 深度解析:一站式 AI 电商素材与内容生产全链路工具,赋能信息流广告批量制作
  • AI模型门控发布机制与安全治理实践
  • 【AI全栈】日常内存管理 SOP-Windows + WSL2 + Docker Desktop 组合中最经典的“内存黑洞”问题!
  • windows远程桌面下载教程 如何远程控制win桌面
  • 实操笔记:vscode+opencode+deepseek
  • 什么企业需要上线机房磁控U位管理?
  • DeepSeek OCR:面向业务落地的结构化视觉理解引擎
  • 2026法国名义雇主EOR服务权威推荐榜单
  • Claude Code 被封后,我才意识到,Agent 工作流必须能一键迁移
  • 【MO MTSP】麝牛算法MO求解单仓库多旅行商问题【含Matlab源码 15683期】
  • 如何降低大模型调用带来的成本
  • VBA技术资料502_VBA_检索文件名及文件的扩展名
  • show-靶机
  • ManageEngine卓豪-零信任架构