当前位置: 首页 > news >正文

响应流式传输(Response Streaming)

响应流式传输(Response Streaming)

注意
此页面描述的是低级 LLM API 的响应流式传输。高级 LLM API 请参见 [AI 服务](AI Services)。

LLM 会逐个令牌(token)生成文本,因此许多 LLM 提供商提供了一种逐令牌流式传输响应的方法,而无需等待整个文本生成完毕。这显著改善了用户体验,因为用户无需等待未知的时间,几乎可以立即开始阅读响应。

对于ChatModelLanguageModel接口,存在对应的StreamingChatModelStreamingLanguageModel接口。它们具有相似的 API,但可以流式传输响应。它们接受StreamingChatResponseHandler接口的实现作为参数。

publicinterfaceStreamingChatResponseHandler{defaultvoidonPartialResponse(StringpartialResponse){}defaultvoidonPartialResponse(PartialResponsepartialResponse,PartialResponseContextcontext){}defaultvoidonPartialThinking(PartialThinkingpartialThinking){}defaultvoidonPartialThinking(PartialThinkingpartialThinking,PartialThinkingContextcontext){}defaultvoidonPartialToolCall(PartialToolCallpartialToolCall){}defaultvoidonPartialToolCall(PartialToolCallpartialToolCall,PartialToolCallContextcontext){}defaultvoidonCompleteToolCall(CompleteToolCallcompleteToolCall){}voidonCompleteResponse(ChatResponsecompleteResponse);voidonError(Throwableerror);}

通过实现StreamingChatResponseHandler,您可以为以下事件定义操作:

  • 当生成下一个部分文本响应时:调用onPartialResponse(String)onPartialResponse(PartialResponse, PartialResponseContext)(您可以实现其中任一方法)。根据 LLM 提供商的不同,部分响应文本可以包含一个或多个令牌。例如,您可以在令牌可用时立即将其发送到 UI。
  • 当生成下一个部分思考/推理文本时:调用onPartialThinking(PartialThinking)onPartialThinking(PartialThinking, PartialThinkingContext)(您可以实现其中任一方法)。根据 LLM 提供商的不同,部分思考文本可以包含一个或多个令牌。
  • 当生成下一个部分工具调用时:调用onPartialToolCall(PartialToolCall)onPartialToolCall(PartialToolCall, PartialToolCallContext)(您可以实现其中任一方法)。
  • 当 LLM 完成单个工具调用的流式传输时:调用onCompleteToolCall(CompleteToolCall)
  • 当 L
http://www.gsyq.cn/news/1569775.html

相关文章:

  • BurpSuite Intruder爆破登录配置:6个关键错误与解决方案
  • NXP MKW36到MKW35低功耗蓝牙MCU迁移实战:硬件差异与IDE适配详解
  • 2026昌吉白蚁消杀防治金盾虫控青蚁卫士权威本土品牌 - 我叫一
  • Django ASGI生产部署:Uvicorn+Postgres+Nginx全栈实践
  • Ubuntu 20.04 搭建 LEMP 栈:从原理到生产就绪的全链路实践
  • WordPress插件SQL注入漏洞实战:CVE-2024-10400复现与自动化利用
  • AI Agent长期记忆实战:MemOS本地部署与Dify/LangChain集成指南
  • HyPeR框架:优化音频大模型推理延迟的主动暂停与感知增强技术
  • i.MX处理器Flash存储选型指南:NOR、NAND与DiskOnChip深度解析
  • 开源计算机视觉项目easy12306深度剖析:基于深度学习的12306验证码识别算法原理与本地部署实战指南
  • GraphQL-Yoga + MongoDB Node.js 服务实战:防注入、连接池与Windows部署
  • Ubuntu 16.04 vsftpd 用户目录隔离与TLS安全配置实战
  • 2026年青甘大环线旅行攻略:寻找最专业的领队指 权威推荐青海龙清国际旅行社 - 行业深度观察
  • StarCore SC140 DSP性能与代码体积优化:混合编程实战策略
  • AI赋能RobotFramework:智能自动化测试新范式实战解析
  • 武汉市江岸区水电维修|维小达|电路|水管|马桶|暖气|管道疏通一站式全屋水电维保服务 - 维小达科技
  • 如何快速使用markdownReader:面向新手的完整Chrome扩展指南
  • 导师推荐 AI论文网站 2026最新测评:工具对比+好用推荐
  • Python+Pytest+Selenium+Allure:构建高效Web自动化测试框架实战指南
  • 深度解析AI动画生成技术:ComfyUI-AnimateDiff-Evolved高级实战指南
  • Python自动化交易框架技术解析:基于同花顺客户端的量化投资实现
  • 如何完整导出微信聊天记录:三步实现数据永久保存与智能分析
  • Ultimate Pokemon Randomizer ZX:7个世代完全重制的宝可梦游戏体验指南
  • 2026贵阳防水补漏上门施工哪家强?正规商家资质+报价+口碑+售后四维实测对比 - 防水资讯
  • 2026海口防水补漏上门施工哪家强?正规商家资质+报价+口碑+售后四维实测对比 - 防水资讯
  • Appium Inspector安装与Android真机连接配置全攻略
  • 2026兰州防水补漏上门施工哪家强?正规商家资质+报价+口碑+售后四维实测对比 - 防水资讯
  • IPXWrapper:让经典游戏在现代Windows上重获联机新生的协议转换神器
  • 2026年南京专业三维扫描仪服务商综合实力一览 - 起跑123
  • 基于DSP56F80x与正交编码器的PMSM速度闭环控制实战解析