当前位置: 首页 > news >正文

模型路由与提示预处理:控制大语言模型成本、提升令牌使用效果的新方法!

大语言模型使用成本问题凸显

并非所有提示都是相同的。通过将简单的提示路由到更便宜的模型,能在令牌成本上节省一大笔钱。图片来源:Shutterstock Gen AI

作为资深的 Delphi 开发者,对当年和 Visual Basic 开发者之间的“语言战争”记忆犹新。Delphi 早期代号是“VBK”,即“VB 杀手”,这引起 VB 社区不满,他们会到 Delphi 论坛挑起争端,而 Delphi 开发者也会反击,引发激烈口水战。那些日子令人怀念。

如今,讨论更上层次——哪种模型更适合用于编码?虽现在争论没当年 VB 和 Delphi 之争激烈,但大家各有看法。企业在为团队选择模型前,会对不同模型进行评估,大多数团队已选定常用的一系列模型。

有时,与 Claude 或 Codex 聊天体验欠佳。不久后,像 GStack 和 Superpowers 这样的脚手架工具开始为与大语言模型(LLM)交互提供基础支持,即在提示到达模型本身之前,对其进行基本处理。这些工具有助于建立有用的上下文,就像在“原始提示”之上增加一层。上下文工程是在聊天界面之上添加的第一层,也是最常见的一层。

选定模型和工具后,大家追求令牌使用最大化。但账单寄来时,管理者不高兴了。随着成本飙升,领导层担心钱没花在刀刃上。

模型路由:下一层解决方案

就像汇编语言和手动调整寄存器被编译器和结构化语言取代,进而发展出框架和库,最近又出现大语言模型和提示工程一样,开发者和管理者开始意识到,有更好方法管理大语言模型使用成本。但自然地,刚弄清楚事情运作方式,新的一层就会出现,让辛苦积累的知识过时。显然,仅能用英语编写代码不足以阻止下一次抽象出现。所以,又一层抽象出现了。(世事皆如此。)因此,模型路由成为让每一分令牌成本都发挥最大价值的最新方法。

其理念是,并非所有提示都需要同等处理能力。向 Claude 提出的问题,并非都需要前沿模型深度思考。模型路由器可以分析提示内容,决定哪个模型最适合回答该提示,并将查询导向该模型。也许简单请求更适合用旧模型处理,也许代码审查用专门为此设计的模型效果更好。模型路由可以提高令牌使用效率。如今使用 Claude Code 时,必须为整个会话选择一个模型,若想用顶级模型,无论最终做什么都得为此付费。而模型路由器可以让灵活选择模型,从而控制成本。像 Coinbase 这样的公司,在令牌使用量增加的同时,AI 支出却减少了一半。

从令牌最大化到令牌匹配

大语言模型不断发展,功能越来越强大,也越来越专业化。将提示路由到既适合任务又具有成本效益的模型,是提高令牌使用效果的关键。目前,团队是手动进行这项工作的,但未来,人工智能本身将成为做出此类决策的最佳方式。例如,Claude Code Router 可以根据每个提示所需的工作类型,将其路由到多个流行模型中的任意一个,而且它是开源的。

接下来出现的将是提示预处理。可以努力编写好的提示,但人工智能本身可以对提问进行优化。提示工程中最好的技巧之一,就是告诉大语言模型“提出我没问但应该问的问题”。不难想象,未来写出一个提示,人工智能会帮助澄清、完善它,然后将其路由到最合适、最具成本效益的模型来获取答案。将不再需要选择特定的大语言模型提供商,而是可以专注于明确表达自己的需求。所以,别再为特定模型手工编写提示了,让即将出现的模型路由器和提示预处理器为完成这些繁琐的工作吧。人工智能、开发工具、生成式 AI、软件开发该何去何从呢?

http://www.gsyq.cn/news/1628966.html

相关文章:

  • 保障用电安全,电能质量监测该用在何处?
  • 3步实战:如何让《艾尔登法环》在高端硬件上释放全部潜能
  • SnapLogic 推出 MCP Builder:无需代码,加速企业 AI 应用落地!
  • # XLua WinForm桌面环境部署与运行说明本次完成了原生XLua在VS2022 WinForm桌面程序的完整部署与功能验证,全程解决编译、库加载、类型兼容三类核心问题。首先通过CMake编译
  • GPT工程能力全景图谱:场景映射、标准化工作流与落地实战指南
  • Prompt Engineering在AI Agent中的高级技巧:从Chain-of-Thought到Tree-of-Thought
  • gsplat安装与使用指南:高效实现3D高斯溅射渲染
  • Dify 1.15人工介入功能详解:构建可控AI工作流实战
  • XSS攻击深度解析:从原理到企业级防御实战
  • STM32与Si4732打造高保真数字收音机设计指南
  • RTSPtoWeb终极指南:3分钟实现摄像头视频网页直播的完整方案
  • 一线观察:GEO厂商的真实适配边界
  • AI Agent的自我进化:元认知与反思机制的实现
  • 2026 年 11 月 10 日起微软停对 .NET 8 和 .NET 9 支持,建议升级到 .NET 10
  • 柔性制造技术升级:从批量生产到个性化定制,重构制造业生产底层模式
  • 一人公司必备AI工具:降本90%,转化暴涨52%的秘诀
  • mac安装 python,LangChain----ai开发
  • IS31FL3731与PIC18LF2685的LED矩阵驱动优化实践
  • 高校双重检测难落地?paperxie 分层降重降 AIGC 一站式化解论文修改痛点
  • 大模型能力边界:为什么它适合当守门员却不胜任中场核心
  • 为什么AI最先冲击的,反而是看起来体面的办公室工作?
  • 00后团队汇光创新获数千万元融资,视触觉传感器破具身智能触觉数据瓶颈
  • MC74HC165A与PIC18LF26K80的SPI扩展输入方案
  • 市场专业的青少年心理辅导院公司哪家强
  • AI制作:2行3列六格分镜复古手账漫画
  • 毕设 基于python的搜索引擎设计与实现
  • 实训项目完整文档|SpringBoot+MySQL 图书管理系统项目说明
  • ROS 2 的发布/订阅通信验证
  • 2026年AI原生安全公司竞争力分析:谁在领先?
  • Dsniff实战指南:Kali与Termux双平台网络嗅探与中间人攻击防御