当前位置: 首页 > news >正文

LLM运行机制

以下知识整理来自网络。

一、自回归生成(Autoregressive Generation)

LLM基于用户提供的上下文,每次只“补”一个 Token(文本碎片),然后把这个碎片加进上下文,再预测下一个,如此循环,直到生成完整回答,这个过程叫自回归生成。

Token:文本碎片。

Temperature/Top-p/Top-k:模型选择Token的策略。

Max Tokens:允许模型最多“补”多少步。

二、Token估算

英文:1 Token 大约对应 3~4 个字符。

中文:1 Token 大约对应 1~2 个汉字。

Token 成本与 Tokenizer 版本强相关。

精确计数时建议使用模型对应的官方 Tokenizer 工具。

三、上下文窗口

上下文窗口是 LLM 的“工作记忆”(Working Memory)。它决定了模型在单次对话可以处理或“记住”的文本量(以 Token 为单位)。

上下文窗口并非越大越好,它受限于Transformer 架构的自注意力机制(Self-Attention)。

上下文窗口包括:

  • System Prompt:调节模型行为的系统指令(对用户隐藏,但占用窗口)。
  • 工具调用 Schema:函数定义与参数结构。
  • User Prompt:业务数据与指令。
  • 多轮对话历史:过往的消息记录。
  • RAG 检索片段:从外部知识库检索到的补充信息。
  • 格式开销:特殊字符、换行符、Markdown 标记等。
  • 模型生成的输出 Token:输出也占用上下文窗口

四、Prompt Caching

Prompt Caching 是供应商会缓存请求中“可复用的前缀部分”。下次请求如果前缀相同,这部分就不重新计费,只收“缓存读取”的费用(通常是正常价格的 10%~50%)。

降低Token成本的建议:

  1. 把不变的内容放前面(System Prompt、工具定义、RAG Context),把变化的内容放后面(User Prompt)。
  2. 监控cache_read_tokenscache_creation_tokens指标,验证缓存命中率。
  3. 批量任务尽量在缓存时间窗口内完成(不同模型的缓存时长不一样)。

五、Logits到概率采样

模型每一步会给词表中每个候选 Token 打一个分数(叫logits),分数越高说明模型越觉得这个词应该出现在这里。原始分数经过一次数学变换(softmax)变成每个候选Token被选中的概率。最后,模型按这个概率分布“抽签”(采样),决定输出哪个 Token。

解码参数(Temperature、Top-p、Top-k 等)就是在这个“打分 → 概率 → 抽签”的过程中施加控制:

  • Temperature:调整概率分布的“形状”,让高分选项更突出,或者让各选项更均匀。
  • Top-p / Top-k:直接砍掉不靠谱的候选项,缩小“抽签池”。
  • Penalty 系列:对已经出现过的词降分,防止“复读机”。

5.1Temperature 的工作原理:在 softmax 之前,先把所有分数除以温度值 T。

温度越低,输出越确定;温度越高,输出越随机。

Temperature:词表里所有 Token 理论上都有被选中的可能。

5.2Top-k = 5:只保留概率最高的 5 个候选Token。

Top-p = 0.8:从高到低累加概率,保留累计刚好达到 80% 的最小Token集合。

六、Penalty与复读问题

Penalty 参数用来缓解这类问题:模型反复输出同一句话,或者在长回答里不断重复相同观点。方法是在解码时降低已出现 Token 的分数:

参数作用
Repetition Penalty降低所有已出现 Token 的概率
Presence Penalty只要 Token 出现过就扣分(不看次数)
Frequency PenaltyToken 出现次数越多扣分越重

建议:如果不确定这些参数的精确语义(不同供应商定义可能不同),建议保持默认值。用低温 + 更强 Prompt 约束 + 更短输出来获得稳定性,比调 Penalty 更可控。

七、首字延迟(TTFT,Time-To-First-Token)

价值:改善用户体验。

批量处理图片时,TTFT会显著增加。

上下文变长后,TTFT会显著增加。

八、参数配置建议

场景TemperatureTop-pPenalty其他
JSON / 结构化输出0-0.31.0保持默认配合 Strict Mode + 重试策略
代码评审 / 技术分析0.4-0.70.9保持默认结合 CoT(Chain of Thought) Prompt
多轮对话0.6-0.80.9适度开启控制历史消息长度
创意写作 / 头脑风暴0.8-1.20.95按需开启接受输出多样性,做好后处理
思维链模型不支持--通过prompt控制
http://www.gsyq.cn/news/1579983.html

相关文章:

  • AI+仿真构建交互式电力工程教学框架:从原理到实践
  • 大语言模型推理优化:从思维链到潜在状态轨迹的范式跃迁
  • 多集群管理
  • 51单片机音乐盒
  • 线性合约与标准合约选择及支付机制优化实战指南
  • MATRIX框架:基于双通道约束奇偶校验的多层代码水印技术实践
  • 接口幂等性设计与实现
  • 联邦学习在3D物体检测中的应用:Fed3D框架解析与实践
  • 动态列生成在双目标切割问题中的优化应用
  • 成都工装市场,现在到底是啥格局?说点实在的
  • Go语言的race检测器与数据竞争在并发程序中的重现方法
  • 2026 年命理研究工具的功能和配套内容,会不会买了之后就不再更新了?第三方学习路径观察
  • 数字劳动力定价机制解析:从算法压价到垂直集体行动的价值重塑
  • NaijaS2ST:构建低资源尼日利亚语言多口音语音翻译基准
  • DEMUX框架:解密混合加密流量下的多标签网站指纹攻击
  • 大模型推理优化:Tilted Sampling与Beam Search解码策略对比分析
  • 【Claude】OAuth token revoked / Org not allowed 错误的认证链路排查 bug报错已解决
  • hp-鲁棒内罚间断Galerkin方法求解p-Laplacian方程:原理、实现与自适应策略
  • LP2DH:基于局部保持像素差分哈希的动态纹理识别实战解析
  • 基于Reddit历时词嵌入的语义演变追踪:从数据获取到可视化分析
  • VoodooNet:基于高维随机投影与伪逆解析的神经网络瞬时训练技术
  • SecureRouter框架:融合MPC与智能路由实现Transformer安全高效推理
  • RISE方法解析:基于注意力机制的大模型训练数据估值与归因实践
  • Ubuntu 22.04下PostgreSQL静态加密实战:LUKS2全盘加密方案
  • 量子计算优化:常数深度电路高效制备Dicke态的原理与实践
  • Ansible loop 工程实践:从声明式迭代到基础设施自治
  • Matlab版DBSCAN超像素分割工具包:带预编译MEX文件、示例图与结果可视化脚本
  • 基于Canvas与物理模拟的植物形态交互界面设计与实现
  • EmlogPro可用的Simply极简主题包:带夜间切换、阅读时长统计和全端适配
  • 构建高质量专业基准:从知识抽取到专家协同的BAGEL数据集实践