当前位置：首页 > news >正文

LLM运行机制

news 2026/6/23 15:56:31

以下知识整理来自网络。

一、自回归生成（Autoregressive Generation）

LLM基于用户提供的上下文，每次只“补”一个 Token（文本碎片），然后把这个碎片加进上下文，再预测下一个，如此循环，直到生成完整回答，这个过程叫自回归生成。

Token：文本碎片。

Temperature/Top-p/Top-k：模型选择Token的策略。

Max Tokens：允许模型最多“补”多少步。

二、Token估算

英文：1 Token 大约对应 3~4 个字符。

中文：1 Token 大约对应 1~2 个汉字。

Token 成本与 Tokenizer 版本强相关。

精确计数时建议使用模型对应的官方 Tokenizer 工具。

三、上下文窗口

上下文窗口是 LLM 的“工作记忆”（Working Memory）。它决定了模型在单次对话可以处理或“记住”的文本量（以 Token 为单位）。

上下文窗口并非越大越好，它受限于Transformer 架构的自注意力机制（Self-Attention）。

上下文窗口包括：

四、Prompt Caching

Prompt Caching 是供应商会缓存请求中“可复用的前缀部分”。下次请求如果前缀相同，这部分就不重新计费，只收“缓存读取”的费用（通常是正常价格的 10%~50%）。

降低Token成本的建议：

五、Logits到概率采样

模型每一步会给词表中每个候选 Token 打一个分数（叫logits），分数越高说明模型越觉得这个词应该出现在这里。原始分数经过一次数学变换（softmax）变成每个候选Token被选中的概率。最后，模型按这个概率分布“抽签”（采样），决定输出哪个 Token。

解码参数（Temperature、Top-p、Top-k 等）就是在这个“打分 → 概率 → 抽签”的过程中施加控制：

5.1Temperature 的工作原理：在 softmax 之前，先把所有分数除以温度值 T。

温度越低，输出越确定；温度越高，输出越随机。

Temperature：词表里所有 Token 理论上都有被选中的可能。

5.2Top-k = 5：只保留概率最高的 5 个候选Token。

Top-p = 0.8：从高到低累加概率，保留累计刚好达到 80% 的最小Token集合。

六、Penalty与复读问题

Penalty 参数用来缓解这类问题：模型反复输出同一句话，或者在长回答里不断重复相同观点。方法是在解码时降低已出现 Token 的分数：

建议：如果不确定这些参数的精确语义（不同供应商定义可能不同），建议保持默认值。用低温 + 更强 Prompt 约束 + 更短输出来获得稳定性，比调 Penalty 更可控。

七、首字延迟（TTFT，Time-To-First-Token）

价值：改善用户体验。

批量处理图片时，TTFT会显著增加。

上下文变长后，TTFT会显著增加。

八、参数配置建议

场景	Temperature	Top-p	Penalty	其他
JSON / 结构化输出	0-0.3	1.0	保持默认	配合 Strict Mode + 重试策略
代码评审 / 技术分析	0.4-0.7	0.9	保持默认	结合 CoT(Chain of Thought) Prompt
多轮对话	0.6-0.8	0.9	适度开启	控制历史消息长度
创意写作 / 头脑风暴	0.8-1.2	0.95	按需开启	接受输出多样性，做好后处理
思维链模型	不支持	-	-	通过prompt控制