什么是LLM束搜索: 与LLM内部32层完全无关
束搜索不在 32 层之间发挥任何作用
先确认:束搜索和LLM 内部的 32 层「井水不犯河水」
LLM 的 32 层(Transformer 层)干的事是固定的、纯矩阵运算:
输入 token → 第1层 → 第2层 → ... → 第32层 → 输出 logits(全词表分数) ↑ 束搜索在这中间【完全不参与】 这32层只负责一件事:算出「下一个词每个候选的分数」束搜索、温度、top-k、top-p 全都是在第 32 层吐出 logits 之后,才在「最外层」介入的。它们属于「解码策略(decoding)」,和模型网络结构是两个分离的层面:
- 模型(32 层):负责「算概率」——给定上文,每个候选词多大可能。这部分谁都改不了。
- 束搜索:负责「怎么用这些概率挑词、组句」——在模型外面做选择和搜索。
所以你设beam_width,改的不是模型内部,而是模型外面那层「挑词逻辑」。
