当前位置：首页 > news >正文

ChatGLM2-6B推理流程保姆级拆解：从输入‘你好’到模型回复的28层循环里发生了什么？

news 2026/6/12 2:39:28

ChatGLM2-6B推理流程深度解析：从文本输入到模型响应的技术之旅

当我们在聊天框中输入"你好"并按下回车时，屏幕另一端的大语言模型究竟经历了怎样的思考过程？这看似简单的交互背后，隐藏着一系列精密的数学运算和架构设计。本文将以ChatGLM2-6B为例，带您深入模型内部，逐层剖析从输入到输出的完整推理路径。

1. 输入预处理：从自然语言到数字表示

任何语言模型的推理流程都始于文本的数字化转换。当用户输入"你好"时，模型首先需要将这个人类可读的字符串转化为机器可处理的数值形式。

1.1 提示模板构建

ChatGLM2-6B在实际处理前会自动为原始输入添加对话框架：

原始输入: "你好" 处理后输入: "[Round 1]\n\n问：你好\n\n答："

这种结构化处理有助于模型更好地理解对话上下文，其中[Round 1]标记对话轮次，\n\n分隔不同部分。

1.2 分词与编码

模型采用WordPiece分词算法，将处理后的字符串分解为子词单元。分词过程可简化为：

在预训练词表(65,024个token)中查找最佳匹配
将文本分割为词片段序列
为每个片段分配唯一ID

以我们的示例为例：

分词结果: [64790, 64792, 30910, 13, 13, 344, 30910, 55437, 13, 13] 对应文本: [ [Round, 1], \n\n, 问：, 你好, \n\n, 答： ]

注意：实际分词结果可能因具体实现和词表版本略有差异

2. 嵌入层：从离散符号到连续空间

分词后的ID序列需要转换为具有语义信息的稠密向量表示。这一转换通过嵌入层完成，其核心参数是一个65,024×4,096的矩阵，每个token ID对应一个4,096维的向量。

2.1 嵌入过程详解

# 伪代码演示嵌入过程 input_ids = [64790, 64792, ...] # 分词后的ID序列 embedding_matrix = load_embedding_weights() # 预训练的嵌入矩阵 embeddings = embedding_matrix[input_ids] # 形状变为[seq_len, 4096]

2.2 位置信息注入

为保留序列顺序信息，模型会添加二维位置编码：

第一维编码token在全局序列中的位置
第二维编码token在被mask的span内部的位置

位置编码与嵌入向量相加，形成最终的输入表示：

最终输入 = 词嵌入 + 位置编码 形状: [序列长度, 1, 4096]

3. 核心计算：28层GLMBlock的堆叠处理

ChatGLM2-6B的核心由28个相同的GLMBlock结构组成，每个Block包含自注意力机制和多层感知机(MLP)。让我们深入单个Block的处理流程。

3.1 单个GLMBlock的详细计算步骤

输入归一化
- 应用RMSNorm对输入进行归一化
- 公式: $x' = \frac{x}{\sqrt{mean(x^2) + \epsilon}} \cdot g$ 其中$g$是可学习的缩放参数

注意力机制

计算Q(Query)、K(Key)、V(Value)矩阵：

Q = linear_q(normalized_input) # [seq_len, num_heads, head_dim] K = linear_k(normalized_input) # 同上 V = linear_v(normalized_input) # 同上

注意力分数计算：

attention_scores = Q @ K.T / sqrt(head_dim) attention_probs = softmax(attention_scores) output = attention_probs @ V

残差连接与MLP处理
- 注意力输出与原始输入相加(残差连接)
- 通过MLP进行非线性变换：
```
hidden = swiglu(linear1(residual_output)) output = linear2(hidden) # 保持维度不变
```
- 再次应用残差连接

3.2 28层Block的级联效应

每层Block的参数各不相同，数据流经各层时的变化：

层数	主要功能	典型特征变化
1-7	浅层特征提取	捕捉局部语法结构
8-14	中级语义整合	建立短语级关联
15-21	深层语义推理	形成命题级理解
22-28	输出准备	生成导向的表示

4. 输出生成：从隐藏状态到文本响应

经过28层处理后，模型需要将最终的隐藏状态转换为具体的token输出。

4.1 输出层计算流程

最终归一化
- 对最后一层输出应用RMSNorm

线性变换

将4,096维向量映射到65,024维(logits)

logits = output_layer(normalized_output) # [seq_len, vocab_size]

概率采样
- 应用softmax获得概率分布
- 常用采样方法：
  - 贪心搜索(选择概率最高的token)
  - 核采样(top-p sampling)
  - 温度调节

4.2 自回归生成循环

模型通过while循环逐个生成token，直到遇到结束符：

while True: token = generate_next_token() if token == eos_token: break output_tokens.append(token)

5. 关键张量形状变化全记录

为更直观理解数据流动，下表总结了主要阶段张量形状的变化：

处理阶段	典型输入形状	输出形状	说明
原始输入	-	"你好"	用户原始输入
模板填充	"你好"	"[Round...]"	添加对话框架
分词编码	字符串	[17]	分词后ID序列
嵌入层	[17]	[17,4096]	词嵌入转换
位置编码	[17,4096]	[17,4096]	添加位置信息
GLMBlock输入	[17,4096]	[17,4096]	28次相同形状转换
输出层	[17,4096]	[17,65024]	词汇表大小