当前位置：首页 > news >正文

别再死记硬背Self-Attention公式了！用Python手搓一个Transformer核心，从点积到权重矩阵一次搞懂

news 2026/6/15 23:09:07

用Python拆解Self-Attention从矩阵操作到全局理解的直觉构建当你第一次看到Transformer论文中那个著名的Self-Attention公式时是否感到一阵眩晕Q、K、V矩阵的点积、Softmax归一化、加权求和——这些抽象概念堆砌在一起很容易让人陷入每个符号都认识但连起来就不懂的困境。本文将带你用NumPy一步步实现Self-Attention的核心计算过程通过可视化中间结果建立对自注意力机制的直观理解。1. 准备工作理解输入与基础矩阵让我们从一个简单的句子开始AI 改变世界。假设每个词已经通过嵌入层转换为一个128维的向量在实际模型中嵌入维度通常为512或更大这里为演示简化。用NumPy创建这个3×128的输入矩阵import numpy as np np.random.seed(42) # 固定随机种子确保结果可复现 # 模拟3个词的嵌入向量每个128维 embedding_dim 128 words [AI, 改变, 世界] X np.random.randn(len(words), embedding_dim) print(输入矩阵形状:, X.shape) # 输出: (3, 128)在Self-Attention中我们需要为每个输入创建三个不同的表示查询(Query)、键(Key)和值(Value)。这是通过三个独立的权重矩阵实现的# 初始化Q、K、V的投影矩阵 W_Q np.random.randn(embedding_dim, embedding_dim) W_K np.random.randn(embedding_dim, embedding_dim) W_V np.random.randn(embedding_dim, embedding_dim) # 计算Q、K、V矩阵 Q X W_Q K X W_K V X W_V print(Q矩阵形状:, Q.shape) # 与输入相同 (3, 128)为什么需要三个不同的矩阵Query代表当前词想要知道什么Key代表每个词能提供什么而Value才是实际用来组合的信息。这种分离让模型可以灵活地建立不同词之间的关系。2. 点积相似度从几何到矩阵运算点积(内积)是Self-Attention的核心操作它衡量两个向量的相似度。几何上两个向量的点积越大说明它们方向越接近。让我们计算查询与所有键的点积# 计算原始注意力分数 (未缩放) attention_scores Q K.T # (3,128) × (128,3) → (3,3) print(原始注意力分数矩阵:\n, attention_scores)这个3×3的矩阵因为我们有3个词中的每个元素表示一个查询与一个键的相似度。例如attention_scores[0,1]表示第一个词(AI)与第二个词(改变)的关联强度。观察这个矩阵你可能会发现对角线上的值往往较大——这很合理因为每个词与自身的相似度通常最高。但这种原始分数存在一个问题当嵌入维度较大时点积的结果可能变得非常大导致Softmax后的梯度消失。因此我们需要进行缩放# 缩放点积注意力 d_k embedding_dim # 键向量的维度 scaled_scores attention_scores / np.sqrt(d_k)缩放因子√d_k确保了无论嵌入维度多大注意力分数的尺度保持稳定。这是Transformer稳定训练的关键技巧之一。3. Softmax权重从相似度到概率分布原始注意力分数只是一些任意实数我们需要将其转换为概率分布——这就是Softmax的作用。对每一行对应一个查询词应用Softmaxdef softmax(x): exp_x np.exp(x - np.max(x, axis-1, keepdimsTrue)) # 数值稳定处理 return exp_x / np.sum(exp_x, axis-1, keepdimsTrue) attention_weights softmax(scaled_scores) print(注意力权重矩阵:\n, attention_weights)现在观察这个权重矩阵每行和为1符合概率分布较大的权重表示更强的关联即使某些词对原始分数为负Softmax后也会得到正权重让我们可视化第一个词(AI)的注意力分布import matplotlib.pyplot as plt plt.bar(words, attention_weights[0]) plt.title(f{words[0]}对其他词的注意力权重) plt.ylabel(权重) plt.show()这个可视化清楚地展示了当前词如何关注句子中的其他部分。在实际文本中你可能会看到一些有趣的模式——比如动词倾向于关注其主语和宾语而形容词关注其修饰的名词。4. 加权求和构建上下文感知表示获得注意力权重后我们用它来对Value矩阵进行加权求和# 计算加权后的Value output attention_weights V # (3,3) × (3,128) → (3,128) print(输出矩阵形状:, output.shape)这个输出矩阵就是Self-Attention的最终结果——每个词的新表示都融合了句子中所有词的信息且融合的权重由词之间的相关性动态决定。对比原始输入X和输出outputprint(原始输入第一个词向量:, X[0][:5]) # 显示前5维 print(自注意力后第一个词向量:, output[0][:5])你会看到输出向量已经与原始输入完全不同——它现在包含了上下文信息。例如AI的新表示可能融合了改变和世界的部分信息具体融合多少取决于它们之间的注意力权重。5. 多头注意力并行捕捉不同关系单一的Self-Attention只能学习一种类型的词关系。为了捕捉多种关系如语法依赖、语义角色等Transformer使用了多头注意力num_heads 8 head_dim embedding_dim // num_heads # 分割Q、K、V为多个头 multihead_Q Q.reshape(len(words), num_heads, head_dim) multihead_K K.reshape(len(words), num_heads, head_dim) multihead_V V.reshape(len(words), num_heads, head_dim) # 每个头独立计算注意力 multihead_output [] for h in range(num_heads): # 计算单个头的注意力 scores multihead_Q[:,h] multihead_K[:,h].T / np.sqrt(head_dim) weights softmax(scores) head_output weights multihead_V[:,h] multihead_output.append(head_output) # 拼接所有头的输出 multihead_output np.concatenate(multihead_output, axis-1) print(多头注意力输出形状:, multihead_output.shape) # (3,128)每个注意力头可以学习关注不同方面的关系。例如一个头可能关注语法角色主语-动词另一个头捕捉语义关系形容词-名词其他头可能处理长距离依赖这种并行处理能力使Transformer能够同时建模句子中多种复杂的关系模式。6. 完整Self-Attention层的实现让我们将上述步骤整合为一个完整的Self-Attention层包含残差连接和层归一化class SelfAttention: def __init__(self, embed_size, heads): self.embed_size embed_size self.heads heads self.head_dim embed_size // heads # 初始化投影矩阵 self.W_Q np.random.randn(embed_size, embed_size) self.W_K np.random.randn(embed_size, embed_size) self.W_V np.random.randn(embed_size, embed_size) self.W_O np.random.randn(embed_size, embed_size) # 输出投影 def forward(self, X): batch_size, seq_len, _ X.shape # 计算Q、K、V Q X self.W_Q K X self.W_K V X self.W_V # 分割多头 Q Q.reshape(batch_size, seq_len, self.heads, self.head_dim) K K.reshape(batch_size, seq_len, self.heads, self.head_dim) V V.reshape(batch_size, seq_len, self.heads, self.head_dim) # 计算注意力 attention_scores (Q K.transpose(0,1,3,2)) / np.sqrt(self.head_dim) attention_weights softmax(attention_scores) output attention_weights V # 拼接多头输出 output output.reshape(batch_size, seq_len, self.embed_size) output output self.W_O # 最终投影 # 残差连接和层归一化 output X output layer_norm(output) return output这个实现包含了实际Transformer中的几个关键设计多头注意力并行计算多个注意力模式残差连接保留原始信息缓解梯度消失层归一化稳定训练过程7. 从代码回到理论理解Self-Attention的本质通过上述代码实现我们现在可以更深刻地理解Self-Attention的几个关键特性动态权重与传统RNN的固定模式不同Self-Attention为每个输入序列动态计算权重全局上下文每个位置的输出都直接受序列中所有位置的影响并行计算所有位置的注意力分数可以同时计算不受序列长度限制解释性注意力权重矩阵提供了模型决策的可解释视角下表对比了Self-Attention与传统序列模型的优势特性RNN/LSTMSelf-Attention长距离依赖困难(梯度消失)直接建模并行计算不可行完全并行计算复杂度O(n)O(n²)解释性低较高(注意力图)对输入顺序的敏感性高低(需位置编码)为什么Self-Attention如此强大关键在于它允许模型直接建立任意两个位置的关系无论它们在序列中的距离多远。这种能力在处理自然语言中的长距离依赖如主语-动词一致时特别有用。8. 实际应用中的技巧与变体在实现Self-Attention时还有一些实用技巧值得注意1. 掩码注意力在解码器中我们需要防止当前位置关注未来的词防止信息泄露。这可以通过添加注意力掩码实现def create_look_ahead_mask(size): mask np.triu(np.ones((size, size)), k1) return mask # 上三角为1其余为0 mask create_look_ahead_mask(3) print(掩码矩阵:\n, mask) # 应用掩码将未来位置设为负无穷大 masked_scores scaled_scores - 1e9 * mask masked_weights softmax(masked_scores)2. 稀疏注意力全连接的Self-Attention计算成本随序列长度平方增长。为处理长序列可以使用局部注意力只关注邻近窗口稀疏模式如固定间隔关注低秩近似3. 相对位置编码原始Transformer使用绝对位置编码。更先进的模型如Transformer-XL引入了相对位置编码更好地处理位置关系# 简化的相对位置编码示例 def relative_position_encoding(seq_len, head_dim): position np.arange(seq_len)[:, None] - np.arange(seq_len)[None, :] encoding position / (10000 ** (np.arange(head_dim)[None, :] / head_dim)) return np.sin(encoding[..., ::2]), np.cos(encoding[..., 1::2])9. 调试与可视化技巧为了深入理解Self-Attention的行为以下是一些实用的调试和可视化方法1. 注意力模式可视化绘制注意力权重热力图观察模型关注哪些词import seaborn as sns plt.figure(figsize(8,6)) sns.heatmap(attention_weights, annotTrue, xticklabelswords, yticklabelswords) plt.title(跨词注意力权重) plt.show()2. 梯度检查验证反向传播的正确性def gradient_check(): epsilon 1e-7 original output[0,0] X_plus X.copy() X_plus[0,0] epsilon # 重新计算输出 output_plus forward_pass(X_plus) numerical_grad (output_plus[0,0] - original) / epsilon # 与自动微分结果比较 assert np.isclose(numerical_grad, analytic_grad, rtol1e-5)3. 维度分析检查中间变量的维度变化是否符合预期def check_dimensions(): assert Q.shape (3, 128) assert attention_scores.shape (3, 3) assert attention_weights.shape (3, 3) assert output.shape (3, 128)10. 从理解到创新Self-Attention的扩展思考掌握了Self-Attention的核心原理后你可以开始思考如何改进或扩展这一机制效率优化如何降低O(n²)的计算复杂度研究如Reformer、Linformer等高效注意力变体领域适配在计算机视觉中如何将2D图像适配为序列输入Vision Transformer提供了参考混合架构如何结合CNN的局部性和Self-Attention的全局性如Conformer模型解释性增强如何设计更可解释的注意力模式如添加稀疏性或结构化约束理解Self-Attention不仅是学习Transformer的关键更是掌握现代深度学习架构设计范式的重要一步。当你下次看到那个看似复杂的注意力公式时希望你能回想起这些代码实现和可视化真正理解矩阵运算背后的设计哲学。

查看全文

http://www.gsyq.cn/news/1363328.html