当前位置: 首页 > news >正文

问大模型CAN的co-attention

req:
如何理解嵌入向量用于构建一个微型MLP的参数(权重和偏置),一般来说MLP的权重是训练得到的

res:
你问得非常准确,这是理解CAN的关键一步。
在普通MLP里,权重矩阵 W 和偏置向量 b 确实是“可训练的张量”,它们与输入无关,只在反向传播时被更新。
CAN的做法是:把“权重/偏置”本身变成由另一个嵌入向量
即时“生成”的函数,而不再是一团独立的可训练参数。
下面分三步把这件事拆开讲清楚。


  1. 普通MLP vs. CAN-micro-MLP

普通MLP(以1层、输入dim=d₁、输出dim=d₂为例)

W ∈ ℝ^{d₂×d₁}, b ∈ ℝ^{d₂}
→ 训练过程中直接更新 W、b
→ 同一个 W、b 对任何样本都不变

CAN-micro-MLP

W、b不是自由参数,而是由“诱导特征”A的嵌入向量
e_A ∈ ℝ^{D} 经过一个“生成器”实时拼出来的:

[W | b] = reshape( MLP_gen(e_A) )
其中 MLP_gen 是另一套共享的小网络,它的输出长度
= d₂×d₁ + d₂,reshaped 后变成 W 和 b。

于是

  • 不同的 A 会给出不同的 (W, b);
  • 同一个 A 在任何样本上都给出相同的 (W, b);
  • 训练时我们只更新 MLP_gen 的少量参数,而不用存
    N² 个独立的 W、b。

  1. 为什么要这么做?

  • 把“特征组合”的容量从“显式存储”变成“函数生成”,
    参数空间从 O(N²D) 降到 O(ND′)。
  • 生成的 (W, b) 仍然可以随着训练迭代而变——
    只是它们的变化是通过更新 MLP_gen 间接实现的。
  • 这样既能像笛卡尔积那样“给每对组合独立参数”,
    又不需要真的存下所有组合。

  1. 一个极简的 PyTorch 伪代码

class CoActionUnit(nn.Module):def __init__(self, d_emb, d_hidden, d_out):super().__init__()# 生成器:把 e_A 映射成 [W|b]self.gen = nn.Sequential(nn.Linear(d_emb, 128),nn.Tanh(),nn.Linear(128, d_hidden*d_out + d_out)  # W+b)self.d_hidden = d_hiddenself.d_out    = d_outdef forward(self, e_a, e_b):# e_a: [B, d_emb] 诱导侧# e_b: [B, d_emb] 输入侧params = self.gen(e_a)                    # [B, d_h*d_o + d_o]W, b = torch.split(params, [self.d_hidden*self.d_out, self.d_out], dim=1)W = W.view(-1, self.d_out, self.d_hidden) # [B, d_o, d_h]out = torch.bmm(W, e_b.unsqueeze(2)).squeeze(2) + breturn out                                # [B, d_o]
  • 只有 self.gen 里的权重会被反向传播更新;
  • 对不同的诱导特征 ID,我们查表取出对应的 e_a
    然后即时生成它“私有”的 W、b,用完即弃。

一句话总结
CAN 把“为每对特征存一套 W、b”换成“用一个小网络
根据特征 A 的嵌入当场算出 W、b”,从而把参数爆炸
问题转化为“一个共享的小网络”的拟合问题,而这个小
网络的权重才是我们真正训练的对象。

http://www.gsyq.cn/news/33705.html

相关文章:

  • 2025年10月美白精华产品推荐榜:口碑与成分深度评测
  • 2025 年地漏厂家最新推荐榜:涵盖铜 / 防臭 / 抗菌 / 磁悬浮 / 防溢水等类型,精选实力企业助力消费者精准选购
  • PBS, 以太坊的棘刺雕猴 - 教程
  • 2025年10月网上兼职赚钱正规平台推荐:知名平台榜单全收录
  • 2025年10月网上兼职赚钱正规平台推荐:市场报告与对比列表
  • 【转载】孪生网络(Siamese Network)
  • nvlink和nvswitch的区别
  • 别再用手绘架构图了!ArchiMate才是架构师的标准乐高
  • 2025年10月祛斑产品推荐榜:权威评测五强对比
  • 2025年10月精华液对比榜:从传明酸到多肽的真实排行
  • Linux 中为什么要提出伪终端这个概念呢?shell 等命令行程序不可以直接从显示器和键盘读取数据吗?
  • DevSecOps在中国市场迎来爆发式增长:技术融合驱动软件安全新范式
  • 基于MATLAB的遗传算法优化支持向量机实现
  • E - Hit and Away
  • 数组与字典解决方案第三十讲:如何将记录集的数据记入数组 - 详解
  • 2025年知识管理系统推荐:几款融合AI能力的智能知识库全面对比
  • ️为什么越来越多企业从Web转向桌面端?兰亭妙微解读QT界面的复兴
  • 2025年新疆旅游公司权威推荐榜单:阿勒泰旅游/新疆旅游线路/喀纳斯旅游服务商精选
  • Git常用命令的详细指南
  • 2025 年电动门厂家最新推荐榜,深度剖析企业技术实力、服务水平与市场口碑
  • 2025年新疆租车公司权威推荐榜单:新疆自驾游租车/新疆乌鲁木齐租车/新疆租皮卡车源头服务商精选
  • 从“能用”到“好用”:兰亭妙微谈小程序设计的5个高转化秘诀
  • 2025 年集成式污水处理设备,养殖污水处理设备,重金属污水处理设备,絮凝沉淀污水处理设备厂家最新推荐,资质、案例、性能三维数据透视
  • 2025年评价高的DPA漆雾空气过滤器厂家最新用户好评榜
  • 2025 年聚氨酯砂浆地坪厂家最新推荐榜,技术实力与市场口碑深度解析的优质品牌筛选
  • 2025年热门的垃圾袋厂家最新权威推荐排行榜
  • 2025年评价高的烟台食品包装厂家推荐及采购参考
  • 2025年比较好的单层玻璃隔断厂家最新TOP实力排行
  • 2025年质量好的耐焦油涂料品牌厂家排行榜
  • 达梦数据库-人大金仓数据库参考手册