2026腾讯广告算法大赛的反思
先上Github链接:https://github.com/zhuizhuzheming/taac_2026
对于我来说,这是一次比较冒险的挑战,也是本科期间的最后一场竞赛。今年的赛题的主要内容是“序列建模×特征交互”,对于参考的模型而言,我发现它们主要是通过构造拼接的方式,变成query,之后进行深层次交互,可以说,这种model能够深层交互的主要原因是Transformer的Scaling Law。但是我也在想,如果强行mix的话,最终模态与模态之间的交互可能会出现任务对不齐的情况,从而产生在训练时非常大的抖动。所以,我设计了如下面介绍的model。
一、背景与痛点:为什么不用标准 Transformer?
在点击率(CTR)预估领域,处理长序列用户行为一直是个难题。虽然 Transformer 在 NLP 和 CV 领域大杀四方,但在工业级 CTR 场景中,它面临着三个结构性缺陷:
特征异质性(Heterogeneity):用户ID、物品属性、上下文特征存在于不同的统计流形上,标准 Attention 假设共享欧氏度量,会导致相似性计算失真。
排列不变性(Permutation Invariance)的副作用:CTR 特征的顺序(Who -> What -> When)蕴含强语义,单纯的 Mixer 会破坏这种因果结构。
算力瓶颈:工业界动辄上千的 Token 数量,使得 O(M2d)的复杂度难以承受。
基于此,taac_2026团队提出了HeteroFormer,其核心思想非常激进:序列推导出的语义不应只是被动注入的压缩向量,而应主动参数化异构特征的交互。
二、核心创新:动态原型流形(Dynamic Prototype Manifold)
这是 HeteroFormer 的灵魂所在。它不再将用户行为序列压缩成一个固定长度的向量,而是通过以下机制进行处理:
1. 序列编码与流形映射
编码器:使用带连续时间离散化的SSM Cell(状态空间模型)来捕捉长序列依赖。
几何变换:通过Cayley 旋转(Cayley Rotation),根据用户特征动态调整原型空间的几何结构。
最优传输:引入Langevin-Sinkhorn 算法,将序列映射到一组可学习的语义锚点(Semantic Anchors)上,得到稀疏且可解释的分配权重 π。
2. Proto-Conditioned 交互
得到的原型分配结果 π并不是用来直接做分类的,而是作为“软偏置”去影响交叉特征 Attention 和 FFN 的门控(FiLM),真正实现了“序列语义指导特征交互”。
三、双版本实现:兼顾科研与工业落地
该仓库的一大亮点是提供了两套代码,分别对应不同的应用场景,这对工程化非常有参考价值。
特性 | 科研版 (HeteroFormer_model/) | 工业稳定版 (PCVRHeteroFormer/) |
|---|---|---|
适用场景 | 复现论文、消融实验 | 单卡训练、线上部署 |
序列编码器 | SSM (连续时间) | RoPE Transformer |
原型层 | Cayley + Sinkhorn (O(K2)) | Soft Theme Routing (轻量级) |
训练策略 | DSO + MetaAligner (解耦优化) | 联合损失优化 |
校准模块 | Diffusion + Energy | Softplus MLP Head |
个人感悟:在工业版中,虽然为了稳定性牺牲了部分复杂的 OT(最优传输)计算,但验证了核心思想的有效性——Validation AUC 依然能从 0.78 单调提升至 0.83。这证明了“序列参数化交互”这一范式本身的价值。
四、关键技术细节解析
1. 解耦语义优化(DSO)
训练多目标模型(CTR + 生成式语义)很容易导致梯度冲突。HeteroFormer 引入了MetaAligner,这是一个过拟合感知控制器,能根据训练-验证的 AUC Gap 动态调整辅助损失的权重 λaux,防止模型在后期出现 NaN 或崩溃。据仓库日志显示,该方案在 2500 个训练步中实现了Zero NaN Recoveries。
2. 生成式语义层
除了常规的 CTR 头,模型还包含:
Diffusion Explainer:捕获残差信号。
Energy Calibrator:预测误差的能量函数,用于判断样本的不确定性。
3. 可解释性(Semantic IDs)
传统的 Attention 权重很难解释,而 HeteroFormer 输出的 π向量天然就是离散的语义 ID(例如:“价格敏感型浏览”、“冲动消费”)。这对于推荐系统的 Debug 和业务分析非常友好。
五、实验结果速览
在腾讯官方数据集 TencentGR 上的表现:
Full Version: Val AUC 峰值0.8383,Test AUC0.7728。
Prototype Entropy: 稳定在 4.3(理论最大值的 89%),说明模型学到了丰富的语义概念。
Energy Calibrator: 成功区分高不确定性样本(语义冲突)和低不确定性样本。
六、总结与展望
HeteroFormer 给 CTR 领域提供了一个新的视角:与其在 Transformer 上堆砌参数,不如重新思考特征交互的物理意义。
通过将序列转化为“原型”,再让原型去控制特征交互的拓扑结构,这种方法既降低了计算复杂度(Attention 复杂度降至 O(16d)),又提升了模型的表达能力。
如果你正在从事推荐系统或计算广告相关的研发,强烈建议去扒一下这个仓库的代码,尤其是trainer.py中关于 DSO 的实现细节,非常硬核。
GitHub 地址:https://github.com/zhuizhuzheming/taac_2026
论文/技术报告:https://zenodo.org/records/20420273
如果这篇复盘对你有帮助,欢迎点赞收藏,关注我,一起探索前沿 AI 技术!
