当前位置：首页 > news >正文

从WideDeep到DeepCross：聊聊推荐系统模型演进的‘分’与‘合’

news 2026/6/9 6:43:33

从Wide&Deep到Deep&Cross：推荐系统模型设计的哲学思辨

推荐系统在过去十年经历了从简单协同过滤到复杂深度学习的跃迁，而Wide&Deep模型的提出无疑是这一演进过程中的关键转折点。它首次系统性地将"记忆"与"泛化"这对看似矛盾的能力统一在一个框架下，为后续模型设计提供了范式级的参考。当我们站在技术演进的视角回望，会发现推荐模型的发展始终围绕着"分"与"合"的辩证关系展开——何时该解耦特征处理路径？何时又该融合不同建模方式？这些决策背后体现的是工程师对业务本质的深刻理解。

1. 记忆与泛化的二分法：Wide&Deep的范式创新

2016年谷歌提出的Wide&Deep架构之所以能成为行业标杆，关键在于它精准把握了推荐系统的核心矛盾：既要准确捕捉已知的用户偏好（记忆），又要能推断未知的兴趣关联（泛化）。这种二分法设计不是简单的模块堆砌，而是对推荐问题本质的深刻抽象。

记忆能力的工程实现通常体现在以下方面：

显式特征交叉：人工设计的组合特征（如"用户A+商品B"）
稀疏特征直通：让关键ID类特征绕过深层网络直接影响输出
规则注入：将业务经验通过特征工程硬编码到模型中

而泛化能力的典型特征包括：

自动特征组合：通过神经网络隐式学习特征间高阶关系
嵌入表示：将离散特征映射到连续向量空间
迁移学习：利用其他领域数据提升冷启动表现

# Wide&Deep的典型特征处理差异 wide_features = ['user_installed_app', 'impression_app'] # 人工选择的交叉特征 deep_features = ['user_age', 'device_type', 'installed_apps'] # 全量特征自动学习 # Wide部分处理逻辑 crossed_feature = tf.feature_column.crossed_column( ['user_installed_app', 'impression_app'], hash_bucket_size=10000)

在实际业务中，这两种能力的配比需要动态调整。电商场景可能更依赖记忆能力（如"买了尿布的用户常买啤酒"），而内容推荐则更需要泛化能力（从有限观看历史推断广泛兴趣）。这种权衡艺术正是模型设计的精髓所在。

2. 从人工交叉到自动学习：Deep&Cross的进化之路

Wide&Deep的成功也暴露了其局限性——Wide部分依赖大量人工特征工程。2017年提出的Deep&Cross模型通过引入Cross网络，将特征交叉的工作自动化，标志着推荐系统向端到端学习又迈进了一步。

Cross网络的核心创新在于：

显式高阶交叉：通过数学构造实现特征的多层交互
```
x_{l+1} = x_0 * (W_l * x_l + b_l) + x_l
```
参数效率：每层仅增加O(n)参数，避免维度爆炸
残差连接：保留原始特征信息防止过度交叉

与经典Wide部分的对比：

特性	Wide部分	Cross网络
交叉方式	人工指定	自动学习
交叉阶数	固定二阶	可学习高阶
参数数量	随特征数线性增长	固定规模
业务理解依赖	强	弱

这种设计转变反映了推荐系统发展的一个关键趋势：从人工规则到数据驱动。在信息流推荐等场景中，用户兴趣瞬息万变，人工设计特征交叉的效率已跟不上业务变化速度。某头部短视频平台的实际案例显示，采用Cross网络后特征迭代周期从2周缩短至3天，CTR提升达11.6%。

3. 分与合的辩证关系：模型架构的演进逻辑

推荐模型的演进史本质上是对"分"与"合"的持续探索。Wide&Deep选择了记忆与泛化的分离，而后续改进模型则尝试在不同维度进行再组合或再分离。

典型演进路径：

特征处理路径分离
- DeepFM：将Wide部分替换为FM模块
- xDeepFM：引入压缩交互网络(CIN)显式学习特征交互
目标函数融合
- 多任务学习：如YouTube的联合训练点击率和观看时长
- 渐进式精排：粗排/精排模型的级联设计
时空维度解耦
- DIN：引入注意力机制区分历史行为重要性
- TiSAS：显式建模时间间隔的影响

这些创新背后的设计哲学值得玩味：

当某个功能模块需要特别强化时，就将其"分"出来单独优化
当发现多个模块存在协同效应时，就尝试"合"并处理
最终目标都是提升模型在特定场景下的表达效率

4. 业务场景驱动的模型选择策略

没有放之四海皆准的完美架构，只有最适合当前业务阶段的模型选择。通过几个典型案例，我们可以总结出一些实用的决策原则。

电商推荐场景：

强依赖商品共现规律
需要快速捕捉爆品趋势

适合方案：Wide部分强化 + 实时特征更新

# 电商场景的典型特征设计 wide_features = [ 'user_id', 'item_id', 'category_id', 'last_click_item' ]

新闻资讯推荐：

内容生命周期短
冷启动问题突出
适合方案：Deep部分为主 + 跨域迁移学习

视频推荐系统：

用户兴趣多元
序列特征重要
适合方案：Cross网络 + 行为序列建模

实际选型时需要考量的关键维度：

特征更新频率
数据稀疏程度
业务响应速度要求
团队工程能力

在模型复杂度与业务收益之间找到平衡点，这才是推荐系统工程师的真正价值所在。正如某位资深算法专家所说："最好的模型不是指标最高的那个，而是能在你的系统里持续运转的那个。"

查看全文

http://www.gsyq.cn/news/1491237.html

别再只盯着PageRank了！用NetworkX实战介数中心度，快速找出你社交网络里的‘关键人物’

2026年Q2泡浴产品代加工厂家性价比排行 - 优质品牌商家

别再只玩Arduino了！用ESP-12F做个智能插座，从硬件选型到HomeAssistant接入保姆级教程

深度解析ESP-12F的三种省电模式：从数据手册到真实项目如何节省90%电量

PowerQUICC III平台RapidIO启动与内存访问配置全解析

Mythos安全大模型：攻防全链路自动化与因果推理革命

Sqribble模板驱动排版：稳定高效的数字出版流水线

告别‘失联’：用电压比较器LM393给你的嵌入式设备加个‘临终遗言’功能（附超级电容选型）

别再只盯着ADC精度了！聊聊ADS1274硬件设计里那些容易被忽略的‘小’细节（附原理图检查清单）

Arduino玩转RFID：除了复制门禁卡，你的RC522模块还能这样用（项目思路拓展）

Next.js 15 杀疯了？Remix 与 Nuxt 的突围战

汕头闲置黄金变现攻略六大回收门店实测 - 润富黄金回收

别再死记硬背了！用‘点名’和‘广播’理解UDS的物理寻址与功能寻址

ML模型上线后系统性风险防控指南

Tango3/Romeo2无线驱动实战：从芯片手册到稳定通信的避坑指南

2026年天津油烟管道清洗及排烟系统服务商选购指南：烟道清洗、排烟系统维保改造、油烟设备清洗安装厂家选择指南，产能、工艺、品控三维度权威解析 - 海棠依旧大

从环境隔离到一键部署：我用Conda+Docker搞定Pytorch3D（附CUDA 11.3+gcc 9.4配置）

手把手教你用Wireshark抓包分析锐捷VAC的BFD和VSL协议交互过程

魔百盒CM301H刷机避坑实录：8822CS无线+300H芯片，从ADB调试到刷入当贝桌面的完整流程

嵌入式测试学习第 30 天：功耗测试、待机电流、工作电流测试

STM32G4基本定时器TIM6实战：用CubeMX配置1秒中断，点亮你的第一个LED

汕头黄金奢侈品回收实测盘点 - 润富黄金回收

AI写作温度校准器：让文字重获人际温度与阅读舒适度

西安黄金回收市场品牌服务全景梳理 - 润富黄金回收

LaTeX效率翻倍：手把手教你用MathType和BibTeX玩转IEEE论文公式与文献

【大同黄金回收机构盘点 2026年6月变现参考】 - 润富黄金回收

VS Code Python调试实战：递归函数的可视化调试方法

中小企业AI安全自检清单：聚焦业务流韧性与数据主权

终极免费解锁指南：Perseus让碧蓝航线全皮肤永久免费

从柯南变声器到百万调音师：用Python+Librosa手把手实现三种核心音效（附代码）

从Wide&Deep到Deep&Cross：推荐系统模型设计的哲学思辨

1. 记忆与泛化的二分法：Wide&Deep的范式创新

2. 从人工交叉到自动学习：Deep&Cross的进化之路

3. 分与合的辩证关系：模型架构的演进逻辑

4. 业务场景驱动的模型选择策略

相关文章：