当前位置：首页 > news >正文

从曝光到转化：手把手拆解阿里ESMM模型在PaddlePaddle上的实现与调优

news 2026/6/13 16:37:21

从曝光到转化：手把手拆解阿里ESMM模型在PaddlePaddle上的实现与调优

在推荐系统的工业实践中，转化率预估（CVR）一直是块难啃的骨头。想象一个典型场景：用户浏览商品列表时，系统需要预测的不仅是"这个商品会被点击吗"，更要判断"点击后最终会购买吗"。传统CVR模型面临两大顽疾——样本选择偏差（SSB）和数据稀疏，就像用残缺的地图导航，结果往往南辕北辙。阿里2018年提出的ESMM（Entire Space Multi-Task Model）用多任务学习的巧思，通过CTR和CTCVR两个辅助任务，让CVR预估重获新生。

本文将带您深入ESMM的PaddlePaddle实现细节，从网络架构搭建到损失函数设计，再到工业级调参技巧。不同于理论科普，我们聚焦于三个实操目标：1）如何用Paddle高效实现共享Embedding层；2）CTCVR损失函数的工程化实现；3）解决实际训练中的梯度冲突和特征穿越问题。无论您是希望快速复现ESMM，还是需要定制多任务模型，这些代码级经验都值得收藏。

1. 环境准备与数据流设计

1.1 PaddlePaddle环境配置

推荐使用2.3+版本获取完整的多任务学习API支持。基础环境只需以下依赖：

!pip install paddlepaddle-gpu==2.3.2.post112 -f https://www.paddlepaddle.org.cn/whl/linux/mkl/avx/stable.html import paddle import paddle.nn.functional as F

数据格式建议采用稀疏特征+稠密特征混合的Schema设计。以电商场景为例：

特征类型	示例字段	处理方式
用户稀疏特征	user_id, age_level	Embedding Layer
商品稀疏特征	item_id, category	Embedding Layer
上下文特征	hour, platform	直接拼接
交叉特征	user_item_clk_7d	分桶后Embedding

1.2 共享Embedding层实现

ESMM的核心在于CTR和CVR塔共享底层特征表达。Paddle中可通过继承paddle.nn.Layer实现：

class SharedEmbedding(paddle.nn.Layer): def __init__(self, feature_dims, embed_size=16): super().__init__() self.embedding_layers = paddle.nn.LayerList([ paddle.nn.Embedding(dim, embed_size) for dim in feature_dims ]) def forward(self, inputs): # inputs: List[Tensor], 每个Tensor对应一个特征字段 embeds = [] for i, emb_layer in enumerate(self.embedding_layers): feat_emb = emb_layer(inputs[i]) embeds.append(feat_emb) return paddle.concat(embeds, axis=1)

关键细节：

使用LayerList管理多个Embedding层，避免手动注册参数
特征拼接前不做Pooling，保留完整序列信息
通过paddle.no_grad()可冻结部分Embedding层

2. 双塔网络结构剖析

2.1 CTR/CVR塔的差异化设计

虽然共享底层特征，但两个任务塔需要差异化的MLP结构：

class TaskTower(paddle.nn.Layer): def __init__(self, input_dim, hidden_units, task_name): super().__init__() self.mlp = paddle.nn.Sequential() for i, (in_dim, out_dim) in enumerate(zip( [input_dim] + hidden_units[:-1], hidden_units )): self.mlp.add_sublayer( f"{task_name}_fc_{i}", paddle.nn.Linear(in_dim, out_dim) ) self.mlp.add_sublayer( f"{task_name}_act_{i}", paddle.nn.ReLU() ) def forward(self, x): return self.mlp(x)

配置建议：

CTR塔通常更深（4-6层），适合学习复杂的用户兴趣模式
CVR塔宽度更大（隐藏单元数多20%-30%），需要捕捉转化决策的强特征
最后一层不使用激活函数，直接输出logits

2.2 CTCVR的连乘计算

公式(1)的工程实现需要特别注意数值稳定性：

def compute_ctcvr(ctr_out, cvr_out): # 取正类的概率 ctr_prob = ctr_out[:, 1:2] # shape: [batch_size, 1] cvr_prob = cvr_out[:, 1:2] # 限制概率范围避免数值溢出 ctr_prob = paddle.clip(ctr_prob, min=1e-5, max=1-1e-5) cvr_prob = paddle.clip(cvr_prob, min=1e-5, max=1-1e-5) ctcvr_prob = ctr_prob * cvr_prob return paddle.concat([1-ctcvr_prob, ctcvr_prob], axis=1)

注意：实际部署时需要同步更新CTR和CVR模型，任何单方面的更新都会导致CTCVR结果异常

3. 损失函数与训练技巧

3.1 联合损失实现

公式(2)的Paddle实现需要处理样本权重：

class ESMMLoss(paddle.nn.Layer): def __init__(self, alpha=0.5): super().__init__() self.alpha = alpha # CTR任务权重 def forward(self, ctr_pred, cvr_pred, ctcvr_pred, labels): ctr_label = labels['ctr'] ctcvr_label = labels['ctcvr'] # CTR loss (binary cross-entropy) ctr_loss = F.binary_cross_entropy( ctr_pred[:, 1], ctr_label.astype('float32') ) # CTCVR loss ctcvr_loss = F.binary_cross_entropy( ctcvr_pred[:, 1], ctcvr_label.astype('float32') ) return self.alpha * ctr_loss + (1 - self.alpha) * ctcvr_loss

调参发现：

α=0.7~0.8时效果最佳（更侧重CTR学习）
引入动态权重调整（如CTR loss下降快时减小α）
加入L2正则化防止CVR过拟合

3.2 梯度冲突解决方案

多任务学习常见梯度冲突问题，可通过以下方式缓解：

梯度裁剪：

optimizer = paddle.optimizer.Adam( learning_rate=0.001, parameters=model.parameters(), grad_clip=paddle.nn.ClipGradByGlobalNorm(clip_norm=1.0) )

任务专属Batch：

CTR任务采样全量曝光数据
CTCVR任务只采样有点击的数据

特征Mask机制：

# 在forward中添加 if self.training: cvr_output = cvr_output * self.cvr_mask # 随机屏蔽部分特征

4. 工业级优化实践

4.1 特征工程增强

相比原论文，工业实现需额外关注：

时序特征：用户最近1/7/30天的点击、转化计数
交叉特征：用户-商品交叉统计（如该用户对此类商品的转化率）
场景特征：时段、设备、地理位置等上下文信息

# 示例：实时特征拼接 def add_real_time_features(batch): batch['user_item_30d_cvr'] = get_user_item_cvr( batch['user_id'], batch['item_id'], time_range='30d' ) return batch

4.2 线上服务优化

模型部署时需要特别注意：

计算图优化：

# 导出推理模型时固定输入尺寸 paddle.jit.save( model, 'esmm_infer', input_spec=[ paddle.static.InputSpec(shape=[None, 10], dtype='int64'), paddle.static.InputSpec(shape=[None, 5], dtype='float32') ] )

缓存策略：

高频访问的Embedding参数缓存到Redis
CTCVR结果预计算并定时更新

降级方案：

当CVR服务超时时，回退到CTR排序
监控CTCVR/CTR比值异常波动

4.3 效果评估指标

除常规AUC外，需关注业务指标：

指标名称	计算公式	评估目标
CTCVR-AUC	全样本空间AUC	整体排序能力
CVR-AUC	点击样本AUC	转化预测准确性
订单量提升比例	(新模型订单-基线订单)/基线订单	商业价值
转化成本	总花费/总转化数	广告主ROI