当前位置：首页 > news >正文

汤普森采样实战指南：多臂老虎机在线决策原理与生产落地

news 2026/6/18 10:41:18

1. 这不是“老虎机”，而是你每天都在用的决策引擎

“Multi-Armed Bandit with Thompson Sampling”——光看这个标题，很多人第一反应是：又一个高冷的统计学名词，大概率和强化学习、贝叶斯推断、概率分布这些词捆在一起，离实际工作十万八千里。但事实恰恰相反：你昨天在电商App里刷到的“猜你喜欢”推荐、今天打开新闻客户端看到的首屏头条、甚至上周A/B测试中悄悄把70%流量切给新按钮样式的运营同学，背后极大概率跑着的就是它——多臂老虎机（MAB）搭配汤普森采样（Thompson Sampling）。它不是实验室里的玩具模型，而是工业界最成熟、部署最广、效果最稳的在线序贯决策框架之一。核心关键词就三个：多臂老虎机、汤普森采样、在线决策。它解决的问题非常朴素：当你面对多个互斥选项（比如5个不同文案的落地页、3种定价策略、8个广告创意），每个选项的真实效果（点击率、转化率、留存率）你一开始完全不知道，而且每次只能选一个去“试”，试完才能拿到反馈（用户点了没？买了没？退出了没？）。你既不能把所有流量平均分给每个选项慢慢等结果（太慢，浪费机会），也不能死磕第一个看着顺眼的选项直到天荒地老（可能错过最优解）。你得在“探索”（试试别的）和“利用”（用当前最好的）之间动态找平衡。汤普森采样就是目前工程实践中平衡得最自然、收敛最快、鲁棒性最强的策略之一。它不靠拍脑袋调参，也不靠硬编码规则，而是用贝叶斯更新的方式，为每个选项维护一个“效果概率分布”，然后每轮决策前，从每个分布里随机采一个样本，选样本值最大的那个选项——这个动作本身，就把不确定性量化进了决策过程。我做过6个不同行业的MAB落地项目，从千万级DAU的资讯流排序，到几十人规模的SaaS产品功能灰度，再到线下自动售货机的补货策略优化，只要涉及“有限资源+未知效果+持续反馈”的场景，汤普森采样几乎都是我的默认首选。它不像深度Q网络那样需要GPU集群和海量数据，一个Python脚本+几行pandas就能在笔记本上跑通全流程；它也比ε-greedy或UCB这类经典方法更适应真实业务中的非平稳性（比如用户兴趣突然迁移、节假日效应突显）。如果你正在被A/B测试周期长、多变量组合爆炸、或者“上线即巅峰、三天就过气”的策略迭代困扰，那么理解并亲手实现一次汤普森采样，会是你技术工具箱里最具性价比的一次升级。

2. 为什么是汤普森采样？不是UCB，不是ε-greedy，更不是“凭经验”

2.1 多臂老虎机问题的本质：一场与不确定性的共舞

多臂老虎机（Multi-Armed Bandit, MAB）这个名字源自赌场——想象你站在一排老虎机前，每台机器 payout 的概率（比如吐钱率）都不同，但你完全不知道具体数值。你只有有限的硬币（预算/流量/实验次数），每次只能拉一台机器的摇杆（选择一个动作），然后立刻看到是否吐钱（获得奖励/反馈）。目标很明确：在有限尝试次数内，最大化总收益。这看似简单，却精准刻画了无数现实决策困境：

广告投放：10个创意素材，哪个CTR最高？但每天只有1万次曝光预算，不能全给A测一周再全给B……
推荐系统：3个算法模型，哪个对新用户留存提升最大？但新用户每天只来2000人，必须边推边学。
临床试验：4种药物方案，哪个对某类患者疗效最好？但伦理要求不能让大量患者长期接受已知较差的方案。

所有这些问题的数学抽象，就是一个带未知奖励分布的序贯决策问题。关键约束在于：每次只能选一个动作，且反馈是延迟但即时的（拉完摇杆立刻知道结果），没有“重来”机会。这就排除了离线批量训练的思路，逼你必须设计一个能在线进化、自我修正的策略。而策略的好坏，核心就看两个指标：累积遗憾（Cumulative Regret）和收敛速度（Convergence Rate）。前者衡量你比“上帝视角下永远选最优臂”少赚了多少；后者决定你多久能稳定在最优选项上。汤普森采样在这两点上，给出了非常漂亮的工程解。

2.2 三大主流策略横向对比：为什么汤普森采样成了工业界“隐形冠军”

我们直接对比三种最常用策略在真实业务场景下的表现差异，不讲公式，只说结果和原因：

策略名称	核心思想	探索方式	收敛稳定性	对非平稳性的适应力	工程实现复杂度	典型适用场景
ε-greedy	每次以概率ε随机探索，1-ε概率利用当前最优	纯随机，无方向性	低（易震荡，常在次优臂徘徊）	极差（ε固定，无法感知环境变化）	★☆☆☆☆（极简）	快速原型验证，对效果要求不高的内部工具
UCB1（Upper Confidence Bound）	为每个臂计算“置信上限”=当前均值 + 调节项（log(t)/Nₐ），选上限最高者	基于置信区间的确定性探索	中（收敛较稳，但调节项系数需人工调优）	中（可通过动态调整log项缓解，但较麻烦）	★★☆☆☆（需理解对数项含义）	效果敏感、需强可解释性的场景（如金融风控策略）
Thompson Sampling（汤普森采样）	为每个臂维护一个Beta分布（先验），用伯努利反馈实时更新后验，每轮从各后验分布采样，选样本最大者	基于后验概率的随机探索	高（收敛快，波动小，天然避免过早锁定）	高（分布自动随新反馈收缩/偏移，无需改参数）	★★★☆☆（需理解贝叶斯更新，但代码极简）	绝大多数在线决策场景：推荐、广告、产品灰度、动态定价

提示：这里说的“高收敛稳定性”，不是指它不会犯错，而是指它的错误是有信息量的。比如当某个臂真实CTR是12%，另一个是15%，汤普森采样在初期可能会多选几次12%的臂，但它选的理由是“从后验分布采样时，12%臂的样本偶尔更高”，这个过程本身就在收集关于12%臂方差的信息。而ε-greedy选它，纯粹是运气差；UCB1选它，是因为它的置信上限被高估了——后两者无法区分“暂时高估”和“真的更好”。

2.3 汤普森采样的贝叶斯直觉：用“相信程度”代替“点估计”

这是理解它为何强大的关键。传统方法（如UCB）依赖对每个臂效果的点估计（比如当前CTR=10.2%），再加一个“安全边际”。但点估计极其脆弱：100次曝光里点了10次，你说CTR是10%？可如果下100次里点了15次呢？点估计瞬间跳到12.5%，策略剧烈震荡。汤普森采样彻底抛弃点估计，转而维护一个完整的概率分布来表达“我对这个臂效果的相信程度”。

先验选择：对于二值反馈（点击/不点击），Beta分布是伯努利试验的共轭先验，数学上最优雅。Beta(α, β) 可直观理解为：我过去观察到α次成功（点击），β次失败（未点击）。初始设为Beta(1,1)，即“均匀先验”——对所有CTR值（0%~100%）一视同仁，毫无偏见。
后验更新：每次用户点击，α←α+1；未点击，β←β+1。新后验 = Beta(α+成功数, β+失败数)。这个过程天然平滑：100次曝光10次点击 → Beta(11,91)，分布峰值在~10.8%，但尾巴拖得很长，说明“可能其实有15%”的概率并不低；而1000次曝光150次点击 → Beta(151,851)，分布尖锐集中在14.9%~15.1%，不确定性大幅降低。
采样决策：每轮决策前，从每个臂的当前Beta分布独立采一个随机数θᵢ。选θᵢ最大的臂。这个动作的精妙在于：θᵢ大的臂，要么是后验均值高（利用），要么是后验方差大（探索意愿强），或者是两者兼有。它把“该不该探索”这个定性判断，转化成了一个纯随机、可计算、可复现的定量操作。我曾在一个电商详情页的“加入购物车”按钮AB测试中实测：UCB1在第3天就锁定了版本B（CTR 8.2%），但第5天因竞品大促导致全站CTR普降，B版本实际跌到6.1%，而UCB1仍固执地认为B的置信上限最高；汤普森采样则在第4天起，B臂的后验分布明显左移、变宽，采样到高θᵢ的概率下降，A臂（原CTR 7.5%）因相对稳定，采样胜出频率上升，第6天已自动将70%流量切回A——整个过程零人工干预。

2.4 为什么不是所有场景都无脑选汤普森？两个必须警惕的边界

尽管优势突出，但作为资深从业者，我必须强调它的适用前提，否则容易翻车：

边界一：反馈必须是“快速且可靠”的。汤普森采样依赖高频反馈闭环。如果一个“购买”行为平均要72小时才确认（比如B2B大额订单），而你每小时做一次决策，那后验更新严重滞后，分布失真。此时应改用延迟反馈处理机制（如用生存分析建模转化时间，或设置合理等待窗口），或切换到更适合长周期的策略（如LinUCB）。我吃过亏：一个教育APP的“课程报名”转化，因支付链路复杂，30%订单超24小时到账，直接套用标准汤普森采样导致策略严重偏向“报名快但客单价低”的课程。
边界二：臂的效果必须相对“独立”。如果选臂A会显著影响臂B的反馈（比如推荐了“iPhone”后，用户再看到“AirPods”点击率飙升，存在强协同效应），那单臂独立建模就失效了。此时需升级到上下文相关Bandit（Contextual Bandit），把用户特征（设备、地域、历史行为）作为输入，用逻辑回归或神经网络拟合条件概率。汤普森采样可以作为其底层采样器，但模型结构已完全不同。别试图用“给每个用户-臂组合单独建Beta分布”来硬凑，维度灾难会让你的存储和计算在一天内崩盘。

3. 从零手写一个生产级汤普森采样器：参数、代码与避坑指南

3.1 核心参数设计：不是随便设，每个数字都有业务含义

一个能进生产的汤普森采样器，绝不是网上抄来的几行demo。参数设计必须紧扣业务语义。以下是我在6个项目中沉淀出的黄金参数表，附带真实取值案例：

参数名	数学含义	业务含义	推荐初始值	调整逻辑	真实案例（某资讯App首页推荐）
α₀, β₀（先验参数）	Beta先验的超参数	“我们对这个臂效果的初始信任度”	α₀=1, β₀=1（无信息先验）	若有历史数据，设α₀=历史点击数+1, β₀=历史曝光-点击数+1	新增“视频流”模块，无历史数据 → Beta(1,1)；“图文流”有半年数据（CTR 5.2%）→ Beta(521,9479)
最小曝光阈值（min_impressions）	单臂最低观测次数	“确保统计显著性前，不参与主流量分配”	100~1000（取决于业务噪声水平）	噪声大（如低频行为）→ 提高；高确定性（如按钮点击）→ 降低	CTR预估噪声中等 → 设500；“分享”按钮点击率极低（<0.5%）→ 设2000
衰减因子（γ）	后验更新时对旧数据的折扣权重	“我们多看重最近的数据”	1.0（不衰减，适合平稳环境）	非平稳环境（如大促、节假日）→ 0.99~0.999	日常运营γ=1.0；双十一大促期间γ=0.995（让模型更快响应流量结构突变）
最大臂数（max_arms）	同时管理的臂数量上限	“策略引擎的内存与计算负载”	10~50（平衡效果与开销）	臂数>100时，必须引入聚类或分层采样	A/B测试最多同时跑8个文案 → max_arms=10；个性化推荐需支持1000+标签 → 改用分层TS（先选标签簇，再选簇内臂）

注意：α₀, β₀不是调优参数，而是先验编码。很多新手误以为调小α₀能让模型“更快相信新数据”，这是典型误解。Beta(0.1,0.1)看似更“扁平”，但其数学期望未定义，方差无穷大，会导致早期采样极度不稳定（θᵢ可能接近0或1），策略乱跳。坚持Beta(1,1)或基于历史数据的合理先验，才是稳健之道。

3.2 生产级Python实现：去掉所有魔法数字，只留业务逻辑

下面是一个经过3个高并发项目验证的汤普森采样器核心类。它没有用任何ML库，纯Python+NumPy，便于嵌入任意服务（Flask/FastAPI/Java JNI均可调用），且关键路径无锁（线程安全）：

import numpy as np from typing import Dict, List, Tuple, Optional import logging class ThompsonSampler: """生产级汤普森采样器 - 支持先验、衰减、最小曝光控制""" def __init__(self, arms: List[str], alpha0: float = 1.0, beta0: float = 1.0, min_impressions: int = 500, decay_factor: float = 1.0): """ 初始化采样器 Args: arms: 臂名称列表，如 ["button_v1", "button_v2"] alpha0, beta0: Beta先验参数 min_impressions: 单臂最小曝光阈值，低于此值不参与主流量 decay_factor: 衰减因子 (0 < γ ≤ 1)，γ=1.0表示无衰减 """ self.arms = arms self.alpha0 = alpha0 self.beta0 = beta0 self.min_impressions = min_impressions self.decay_factor = decay_factor # 核心状态：每个臂的(成功数, 失败数, 总曝光数) # 使用float64避免整数溢出，且支持衰减（衰减后可能为小数） self.successes = {arm: float(alpha0 - 1) for arm in arms} # 初始成功数 = α0 - 1 self.failures = {arm: float(beta0 - 1) for arm in arms} # 初始失败数 = β0 - 1 self.impressions = {arm: float(alpha0 + beta0 - 2) for arm in arms} # 初始总曝光 self.logger = logging.getLogger(__name__) def _get_posterior_sample(self, arm: str) -> float: """为指定臂生成后验Beta分布的一个样本""" alpha = self.successes[arm] + self.alpha0 beta = self.failures[arm] + self.beta0 # 防御性检查：确保alpha, beta > 0 if alpha <= 0 or beta <= 0: self.logger.warning(f"Arm {arm} posterior params invalid: alpha={alpha}, beta={beta}") return 0.5 # 退化为均匀采样 return np.random.beta(alpha, beta) def select_arm(self) -> str: """执行一次采样决策，返回选中的臂名""" # 1. 筛选出满足最小曝光阈值的臂 eligible_arms = [ arm for arm in self.arms if self.impressions[arm] >= self.min_impressions ] # 2. 如果没有合格臂，返回默认臂（或抛异常，按业务定） if not eligible_arms: default_arm = self.arms[0] self.logger.info(f"No arm meets min_impressions={self.min_impressions}. Fallback to {default_arm}") return default_arm # 3. 对每个合格臂采样，选最大值 samples = {arm: self._get_posterior_sample(arm) for arm in eligible_arms} selected_arm = max(samples, key=samples.get) # 4. 记录决策日志（生产必备） self.logger.debug(f"Thompson Sampling: Selected {selected_arm} with sample={samples[selected_arm]:.4f}, " f"eligible_arms={list(eligible_arms)}") return selected_arm def update_feedback(self, arm: str, is_success: bool) -> None: """更新指定臂的反馈结果""" if arm not in self.arms: self.logger.error(f"Unknown arm: {arm}") return # 应用衰减：对旧的成功/失败数乘以衰减因子 if self.decay_factor < 1.0: self.successes[arm] *= self.decay_factor self.failures[arm] *= self.decay_factor self.impressions[arm] *= self.decay_factor # 更新计数 if is_success: self.successes[arm] += 1.0 else: self.failures[arm] += 1.0 self.impressions[arm] += 1.0 def get_estimated_ctr(self, arm: str) -> float: """获取臂的后验均值估计（用于监控）""" alpha = self.successes[arm] + self.alpha0 beta = self.failures[arm] + self.beta0 return alpha / (alpha + beta) if (alpha + beta) > 0 else 0.5 def get_arm_stats(self) -> Dict[str, Dict]: """获取所有臂的完整统计信息（用于Dashboard）""" stats = {} for arm in self.arms: alpha = self.successes[arm] + self.alpha0 beta = self.failures[arm] + self.beta0 stats[arm] = { 'successes': int(self.successes[arm]), 'failures': int(self.failures[arm]), 'impressions': int(self.impressions[arm]), 'estimated_ctr': round(alpha / (alpha + beta), 4) if (alpha + beta) > 0 else 0.0, 'posterior_alpha': round(alpha, 2), 'posterior_beta': round(beta, 2), 'posterior_std': round(np.sqrt(alpha * beta) / ((alpha + beta) * np.sqrt(alpha + beta + 1)), 4) if (alpha + beta) > 0 else 0.0 } return stats # 使用示例：初始化并运行10轮模拟 if __name__ == "__main__": sampler = ThompsonSampler( arms=["v1", "v2", "v3"], alpha0=1.0, beta0=1.0, min_impressions=100, decay_factor=1.0 ) # 模拟真实反馈：v1真实CTR=5%, v2=8%, v3=6% true_ctrs = {"v1": 0.05, "v2": 0.08, "v3": 0.06} for t in range(1, 1001): selected = sampler.select_arm() # 模拟反馈：按真实CTR生成伯努利结果 is_click = np.random.random() < true_ctrs[selected] sampler.update_feedback(selected, is_click) # 每100轮打印一次状态 if t % 100 == 0: stats = sampler.get_arm_stats() print(f"\nRound {t}:") for arm, s in stats.items(): print(f" {arm}: CTR={s['estimated_ctr']:.3f} (α={s['posterior_alpha']}, β={s['posterior_beta']})")

这段代码的关键生产级特性：

衰减支持：decay_factor参数让模型能自适应非平稳环境，无需重启服务；
防御性编程：对后验参数做边界检查，避免np.random.beta崩溃；
可观测性完备：get_arm_stats()返回所有诊断字段，可直接喂给Grafana；
无状态依赖：所有更新操作幂等，适合分布式部署（状态存Redis，采样逻辑无共享内存）；
零魔法数字：所有参数名直指业务含义，新人接手5分钟看懂。

3.3 实操部署四步走：从本地验证到线上灰度

再好的算法，部署错了也是负收益。这是我总结的标准化上线流程，已在多个团队复制成功：

步骤一：离线回放验证（Offline Replay）

目的：验证算法逻辑正确性，隔离线上风险。
操作：

导出过去7天的原始曝光日志（含臂ID、用户ID、是否点击、时间戳）；
用你的汤普森采样器代码，按时间戳顺序重放每条曝光：
- select_arm()得到“本应选的臂”；
- 对比日志中“实际选的臂”，计算策略匹配率（越高越好，>95%说明逻辑无bug）；
- 更重要的是，计算反事实收益：假设当时按你的选择执行，累计点击数会是多少？与真实收益对比。
  避坑心得：我第一次做时忘了按时间戳排序，日志是乱序的，导致后验更新错乱，匹配率仅60%。务必加df.sort_values('timestamp')。

步骤二：影子模式（Shadow Mode）

目的：验证线上服务集成，不改变用户行为。
操作：

在线上服务中，并行执行两套逻辑：
- 主逻辑：当前AB测试策略（如50/50分流）；
- 影子逻辑：你的汤普森采样器（只计算select_arm()，不执行任何动作）；
将影子逻辑的决策结果、后验参数、采样值，全部打点到监控系统（如Prometheus）。
关键检查点：
影子决策的臂分布是否合理？（初期应较均匀，后期向最优臂倾斜）；
后验α/β值是否随曝光增长而平滑变化？（突变说明数据源有脏数据）；
采样值θᵢ的分布是否符合Beta预期？（可用K-S检验）。

步骤三：小流量A/B测试（1%~5%）

目的：验证业务效果，量化收益。
操作：

开启真实分流：1%流量走汤普森采样策略，99%走基线；
核心指标盯紧两个：
- 主要目标：如CTR、转化率、GMV——必须显著提升（p<0.01）；
- 健康指标：如用户停留时长、跳出率、负反馈率——确保没牺牲体验。
  血泪教训：某次上线，CTR涨了12%，但跳出率同步涨了8%，原因是汤普森采样偏好高点击但低质量的“标题党”内容。后来我们在后验更新时，对“点击后3秒内跳出”的行为施加了-0.5的惩罚权重（即update_feedback(arm, is_success=False)），问题解决。

步骤四：渐进式扩量（Progressive Rollout）

目的：平滑过渡，随时熔断。
操作：

制定扩量计划表，例如：
时间流量比例决策依据
D1 1% 验证基础稳定性
D3 5% 确认核心指标正向
D7 20% 观察长周期指标（如7日留存）
D14 100% 全量
熔断机制：任一时刻，若核心指标（如CTR）连续30分钟同比下跌>15%，自动触发降级，切回基线策略，并告警。
终极验证：全量后，用Causal Impact（Google开源的贝叶斯因果推断库）分析，确认收益是算法带来，而非外部因素（如节日效应）。

时间	流量比例	决策依据
D1	1%	验证基础稳定性
D3	5%	确认核心指标正向
D7	20%	观察长周期指标（如7日留存）
D14	100%	全量

4. 真实世界踩坑大全：那些文档里绝不会写的“幽灵问题”

4.1 问题一：冷启动期的“虚假繁荣”与“策略雪崩”

现象：新臂上线头2小时，汤普森采样疯狂给它流量，点击率虚高（比如15%），但2小时后暴跌至5%，且再也无法翻身。
根因分析：这不是算法bug，而是伯努利反馈的固有偏差。新臂初始为Beta(1,1)，后验均值0.5，方差最大。前几次曝光若恰好全点（小概率事件），后验立刻变成Beta(2,1)→均值0.67，再点一次变Beta(3,1)→均值0.75……指数级放大偶然性。而老臂已有大量数据，后验分布尖锐，采样值稳定在真实值附近，根本竞争不过。
解决方案：

强制冷启动保护：新增臂前N次曝光（N=50~200），强制使用min_impressions规则，不参与主流量，只做纯探索记录；
先验注入：若有相似臂的历史CTR，设先验为Beta(α₀, β₀)，其中α₀/ (α₀+β₀) ≈ 历史CTR，且α₀+β₀ ≈ 历史曝光数/10（体现“信心”）。例如，类似文案历史CTR 7%，曝光10万次，则设Beta(700, 9300)；
混合策略：冷启动期用ε-greedy（ε=0.3），待曝光>min_impressions后无缝切到汤普森采样。我在某社交App的“新话题推荐”模块就用此法，冷启动期CTR波动从±40%压到±8%。

4.2 问题二：数据漂移下的“温水煮青蛙”失效

现象：策略运行平稳3周，各项指标健康，但某天起，最优臂的CTR缓慢下降，汤普森采样却迟迟不切换，直到损失已不可逆。
根因分析：标准汤普森采样假设环境平稳（IID），但真实世界存在缓慢漂移（如用户兴趣迁移、竞品动作、季节效应）。Beta后验虽会更新，但更新速度跟不上漂移速度，尤其当漂移是渐进式（每天降0.01%）时，后验分布像被“拖拽”着移动，始终滞后。
解决方案：

指数衰减先验（Exponential Forgetting）：在update_feedback中，不仅衰减旧计数，还对新反馈施加时间权重。例如，按小时粒度，给t小时前的反馈乘以γ^t。代码只需一行：weight = np.exp(-0.1 * hours_since_event)；
漂移检测熔断：监控每个臂的“后验标准差 / 后验均值”比值。若某臂该比值连续24小时>0.3，说明不确定性激增，触发强制探索（临时提高其采样权重）；
双时间尺度更新：维护两套计数——“长期记忆”（无衰减，看趋势）和“短期记忆”（高衰减，看变化），决策时融合两者。我在某电商平台的“促销价格策略”中采用此法，成功提前48小时预警了“满减门槛”效果衰减。

4.3 问题三：分布式环境下的“状态撕裂”

现象：服务部署在10台机器上，同一用户在不同机器上看到不同推荐，且各机器上报的反馈数据不一致，后验状态混乱。
根因分析：汤普森采样是有状态的在线算法，状态（α, β）必须全局唯一。若每台机器维护自己的副本，必然撕裂。
解决方案（按实施难度排序）：

方案A（推荐）：中心化状态存储：用Redis Hash存储每个臂的{arm}:successes和{arm}:failures。每次select_arm前，用Lua脚本原子读取+采样；update_feedback时，用HINCRBYFLOAT原子更新。吞吐量可达5w QPS/Redis实例；
方案B：一致性哈希分流：对用户ID做哈希，固定路由到某台机器，确保同一用户永远由同一实例服务。简单但丧失容灾性；
方案C：状态广播：用Redis Pub/Sub，一台机器更新后广播事件，其他机器异步同步。有延迟，适合容忍秒级不一致的场景。

提示：千万别用数据库（MySQL）存状态！单次更新RT>10ms，直接拖垮QPS。我见过团队因用MySQL存Beta参数，导致推荐接口P99延迟从50ms飙到2s。

4.4 问题四：业务指标与统计指标的“语义鸿沟”

现象：汤普森采样器显示臂A的后验CTR均值（12.5%）显著高于臂B（11.8%），但全量后，业务侧发现臂A的GMV反而比臂B低15%。
根因分析：你优化的是点击率（CTR），但业务关心的是最终成交额（GMV）。这两个指标存在强选择偏差：CTR高的内容（如“免费领iPhone”）吸引大量低意向用户点击，但转化率极低；CTR稍低的内容（如“专业摄影课”）用户质量高，点击少但成交多。
解决方案：

目标对齐：必须用业务终局指标建模。若目标是GMV，则反馈信号不是“是否点击”，而是“点击后是否下单且支付成功”，且奖励值为实际GMV金额（非0/1）。此时需升级为Value-Based Bandit，后验分布改为Gamma（适合正实数）或Log-Normal；
多目标权衡：若必须兼顾CTR和GMV，用线性组合奖励：reward = w1 * CTR_signal + w2 * GMV_signal，权重w1/w2由业务方拍板（如w1=0.4, w2=0.6）；
分层优化：上层用汤普森采样选“内容类型”（图文/视频/直播），下层对每种类型，用独立采样器选具体item。我在某知识付费平台就用此架构，顶层保障内容多样性，底层保证单item转化效率。

5. 进阶实战：当汤普森采样撞上真实世界的复杂性

5.1 场景一：上下文相关Bandit（Contextual Bandit）——给每个用户“私人定制”的老虎机

标准MAB假设所有用户同质，但现实中，同一个臂对不同用户的效果天差地别。比如“奢侈品广告”对年收入>50万用户CTR=15%，对学生党只有0.2%。这时，你需要把用户特征（context）作为输入。汤普森采样依然是核心，但后验建模对象变了：

不再为每个臂建一个Beta分布，而是为每个臂建一个逻辑回归模型：P(click|context, arm) = sigmoid(context^T * θ_arm)；
θ_arm 的先验设为多元高斯分布 N(μ_arm, Σ_arm)；
每次反馈后，用贝叶斯线性回归更新 θ_arm 的后验（有解析解）；
采样时，从每个臂的后验高斯分布采一个θ_arm，计算sigmoid(context^T * θ_arm)，选最大值。
工程要点：
特征工程是成败关键。我建议用用户近期行为序列（如过去1小时点击的3个品类）做Embedding，比原始ID特征稳定；
为避免矩阵求逆开销，用Online Variational Inference近似后验，内存占用从O(d²)降到O(d)；
开源库推荐：scikit-learn的SGDClassifier（在线学习）+ 自定义汤普森采样层，或专用库river（原creme）。