当前位置：首页 > news >正文

别再死记硬背了！用Python代码和可视化动画，5分钟搞懂MCMC采样到底在干什么

news 2026/5/27 1:51:18

用Python动画拆解MCMC从随机游走到双峰分布采样在机器学习和统计建模中我们经常遇到需要从复杂概率分布中采样的场景。传统方法面对非标准分布时往往束手无策而马尔可夫链蒙特卡洛(MCMC)方法则提供了优雅的解决方案。本文将通过Python代码和动态可视化带你直观理解MCMC的核心思想——如何让随机游走收敛到目标分布。1. 蒙特卡洛方法基础蒙特卡洛方法本质是通过随机采样来近似计算数值结果。假设我们需要计算函数f(x)在区间[a,b]上的积分import numpy as np def monte_carlo_integrate(f, a, b, n_samples10000): samples np.random.uniform(a, b, n_samples) return (b - a) * np.mean(f(samples))这种方法在均匀分布时效果不错但当目标分布不均匀时简单的均匀采样效率低下。我们需要重要性采样技术——在概率密度高的区域采集更多样本def importance_sampling(f, p, q, n_samples10000): # p: 目标分布q: 建议分布 samples q.rvs(n_samples) weights p(samples) / q.pdf(samples) return np.mean(f(samples) * weights) / np.mean(weights)接受-拒绝采样是另一种思路它通过一个包络函数来生成样本def accept_reject(p, M, q, n_samples10000): samples [] while len(samples) n_samples: x q.rvs() u np.random.uniform(0, M*q.pdf(x)) if u p(x): samples.append(x) return np.array(samples)这些传统方法虽然有效但在高维空间或复杂分布下效率急剧下降。下表对比了不同采样方法的适用场景方法优点缺点适用维度均匀采样实现简单效率低低维重要性采样方差减小依赖建议分布中低维接受-拒绝精确采样接受率低低维MCMC高维有效需要预热所有维度2. 马尔可夫链的魔法马尔可夫链的核心性质是无记忆性——下一状态只依赖当前状态。这种特性使得它能够逐渐忘记初始分布收敛到平稳分布。让我们用股市状态转移的例子来说明transition_matrix np.array([ [0.9, 0.075, 0.025], # 牛市→牛市/熊市/横盘 [0.15, 0.8, 0.05], # 熊市→... [0.25, 0.25, 0.5] # 横盘→... ]) def simulate_markov_chain(transition, initial, n_steps100): states [initial] for _ in range(n_steps): states.append(np.random.choice( len(transition), ptransition[states[-1]] )) return states通过动画演示我们可以观察到无论从牛市、熊市还是横盘开始经过足够多的状态转移后系统都会收敛到相同的稳态分布。这正是MCMC采样的理论基础——构造一个马尔可夫链使其平稳分布就是我们的目标分布。3. Metropolis-Hastings算法实战M-H算法是MCMC的典型实现它通过建议分布和接受概率的巧妙设计确保马尔可夫链收敛到目标分布。让我们用Python实现一个完整的M-H采样器def metropolis_hastings(p, q, q_sample, n_samples10000, burn_in1000): samples np.zeros(n_samples burn_in) current q_sample() # 初始状态 for i in range(len(samples)): # 从建议分布生成候选样本 candidate q_sample(current) # 计算接受概率 acceptance min(1, p(candidate)*q(current, candidate)/(p(current)*q(candidate, current))) # 决定是否接受 if np.random.rand() acceptance: current candidate samples[i] current return samples[burn_in:] # 去除预热期样本为了直观展示采样过程我们创建一个双峰分布作为目标分布def bimodal_distribution(x): return 0.3*np.exp(-0.2*(x-2)**2) 0.7*np.exp(-0.2*(x2)**2) # 建议分布以当前点为中心的正态分布 def proposal_distribution(x, sigma1): return np.random.normal(x, sigma) # 生成采样动画 def animate_mh_sampling(p, n_frames200): fig, ax plt.subplots() x np.linspace(-6, 6, 1000) ax.plot(x, p(x), r-, lw2, labelTarget Distribution) current np.random.randn() samples [] line, ax.plot([], [], b-, alpha0.5) scat ax.scatter([], [], cg, s50) def update(frame): nonlocal current candidate proposal_distribution(current) acceptance min(1, p(candidate)/p(current)) if np.random.rand() acceptance: current candidate samples.append(current) scat.set_offsets([[current, 0]]) line.set_data(samples, 0.1*np.ones_like(samples)) return line, scat anim FuncAnimation(fig, update, framesn_frames, blitTrue) plt.close() return anim通过动画可以清晰看到采样点最初随机游走但逐渐在概率密度高的区域聚集最终完美拟合目标分布的形状。4. 收敛诊断与调优MCMC采样需要特别注意收敛诊断。常用的方法包括轨迹图观察采样序列是否达到稳定波动自相关图检查样本之间的相关性衰减速度Gelman-Rubin诊断多链运行比较方差def plot_convergence(samples): fig, (ax1, ax2) plt.subplots(1, 2, figsize(12, 4)) # 轨迹图 ax1.plot(samples, alpha0.5) ax1.set_title(Trace Plot) # 自相关图 from statsmodels.graphics.tsaplots import plot_acf plot_acf(samples, lags50, axax2) ax2.set_title(Autocorrelation) plt.tight_layout()实际应用中我们还需要调整建议分布的宽度。太窄会导致探索不足太宽则接受率下降。经验上接受率在20-50%之间通常效果较好def optimize_proposal(p, initial_sigma1, target_acceptance0.3, n_trials1000): sigma initial_sigma for _ in range(10): # 调整轮次 samples, acceptances [], [] current np.random.randn() for _ in range(n_trials): candidate np.random.normal(current, sigma) alpha min(1, p(candidate)/p(current)) accept np.random.rand() alpha acceptances.append(accept) current candidate if accept else current samples.append(current) acceptance_rate np.mean(acceptances) sigma * 1 0.5*(acceptance_rate - target_acceptance) # 动态调整 return sigma, samples5. 多维扩展与Gibbs采样当面对高维分布时M-H算法需要调整。Gibbs采样是一种特殊情况的M-H算法它通过轮流更新每个维度来简化采样过程def gibbs_sampling(conditional_dists, n_samples10000, burn_in1000): dim len(conditional_dists) samples np.zeros((n_samples burn_in, dim)) current np.random.randn(dim) # 初始状态 for i in range(len(samples)): for j in range(dim): # 从条件分布采样 current[j] conditional_dists[j](current, i) samples[i] current return samples[burn_in:]例如对于二维正态分布条件分布仍然是正态分布可以高效采样def bivariate_normal_conditional(x, index): # 假设相关系数rho0.5 if index 0: # x1|x2 return np.random.normal(0.5*x[1], np.sqrt(0.75)) else: # x2|x1 return np.random.normal(0.5*x[0], np.sqrt(0.75))Gibbs采样特适合各维度之间有较强相关性的情况因为它能利用条件独立性质大幅提高效率。6. 实际应用技巧在真实项目中应用MCMC时有几个实用建议预热期处理通常丢弃前10-20%的样本作为预热稀疏采样每隔k个样本保留一个减少自相关多链运行从不同初始点启动多个链检查收敛参数化技巧对受限空间使用logit变换等技巧def run_mcmc_in_practice(p, n_chains4, n_samples10000): chains [] for _ in range(n_chains): chain metropolis_hastings( p, qlambda x,y: np.exp(-0.5*(y-x)**2), # 正态建议 q_samplelambda xNone: np.random.randn() if x is None else np.random.normal(x), n_samplesn_samples, burn_inn_samples//5 ) chains.append(chain[::5]) # 稀疏采样 return np.concatenate(chains)可视化多链运行结果可以帮助我们确认收敛def plot_multiple_chains(chains): plt.figure(figsize(10, 6)) for i, chain in enumerate(chains): plt.plot(chain, alpha0.5, labelfChain {i1}) plt.title(Multiple Chain Trace Plot) plt.legend()7. 进阶主题与性能优化对于更复杂的场景我们可以考虑以下优化策略自适应MCMC在预热期动态调整建议分布参数哈密尔顿蒙特卡洛(HMC)利用梯度信息提高效率并行化对独立成分使用并行采样HMC的实现需要更多数学工具但可以显著提升在高维空间的探索效率def hamiltonian_monte_carlo(p, grad_p, step_size, n_steps, n_samples10000): # p: 目标分布grad_p: 其梯度 samples [] current_q np.random.randn() for _ in range(n_samples): q current_q p np.random.randn() # 辅助动量变量 current_p p # 蛙跳积分 p - step_size * grad_p(q) / 2 for _ in range(n_steps): q step_size * p p - step_size * grad_p(q) p - step_size * grad_p(q) / 2 # 接受/拒绝 current_U -np.log(p(current_q)) current_K 0.5 * current_p**2 proposed_U -np.log(p(q)) proposed_K 0.5 * p**2 if np.random.rand() np.exp(current_U - proposed_U current_K - proposed_K): current_q q samples.append(current_q) return np.array(samples)在实际项目中推荐使用成熟库如PyMC3或Stan它们实现了这些高级算法并提供了友好的APIimport pymc3 as pm with pm.Model(): # 定义模型 theta pm.Normal(theta, mu0, sigma1) obs pm.Normal(obs, mutheta, sigma1, observeddata) # 运行采样 trace pm.sample(1000, tune1000, cores4) # 可视化结果 pm.plot_trace(trace)通过本文的代码示例和动画演示相信你已经对MCMC如何通过随机游走探索复杂分布有了直观理解。记住MCMC的核心价值在于它能够处理传统方法难以应对的高维、非标准分布问题这使它成为现代统计建模和机器学习中不可或缺的工具。

查看全文

http://www.gsyq.cn/news/1397769.html