当前位置: 首页 > news >正文

连续变量处理的因果推断技术突破

在科学研究和商业活动中,人们常常关注某项“处理”(例如更改网页字体)对“响应变量”(例如访客在页面的停留时长)的因果效应。通常,处理是二元的:页面使用一种字体或另一种。但有时处理是连续的。例如,软饮料制造商可能希望测试在新饮料中添加柠檬风味剂的一系列可能用量。

通常,存在既影响处理又影响响应变量的混杂因素,因果估计必须对其进行考量。虽然当处理为二元时,处理混杂因素的方法已得到充分研究,但连续处理下的因果推断则更具挑战性且研究相对不足。

在今年举行的国际机器学习大会上,某机构的同事提出了一种新方法,用于估计连续变化处理的效果。该方法结合了端到端机器学习模型与倾向得分加权和熵平衡的概念。

该方法与四种前代方法(包括传统的熵平衡)在两个不同的合成数据集上进行了比较:一个是处理与响应变量关系为线性的数据集,另一个是非线性关系的数据集。在线性数据集上,该方法比表现最佳的前代方法将均方根误差降低了27%;在非线性数据集上,改进幅度达到38%。

倾向得分

连续处理使得因果推断更为困难,主要是因为它们为每个单元(例如,每个受试者)引入了不可数的潜在结果,而每个单元仅能观察到其中一个结果,并且各单元间的结果也不同。例如,在一毫升到两毫升之间存在无限种柠檬风味剂用量,对应着无限种可能的顾客偏好。在连续处理设置中,因果推断模型将连续输入映射到连续输出,即响应曲线。

如果两个变量都受到第三个变量(即混杂因素)的影响,则可能难以确定它们之间的因果关系。考虑一个简单的因果图,涉及处理 a、响应变量 y 以及混杂因素 xx 同时影响 ay

在连续处理的情境下,标准处理混杂因素的方法是通过倾向得分加权。本质上,倾向得分加权会削弱两个同时受混杂因素影响的变量之间的效应。例如,在上述因果图中,我们会根据给定 xa 的逆概率来加权 ay 之间的边。也就是说,给定 xa 的可能性越大,我们就认为 ay 的影响越小。

然而,某些单元的倾向得分可能非常大,导致数据不平衡,进而引发估计不稳定和推断不确定。熵平衡是一种纠正此问题的方法,它通过选择权重以最小化权重之间的差异(即最大化其熵)来实现。

端到端平衡

新算法基于熵平衡,并通过端到端优化学习权重,以直接最大化因果推断的准确性。称之为端到端平衡。

下图展示了该方法。变量 {xi, ai} 是数据集中的混杂因素-处理对,lq 是一个神经网络,它学习在给定混杂因素-处理对的情况下生成一组熵平衡权重 {wi}。函数 µ-bar 是一个随机选择的响应函数,即一个给定处理 a 计算响应变量值 ȳ 的函数。

因此,三元组 {xi, ai, ȳi} 构成了一个合成数据集:真实的 xa,但生成了合成的 y。在训练过程中,神经网络学习生成能够重现已知响应函数 µ-bar 的熵平衡权重。一旦网络训练完成,就将其应用于真实数据集(包含真实的 y)以估计真实的响应函数 µ-hat

在论文中提供了理论分析,证明了该方法的一致性。同时还研究了合成数据生成过程中错误设定的影响。结果表明,即使初始选择的随机响应函数 µ-bar 非常不准确,也不会阻止模型收敛到一个对真实响应函数 µ-hat 的良好估计上。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.gsyq.cn/news/87731.html

相关文章:

  • 常熟市华懋化工设备有限公司的规模怎样?口碑好不好 - myqiye
  • 盲盒小程序都是怎么玩的?有是怎么裂变的?
  • 代码之恋(第十篇:失效API与最佳Patch)
  • 深入解析:【Vue】第五篇
  • 6款reMarkable客户端全面评测:告别云同步烦恼的终极方案
  • 深度解析GPT-5.2:新功能、新变化,如何让你的工作更高效?
  • 2025广东陶瓷品牌靠谱推荐榜 - 真知灼见33
  • 2025年中国高性价比酒窖设计公司排名:酒窖设计帮我推荐几家 - mypinpai
  • 2025年中国十大IP设计公司推荐:实力强的老牌IP设计公司 - myqiye
  • RFID+机械臂:工业零部件加工后智能分拣
  • 2025环保型反渗透膜制膜设备专业厂家TOP5推荐:水处理膜 - 工业品牌热点
  • PyMe附录:Fun 函数速查手册
  • 13、文件操作与命令全解析
  • 为你的STM32毕设项目加点“料”:AI厨房安全卫士火情监测与语音报警系统
  • 企业财务数字化转型:主流费控报销系统Top4排名解析 - 财务流程医生
  • Airflow - Deferrable Task
  • CAN-FD
  • 【ACM出版 | EI检索】2026年人工智能与金融科技国际学术会议(IC-AIF 2026)
  • PDFMathTranslate深度体验:国产大模型如何重塑学术翻译新范式
  • 2025五金工具外贸推广服务商排行榜:亿企邦领衔,四强格局显现 - GEO排行榜
  • 梨树矮砧密植:水肥一体化系统的铺设要点指南
  • 好写作AI:一键终结你的研究方法“选择困难症”
  • 2025年花灯厂商口碑推荐榜与选购分析指南 - 真知灼见33
  • 破解济南出海企业困局:外贸GEO优化如何带来源源不断的精准询盘? - 博客万
  • 涂鸦智能:电热毛巾架迈向智能化的首选方案商 - 星报
  • 2025茶柜设计公司TOP5权威推荐:茶柜设计公司哪家强? - myqiye
  • 2025年12月深圳装修公司实力榜:深圳旧房翻新、深圳旧房改造、深圳出租房装修、深圳二手房装修、深圳老房装修、五家企业凭品质与服务出圈 - 海棠依旧大
  • 2025不锈钢压花板厂家TOP5权威推荐:聚品阁不锈钢压花板 - 工业品牌热点
  • 昆明婚纱摄影店哪家强?排名大揭秘! - 真知灼见33
  • AI技术前沿周报:大模型效率革命与跨模态智能新突破