11 天前

通过自监督协变量平衡学习端到端患者表征以估计因果治疗效应

{Beau Norgeot, Jingpu Shi, Stefanos Giampanis, Gino Tesei}
摘要

因果效应可定义为对两种或多种不同干预措施所导致结果的比较,其中仅有一个干预—结果组合在现实中被观测到。在医疗领域,评估因果效应的金标准是随机对照试验(Randomized Controlled Trials, RCTs),即明确界定目标人群,并将研究样本随机分配至治疗组或对照组。由于因果关系能够揭示可操作的洞见,近年来机器学习研究在医疗、教育和经济等领域中,越来越多地将因果效应估计方法应用于观察性数据。利用观察性数据进行因果效应研究与RCTs的核心区别在于:在观察性研究中,干预已经发生,因此研究者无法控制干预分配机制。这往往导致对照组与治疗组之间协变量分布存在显著差异,从而使得因果效应的比较受到混杂因素的影响,结果不可靠。传统方法通常采用分步处理策略,先预测干预分配,再单独估计干预效应。近期研究将其中部分方法拓展至一类新型表示学习算法,揭示出期望干预效应估计误差的上界由两个因素决定:表示学习模型在结果预测上的泛化误差,以及该表示所诱导的治疗组与对照组分布之间的距离。为最小化此类分布差异,在本研究中,我们提出一种特定的自平衡、自监督目标函数,以实现治疗组与对照组在表示空间中分布的自动均衡。在真实数据集和基准数据集上的实验表明,我们的方法始终能产生比以往发表的最先进方法更少偏差的估计结果。我们进一步证明,误差的降低可直接归因于模型能够学习到显式减小两组分布差异的表示;此外,在违反“正性假设”(在观察性数据中极为常见)的情况下,我们的方法也显著优于现有最先进方法。综上所述,通过学习能够使治疗组与对照组分布趋于相似的表示,我们为“误差上界与分布差异之间的关系”这一假设提供了实证支持,并提出了一种新的因果效应估计的最先进模型。

通过自监督协变量平衡学习端到端患者表征以估计因果治疗效应 | 最新论文 | HyperAI超神经