news 2026/6/24 11:30:38

双重机器学习与公卫研究,这种因果推断新范式论文你见过吗?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
双重机器学习与公卫研究,这种因果推断新范式论文你见过吗?

源自风暴统计网:一键统计分析与绘图的网站

浙江大学医学院公共卫生学院宋培歌研究员团队在《Child Abuse & Neglect》发表了一项因果推断研究论文。研究思路如下:

  • 采用双重机器学习,量化了不良童年经历(ACE)对流产、抑郁、焦虑及共病(同时发生焦虑和抑郁)的潜在因果效应。

  • 为了检验治疗效果的异质性,进行了亚组和异质性分析。

  • 使用因果森林方法估计条件平均治疗效应(CATE),以捕获ACE效应的个体水平变化。

  • 进行了因果中介分析以评估妊娠流产的中介作用。

用双重机器学习+因果森林+因果中介分析开展公卫研究,值得一学,我们详细解读一下!

双重机器学习开展因果推断

研究旨在探讨不良童年经历对流产、抑郁、焦虑和共病的潜在因果关系,并评估妊娠流产的中介作用。

为了估计与ACE对妊娠流产数量和心理健康结果的因果解释一致的影响,研究者采用了Chernozhukov等人(Chernozhukov等人,2018)提出的双重机器学习(DML)框架。该分析使用R软件包“DoubleML”(Bach等人,2024)进行。

双重机器学习DML

DML是一种因果推断方法,但并非一个单一的算法,而是一个理论框架。

其核心思想是:利用机器学习模型来估计并剔除“滋扰参数”(Nuisance Parameters)的影响,从而使对目标因果参数的估计对滋扰模型的估计误差不敏感。

它将机器学习算法与奈曼正交化(Neyman Orthogonality)和交叉拟合相结合,以减少估计偏差并提高在处理复杂和潜在非线性混淆结构时的稳健性。

通俗来讲,DML可以通过正交化和交叉拟合技术,利用任意机器学习模型来处理高维混杂变量,从而获得稳健的因果效应估计。

研究的主要参数是平均治疗效果(ATE),它量化了ACE对流产、抑郁、焦虑及其合并症的潜在因果影响。

另外,研究者实施了一个五折交叉拟合程序,以确保正交性和最小化过拟合。对包括Lasso、随机森林和XGBoost在内的机器学习算法进行了评估,用于评估滋扰函数,并选择了性能最佳的模型进行主要分析。

结果显示,随机森林模型始终表现出优越的预测性能,通常产生最高的AUC和最低的MSE。因此,我们选择使用随机森林算法从DML框架导出的结果作为我们的主要发现。

每个模型在所有处理变量和结局变量上的out-of-sample AUC和MSE

ACE暴露显著增加流产,以及抑郁、焦虑和共病的概率。

使用随机森林算法从DML中得出的ACE对流产、抑郁、焦虑以及共病的估计ATE

另外,为了评估估计的因果效应的稳健性,将原始随机森林模型的ATEs与使用Lasso和XGBoost算法获得的ATEs进行了比较。

结果显示,ACE与所有四种结果之间关联的方向、幅度和显著性在三种机器学习模型中基本一致。这种跨算法发现的趋同强化了主要结果的稳健性。

比较三种机器学习算法(Random Forest、Lasso、XGBoost)ATE 估计值

处理效应异质性分析

为了检验处理效应的异质性(HTE),研究者按年龄和教育程度进行了亚组分析。

此外,使用因果森林方法估计条件平均治疗效应(CATE),以捕获ACE效应的个体水平变化(Wager & Athey, 2018)。

关于处理效应异质性(HTE)和条件平均治疗效应(CATE)的概念,我们曾写过推文介绍,感兴趣的朋友可以看看。

现在,是该了解 "处理效应异质性"(HTE)的概念与方法的时候了

Out了! 临床研究亚组分析,现在有两个新的概念:HTE、CATE

顶刊论文的亚组分析森林图如何绘制?| 处理效应异质性(HTE)分析方法

异质性分析显示:

  • 对于流产,受教育程度较低的女性的相关性更强。例如,暴露于任何ACE显著增加初等教育组的流产数量,而高学历组的影响较弱且不显著。

  • 对流产次数的影响也集中在45岁以上的女性中,而在≤45岁的女性中无统计学意义。

  • 就心理健康结果而言,受过初等教育的妇女的影响始终更大。

  • 然而,与流产不同的是,对年轻妇女(≤45岁)心理健康的不利影响更为明显。

热力图展示了基于随机森林的双重机器学习模型中,按年龄和教育水平定义的亚组估计的 ATE

因果森林模型证实了所有结果存在显著的个体水平异质性。

在参与者中,有很大比例的流产CATEs呈阳性,这表明对有意义的个体子集而言,风险直接增加。在心理健康方面,CATEs也有很大差异,突出了个体对ACEs的不同易感性。

这些异质性模式在ACE评分和所有ACE亚型中是一致的。

任何不良童年经历对流产次数和心理健康结果影响的个体水平异质性

因果中介分析

为了评估妊娠流产是否在ACEs与心理健康结果之间起中介作用,采用“ mediation ” R包进行因果中介分析(Tingley et al., 2014)。估计了直接和间接效应,以及通过妊娠流产介导的总效应的比例。

研究发现,妊娠流产数与抑郁、焦虑以及共病显著相关,随机森林、Lasso和XGBoost模型的ATE估计值一致。

基于这些结果,以流产次数为中介,对每个结局进行因果中介分析。

在所有结果中,间接中介效应具有统计学意义,但幅度较小。

具体而言,流产的数量只占整个ACE-心理健康关联的一小部分:抑郁为2.37%,抑郁和焦虑共病为2.43%,焦虑占比最大4.96%,但仍然有限。

本研究的一个显著优势在于它使用了先进的因果推理技术,特别是DML框架,来估计ace对流产和心理健康结果的治疗效果。该方法针对高维混杂因素进行灵活调整,从而能够对因果效应进行更稳健的估计,从而细致地了解将早年逆境与日后健康结局联系起来的路径。

因果推断方法现在已然成熟,在越来越卷的科研时代,因果推断可能是破局之道,也是未来的大势所趋,诸位得抓紧学起来了!


最后,在文末给郑老师我们团队打个广告吧,大家不要见怪哈!

欢迎参加郑老师主持的因果推断训练营

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/22 9:55:43

Dubbo学习(六)深入 Cluster

深入 Cluster:微服务治理的“中央大脑” —— 容错与负载均衡 摘要 在微服务架构中,一个服务通常有多个实例。当 Consumer 要调用 Provider 时,面对手里的一把 IP 地址(Invoker 列表),该选哪一个?选好后如果调用失败了怎么办?Cluster 层就是为了解决这些问题而生的。…

作者头像 李华
网站建设 2026/6/24 2:59:41

魔术的定义、评价与分类(七)——数学魔术的内涵界定

早点关注我,精彩不错过!上一讲我们讲到了魔术用数学模型描述的结构,详情请戳:魔术的定义、评价与分类(六)——数学模型描述的结构魔术的定义、评价与分类(五)——按原理分类魔术的定…

作者头像 李华
网站建设 2026/6/22 15:07:14

专题:2025中国企业跨境出海报告:AI支付、供应链、汽配、黑五|附1000+份报告PDF、数据、可视化模板汇总下载

原文链接:https://tecdat.cn/?p44552原文出处:拓端抖音号拓端tecdat近全球贸易重构、技术革新与消费升级的浪潮下,跨境出海已从企业“可选项”变为“生死必答题”——不出海,就可能陷入存量内卷的困局;出海不精准&…

作者头像 李华
网站建设 2026/6/24 7:52:15

3分钟快速下载Pascal VOC 2012:计算机视觉开发者的终极指南

3分钟快速下载Pascal VOC 2012:计算机视觉开发者的终极指南 【免费下载链接】PascalVOC2012数据集下载链接 Pascal VOC 2012 数据集是计算机视觉领域中广泛使用的基准数据集之一,包含了大量的图像和标注信息,适用于目标检测、图像分割等任务。…

作者头像 李华
网站建设 2026/6/24 3:33:06

为什么60+组件库GPUI Component正重塑桌面应用开发格局?

为什么60组件库GPUI Component正重塑桌面应用开发格局? 【免费下载链接】gpui-component UI components for building fantastic desktop application by using GPUI. 项目地址: https://gitcode.com/GitHub_Trending/gp/gpui-component 在跨平台应用开发领域…

作者头像 李华
网站建设 2026/6/23 22:59:50

用 Visitor pattern 拆解 SAP CDS Test Double Framework:从 AST 里精准挖出依赖表

在做 SAP ABAP 的单元测试时,最让人头疼的往往不是断言怎么写,而是怎么把测试环境和真实数据库“隔离”得足够干净。到了 S/4HANA 时代,很多业务逻辑被下推到 CDS entity 里执行,跑在数据库引擎上,这让传统那套“直接往真实表里塞数据再测”的方法变得既危险又不可控:同一…

作者头像 李华