Advances in the Application of Artificial Intelligence in Fetal Echocardiography (Journal of the American Society of Echocardiography 2024) (一区)
【核心目标】
系统回顾了人工智能在胎儿超声心动图领域的最新应用进展,涵盖了图像处理、生物参数测量以及疾病诊断与预测三大方向,并对未来研究提出了展望。
【AI在胎儿超声心动图中的三大应用方向】
- 图像处理
图像分类与检测:通过卷积神经网络(CNN)等技术自动识别标准切面(如四腔心切面、流出道切面)。例如,Stoean等人提出的CNN模型在孕早期(12–14周)图像中识别4个关键切面的准确率达95%;Baumgartner团队的SonoNet模型可实时检测13个标准切面,显著减少人工标注时间。
图像分割:精准分割心脏结构(如心室、房间隔)是定量分析的基础。DW-Net模型在895例四腔心切图中达到Dice相似系数0.827;CA-ISNet通过实例分割技术同时分割四个心腔,平均Dice系数达0.781,优于传统方法。
图像质量控制:自动评估图像质量可减少误诊。Dong等人提出的多任务学习框架对四腔心切面的质量评估平均精度(mAP)达93.52%,且可扩展至颅脑、腹部超声图像。 - 生物参数与功能测量
左心室容积与功能:传统方法(如Simpson法)依赖几何假设,误差较大。Yu等人利用反向传播神经网络(BP)建立左心室容积模型,其与金标准的一致性相关系数(ICC)达0.97。四维超声结合STIC技术及自动容积分析软件(如VOCAL、sonoAVC)进一步提高了测量效率。
房室平面位移(AVPD)与收缩时间间隔(STIs):AVPD可评估胎儿心脏长轴功能,Herling团队的自动化算法简化了IUGR胎儿的评估流程。Marzbanrad等人结合支持向量机与隐马尔可夫模型(SVM/HMM),自动识别瓣膜活动时间,准确率达84%,优于人工分析。 - 疾病诊断与预测
正常与异常心脏分类:智能导航超声心动图(FINE)技术基于STIC数据自动生成9个标准切面,对CHD的检测灵敏度达98%。Arnaout等人开发的集成神经网络模型在内部测试中AUC为0.99,特异性达96%。
特定CHD类型的识别:针对室间隔缺损(VSD)、法洛四联症(TOF)等疾病,Nurmaini团队的DenseNet模型对7类CHD的分类准确率在98%以上。多中心研究显示,结合主动脉弓切面的两阶段DL模型对导管依赖性CHD的筛查灵敏度超过90%。
【论文指出当前AI应用的三大挑战】
- 数据量不足
深度学习依赖大规模标注数据,需通过生成对抗网络(如PSFFGAN)、迁移学习或多任务学习(如T-RNN)弥补数据稀缺问题。 - 模型泛化能力有限
现有研究多集中于四腔心切面,未来需整合多切面(如三血管切面)、三维/四维数据,并纳入病变严重程度评估。 - 技术整合与可解释性
需结合STIC等新技术提升动态分析能力,同时通过类激活图(Grad-CAM)等工具增强模型透明度,明确责任认定与伦理规范。
Fetal Heart Rate Analysis in Pregnancies Complicated by Gestational Diabetes Mellitus: A Prospective Multicentre Observational Study (BJOG: An International Journal of Obstetrics & Gynaecology 2025) (二区)
【核心目标】
本文探讨了妊娠期糖尿病(GDM)是否会导致胎儿出现特定的心脏表型,从而增加心律失常的风险。研究采用了一种非侵入性的腹部胎儿心电图(fECG)监测技术进行观察。
【研究对象】
招募了孕周大于20周的女性,包括38名GDM患者和58名健康孕妇(对照组),共计96名参与者纳入最终分析。
【数据采集】
使用Monica AN24监测仪在参与者家中进行整夜的腹部fECG记录。
【数据分析】
胎儿行为状态分类:根据FHR模式,将胎儿状态编码为1F(安静睡眠)和2F(活跃睡眠)等,因为记录在夜间进行,未使用超声辅助判断。
HRV分析:从fECG信号中提取R-R间期,计算SDNN和RMSSD。
心脏时间间隔分析:由两名研究人员独立标记信号平均后的fECG波形上的P、Q、R、S、T点,并测量PR、QRS、QT间期。
【主要研究结果】
- 胎儿心率(FHR)
在安静睡眠(1F)和活跃睡眠(2F)两种状态下,GDM组和对照组之间的胎儿心率没有发现显著差异。 - 心率变异性(HRV)
在安静睡眠(1F) 状态下,GDM组胎儿的SDNN显著高于对照组(中位数:12.56 ms vs. 8.58 ms)。这表明在安静睡眠时,GDM胎儿的整体心率变异性更高。 - 心脏时间间隔(CTIs)
GDM组和对照组胎儿的PR间期、QRS波时限和QT间期在调整了胎儿性别和母亲种族等因素后,均未显示出显著差异。这表明GDM并未对胎儿的心脏电传导系统产生明显影响。 - 与母亲BMI和血红蛋白(HbA1c)的相关性
负相关:母亲的BMI和HbA1c越高,胎儿的HRV(尤其是RMSSD)倾向于越低。
正相关:母亲的BMI和HbA1c越高,胎儿的心率(FHR)倾向于越快。
这些相关性在两种睡眠状态下均被观察到,说明母体代谢环境的紊乱(无论是否诊断为GDM)可能与胎儿自主神经功能失调有关。
【临床意义】
- 强调孕期血糖控制的重要性,良好控制可能减少对胎儿心脏的不良影响;
- 非侵入性fECG可作为高风险妊娠(如GDM、胎儿心脏肥厚等)的筛查工具。
Development and evaluation of deep learning models for cardiotocography interpretation (npj women’s health 2025) (二区)
【核心目标】
研究了如何利用深度学习技术来降低CTG解读的主观性,并系统评估了不同因素对模型性能的影响。
【论文的主要贡献】
- 系统评估了不同“金标准”标签的影响:比较了使用客观指标(脐带血pH值,异常定义为pH < 7.20)和主观指标(临床医生评估的1分钟Apgar评分,异常定义为Apgar < 7)来训练模型的效果。
- 探索了信号时间区间的重要性:分析了模型在间歇性CTG监测场景下的鲁棒性,即训练和测试所使用的信号时间段不同时模型的性能表现。
训练时间区间的影响 (图2a, 2b)
作者训练了多个模型,每个模型使用分娩前不同时间段的30分钟信号(如“最后30分钟”、“30-60分钟前”等)进行训练,但统一在“最后30分钟”的信号上进行测试。
对于pH预测模型 (图2a):直接在“最后30分钟”数据上训练的模型性能良好。但PT+FT策略取得了最佳性能。作者将此与临床实践联系起来,认为最接近分娩的信号与pH值最相关,而PT+FT让模型先学习一般特征,再专注于最相关的信息,从而提升了效果。
对于Apgar预测模型 (图2b):不同训练时间点模型的性能波动较大(误差棒更长),且PT+FT策略并未带来显著优势。这反映了Apgar评分作为标签的复杂性和不稳定性,模型难以找到与特定时间信号强关联的清晰模式。
模型对时间分布偏移的鲁棒性 (图2c, 2d)
所有模型都固定在“最后30分钟”的数据上训练,但测试时使用分娩前不同时间点(如“30-60分钟前”)的信号,以模拟间歇性监护。
pH模型的稳定性 (图2c):pH预测模型的性能在不同测试时间点上保持高度稳定(各点AUROC值接近,误差棒短)。作者强调,这证明了基于pH的模型非常适合间歇性监护场景,因为它能在分娩前的任意时间点提供可靠的预测。
Apgar模型的波动性 (图2d):Apgar预测模型的性能随测试时间点变化而有显著波动。作者指出,这揭示了Apgar模型对时间分布偏移的鲁棒性较差,限制了其在真实世界中间歇性监护的应用价值。
亚组分析与公平性 (图2e, 2f)
作者比较了基线模型(FHR+UC)和加入元数据的模型(FHR+UC+Metadata)在不同患者亚组(如基于信号缺失程度、分娩方式、母亲疾病等划分)中的性能(AUROC)。
性能差异的存在:分析发现,基线模型在不同亚组间存在性能差异。例如,对于pH预测,信号缺失率低的亚组性能远高于缺失率高的亚组。
元数据的双重作用:加入元数据后,某些性能差异得到缓解(如信号缺失亚组),但另一些差异却加剧了(如 demographic 亚组)。作者谨慎地指出,元数据并非总是有益的,甚至可能加剧模型的不公平性,这需要在部署前进行仔细评估。
元数据贡献的消融分析 (图2g)
该图显示了在基线模型(FHR+UC)中逐个加入特定元数据(如母亲年龄、胎粪污染等)后,模型AUROC的变化。
正面与负面影响:作者发现,加入“胎粪污染”会显著降低模型性能,而加入“母亲年龄”、“先兆子痫”等有轻微正面贡献,但不显著。
关键结论:作者强调,不能想当然地认为加入更多临床信息就能提升模型。必须对每个元数据属性的具体影响进行实证检验,有些信息可能是干扰而非帮助。