北京大学王斌研究员团队与国内外多学科团队合作,首次尝试整合人群环境混合暴露数据与生物知识网络信息,建立了针对行体外受精-胚胎移植(In vitro fertilization and embryo transfer, IVF-ET)妇女早期妊娠丢失(Early pregnancy loss, EPL)的机器学习预测模型。该模型可实现EPL精准预测,同时为环境混合暴露驱动的EPL提供丰富的生物学解释(图1)。
图 1. 图文摘要
论文类型:Article
第一作者:任梦圆(北京大学)
通讯作者:王斌(北京大学)
期刊:Environmental Science & Technology,IF2024 = 11.3,中科院1区
论文信息:
Mengyuan Ren, Tianxiang Wu, Han Zhang, Shuo Yang, Lu Zhao, Lili Zhuang, Qun Lu, Xikun Han, Bo Pan, Tiantian Li, Jingchuan Xue, Yuanchen Chen, Michael S. Bloom, Mingliang Fang, Bin Wang*. Using Environmental Mixture Exposure Triggered Biological Knowledge-1 Driven Machine Learning to Predict Early Pregnancy Loss. Environmental Science & Technology, 2025, https://doi.org/10.1021/acs.est.5c05389
全文链接:https://pubs.acs.org/doi/10.1021/acs.est.5c05389
据世界卫生组织(WHO)统计,全球不孕症患病率约17.5%,已成为重要生殖健康问题。尤其在中国,近年新生儿的年出生数快速下降,其中部分原因与不孕不育有关。尽管体外受精-胚胎移植(IVF-ET)已被广泛应用于不孕夫妇作为主要治疗手段,仍有相当比例的患者未能成功受孕,对不孕夫妇及其家庭带来了巨大的经济和社会负担。越来越多的证据强调,环境暴露会影响与不孕相关的生殖功能障碍。然而,由于现实世界中污染物之间存在复杂的关联模式、相互作用及混合效应,对其进行系统研究仍面临重大挑战。为应对这些挑战,识别敏感生物标志物并开发稳健的预测模型,以评估IVF-ET过程中早期妊娠丢失(EPL)的风险,显得尤为关键。机器学习(Machine learning,ML)算法的极速发展为这一目标提供了有前景的解决方案,将有助于提供早期诊断,并为干预措施争取时间窗口,从而减轻对女性和胚胎的损害。迄今为止,一些研究已利用临床和生化检测记录建立了针对IVF-ET结局和EPL的预测模型。即便如此,将环境暴露纳入EPL预测模型的研究仍然稀缺,尽管已有大量证据表明其与IVF-ET结局密切相关。此外,现有模型难以揭示混合暴露背后的复杂作用机制,并且在生物学解释方面存在局限。
组学技术的发展为理解污染物与EPL之间的生物学机制提供了可行途径,但开展大规模组学研究在时间和经费上都代价高昂。作为替代,生物知识图谱驱动网络(Biological Knowledge Graph-driven Network,BKGN)能够高效利用高质量数据库中的验证数据,通过已知的靶点和通路连接化学暴露与不良健康结局。我们先前的研究已建立了用于IVF-ET结局的 BKGN,表明其可系统性地解释环境暴露如何导致胚胎植入失败。凭借其在刻画生物网络信息方面的强大能力,BKGN还可应用于蛋白-配体相互作用预测、药物治疗靶点、以及化学毒性评估。这些应用凸显了BKGN在提高模型性能的同时,提供明确生物学解释的独特优势。就化学物而言,BKGN的应用主要集中在毒性预测和暴露风险评估,而在疾病风险预测方面的应用有限。此外,高质量数据的获取通常需要长期随访和高成本的实验分析,这往往导致样本量有限。我们认为,在BKGN框架下,小样本学习可在一定程度上应对这些挑战。然而,将基于环境暴露物质的BKGN与基于人群个体的环境健康研究相结合,并在生物网络背景下评估化学暴露所引发的扰动,仍然存在困难。
在本研究中,研究团队构建了一个结合机器学习与BKGN的框架,将个体水平的环境暴露与BKGN相融合。通过对环境暴露场景进行了特征工程处理,并采用两阶段特征选择策略识别关键暴露和通路特征,随后对模型性能进行了评估与比较。研究总体设计见图 2。既往研究(包括我们的工作)发现,金属/类金属与(全氟和多氟烷基物质)PFAS可能与EPL风险相关。近期研究还提示,金属与PFAS的联合效应可能影响人类健康,例如心血管疾病与抑郁症。因此,本研究以这些污染物为例,作为目标混合暴露,检验所提出框架的性能。本研究旨在利用混合暴露以及BKGN提高IVF-ET女性EPL风险的预测能力,并通过所建立的模型识别关键环境暴露及相关生物通路,从而为理解其潜在生物学过程提供机制性见解。
图2: 本研究流程图。建立了一个基于生物知识驱动的机器学习框架,将环境暴露与知识图谱驱动的生物网络(BKGN)相结合。针对不同的环境暴露场景进行了特征工程处理。采用基准测试方法来确定所使用的算法。随后应用两阶段特征选择策略,识别关键的环境暴露和通路特征。通过堆叠集成方法建立具备生物学解释能力的BKGN,并对模型性能进行评估和比较。
主要发现:
(1)环境混合暴露场景非常复杂,亟需构建BKGN描述“暴露-生物学靶点-早期妊娠丢失”网络:本研究人群中,各环境暴露之间普遍显著相关,强调了真实场景下环境混合暴露的复杂性。本研究构建了“暴露-基因本位(GO)-疾病”和“暴露-蛋白-疾病”生物网络(BKGN),进一步揭示了环境混合暴露与生物学靶点/通路之间的复杂关系(图3)。BKGN随后被转化为Boolean矩阵,进而使用特征工程方法,结合人群个体环境混合暴露数据,构建基于BKGN的生物通路特征。
图3: 环境暴露特征及“暴露–通路–疾病”网络。(A) 环境暴露与早期妊娠丢失(EPL)之间的相关性及其相互关系。节点大小表示各暴露与EPL之间Spearman相关性的-log10(P)值;边表示暴露之间显著的相关性(P < 0.05)。(B)暴露–基因本位(Gene Ontology)–疾病网络。边表示暴露、GO通路与EPL之间存在联系。节点大小表示每个节点(暴露或GO通路)所连接边的数量。(C)暴露–蛋白–疾病(EPD)网络。边表示暴露、蛋白位点与EPL之间的联系。节点大小表示每个节点(暴露或蛋白)所连接边的数量。图中仅展示连接数最多的前十个暴露/GO/蛋白。
(2)利用基准测试(Benchmarking)策略推举最优算法:本研究采用5折交叉验证结合基准测试,结合多种模型指标,评估并比较了多种常见的机器学习算法在不同暴露场景和模型(GO整合模型、蛋白整合模型、以及参照模型)中的综合表现(图4)。总体看,极致梯度提升(XGBoost)算法同时具备稳健和良好的预测性能;XGBoost也被选为下游模型的唯一算法,对不同暴露场景下的暴露和生物通路信息做特征选择,以及最终模型构建。
图4: 使用基准测试筛选用于BKGN模型的算法。本研究采用六种候选算法,包括决策树、朴素贝叶斯、支持向量机(SVM)、随机森林(Random forest)、极致梯度提升(XGBoost)以及轻量梯度提升机(LightGBM),以评估并比较它们在不同暴露场景和知识驱动特征数据下的整体模型性能。研究提出了两类知识驱动模型(即GO整合模型和蛋白整合模型),同时构建了一个不包含BKGN数据的参考模型。模型性能评估共采用五个指标,包括准确率(ACC)、真阳性率(TPR)、真阴性率(TNR)、阳性预测值(PPV)和阴性预测值(NPV)。理论上,所选算法应在不同暴露场景和知识驱动特征数据下均表现出良好的整体性能。
(3)构建基于BKGN的EPL预测模型:本研究使用了堆叠泛化(Stacked Generalization,SG)策略,整合多种环境混合暴露场景,构建了最大程度还原真实场景的BKGN-ML模型。研究发现,与参照模型相比(AUC = 0.819),GO整合模型的模型预测性能显著提升(AUC = 0.876);并且,稳健性分析结果验证了GO整合模型预测性能的优越性,尤其在小样本场景中。更重要的是,BKGN-ML模型提供了生物学可解释。例如:研究发现,在复杂场景中,取卵日妇女血清硒与铬水平对EPL风险有较大的贡献;其中,细胞群增殖分化和凋亡过程、炎症反应可能为潜在生物学机制(图5)。
图5: 基于知识驱动的堆叠泛化(SG)模型用于预测早期妊娠丢失(EPL)。(A) 建立了两种知识驱动模型,并与参考模型进行比较,使用曲线下面积(AUC)作为评价指标。(B) 不同 SG 模型在各组10折bootstrapping子样本下的平均(标准差)AUC值。X轴表示子样本数据相对于总数据集(N = 116)的百分比,Y轴和点表示平均AUC值,误差条表示标准差。†:P < 0.05;‡:P < 0.01。(C) SG 模型集中筛选出的特征,包括基础模型中的集成预测特征以及基础模型原本识别的特征。为展示清晰,仅对排名靠前的特征进行了着色,并用文字及星号标注。(D) 基于知识驱动模型的生物学解释。每个节点代表在 SG 模型中识别的特征,节点大小反映该特征的相对重要性,连线表示 BKGN 中已知的特征间连接关系。
优势与创新:
(1) 本研究基于一个既有的IVF-ET女性前瞻性队列开展,纵向收集了促排卵前及取卵期间的头发、血清和卵泡液样本。该队列提供了具有明确时间序列的全面暴露特征。
(2) 借助“ExposomeX” 平台的EBIO模块,我们建立了用于EPL的BKGN,全面描绘了环境暴露所引发的生物学扰动图景。
(3) 我们首次将BKGN信息创新性地整合到个体水平的暴露特征中,开发了BKGN机器学习框架。该框架的优势在于:
· 以低成本和在小样本条件下依然稳健的性能,提供复杂且定量的环境暴露对 EPL 风险影响的生物学解释;
· 在复杂暴露场景中优先识别候选生物标志物,为未来的生物学实验验证和研究提供目标;
· 作为 BKGN在多学科研究中的开创性应用,为提升模型性能提供了新的解决方案,尤其在环境健康领域具有重要价值。
总结与展望:
本研究提供了一种可扩展且具备可解释性的分析方法,用于连接现实世界中的化学混合物与不良生殖结局。通过将基于生物学知识的知识图谱与暴露数据相结合,我们的框架揭示了环境污染物(如PFAS和金属/类金属)可能如何干扰早期妊娠的作用机制。研究结果强调了在生殖流行病学中建立“混合物敏感”的毒理模型的重要性,并支持制定有针对性的监管策略,以降低复杂环境暴露对生殖健康带来的风险。BKGN模型识别出了关键暴露(如血清硒和铬),并阐明了与EPL相关的生物学扰动,包括细胞增殖受抑和细胞变化被触发等。这些发现为后续验证性研究奠定了基础,旨在确认并进一步阐释此前未被认识的混合效应。与此同时,BKGN模型结合了个体水平的混合暴露特征与源自基因本体注释和蛋白互作的化学特异性生物学信息,在小样本条件下依然展现出稳健的预测精度,展现了BKGN的新潜力,并突显其在提升模型性能和增强预测模型生物学可解释性方面的显著优势。这种新方法具有广泛的应用前景,特别适用于样本量有限、基于证据的“暴露组–生物网络”研究背景下的环境流行病学研究。
致谢:
感谢中国队列共享平台环境暴露与人类健康工作组(http://chinacohort.bjmu.edu.cn)提供合作平台。
作者简介:
王斌
北京大学公共卫生学院生育健康研究所,长聘副教授/研究员。
主要研究方向为环境健康,暴露组学大数据与人工智能。采用多学科研究方法揭示环境污染暴露对人群生育健康的影响及机制,构建健康风险评价模型。迄今主持国家自然科学面上和青年基金4项,骨干参与国家重点研发项目3项。以第一或通讯作者在Environ Health Persp、Environ Sci Technol、The Innovation等国际权威期刊发表论文共65篇(H指数=45,他引6500余次)。担任环境健康领域TOP期刊Environ Sci Tech副主编,参与多个国内外知名期刊的编委工作(The Innovation、Environ Int、Environment & Health、Eco-Environmental Health、China CDC Weekly和“环境卫生学杂志”)。开设本科生教改课程“暴露组学”,全球健康国际高端公共卫生硕士课程“Environment & Health”。担任中国队列共享平台“环境与人群健康”组长,环境诱变剂学会环境与生育健康专委会副秘书长。获得北京预防医学会科技二等奖和“全国科技系统抗击新冠疫情优秀个人”称号。
任梦圆
北京大学公共卫生学院(本科、硕士、博士),博士毕业于北京大学生育健康研究所,现为美国埃默里大学公共卫生学院博士后。
主要研究方向:人体混合环境污染暴露的生殖健康风险评价,擅长基于多组学数据构建生殖健康风险评价及预测模型。迄今以第一作者身份在The Innovation (IF = 25.7)、Environmental Science & Technology(IF =11.3),Environment International(IF = 9.7)等期刊发表论文8篇。以项目参与成员身份参加国家自然科学基金面上项目、国家科技部重点研发计划、国家科技部政府间国际科技创新合作项目共5项。ExposomeX平台(http://www.exposomex.cn)开发核心骨干成员。担任环境健康领域TOP期刊Environmental Health Perspective、Environmental Science & Technology、Environment International、Environmental Pollution、以及Environment & Health期刊审稿人。2024年Environmental Health Perspective Top Peer Reviewer。