文章目录
- 介绍
- 代码
- 参考
介绍
理解驱动人类免疫差异的基因调控机制对于阐明免疫介导疾病易感性至关重要。单细胞基因组学的出现为追踪这些基因效应对基因调控的影响提供了必要的分辨率,从而揭示它们在细胞类型和特定环境条件下如何在免疫系统的整个连续过程中发挥作用。
对免疫变异和免疫介导疾病的机制理解需要将转录组数据与表观基因组特征相结合,以捕捉非编码变异对染色质的影响。由于缺乏来自外周血单个核细胞(PBMC)的大规模转位酶可访问染色质测序(scATAC-seq)数据集,以及现有资源对欧洲血统个体的偏向,研究进展受到了阻碍。我们构建了中国免疫多组学图谱(CIMA)来填补这些空白,为剖析中国人群免疫系统的调控架构提供了一个基础资源。结果
CIMA 是通过对 428 名中国成年人的 10,247,216 个外周血单个核细胞(PBMC)进行单细胞 RNA 测序(scRNA-seq)和单细胞 ATAC 测序(scATAC-seq)而开发出来的。通过对这些细胞进行迭代聚类和层次标注,确定了 73 种具有不同转录特征的免疫细胞类型,从而能够对与性别和衰老相关的分子变异进行系统分析。为了揭示调控机制,我们使用单细胞 ATAC 测序(scATAC-seq)绘制了 338,036 个候选顺式调控元件(cCREs)。通过将这些染色质图谱与单细胞 RNA 测序数据相结合,我们构建了连接 84,625 个调控区域和 13,645 个靶基因的增强子驱动基因调控网络(GRNs)。此外,我们还识别出了细胞类型特异性和与年龄相关的 GRNs,揭示了免疫细胞中的关键转录因子(TFs)。
通过将单细胞数据与全基因组测序(WGS)数据相结合,我们进行了细胞类型分辨的定量位点连锁(xQTL)图谱分析,并鉴定出了 9600 个 eGenes 和 52,361 个 caPeaks。我们还检测到了在单核细胞和 B 细胞的发育轨迹中沿动态表达位点连锁(eQTLs)的变化。将这些 xQTL 结果与全基因组关联研究(GWAS)的汇总统计数据相结合,我们确定了 1196 个在 68 种免疫细胞类型中基于汇总数据的孟德尔随机化(SMR)显著关联;其中 73.2% 的这些关联仅在单一细胞类型中显著。我们揭示了细胞类型特异性和共享的多效性关联,这些关联将基因变异与染色质可及性、基因表达、与炎症相关的循环蛋白以及疾病风险联系起来。例如,变异 rs34415530 表现出多效性作用,通过调节其对 CD4+ FOXP3+ 调节性 T 细胞中 IKZF4 表达的影响,同时影响循环白细胞介素-12B(IL-12B)蛋白水平和哮喘易感性。最后,我们开发了 CIMA-CLM,这是一种结合染色质序列和单细胞 RNA 测序数据的细胞类型特异性语言模型。该模型能够准确预测染色质可及性,并且与不同细胞类型的实验峰具有高度一致性。此外,计算机模拟突变证实了其在评估非编码变异效应方面的实用性。CIMA 提供了一个全面的、覆盖整个人群的免疫多组学资源,能够揭示免疫系统中细胞类型特异性的调控机制。我们的工作为深化对人类免疫多样性的理解以及剖析免疫介导疾病的遗传基础提供了框架。
代码
https://github.com/CIMA-Project/CIMA/tree/main
参考
- Chinese Immune Multi-Omics Atlas
- https://github.com/CIMA-Project/CIMA/tree/main