news 2026/4/23 17:08:27

【文献分享】LyMOI一种结合深度学习和大规模语言模型的用于解读组学数据的工作流程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【文献分享】LyMOI一种结合深度学习和大规模语言模型的用于解读组学数据的工作流程

文章目录

    • 介绍
    • 代码
    • 参考

介绍

通过对海量组学数据进行分子全景分析,可以识别细胞中的调控网络,但还需要进行机制解读和实验验证。在此,我们结合深度学习和大型语言模型推理,开发了一种用于组学解读的混合工作流程,称为 LyMOI。LyMOI 采用了 GPT-3.5 来进行生物学知识推理,并使用了一个包含图卷积网络(GCN)的大型图模型。该大型图模型整合了进化上保守的蛋白质相互作用,并通过分层微调从多组学数据中预测特定环境下的分子调节因子。然后,GPT-3.5 生成机器的推理链(CoT),以机制上解读其在生物系统中的作用。以自噬为例,LyMOI 机制性地解读了 1.3TB 的转录组、蛋白质组和磷酸化蛋白质组数据,并扩展了对自噬调节因子的了解。我们还表明,LyMOI 重点突出了两种人类癌蛋白,CTSL 和 FAM98A,在使用抗肿瘤药物双硫仑(DSF)治疗时增强了自噬作用。在体外抑制这些基因会减弱 DSF 介导的自噬,并抑制癌细胞的增殖。令人惊讶的是,使用 Z-FY-CHO(一种此前用于预防 SARS-CoV-2 感染的 CTSL 特异性抑制剂)进行的 DSF 治疗,在体内显著抑制了肿瘤的生长。


随着高通量测序技术的迅速发展,包括转录组学、蛋白质组学和磷酸化蛋白质组学在内的“组学”技术已成为在各种生物系统中描绘整体分子全景的常用策略之一1,2。为了对海量的组学数据进行解读,诸如差异表达分析、富集分析和网络建模等经典方法已被广泛采用3,4。这些解读主要基于分子变化的统计学意义,然而关于生物学相关性的结果却远不尽如人意5,6。尽管已经开发了许多计算方法来提高组学数据挖掘的生物学相关性7,8,9,但这些数据背后的生物学机制仍需要进行解释和验证。
近来,自然语言处理(NLP)领域的进步为从句子中理解复杂概念提供了机会,从而促成了通过有效的人工智能交互实现的科学突破10。聊天生成预训练转换器(ChatGPT/GPT-3.5)11 继承了其前辈的成果,同时在自然语言理解和生成方面展现出了进步。ChatGPT 的训练涵盖了广泛的生物学和医学科学;然而,其知识库仅限于截至 2022 年 1 月可用的数据,这可能在解决前沿科学问题时带来挑战。为了弥补这一差距,诸如提示工程和链式思考(CoT)技术等方法强调了“人-机器协作”的方式 12、13、14。
在本研究中,我们开发了一个名为“大规模混合模型用于组学解读”(LyMOI)的平台,该平台将深度学习和大型语言模型(LLM)推理整合到一个单一框架中。LyMOI 工作流程以机制性方式对感兴趣的分子(MOIs)及其在不同生物系统中的分子关联进行推理,以细胞过程自噬为例(15,16)。通过提示工程,我们首先使 GPT-3.5 生成 56,980 对提示-生成组合(PGP)。随后,我们使用已报道的自噬调节基因对 1.3TB 的自噬相关多组学数据进行模型预训练。经过微调后,LyMOI 的预测在生物学相关性方面优于差异表达分析和富集分析。四个酵母自噬调节因子,Gin4、Elm1、Rvs167 和 Ste50,以及它们与核心自噬机制的关联均得到了实验验证,这支持了 LyMOI 的准确性。特别地,两种人类癌蛋白,CTSL 和 FAM98A,被推断为触发由二硫代甲酸盐(DSF)(一种抗肿瘤药物)触发的自噬所必需的,而 DSF 是一种抗肿瘤药物。进一步的实验表明,CTSL 和 FAM98A 通过在 DSF 处理后促进自噬活性来促进癌细胞的存活。令人意外的是,DSF 与 Z-FY-CHO(一种此前用于预防 SARS-CoV-2 感染的 CTSL 特异性抑制剂)联合使用,在体内对肿瘤生长表现出更强的抑制作用。此外,LyMOI 的扩展性被评估用于解释来自其他 6 个生物系统的整体和单细胞组学数据,包括砷毒性、乳腺癌转移、自闭症谱系障碍、人类自然杀伤细胞、人类皮质发育细胞和小鼠胚胎组织细胞等。总的来说,我们不仅开发了一个嵌入了 LLM 的用于组学解释的平台,具有生物学家般的常识,而且还优先考虑了癌症治疗的联合疗法。此外,我们提供了一种将图学习和 LLM 推理相结合的方法,以促进组学解释。我们预期这种人工智能与人类交互的策略能够为各种复杂的系统提供新的生物学和生物医学见解。

代码

https://github.com/BioCUCKOO/LyMOI

参考

  • A deep learning and large language hybrid workflow for omics interpretation
  • https://github.com/BioCUCKOO/LyMOI
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 9:56:15

‌别踩这5个AI测试坑!90%的团队都中招了‌

AI测试的挑战与陷阱的普遍性随着AI技术在各行业的渗透,软件测试从业者面临着前所未有的挑战。AI系统的复杂性、动态性和数据依赖性,使得传统测试方法难以覆盖所有风险点。调查显示,90%的测试团队在AI项目中踩过类似陷阱,导致模型偏…

作者头像 李华
网站建设 2026/4/23 9:58:34

5.5 邮件智能处理系统:告别收件箱混乱

5.5 邮件智能处理系统:告别收件箱混乱 在数字化办公时代,电子邮件仍然是企业内外沟通的重要渠道。然而,随着业务规模的扩大和沟通频率的增加,大多数职场人士每天都需要处理大量的电子邮件,收件箱常常被各种信息淹没。重要邮件被忽略、重复性回复耗费大量时间、邮件分类整…

作者头像 李华
网站建设 2026/4/23 11:20:24

5.6 合同审查专家:AI帮你发现潜在法律风险

5.6 合同审查专家:AI帮你发现潜在法律风险 在商业活动中,合同是确立各方权利义务关系的重要法律文件,其条款的严谨性和完整性直接关系到企业的利益和风险控制。然而,传统的合同审查工作高度依赖专业律师的经验和细致的人工审阅,不仅耗时耗力,而且容易因人为疏忽遗漏关键…

作者头像 李华
网站建设 2026/4/23 9:58:36

网络安全的创新方向(非常详细),零基础入门到精通,看这一篇就够了_网络安全创新工作

文章目录 01、AIGC数据安全02、AIGC安全运营03、AIGC开发安全05、AIGC自动化渗透测试06、AIGC邮件安全07、认知安全08、大模型安全09、网络安全度量10、安全态势管理 零基础入门网络安全/信息安全 【----帮助网安学习,以下所有学习资料文末免费领取!----…

作者头像 李华
网站建设 2026/4/20 11:24:37

AI获客系统在客户获取中的效果分析

Ai获客系统的基本概述什么是客户获取系统?客户获取系统就是帮助企业找到、吸引和留住潜在客户的利器。通过智能获客软件,企业能更轻松地管理销售流程,提升客户转化率。我们坚信,结合人工智能销售助手的能力,这些系统就…

作者头像 李华