news 2026/4/23 15:23:35

【文献分享】vConTACT3机器学习能够实现可扩展且系统的病毒分类体系的构建

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【文献分享】vConTACT3机器学习能够实现可扩展且系统的病毒分类体系的构建

文章目录

    • 介绍
    • 代码
    • 参考

介绍

尽管病毒生态基因组学扩大了对病毒世界的探索范围和理解程度,但现有的分类工具在分类学分辨率方面存在不足,无法适用于现代基于发现的数据集或对先前未知的序列空间进行分类。在此,我们开发了 vConTACT3——一个基于机器学习的工具,它提高了病毒分类的可扩展性和准确性。通过优化基因共享阈值并利用适应性的、特定领域的分界线,vConTACT3 扩展了分类范围,涵盖了六个正式认可的领域中的四个,对真核和原核病毒进行了分类,并建立了从属属到属的准确层次分类体系。具体而言,vConTACT3 在 35,545 个公共原核病毒基因组和 13,524 个公共真核病毒基因组上分别实现了超过 95%的与官方分类的吻合度,超过了 vConTACT2 在大多数领域的表现,同时还能对先前未被描述的分类单元进行独特分类,并且处理速度更快。vConTACT3 的应用能够快速、自动且系统地为数以万计的未分类分类单元提供分类归属;评估病毒序列空间,以揭示相较于现有分类等级而言更少的分类层级支持情况,并找出病毒界中存在分类学难题的区域。


a. 三款 vConTACT 工具系列之间功能的概述。b. 网络及其组成部分的概念性概述。网络(也称为图)本质上由一个节点(也称为顶点)通过一条边(也称为路径)连接到另一个节点构成。vConTACT3 中的节点是基因组,而 vConTACT3 中的边则是由共享基因的数量以及转换为基因组间相似性得分来定义的。每个网络都被划分为 CC(连通组件),它是图中节点的一个子集,其中任意两个节点之间都通过一条边相连,并且不与该子集之外的任何节点相连。最大的连通组件被称为 LCC(最大连通组件),包含网络中的最多节点数。在这些连通组件内有簇(用蓝色和橙色突出显示),这些簇通常通过一种算法辅助的正式统计方法来定义。

病毒在各种独立的生态系统(例如海洋1、2、3、土壤4、5)以及与宿主相关的生态系统(例如植物6、反刍动物7、8 以及人类9、10)中,正日益被视为重要的生态和进化因素。然而,由于病毒的生活方式多样,以及可能存在的众多不同基因组结构(即单链或双链、DNA 或 RNA),对其进行正式的分类工作颇具挑战性,仍存在诸多障碍。
首先,不同病毒序列空间(即病毒世界)中的进化速率存在差异,这使得无法制定适用于所有领域的统一划分标准,从而导致目前国际病毒分类委员会(ICTV)所认可的分类单元呈现出一种杂乱无章的格局(如物种到领域)。这使得在极其不同的病毒谱系之间比较类似的分类等级变得十分困难。其次,ICTV 最近公布了 15 个分类等级(从物种到领域),但截至目前,这 14690 个被 ICTV 标注的病毒物种中没有一个被赋予了等级,其中“子”等级的标注(子领域、子纲、子目等等)是可选的,并且在这些分类单元中并未被使用,有三分之二的分类单元并未进行此类标注。此外,对所采样的病毒世界进行的全球性调查尚未评估数据在多大程度上支持建立 15 级结构的必要性。最后,病毒分类并非是静态的,而是一个不断努力的过程,旨在反映当时可用的数据。由于地球上约 1031 种病毒尚未完成测序,当前的分类描述是基于地球病毒世界中的一小部分得出的。例如,即便是规模最大的病毒基因组资源(综合微生物基因组/病毒资源(IMG/VR)15)也仅包含约 1530 万个病毒基因组片段,这与地球上存在的病毒数量相比,差距巨大,而且国际病毒分类委员会(ICTV)的分类仅适用于 IMG/VR 序列的不到 0.01%。尽管目前尚不清楚这 1031 个病毒颗粒将代表多少种病毒“类型”,但病毒调查(尤其是在新研究的生态系统中)通常会发现一些无法在较低分类等级上进行分类的新病毒,这表明我们还有很长的路要走,才能捕捉到地球上存在的众多病毒基因组形式。
目前,尽管国际病毒分类委员会(ICTV)达成共识认为,基于基因组的进化框架是构建通用病毒分类体系所必需的16,17,18,19,但目前尚无能够实现这一愿景的统一工具或平台。虽然有一些工具能够将新序列归入已知的分类群中,但由于这些工具缺乏底层规则集或统计框架,它们无法在需要时创建新的分类群。例如,使用“特征基因”(一组病毒共有的基因,但在整个病毒界中并非普遍存在)20,21,22 或其翻译产物进行序列比对和分析以检测基因组范围内的共性基因内容(VirClust23)、基于模式的隐马尔可夫模型或蛋白质家族(GRAViTy24、VPF-Class25、geNomad26),或者基于基因组的信号(例如,VIRIDIC27、PASC28)等工具。
将层次聚类与核心蛋白质或基因标记检测相结合的最新研究方法提供了注释和接近参考的分类体系(VirClust23、Cenote-Taker29),但它们在可扩展性方面存在局限性,并且无法创建新的分类单元。其中,只有 geNomad 具有可扩展性,因为它使用了庞大的标记基因数据集,对于接近参考的基因组,其在家族级别上的分配准确率已得到证实26,但较低级别的分类单元则颇具挑战性,而且它无法创建新的分类单元。迄今为止,基因共享网络已被用于在序列空间中识别具有统计支持的“病毒簇”30(VCs)。这种方法具有可扩展性,并能够创建可与 ICTV 分类体系相比较的新分类单元,并且在双链 DNA(dsDNA)噬菌体以及单个等级(属)方面进行了广泛基准测试,其能力已被正式化为工具(vConTACT31、vConTACT232),这些工具在对这些噬菌体进行详细分类以及大规模宏基因组研究中发挥了关键作用33。然而,即使是 vConTACT2 也存在局限性,这些局限性极大地阻碍了病毒的发现。
我们先前开发的 vConTACT 和 vConTACT v.2.031、32(简称 vConTACT2)是基于共享基因内容生成的病毒分类群,其分类结果大致符合属级别的分组情况,且与主要属于尾状双链 DNA 腺病毒科(现称作 Caudoviricetes,以前称为 Caudovirales)的属类病毒进行了对比验证。ClusterONE(具有重叠邻域扩展的聚类)算法相较于 vConTACT 在分类的敏感性和准确性方面有了显著提升,这是因为该算法能够形成重叠的聚类,并且作者还实现了网络和分类学置信度的分级机制。将 MCL35(用于 vConTACT)替换为 ClusterONE(在 vConTACT2 中使用)能够更好地区分异常基因组、重叠的病毒组以及混合属的异质性聚类。然而,分类仅限于属级别,因为定义了属级别的阈值,而 15 级的正式化则较晚完成。

代码

https://bitbucket.org/MAVERICLab/vcontact3/src/master/

参考

  • Machine learning enables scalable and systematic hierarchical virus taxonomy
  • https://bitbucket.org/MAVERICLab/vcontact3/src/master/
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 14:27:20

【单片机毕业设计】【dz-996】物联网的家居环境预警监测系统

一、功能简介项目名:物联网的家居环境预警监测系统 项目编号:dz-996 单片机类型:STM32F103C8T6 具体功能: 1、通过MQ-2检测烟雾值,超过设置最大值进行声光报警,并开启通风风扇。 2、通过MQ-135检测有害混合…

作者头像 李华
网站建设 2026/4/23 11:38:40

LangFlow中的缓存机制是否存在?减少重复请求开销

LangFlow中的缓存机制是否存在?减少重复请求开销 在构建AI应用的实践中,一个看似微不足道却频繁出现的问题是:为什么我两次输入完全相同的问题,系统还要重新调用大模型、再次计费、再次等待响应? 尤其是在使用像 Lan…

作者头像 李华
网站建设 2026/4/15 20:25:08

【Matlab】刃边法计算mtf

刃边法(Knife Edge Method)是一种常用的光学系统调试方法,用于测量光学系统的调制传输函数(MTF)。MTF是描述光学系统对不同空间频率的图像细节的传输能力的指标。 在Matlab中,可以使用以下代码来计算MTF,并对其进行详细说明和扩展: % 读取图像 image = imread(test_i…

作者头像 李华
网站建设 2026/4/23 11:28:15

人格品牌化与智能名片链动2+1模式商城小程序源码的融合应用研究

摘要:在数字化消费浪潮中,人格品牌化已成为企业突破同质化竞争的核心策略。本文以智能名片链动21模式商城小程序源码为技术载体,构建“人格赋能-社交裂变-价值共生”的理论框架,通过分析用户触达、信任构建与品牌资产沉淀的动态机…

作者头像 李华
网站建设 2026/4/23 12:53:17

药店管理|基于springboot + vue药店管理系统(源码+数据库+文档)

药店管理 目录 基于springboot vue网上订餐系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于springboot vue药店管理系统 一、前言 博主介绍:✌️大…

作者头像 李华
网站建设 2026/4/23 13:12:21

34、Windows Store App开发:数据管理、认证与布局设计全解析

Windows Store App开发:数据管理、认证与布局设计全解析 在当今数字化的时代,Windows Store App的开发涉及到多个关键方面,包括数据管理、认证机制以及布局设计等。下面将详细探讨这些重要的技术点。 1. 数据存储与访问策略 在开发Windows Store App时,选择合适的数据访…

作者头像 李华