news 2026/4/23 12:25:50

转录组如何组装,3种主流方法快速入门贴--随笔022

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
转录组如何组装,3种主流方法快速入门贴--随笔022

转录组组装实战指南:3 种主流形式

转录组组装是高通量 RNA-seq 数据分析的核心环节,不同研究场景(有无参考基因组、研究物种类型)需选择适配的组装策略。本文梳理了Trinity 无参考组装、Trinity 有参考引导组装、Hisat2+Stringtie 参考基因组组装三种主流形式,全程保留原始代码与核心参数,仅做逻辑润色和实操解读,新手可直接复制运行。

01 Trinity 无参考基因组组装(De novo)

Trinity安装与使用-Trinity-v2.15.1(bioinfomatics tools-006)-CSDN博客

StringTie v2.2.3安装与使用-生物信息学工具25_stringtie安装-CSDN博客

梨泛转录组-文献精读145_epav 鉴定和表征是什么-CSDN博客

RNA-seq通用代码-生物信息学pipeline001_rnaseq分析代码-CSDN博客

rna_seq_pipeline.py-python002_python rna-seq-CSDN博客

适合无参考基因组 / 基因组质量差的物种(如非模式生物、新测序物种),也是真菌 / 细菌等小基因组的首选(需加特定参数),核心是基于 k-mer 拼接出完整转录本,后续可通过去冗余、筛选最长转录本优化结果。

1.1 核心参数说明

参数含义实操注意
--seqType fq指定输入序列格式为 fastq若为 fasta 格式则改为fa
--CPU 64调用 CPU 核心数按需调整,建议≥16,越多越快
--max_memory 500G最大使用内存小数据可设为 100G/200G,避免内存不足报错
--full_cleanup组装完成后删除中间文件节省磁盘空间,建议添加
--jaccard_clip高基因密度物种专用(真菌 / 细菌)小基因组必须加,避免过度拼接

1.2 不同测序数据的组装指令

(1)双端测序数据(最常用)
Trinity --seqType fq --left reads_1.fq --right read_2.fq --output trinity_tdn_out --CPU 64 --full_cleanup --max_memory 500G # 真菌/细菌小基因组需添加--jaccard_clip Trinity --seqType fq --left reads_1.fq --right read_2.fq --output trinity_tdn_out --CPU 64 --full_cleanup --max_memory 500G --jaccard_clip
(2)单端测序数据
Trinity --seqType fq --single reads.fq --output trinity_tdn_out --CPU 64 --full_cleanup --max_memory 500G
(3)单双端数据结合(特殊场景)

需先合并数据(合并方法参考:https://github.com/trinityrnaseq/trinityrnaseq/wiki/How-do-I-combine-reads%3F),再运行组装:

Trinity --seqType fq --single combined_reads.fastq --no_normalize_reads --run_as_paired --output rinity_tdn_out_denovo --CPU 64 --full_cleanup --max_memory 500G

1.3 组装后优化(关键步骤)

(1)去除冗余序列(CD-hit-est)

组装结果会存在重复转录本,需用cd-hit-est去冗余,参数-c 0.9表示序列相似度≥90% 即判定为冗余:

cd-hit-est -i trinity_tdn_out_denovo.Trinity.fasta -o new.fa -c 0.9 -n 10 -M 0 -T 0 1>cdhit.log 2>&1
  • -M 0:不限制内存使用;-T 0:自动调用所有可用 CPU;日志输出到cdhit.log,方便排查报错。
(2)提取 accession 号(后续注释用)
~/software/PASApipeline.v2.5.3/misc_utilities/accession_extractor.pl trinity_tdn_out.Trinity.fasta > tdn.accession
(3)统计组装结果(评估质量)

生成组装报告,包含转录本数量、长度分布、N50 等核心指标,是判断组装质量的关键:

~/miniconda3/envs/Trinity/bin/TrinityStats.pl trinity_tdn_out_denovo.Trinity.fasta > assembly_report.txt
(4)筛选最长转录本(构建 unigene)

同一基因会拼接出多个可变剪接本,筛选最长转录本作为 unigene,便于后续功能注释:

~/miniconda3/envs/Trinity/bin/util/misc/get_longest_isoform_seq_per_trinity_gene.pl trinity_tdn_out_denovo.Trinity.fasta > unigene.fasta

02 Trinity 有参考基因组引导组装(Genome Guide)

适合有高质量参考基因组的物种,先将 RNA-seq 数据比对到基因组,再基于比对结果组装,精度远高于无参考组装。

2.1 前置步骤:合并多样本比对结果

若有多个样本的 bam 文件,需先合并(提高组装完整性):

samtools merge -@ 48 -o rnaseq_merge.bam \ ERR392009.sorted.bam SRR7883198.sorted.bam SRR13870117.sorted.bam
  • -@ 48:调用 48 个 CPU 线程;替换为实际样本的 bam 文件名,需是排序后的 bam(sorted.bam)。

2.2 核心组装指令

Trinity --genome_guided_bam rnaseq_merge.bam --output trinity_GG_out --genome_guided_max_intron 100000 --CPU 48 --full_cleanup --max_memory 500G
  • --genome_guided_max_intron 100000:设置最大内含子长度为 100kb,适配大多数真核生物(植物 / 动物可按需调整,如植物设为 50000)。

2.3 去冗余优化

与无参考组装一致,去除冗余序列,提升后续分析效率:

cd-hit-est -i trinity_GG_out.Trinity-GG.fasta -o new.fa -c 0.9 -n 10 -M 0 -T 0

03 Hisat2+Stringtie 组装(参考基因组最优解)

Hisat2(序列比对)+ Stringtie(转录本组装)是有参考基因组时的黄金组合,比 Trinity 有参考组装更精准,尤其适合可变剪接分析、基因表达定量。

3.1 批量处理多样本(for 循环实操)

for sample in ERR392009 SRR7883198 SRR13870117 do echo "开始处理 $sample ..." ## Step1: Stringtie组装转录本(基于比对后的sorted.bam) stringtie ${sample}.sorted.bam -o ${sample}.rnaseq.gtf -p 64 ## Step2: 合并所有样本的gtf文件(构建统一转录本集) stringtie --merge -o stringtie_transcripts.gtf gtf_files.txt -p 64 ## Step3: 提取ORF(开放阅读框)信息(编码区预测) ### 3.1 提取cDNA序列 ~/software/TransDecoder-TransDecoder-v5.7.1/util/gtf_genome_to_cdna_fasta.pl \ stringtie_transcripts.gtf genome.fasta.masked >stringtie_transcripts.fasta ### 3.2 GTF格式转GFF3(适配TransDecoder) ~/software/TransDecoder-TransDecoder-v5.7.1/util/gtf_to_alignment_gff3.pl \ stringtie_transcripts.gtf >stringtie_transcripts.gff3 ### 3.3 提取最长开放阅读框 ~/software/TransDecoder-TransDecoder-v5.7.1/TransDecoder.LongOrfs \ -t stringtie_transcripts.fasta ### 3.4 预测编码区 ~/software/TransDecoder-TransDecoder-v5.7.1/TransDecoder.Predict \ -t stringtie_transcripts.fasta ### 3.5 生成基因组水平的ORF GFF3文件 ~/software/TransDecoder-TransDecoder-v5.7.1/util/cdna_alignment_orf_to_genome_orf.pl \ stringtie_transcripts.fasta.transdecoder.gff3 \ stringtie_transcripts.gff3 \ stringtie_transcripts.fasta \ > stringtie_transcripts.fasta.transdecoder.genome.gff3 ### 3.6 筛选完整编码区的基因GFF3 grep ">" stringtie_transcripts.fasta.transdecoder.cds \ |grep "complete" |sed 's#>##' |sed 's#\s.*##' \ > stringtie_accs.txt grep -f stringtie_accs.txt stringtie_transcripts.fasta.transdecoder.genome.gff3 \ >stringtie_trandecoder.cds.complete.gff3 echo "$sample 处理完成,日志保存到 ${sample}.log" done

3.2 关键步骤解读

  1. Stringtie 组装-o指定输出 GTF 文件(转录本结构注释),-p 64调用 64 线程;
  2. GTF 合并--merge参数整合多样本的转录本,消除样本间的组装差异,构建更完整的转录本集;
  3. ORF 预测:通过 TransDecoder 完成编码区预测,筛选complete(完整 ORF)的序列,是后续蛋白功能分析的基础;
  4. 格式转换:GTF 转 GFF3 是为了适配多数功能注释工具(如 MAKER、InterProScan)的输入要求。

04 三种组装形式对比与选择建议

组装形式适用场景优势劣势
Trinity 无参考无参考基因组 / 新物种无需基因组,通用性强组装精度低,冗余度高,耗时久
Trinity 有参考引导有参考基因组,追求便捷操作简单,兼容 Trinity 生态精度低于 Hisat2+Stringtie
Hisat2+Stringtie有高质量参考基因组组装精度最高,支持可变剪接 / 定量步骤稍多,依赖基因组注释质量

实操总结

  1. 无参考基因组:优先选 Trinity 无参考组装,务必加--jaccard_clip(小基因组)、后续去冗余 + 筛选最长转录本;
  2. 有参考基因组:首选 Hisat2+Stringtie,精度更高;若追求便捷,可选 Trinity 有参考引导组装;
  3. 核心参数:CPU 和内存按需调整,小数据(<100G)可降低内存至 100-200G,避免资源浪费;
  4. 质量评估:组装后务必运行TrinityStats.pl统计结果,重点关注 N50(越高越好)、转录本长度分布、完整 ORF 比例。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 12:25:50

英雄联盟回放分析隐藏技巧:ROFL-Player效率倍增实战指南

英雄联盟回放分析隐藏技巧&#xff1a;ROFL-Player效率倍增实战指南 【免费下载链接】ROFL-Player (No longer supported) One stop shop utility for viewing League of Legends replays! 项目地址: https://gitcode.com/gh_mirrors/ro/ROFL-Player 你是否曾在复盘比赛…

作者头像 李华
网站建设 2026/4/23 12:25:48

[UNT403A] EMMC安装失败问题技术指南

[UNT403A] EMMC安装失败问题技术指南 【免费下载链接】amlogic-s9xxx-armbian amlogic-s9xxx-armbian: 该项目提供了为Amlogic、Rockchip和Allwinner盒子构建的Armbian系统镜像&#xff0c;支持多种设备&#xff0c;允许用户将安卓TV系统更换为功能强大的Armbian服务器系统。 …

作者头像 李华
网站建设 2026/4/23 9:16:20

InstructPix2Pix效率对比:手动修图1小时 vs AI 1分钟

InstructPix2Pix效率对比&#xff1a;手动修图1小时 vs AI 1分钟 你有没有过这样的深夜&#xff1f; 一张电商主图反复修改了7遍&#xff0c;PS图层堆到53层&#xff0c;可客户突然说&#xff1a;“把模特眼镜换成金丝边的&#xff0c;背景光感再柔和一点&#xff0c;但别动她…

作者头像 李华
网站建设 2026/4/3 3:03:34

如何高效备份Instagram内容?社交媒体批量获取工具全解析

如何高效备份Instagram内容&#xff1f;社交媒体批量获取工具全解析 【免费下载链接】douyin-downloader 项目地址: https://gitcode.com/GitHub_Trending/do/douyin-downloader 开篇痛点场景 场景一&#xff1a;数字内容创作者的困境 摄影博主李明每月需要备份200条…

作者头像 李华
网站建设 2026/4/21 12:43:08

实测效果:FLUX.2-Klein-9B在图片编辑中的惊艳表现

实测效果&#xff1a;FLUX.2-Klein-9B在图片编辑中的惊艳表现 你有没有试过——只用一句话&#xff0c;就把一张普通街拍里的人物外套换成皮夹克&#xff0c;卫衣染成荧光绿&#xff0c;还在袖口精准添加一行小字“FLUX.2-klein-base-9b-nvfp4”&#xff1f;不是靠图层蒙版、不…

作者头像 李华