Yulong Niu

个人博客

TopHat/Cufflinks/CummeRbund使用介绍

Posted at — Jun 26, 2014

TopHatCufflinks和cummeRbund,被称为处理RNA-seq数据的“燕尾服(tuxedo)”。TopHat负责RNA-seq的reads映射比对到基因组,并且自动识别mRNA“内含子-外显子”剪切;Cufflinks擅长组装转录组和寻找差异表达基因(或转录起始位点TSS等);cummeRbund主攻数据可视化。

1. Tophat

简介TopHat是快速将RNA测序片段“对应(mapping)”到基因组上的工具,优势在于处理外显子间的剪切。内部首先使用bowtie或bowtie2把RNA测序片段“比对(alignment)”到基因组,之后再分析和鉴定剪切连接区域。

平台:Mac OS/Linux

快速运行

# 双端测序
$ tophat2 -p 8 -o human_1 \
          --mate-inner-dist 165 --mate-std-dev 45 --no-mixed \
          hg19 human_1.fastq.gz human_2.fastq.gz 

# 单端测序
$ tophat2 -p 8 -o human_1 hg19 human_1.fastq.gz

重要参数解释

后续操作

补充

简介Cufflinks是TopHat的下游工具,用于分析差异表达基因、差异转录起始位点、新基因和选择性剪切。一般可以分为三步:1. cufflinks对每个bam文件生成转录组;2. cuffmerge结合真实转录组和bam生成转录组,构建一个整合转录组;3. cuffdiff比较不同生物学样本,寻找差异表达基因。

平台:Mac OS/Linux

$ cufflinks -p 8 -g hg19_ensembl.gtf -b hg19.fa -M hg19_rRNAtRNAchrM -u \
            -o outPutLinks accepted_filtered.bam

重要参数解释

faux_reads_cufflinks.png

2.2 cuffmerge 快速运行

$ cuffmerge -p 8 -g hg19USCS_ensembl.gtf -s hg19.fa -o mergeFile assemblies.txt

重要参数解释

2.3 cuffquant 快速运行

$ cuffquant -p 14 -o quantOut -b hg19.fa \
            -M maskfile.gtf -u \
            merged.gtf h1.bam

重要参数解释

2.4 cuffdiff快速运行

# cuffdiff可以输入cuffquant生成的cxb文件或者原始的bam文件
$ cuffdiff -p 14 -o diffOut -b hg19.fa \
           -M maskfile.gtf -u \
           -L P,R merged.gtf h1.cxb,h2.cxb,h5.cxb h2.cxb,h4.cxb,h6.cxb

重要参数解释

3. CummeRbund

个人感觉CummeRbund不好用,不做介绍和讨论。

参考资料

更新记录

2015年6月10日