Yulong Niu

个人博客

RNA-Seq基本概念和数据分析流程

Posted at — Jul 22, 2014

RNA-Seq相比较基因芯片,价格虽然昂贵一些,精度和灵敏度更高。同时,在测序深度足够时,也可以检测mRNA选择性剪切类型。

1. 样品制备

2. 测序

Illumina双端测序动画图示

3. 分析流程

RNA-Seq主要分析流程

原始数据质量评估 -->
数据清洗(去除接头和低质量read) -->
清洗数据质量评估 -->
map测序结果至基因组(转录组) -->
map数据质量评估 -->
差异表达基因/选择性剪切/新基因/融合基因选择 -->
GO和pathway分析 -->
共表达网络分析

3.1 序列清洗

序列清洗主要是去除测序结果中的adapter或通用引物等。

以下使用Illumina HiSeq2000平台,对一个人类样本的RNA测序。统计各种序列清洗方法和选择后的reads数目。原始数据两端测序reads分别为54,492,228和54,492,228。

Method#Trimmed#Mapped*#Filtered
r50-notrim108,984,456109,278,38879,143,942
r50-nomixed-notrim108,984,456103,548,80079,143,942
r50-nomixed-trimmomatic-min20104,164,622116,315,39480,337,256
r50-nomixed-trimmomatic-min36101,548,172110,778,10879,248,896
r50-nomixed-trimmomatic-min5098,525,312106,659,98877,779,424
r50-nomixed-galore-min20107,097,862114,943,38683,039,928
r100-nomixed-galore-min20107,097,862114,944,67287,899,316
r165sd45-nomixed-galore-min20107,097,862114,201,36690,750,208
r165sd45G-nomixed-galore-min20107,097,862109,901,74293,477,122
r165sd45-nomixed-galore-min50104,869,208109,258,54489,329,672

*:使用TopHat2把序列mapped到hs19基因组。TopHat2默认设置为,如果一个reads能mapped到多个位点,则都会报道。因此数目可能比原始数据多。

4. 分析过程注意事项

  1. 参考转录组注释文件(GFF/GTF)的染色体编号,与基因组信息一致。比如都用chr1,或者都用1标识1号染色体。可能出现问题地方:

5. 基本概念

参考网址

更新记录

2017年9月16日