Yulong Niu

个人博客

清洗二代测序数据

Posted at — Jul 28, 2014

1. FastQC

简介FastQC是用于对二代测序数据质量快速检验的工具,可以输入fastq(fastq.gz)、sam或者bam文件。查看输出结果解释

平台:所有平台。

安装: 依赖Java,下载后直接安装使用。

快速运行

# 输出分析结果至特定文档
$ fastqc seqFile1 --outdir setFolder1

# 支持批量处理测序数据
$ fastqc seqFile1 seqFile2 seqFileN

# 查看帮助信息
$ fastqc --help

# 查看一共分析了多少个reads,比如fastqc文件为“accepted_filtered_fastqc.zip”
$ unzip -p accepted_filtered_fastqc.zip accepted_filtered_fastqc/fastqc_data.txt | \
      sed -n '7 p' | \
      awk '{print $3}'

2. Trim Galore!

简介Trim Galore!是对FastQCCutadapt的包装。可以处理Illumina、Nextera 3和smallRNA测序平台的双端和单端数据,包括去除adapter和低质量reads。

平台:Linux

安装:

# pip install cutadapt

快速运行

# 处理双端测序结果
$ trim_galore --quality 20 --phred33 --stringency 3 --length 20 --paired \
              --gzip --output_dir human_trimgalore \
              mySeq_1_1.fastq.gz mySeq_1_2.fastq.gz

重要参数解释

3. Trimmomatic

简介Trimmomatic是针对Illumina高通量测序平台设计的接头去除和低质量reads清洗软件。软件中包括有Illumina平台常见接头序列,可以很方便处理单端和双端RNA-seq数据。Trimmomatic也支持自己设计要去除的接头序列文件。

平台:Java跨平台使用

快速运行

# 处理双端测序结果
$ java -jar /path/trimmomatic-0.33.jar PE\
       -threads 12 -phred33 -trimlog mySeq_1-trim.log \
       mySeq_1_1.fastq.gz mySeq_1_2.fastq.gz \
       mySeq_1_1-trim.fastq.gz mySeq_1_1-unpair.fastq.gz \
       mySeq_1_2-trim.fastq.gz mySeq_1_2-unpair.fastq.gz \
       ILLUMINACLIP:/path/TruSeq3-PE.fa:2:30:10 \
       LEADING:3 \
       TRAILING:3 \
       SLIDINGWINDOW:4:15 \
       MINLEN:51

重要参数解释

更新记录

2016年9月10日