其它

测序数据质控界的宠儿-Trimmomatic

一个优质的测序结果,除了倚仗技术娴熟的实验人员和稳定的测序仪器,更重要的是要有一款集能力和才华于一身的质控软件。高通量测序下机的原始数据raw reads中存在一些低质量数据、接头以及barcode序列等,为消除其对后续分析准确性产生的影响,在数据下机以后对原始数据进行质控处理就成了至关重要的环节。今天,小奥要给大家介绍的就是数据质控界的宠儿——Trimmomatic软件。

Trimmomatic 简介

Trimmomatic软件,2014年首次发表在Bioinformatics期刊上,是一款专门对Illumina平台测序产生的reads进行修剪和过滤的软件。自发表以来,Trimmomatic软件凭借其简单的安装方法、较快的运行速度(支持多线程)、强大的去接头能力(simple和palindrome两种模式)、多元化的低质量数据处理方式、人性化的输出格式(clean reads为一一对应的pair-end形式,无需再次处理)等特点,深受数据处理者喜爱!下面就由小奥带大家一起来学习下Trimmomatic的具体用法。

Trimmomatic 下载安装

Trimmomatic下载安装方式有网站链接安装和Linux系统下命令安装两种方式。

◆方法一:直接进入网站http://www.usadellab.org/cms/index.php?page=trimmomati c进行手动下载二进制软件,解压后的trimmomatic-0.38.jar即为我们需要的软件。

◆方法二:在Linux系统下通过命令行进行下载安装

1.mkdir Trimmomatic(创建一个名为Trimmomatic的文件夹)

2.cd Trimmomatic (进入Trimmomatic文件夹工作路径下)

3.wget

http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.38.zip(通过wget命令下载Trimmomatic-0.38.zip压缩文件)

4.unzip Trimmomatic-0.38.zip (解压缩Trimmomatic-0.36.zip文件)

5.java -jar~/biosoft/Trimmomatic/Trimmomatic-0.36/trimmomatic-0.36.jar –h(运行安装命令,即可完成安装)

Trimmomatic 质控用法

根据单端测序和双端测序两种模式,Trimmomatic软件也有两种质控用法

◆ 1. SE 模式

SE模式下,只有一个输入文件和一个质控后的输出文件,运行命令如下

Java –jar < trimmomatic的安装路径> SE –threads <线程数> <input> <output> <step1> <step2> …<step1><step2>… 表示每一步的质控参数

◆ 2. PE模式

PE 模式下,有两个输入文件(正向测序reads和反向测序reads)和四个质控后的输出文件(双端序列都保留的paired序列文件和只保留一端序列的unpaired序列文件),运行命令如下:

Java -jar $trimmomatic PE -threads 12 -phred33 $R1.fq.gz $R2.fq.gz $R1.paired.fq.gz $R1.unpaired.fq.gz $R2.paired.fq.gz $R2.unpaired.fq.gz ILLUMINACLIP:$adapter.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36

参数设置说明(同一个命令下的不同参数可以用“:”来界定):

$ 表示软件或文件所在的路径(建议使用绝对路径)

$R1.fq.gz $R2.fq.gz 为两个输入文件

$R1.paired.fq.gz $R1.unpaired.fq.gz $R2.paired.fq.gz $R2.unpaired.fq.gz 为四个对应的输出文件

Phred33 设置碱基的质量格式,默认的是-phred64。

ILLUMINACLIP:$adapter.fa:2:30:10 adapter.fa为接头文件,2表示最大mismatch数,30表示palindrome模式下碱基的匹配阈值,10表示simple模式下碱基的匹配阈值。

LEADING: 3 表示切除reads 5’端碱基质量低于3的碱基。

TRAILING:3 表示切除3’ 端碱基质量低于3的碱基。

SLIDINGWINDOW:4:15 表示以4个碱基为窗口进行滑动,切除窗口内碱基平均质量小于15的。

MINLEN:36 丢弃以上步骤处理后,序列长度小于36的reads。

Tips:

大家可以在公众号中搜索“奥维森基因科技”微信公众号 关注我们,给您带来最优质、高效、性价比优的技术服务。

奥维森基因科技是行业领先的跨组学技术合作伙伴,公司具有多年大项目合作经验的生物信息分析团队,及技术实力雄厚的研发团队。公司还拥有多年相关行业经验的企业运营管理人才、有海外工作经历和海外留学背景的国际化人才以及国内外资深行业顾问团队。

(5)

热评文章