专家测序数据分析经验(上)
互联网
- 相关专题
测序 确实是越来越快,也越来越便宜了。随着个人型测序仪的不断上市,许多实验室也跃跃欲试,准备开展这方面的研究。然而,前辈告诉我们,测序并不难,真正困难的工作是数据分析。
目前有不少用于基因组装配和比对的程序和算法,但是该选哪一个呢?许多序列分析的专家认为,这取决于基因组的大小、读取有多长,以及采用的是哪种测序技术。通常,软件 还需要优化,以满足每个实验室的独特需求。
为了让大家更好地开展数据分析,《Genome Technology》杂志特邀了一些这方面的专家,与大家分享他们在数据分析方面的经验。通过他们的一问一答,希望您也能从中受益。
Q1:您使用哪个基因组装配或比对软件 ,为什么?
Inna Dubchak(美国能源部联合基因组研究所 )
我们设计了一个名为VISTA的计算系统,它融合了长基因组 序列的不同比对算法。不同项目需要不同的算法,如AVID适合精确序列或序列草图的整体两两比对,LAGAN适合精确序列的整体两两比对或多个比对,而Shuffle-LAGAN适合精确序列的glocal两两比对,因为它检测重排。
Jim Kent(加州大学圣克鲁兹分校)
我们自己比较少做基因组装配。我们主要是从装配好的基因组开始的。关于比对,我们使用BLAT进行一个物种内的RNA/DNA比对及其他比对,使用blastz和lastz进行物种之间的两两比对,并用axtChain和chain-Net进一步处理。关于多个比对,我们正在用multiz,但也在试一些新软件。
Ian Korf(加州大学戴维斯分校)
因为我们运行Assemblathon竞争,所以我们运行多个装配和比对程序。每一个都有自己的优势和劣势。事实上,我们也不知道哪个更好。有时候有的程序更方便。
Li-jun Ma(马萨诸塞大学)
我所做的大部分基因组装配都是利用Arachne或AllPath完成的,它们是由Broad开发的。选择这些装配工具的主要原因是,它们是由Broad研究院的软件工程师经过多年艰苦工作而开发的。它们是可靠的工具。它们已经通过很多基因组的多个数据组形式检验过,这些基因组大小不同,性质各异。它们很复杂,但非常可靠。现在,我们也使用Velvet来装配Illumina的数据组。它使用简单,运行快。
Bud Mishra(纽约大学)
我们是一个生物信息学小组,致力于开发新的装配、碱基检出和比对工具。我们的目标是让这些工具以一种与技术无关的方式共同工作,得到准确的结果,以便更好地进行全基因组关联研究(GWAS)。基于这些目的,我们主要关注一种碱基检出工具TotalReCaller和一种装配工具SUTTA。为了比较,我们也与其他序列装配和比对工具共同使用:SOAPdenovo、Abyss、CABOG、Velvet、TIGR、Arachne等开放工具以及Illumina开发的Bustrad、Ibis、Rolexa、BayesCall等。根据我们的经验,对于高覆盖度的Illumina序列,可从Illumina的Bustrad碱基检出开始,然后用SOAPdenovo或Allpaths来装配读取,之后可能还要确认。今后,一种更加一体化的方法将把Illumina的序列和光学图谱与TotalReCaller和SUTTA结合起来,得到基因型或单体型序列。
Mihai Pop(马里兰大学)
这个问题可没什么标准答案。它取决于实际的应用。对于短读取的快速严格比对,我使用Bowtie。对于没那么严格的长读取,我使用MUMmer。这个选择主要是基于习惯和对这些工具的熟悉程度。对于装配,我也依靠多个工具,同样取决于实际应用。对于Sanger或454读取,我使用Celera Assembler,而Newbler对于454数据也非常好,而短序列我会使用SOAPdenovo或Velvet。我通常对那些unitigging使用这些装配工具,生成相对保守的contig。然后,我使用自己的工具Bambus,掺入mate-pair信息或其他相关信息。我使用Bambus是因为我能更好控制装配工具实际产生的。大部分现代装配工具只生成一个FASTA文件,抛弃了读取在哪里比对的信息。在很多应用(如宏基因组学)中,这个信息才是真正有用的。
Steven Salzberg(约翰霍普金斯大学医学院)
我们使用6个主要的基因组装配工具包:CABOG(之前称为Celera Assembler)、SOAPdenovo、the AMOS package、Allpaths-LG、Velvet,以及我们最近开始用的SGA。对于比对,我只能回答新一代DNA序列读取与参考基因组的比对,我使用Bowtie(我们小组开发的)。如果读取代表了RNA-Seq实验中的RNA,我们使用TopHat来比对,并用Cufflinks来装配和定量转录本。
Robert Settlage(弗吉尼亚生物信息学研究所)
我们都使用了多个工具。装配一般使用Velvet、Newbler、Abyss、SSAKE、CLCBio,而比对也同样使用了多个工具。我们特别喜欢使用Velvet,它使装配明显加速。CLCBio也很好,是少数几个能够在单次装配中使用短读取和长读取的装配工具之一。我们不依赖单个工具的理由是,目前没有一个工具是完美的。
Q2:您采用哪种方法进行多个序列比对?
Inna Dubchak(美国能源部联合基因组研究所)
我们对长达2 Mb的基因组序列使用LAGAN,对完整的基因组装配使用Shuffle-LAGAN算法的全基因组延伸。
Ian Korf(加州大学戴维斯分校)
我们一般似乎用T-COFFEE,有时也用DIALIGN或CLUSTALW。
Bud Mishra(纽约大学)
我们的工具是为单体型和宏基因组学设计的,但仍在开发中。
Mihai Pop(马里兰大学)
我的研究中并不常使用多序列比对工具。我发现CLUSTALW是一个很好的程序,它灵活、高效且准确,尤其对于DNA比对。在装配中,Celera Assembler、Newbler、AMOS及一些旧的装配算法产生了共装配序列的严格比对。对于包含非常相似序列的大数据组,如16S研究,传统的多比对方法不太好,我使用DNAclust和Uclust等工具来产生序列的“星号”比对。
Steven Salzberg(约翰霍普金斯大学医学院)
对于快速的多序列比对,例如不同物种的20个蛋白比对,我个人使用MUSCLE程序,我已经用了很多年。如果问题是全基因组多序列比对,如10个完整的细菌染色体相互比对,我会使用我之前的博士生Sam Anguioli开发的MUGSY程序。这是个相当好的程序,也是开源的。