专家测序数据分析经验（上）

互联网2013-08-27

1873

相关专题

测序确实是越来越快，也越来越便宜了。随着个人型测序仪的不断上市，许多实验室也跃跃欲试，准备开展这方面的研究。然而，前辈告诉我们，测序并不难，真正困难的工作是数据分析。

目前有不少用于基因组装配和比对的程序和算法，但是该选哪一个呢?许多序列分析的专家认为，这取决于基因组的大小、读取有多长，以及采用的是哪种测序技术。通常，软件还需要优化，以满足每个实验室的独特需求。

为了让大家更好地开展数据分析，《Genome Technology》杂志特邀了一些这方面的专家，与大家分享他们在数据分析方面的经验。通过他们的一问一答，希望您也能从中受益。

Q1：您使用哪个基因组装配或比对软件，为什么?

Inna Dubchak(美国能源部联合基因组研究所 )

我们设计了一个名为VISTA的计算系统，它融合了长基因组序列的不同比对算法。不同项目需要不同的算法，如AVID适合精确序列或序列草图的整体两两比对，LAGAN适合精确序列的整体两两比对或多个比对，而Shuffle-LAGAN适合精确序列的glocal两两比对，因为它检测重排。

Jim Kent(加州大学圣克鲁兹分校)

我们自己比较少做基因组装配。我们主要是从装配好的基因组开始的。关于比对，我们使用BLAT进行一个物种内的RNA/DNA比对及其他比对，使用blastz和lastz进行物种之间的两两比对，并用axtChain和chain-Net进一步处理。关于多个比对，我们正在用multiz，但也在试一些新软件。

Ian Korf(加州大学戴维斯分校)

因为我们运行Assemblathon竞争，所以我们运行多个装配和比对程序。每一个都有自己的优势和劣势。事实上，我们也不知道哪个更好。有时候有的程序更方便。

Li-jun Ma(马萨诸塞大学)

我所做的大部分基因组装配都是利用Arachne或AllPath完成的，它们是由Broad开发的。选择这些装配工具的主要原因是，它们是由Broad研究院的软件工程师经过多年艰苦工作而开发的。它们是可靠的工具。它们已经通过很多基因组的多个数据组形式检验过，这些基因组大小不同，性质各异。它们很复杂，但非常可靠。现在，我们也使用Velvet来装配Illumina的数据组。它使用简单，运行快。

Bud Mishra(纽约大学)

我们是一个生物信息学小组，致力于开发新的装配、碱基检出和比对工具。我们的目标是让这些工具以一种与技术无关的方式共同工作，得到准确的结果，以便更好地进行全基因组关联研究(GWAS)。基于这些目的，我们主要关注一种碱基检出工具TotalReCaller和一种装配工具SUTTA。为了比较，我们也与其他序列装配和比对工具共同使用：SOAPdenovo、Abyss、CABOG、Velvet、TIGR、Arachne等开放工具以及Illumina开发的Bustrad、Ibis、Rolexa、BayesCall等。根据我们的经验，对于高覆盖度的Illumina序列，可从Illumina的Bustrad碱基检出开始，然后用SOAPdenovo或Allpaths来装配读取，之后可能还要确认。今后，一种更加一体化的方法将把Illumina的序列和光学图谱与TotalReCaller和SUTTA结合起来，得到基因型或单体型序列。

Mihai Pop(马里兰大学)

这个问题可没什么标准答案。它取决于实际的应用。对于短读取的快速严格比对，我使用Bowtie。对于没那么严格的长读取，我使用MUMmer。这个选择主要是基于习惯和对这些工具的熟悉程度。对于装配，我也依靠多个工具，同样取决于实际应用。对于Sanger或454读取，我使用Celera Assembler，而Newbler对于454数据也非常好，而短序列我会使用SOAPdenovo或Velvet。我通常对那些unitigging使用这些装配工具，生成相对保守的contig。然后，我使用自己的工具Bambus，掺入mate-pair信息或其他相关信息。我使用Bambus是因为我能更好控制装配工具实际产生的。大部分现代装配工具只生成一个FASTA文件，抛弃了读取在哪里比对的信息。在很多应用(如宏基因组学)中，这个信息才是真正有用的。

Steven Salzberg(约翰霍普金斯大学医学院)

我们使用6个主要的基因组装配工具包：CABOG(之前称为Celera Assembler)、SOAPdenovo、the AMOS package、Allpaths-LG、Velvet，以及我们最近开始用的SGA。对于比对，我只能回答新一代DNA序列读取与参考基因组的比对，我使用Bowtie(我们小组开发的)。如果读取代表了RNA-Seq实验中的RNA，我们使用TopHat来比对，并用Cufflinks来装配和定量转录本。

Robert Settlage(弗吉尼亚生物信息学研究所)

我们都使用了多个工具。装配一般使用Velvet、Newbler、Abyss、SSAKE、CLCBio，而比对也同样使用了多个工具。我们特别喜欢使用Velvet，它使装配明显加速。CLCBio也很好，是少数几个能够在单次装配中使用短读取和长读取的装配工具之一。我们不依赖单个工具的理由是，目前没有一个工具是完美的。

Q2：您采用哪种方法进行多个序列比对?

Inna Dubchak(美国能源部联合基因组研究所)

我们对长达2 Mb的基因组序列使用LAGAN，对完整的基因组装配使用Shuffle-LAGAN算法的全基因组延伸。

Ian Korf(加州大学戴维斯分校)

我们一般似乎用T-COFFEE，有时也用DIALIGN或CLUSTALW。

Bud Mishra(纽约大学)

我们的工具是为单体型和宏基因组学设计的，但仍在开发中。

Mihai Pop(马里兰大学)

我的研究中并不常使用多序列比对工具。我发现CLUSTALW是一个很好的程序，它灵活、高效且准确，尤其对于DNA比对。在装配中，Celera Assembler、Newbler、AMOS及一些旧的装配算法产生了共装配序列的严格比对。对于包含非常相似序列的大数据组，如16S研究，传统的多比对方法不太好，我使用DNAclust和Uclust等工具来产生序列的“星号”比对。

Steven Salzberg(约翰霍普金斯大学医学院)

对于快速的多序列比对，例如不同物种的20个蛋白比对，我个人使用MUSCLE程序，我已经用了很多年。如果问题是全基因组多序列比对，如10个完整的细菌染色体相互比对，我会使用我之前的博士生Sam Anguioli开发的MUGSY程序。这是个相当好的程序，也是开源的。