专家测序数据分析经验（下）

互联网2013-08-27

1783

相关专题

测序确实是越来越快，也越来越便宜了。随着个人型测序仪的不断上市，许多实验室也跃跃欲试，准备开展这方面的研究。然而，前辈告诉我们，测序并不难，真正困难的工作是数据分析。

目前有不少用于基因组装配和比对的程序和算法，但是该选哪一个呢?许多序列分析的专家认为，这取决于基因组的大小、读取有多长，以及采用的是哪种测序技术。通常，软件还需要优化，以满足每个实验室的独特需求。

为了让大家更好地开展数据分析，《Genome Technology》杂志特邀了一些这方面的专家，与大家分享他们在数据分析方面的经验。通过他们的一问一答，希望您也能从中受益。

专家测序数据分析经验（上）

Q1：您使用哪个基因组装配或比对软件，为什么?

Q2：您采用哪种方法进行多个序列比对?

详见《测序数据分析之专家指南(上)》

Q3：您如何优化原始数据，以便获得最佳的装配或比对结果?

Inna Dubchak(美国能源部联合基因组研究所 )

我们的比对方法最适合装配好的数据。原始数据最好由局部比对程序来处理。

Li-jun Ma(马萨诸塞大学)

质量过滤是关键的一步。我们总是过滤原始读取，除去低质量的读取，修剪接头序列，并除去修剪后非常短的读取。

Bud Mishra(纽约大学)

TotalReCaller使用原始强度测序数据和参考序列来改善碱基检出，并优化比对结果。既然它使用参考序列，那么似乎不适合de novo序列装配;然而，在近期Giuseppe Narzisi的博士论文中，作者表明通过boot-strap方法，TotalReCaller和SUTTA联合可显著改善装配质量。

Mihai Pop(马里兰大学)

我主要依靠错误修剪工具，如fastx toolkit。有时我也使用错误纠正工具，但我担心在某些情况下，这些工具可能引入错误。我个人倾向于抛弃可疑的序列，即便它们占据了相当的比例，而不是试图纠正错误。例如，在16S研究中，我抛弃那些有一个含糊代码或者太短的序列，通常我会抛弃25-30%的数据。测序成本正变得足够低，且通量足够高，我们可以承受这些浪费。

Steven Salzberg(约翰霍普金斯大学医学院)

我们经常花费大量精力来修剪载体和低质量序列，这取决于任务。对于全基因组测序项目，我们运行错误纠正软件(如Quake)来修复错误的碱基检出。一些基因组装配工具干得很好，自己能除去低质量的数据或纠正错误，但另一些不行。如果读取是配对的，且片段足够短，配对读取能够重叠，那么我们运行另一个程序，在装配之前将这些配对片段融合成更长的序列。

Robert Settlage(弗吉尼亚生物信息学研究所)

我们的首选方法是猛烈的修剪。如果它看似个接头，去掉。如果它质量有疑问，去掉。通常我们有足够的读取，因此最好猛烈一点。我们之后常将数据补回，看它是否分辨了一些模棱两可。

Q4：确认装配或比对准确性的最佳方法是什么?

Inna Dubchak(美国能源部联合基因组研究所)

这是个很难的问题。通常我们使用基因组覆盖度统计数字，并与其他确立的比对方法比较。

Jim Kent(加州大学圣克鲁兹分校)

对于装配：与已知参考基因组比较(如果有的话)，检查mRNA/基因组比对，或检查配对读取相对基因组的比对。

Ian Korf(加州大学戴维斯分校)

这是个很难的问题。我们通常不知道正确的答案。对基因组的一部分测序可能非常有用。另一个有用的方法是寻找如高度保守的基因或长转录本。对于序列比对，它取决于你所作的搜索类型。主要有两种搜索，我称之为定位(mapping)和探索(exploring)。在定位序列时，一条序列与另一条序列是相同，或几乎相同的。例如，开展ChIP-seq分析，你需要将读取定位回参考序列。你希望比对是相同的，但如果它们有一些错误或多态性也能接受。如果有一些完美比对，你认为比对是准确的。在探索远亲关系时，比如寻找蛋白的同源物，错配和缺口是意料之中的。如果你的序列是已知蛋白家族的一部分，你的确认策略应当包括，比对与家族的其他成员相符合，也就是说，该家族的保守部分在两两比对中也同样保守。

Li-jun Ma(马萨诸塞大学)

确认装配准确性的方法包括：1)将装配定位到染色体或连锁图上;2)将装配与任何已知序列比较，如PCR产物、基因、粘粒、BAC或质粒的序列;3)如有必要，PCR扩增你有疑问的基因组区域，以确认装配的准确性。

Bud Mishra(纽约大学)

由于SUTTA是为自我确认而设计的，它在装配过程中不断验证。我们也开发了一种新的度量办法，称为Feature-Response Curve，它能捕获contig覆盖之间的交换，以及不同的准确性特征。最近，我们还设计了新的统计学分析工具，能更好地了解各个传统特征之间的关系，并捕获这些特征的核心结构。

Steven Salzberg(约翰霍普金斯大学医学院)

准确性有很多内部和外部的测定。如果使用的话，外部测定非常有用，我指的是与真正的基因组比较。有时这不可能，但对于已知物种如人的重装配，我们还是能够检查。内部测定包括mate-pair距离、配对读取的方向，和覆盖深度。我们检查这些参数。我的同事Adam Phillippy、Mike Schatz，和Mihai Pop在2008年开发了一个“assembly QC”的工具包，它包含了一些非常有用的软件工具，来检查装配的有效性。