专家测序数据分析经验(下)
互联网
- 相关专题
测序 确实是越来越快,也越来越便宜了。随着个人型测序仪的不断上市,许多实验室也跃跃欲试,准备开展这方面的研究。然而,前辈告诉我们,测序并不难,真正困难的工作是数据分析。
目前有不少用于基因组装配和比对的程序和算法,但是该选哪一个呢?许多序列分析的专家认为,这取决于基因组的大小、读取有多长,以及采用的是哪种测序技术。通常,软件 还需要优化,以满足每个实验室的独特需求。
为了让大家更好地开展数据分析,《Genome Technology》杂志特邀了一些这方面的专家,与大家分享他们在数据分析方面的经验。通过他们的一问一答,希望您也能从中受益。
专家测序数据分析经验(上)
Q1:您使用哪个基因组装配或比对软件 ,为什么?
Q2:您采用哪种方法进行多个序列比对?
详见《测序 数据分析之专家指南(上)》
Q3:您如何优化原始数据,以便获得最佳的装配或比对结果?
Inna Dubchak(美国能源部联合基因组研究所 )
我们的比对方法最适合装配好的数据。原始数据最好由局部比对程序来处理。
Li-jun Ma(马萨诸塞大学)
质量过滤是关键的一步。我们总是过滤原始读取,除去低质量的读取,修剪接头序列,并除去修剪后非常短的读取。
Bud Mishra(纽约大学)
TotalReCaller使用原始强度测序数据和参考序列来改善碱基检出,并优化比对结果。既然它使用参考序列,那么似乎不适合de novo序列装配;然而,在近期Giuseppe Narzisi的博士论文中,作者表明通过boot-strap方法,TotalReCaller和SUTTA联合可显著改善装配质量。
Mihai Pop(马里兰大学)
我主要依靠错误修剪工具,如fastx toolkit。有时我也使用错误纠正工具,但我担心在某些情况下,这些工具可能引入错误。我个人倾向于抛弃可疑的序列,即便它们占据了相当的比例,而不是试图纠正错误。例如,在16S研究中,我抛弃那些有一个含糊代码或者太短的序列,通常我会抛弃25-30%的数据。测序成本正变得足够低,且通量足够高,我们可以承受这些浪费。
Steven Salzberg(约翰霍普金斯大学医学院)
我们经常花费大量精力来修剪载体和低质量序列,这取决于任务。对于全基因组测序项目,我们运行错误纠正软件(如Quake)来修复错误的碱基检出。一些基因组装配工具干得很好,自己能除去低质量的数据或纠正错误,但另一些不行。如果读取是配对的,且片段足够短,配对读取能够重叠,那么我们运行另一个程序,在装配之前将这些配对片段融合成更长的序列。
Robert Settlage(弗吉尼亚生物信息学研究所)
我们的首选方法是猛烈的修剪。如果它看似个接头,去掉。如果它质量有疑问,去掉。通常我们有足够的读取,因此最好猛烈一点。我们之后常将数据补回,看它是否分辨了一些模棱两可。
Q4:确认装配或比对准确性的最佳方法是什么?
Inna Dubchak(美国能源部联合基因组研究所)
这是个很难的问题。通常我们使用基因组覆盖度统计数字,并与其他确立的比对方法比较。
Jim Kent(加州大学圣克鲁兹分校)
对于装配:与已知参考基因组比较(如果有的话),检查mRNA/基因组比对,或检查配对读取相对基因组的比对。
Ian Korf(加州大学戴维斯分校)
这是个很难的问题。我们通常不知道正确的答案。对基因组的一部分测序可能非常有用。另一个有用的方法是寻找如高度保守的基因或长转录本。对于序列比对,它取决于你所作的搜索类型。主要有两种搜索,我称之为定位(mapping)和探索(exploring)。在定位序列时,一条序列与另一条序列是相同,或几乎相同的。例如,开展ChIP-seq分析,你需要将读取定位回参考序列。你希望比对是相同的,但如果它们有一些错误或多态性也能接受。如果有一些完美比对,你认为比对是准确的。在探索远亲关系时,比如寻找蛋白的同源物,错配和缺口是意料之中的。如果你的序列是已知蛋白家族的一部分,你的确认策略应当包括,比对与家族的其他成员相符合,也就是说,该家族的保守部分在两两比对中也同样保守。
Li-jun Ma(马萨诸塞大学)
确认装配准确性的方法包括:1)将装配定位到染色体或连锁图上;2)将装配与任何已知序列比较,如PCR产物、基因、粘粒、BAC或质粒的序列;3)如有必要,PCR扩增你有疑问的基因组区域,以确认装配的准确性。
Bud Mishra(纽约大学)
由于SUTTA是为自我确认而设计的,它在装配过程中不断验证。我们也开发了一种新的度量办法,称为Feature-Response Curve,它能捕获contig覆盖之间的交换,以及不同的准确性特征。最近,我们还设计了新的统计学分析工具,能更好地了解各个传统特征之间的关系,并捕获这些特征的核心结构。
Steven Salzberg(约翰霍普金斯大学医学院)
准确性有很多内部和外部的测定。如果使用的话,外部测定非常有用,我指的是与真正的基因组比较。有时这不可能,但对于已知物种如人的重装配,我们还是能够检查。内部测定包括mate-pair距离、配对读取的方向,和覆盖深度。我们检查这些参数。我的同事Adam Phillippy、Mike Schatz,和Mihai Pop在2008年开发了一个“assembly QC”的工具包,它包含了一些非常有用的软件工具,来检查装配的有效性。