丁香实验_LOGO
登录
提问
我要登录
|免费注册
点赞
收藏
wx-share
分享

如何分析测序结果数据(个人心得)

互联网

14116
相关专题
 

作为生命科学领域的“圈内人”,如果你还不知晓近期基因组测序 的飞速发展,那你就实在太out了。。。随着新一代测序技术的不断改进,新测序仪不断涌现,测序价格也越来越低,应用当然也越来越广。近两年,新一代测序技术广泛应用于全基因组测序,疾病关键基因的测定,以及宏基因组学。

然而由于这一领域的发展速度飞快,因此一些新接触的实验人员可能会感到茫然无措:虽然这些研究人员都具有实体测序 实验操作经验,但是如何处理获得的庞大数据是一个巨大挑战。幸运的是,目前已经有了一些免费的,或者说是低成本的多元化工具,以及活跃的用户群,可以帮助我们解决其中的一些问题。

上回谈到了硬件,数据分析需要什么样的IT设备,以及没有这些设备该怎么办?这回我们谈谈软件

我该使用什么程序?

同样,这要看情况。你想要开展什么分析?你能使用UNIX吗?你会编程吗?

目前已有数百个用于新一代测序的生物信息学工具,从商业化的产品到略有瑕疵的免费软件 。在SeqAnswers.com (seqanswers.com/wiki/Software)上列出并介绍了超过360个软件。

对于新手来说,不幸的是,这些工具极少有着漂亮的图形用户界面。凯撒西储大学的Mark Adams谈到:“目前有相当多不错的免费软件 可用于分析,但几乎所有免费软件和最新软件都是基于UNIX命令行的。”在大多数情况下,这些程序基本上是数据过滤器和文件转换器。它们接收一种形式的数据,处理它,并以另一种形式导出。

简单来说,大部分基因组中心自己写代码,指导原始序列数据通过这些步骤,将一个程序的输出结果导入另一个程序,清理,采集质量标准,与参考基因组比对,以及其他。

这样的软件流水线可能听起来无比复杂,但是在面对包含数百万条记录的数据文件时,你别无选择。因此,你们小组至少应有一人要有相当不错的UNIX技能。Wellcome Trust Sanger研究院的博士后Daniel MacArthur认为:“基本的UNIX命令行语法将让你利用此类型数据走得更远。”

我该如何查看原始数据?

通常来说,别这么做。你也不需要这么做。数据太多了,而你从中获得的将很少;相反,你要查看处理过的数据,SNP检出列表及其他。但MacArthur博士认为也有例外。他说,在投身验证研究之前,还是值得花时间去仔细检查那些支持变异体检出的真实序列读取。

MacArthur博士谈到:“对于那些刚刚开始涉及分析的研究人员来说,我的唯一忠告是——利用一切机会以尽可能多的方式来查看数据,因为你可能会上当。”比如,单核苷酸变异检出是相对可靠的。然而,插入和缺失(indel)却可能有问题:一些插入缺失读取被抛弃,因为它们看上去不能与参考序列正确比对;其他的则被称为SNP簇。他说:“诸如此类,只要你查看这些读取,你就能发现有一些确实错了。”

你可以利用基因组浏览器(如Integrative Genomics Viewer)来查看原始数据,它将重叠读取显示成参考基因组上的“堆积”。MacArthur博士认为Integrative Genomics Viewer是一个很好的工具,直观,易用。

如果想查看原始数据,你可以使用UNIX命令行工具,来确定你的数据格式是否正确,以便导入各种分析程序。

我能从哪里寻求帮助?

对于新一代生物信息学这个复杂且日新月异的学科来说,幸运的是,从来就不缺帮助,无论是用户组、在线论坛或网页教程。工具开发者通常还会回复电子邮件咨询,其他经验丰富的研究人员也是如此。这里推荐一个好的出发点:SeqAnswers.com,目前有6400名活跃的会员。

“那儿有很多人,他们有很多专业知识,因此别逞强,什么事都自己扛。利用你周围的知识。重新发明轮子是没有意义的。”华盛顿大学基因组中心的David Dooling如是说。

一些精选的免费数据分析工具:

基因组重测序

Bwa:http://bio-bwa.sourceforge.net

比对工具

Dindel:http://sites.google.com/site/keesalbers/soft/dindel

小的插入/缺失发现

Erds:http://www.duke.edu/~mz34/erds.htm

拷贝数变异发现

Pindel:http://www.ebi.ac.uk/~kye/pindel/

小的插入/缺失发现

Samtools:http://samtools.sourceforge.net

操控比对后数据的工具

Sequence Variant Analyzer:http://www.svaproject.org

在基因组背景下显示变异

Chip-Seq

Findpeaks

http://vancouvershortr.sourceforge.net

RNA-Seq

Bowtie:http://bowtie-bio.sourceforge.net

比对工具

Cufflinks:http://cufflinks.cbcb.umd.edu

测定转录本丰度

Tophat:http://tophat.cbcb.umd.edu

剪接点定位

De Novo 拼接

Abyss:http://www.bcgsc.ca/platform/bioinfo/software/abyss

Oases:http://www.ebi.ac.uk/~zerbino/oases/

根据转录组数据拼接

Velvet:http://www.ebi.ac.uk/~zerbino/velvet/

基因组浏览器

Integrated Genome Browser:http://www.bioviz.org/igb/

Integrative Genomics Viewer:http://www.broadinstitute.org/software/igv/

提问
扫一扫
丁香实验小程序二维码
实验小助手
丁香实验公众号二维码
扫码领资料
反馈
TOP
打开小程序