【交流】浅谈Gene序列搜索
丁香园论坛
我看到了很多帖子,大家在查找Gene序列的时候,有些战友总是弄不明白那个是自己想要的序列,因为在NCBI的GeneBank里面搜索以后,实在是有太多的序列出现,而且长短不一,名称各异,DNA,mRNA ……,有点让人眼花缭乱,下面就是我的一点小经验:
通常大家都是在Nucleotide里搜索一个目的Gene序列,也就是我们通常所说的GeneBank,GenBank是一个公共可获得的序列记录备份,由数据发现者提供,它不是一个校正的数据库,GenBank是一个序列的存储池,所以针对同一个Gene就会有很多的信息,甚至有些似乎是重复的,这包括了一个Gene的发现,当然就包括不同的发现者有不同的命名规则;起始时期的序列不完整性;研究发展历史;不同的型别研究等等。当我们搜索时,就会象大海捞针一样找我们的目的Gene,在这里我就告诉大家另外的搜索链接,那就是Gene数据库。
在下图中,标示了它在NCBI中的位置,其实很多人都看到过它,但是可能没用过它,Gene与Nucleotide的区别在于,它是经过很多生物信息学家,生物学家以及计算机学家共同努力,经过搜集GeneBank中的Gene序列、基因组contig、DNA、mRNA、蛋白和染色体信息等等而综合出来的,是一个校正的数据库,去除了冗余的信息,故而查找方便、信息准确,里面包含了一个Gene的完整信息:DNA、mRNA、Protein、Chromosome等等,大家在查阅的时候会看到很少的序列选项,因为它是经过检验和校正的。
当然,如果你查询的是最新发现的Gene,那么对不起,一般是查不到的。
还有另外两个数据库,RefSeq和LocusLink,大家也一定见过它们,它们也是基于NCBI和其他组织合作的校正的数据库。两者都使用由人类基因命名委员会定义的术语,并且包括了官方的基因符号和可选的符号。当大家看到他们的标志时,就可以肯定这个是科学家们校验过的信息,肯定是准确的了