提问
提问
我要登录
|免费注册
点赞
收藏
wx-share
分享

NCBI中的GenBank和RefSeq

互联网

4795

RefSeq NM_xxxxxx 和 GenBank Afxxxxxx 看起来是重复的,但 RefSeq 和 GenBank 是分开的数据库,而且两者都是可以通过在 Entrez nucleotide 中输入各自的 ACCESSION 获得。开始时临时的 RefSeq 记录与 GenBank 记录非常相似。

但是,当 RefSeq 记录被专家 review 以后,新增的序列数据、生物学注解、和参考文献常被加入。那时, RefSeq 条目(即序列)代表一个来自不同实验室的综合信息,这时二者可以非常不同。

GenBank 是一个多种序列的存储池,对每个基因都含有许多序列。而 RefSeq 数据库被设计成每个人类位点挑出一个代表序列来减少重复,是 NCBI 提供的校正的序列数据和相关的信息。数据库包括构建的基因组 contig 、 mRNA 、蛋白和整个染色体。

RefSeq 记录是有三种可以获得的状态:预测的,临时的和检查过的( reviewd )。检查过的记录代表了目前关于一个基因和它的转录子的知识的汇编。它们很多都来自于 GenBank 记录、人类基因组命名委员会、和 OMIM 。 RefSeq 标准为人类基因组的功能注解提供一个基础。

RefSeq 记录通过以下步骤创建:

1 、确定代表不同基因的序列

2 、建立正确的基因名字到登录号的联系

3 、确定完整范围的可以获得的序列数据

4 、创建一个新的处于三种状态之一的参考序列 (RefSeq) 记录

为什么 RefSeq 记录中的基因符号( symbol )有时和相关的 GenBank 中的不一样? RefSeq 全部使用官方基因符号。而 GenBank 是一个公共的序列备份库,由数据发现者提供。有的作者会向相关的物种命名委员会取得官方基因符号,但有的作者没有,所以有时会产生别名。

GenBank 与 Pubmed 相同,通过 display 可以选择显示格式,常用的有 GenBank 和 FASTA 两种格式。如果要对基因序列作进一步分析, FASTA 格式是很好的选择。 FASTA 格式仅包括该序列的简要特征,并以 ATGC4 种碱基列出核苷酸序列,简单明了。

而 GenBank 格式可显示较完整的基因序列记录,反映核苷酸序列的详细信息。

提问
扫一扫
丁香实验小程序二维码
实验小助手
丁香实验公众号二维码
关注公众号
反馈
TOP
打开小程序