GenBank简介
互联网
GenBank包含所有已知的核苷酸及蛋白质序列、以及与之相关的生物学信息和参 考文献,是美国生物技术信息中心(NCBI)建立并维护的,是世界上的权威序列数据 库。
数据库序列的来源为作者直接递交或间接查寻文献所得,并与世界上其他公开发 行的数据库,如EMBL,DDBJ交换每日更新的数据。
GenBank发展极为迅速,仅1995年一年里增加的序列数据量,即超过以往14年的 累加数目。1995年的90.0版本含有492,483个不同的序列,总长度超过353,713,490个 碱基。其中54%是人(Homosapiens)的序列,此外还包括线虫(C.elegans)、酵母 (S.cerevisiae)、小家鼠(Mus musculus)等15,500种生物的DNA序列。
GenBank每条数据包含对序列的精确描述,序列来源生物的科学名称及树状分 类,以及特征数据栏,提供序列的蛋白编码区和具有特殊生物学意义的位点,如转录 单位(transcription units)、突变或修饰位点(sites of mutationsor modifications)及重复序列(repeats),还提供特定序列编码的蛋白质序列。参考文 献还给出其在MEDLINE上的特定标识号。
在GenBank中,分枝数据库dbEST和dbSTS的发展最为迅速。GenBank与其它核苷酸 序列库EMBL、DDBJ和LANL等,以及知名的蛋白质数据库SWISS-PROT、PIR、PRF和PDB 等建立了综合数据库(Integrated Database,ID)。
NCBI已经建立了自己的生物大分 子三维结构库-分子结构模型库MMDB(Molecular Modeling Database)。