GenBank数据库简介

互联网2008-08-26

23870

1. GenBank属于一个序列数据库的国际合作组织，包括EMBL和DDBJ。是NIH遗传序列数据库，一个所有可以公开获得的DNA序列的注释过的收集。GenBank同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸序列数据库合作。唯一人类基因序列集合（UniGene），人类基因组基因图谱，分类学浏览器，同国立癌症研究所合作的癌症基因组剖析计划（CGAP）等数据库。GenBank以指数形式增长，核酸碱基数目大概每14个月就翻一个倍。

2. 纪录样本- 关于GenBank的各个字段的详细描述，以及同Entrez搜索字段的交叉索引。

3. 访问GenBank - 通过Entrez Nucleotides来查询。用accession number，作者姓名，物种，基因/蛋白名字，还有许多其他的文本术语来查询。关于Entrez更多的信息请看下文。用BLAST来在GenBank和其他数据库中进行序列相似搜索。用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。另外一种选择是可以用FTP下载整个的GenBank和更新数据。

4. 增长统计- 参见公布通知的2.2.6（每个分类的统计），2.2.7（每个物种的统计），2.2.8（GenBank增长）小节。

5. 公布通知，最新- 最近和即将有的变化，GenBank的分类，数据增长统计，GenBank的引用。

6. 公布通知，旧- 同上相同，是过去公布的统计。

7. 遗传密码- 15个遗传密码的概要。用来确保GenBank中纪录的编码序列被正确的翻译。

向GenBank提交数据：

1. 关于提交序列数据，收到accession number，和对纪录作更新的一般信息。

2. BankIt - 用于一条或者少数条提交的基于WWW的提交工具软件。（请在提交前用VecScreen去除载体）

3. Sequin - 提交软件程序，用于一条或者很多条的提交，长序列，完整基因组，alignments，人群/种系/突变研究的提交。可以独立使用，或者用基于TCP/IP的“network aware”模式，可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。（请在提交前用VecScreen去除载体）

4. ESTs - 表达序列标签，短的、单次（测序）阅读的cDNA序列。也包括来自于差异显示和RACE实验的cDNA序列。

5. GSSs - 基因组调查序列，短的、单次（测序）阅读的cDNA序列，exon trap获得的序列，cosmid/BAC/YAC末端，及其他。

6. HTGs - 来自于大规模测序中心的高通量基因组序列，未完成的（阶段0，1，2）和完成的（阶段3）序列。（注意：完成的人类的HTG序列可以同时在GenBank和Human Genome Sequencing页面上访问。）

7. STSs - 序列标签位点。短的在基因组上可以被唯一操作的序列，用于产生作图位点。

8. 注：SNPs - 人类的和其他物种的遗传变异数据可以提交到NCBI数据库的单核苷酸多态性库中（dbSNP）。

国际核苷酸序列数据库合作组织：

1. GenBank，DDBJ，EMBL - 合作计划的概述，并链接到相应的主页。GenBank，DDBJ（DNA Data Bank of Japan），and EMBL （European Molecular Biology Laboratory）数据库共享的数据是每天都交换的，因此他们是相等的。数据纪录的格式和搜索方式可能会不一样，但是accession number，序列数据和注解都是一模一样的。即，你可以用accession number U12345在GenBank，DDBJ或EMBL中查找相应纪录，得到的结果是完全一样的序列数据，参考内容等等。?

2. DDBJ/EMBJ/GenBank特性表— 特性表格式和标准被合作数据库用在序列记录的注释上，使得数据共享成为可能，包括详细的描述生物特性和特性限定语的附录，以及IUPAC规定的核苷酸和氨基酸的代号。?

FTP GenBank and Daily Updates：

1. GenBank普通文件格式— 参见GenBank记录样本和在GenBank公布通知中的详细描述，下载大多数最近的完全公告和日常积累或非积累更新数据。

2. ASN.1格式— 摘要句法记号1，国际标准组织（ISO）数据表示格式，下载大多数最近的完全公告和日常积累或非积累更新数据。

3. FASTA格式— 定义行号后只跟随序列数据（示例），参见描述数据库的readme文件，包括nt.Z（每天更新的非冗余BLAST核酸数据库，包括GenBank+EMBL+DDBJ+PDB序列，但是不包括EST， STS， GSS， or HTGS序列），nr.Z（每日更新的非冗余蛋白质），est.Z， gss.Z， htg.Z， sts.Z，和其它文件。

分子数据库：

1. 核酸序列

1、 Entrez核酸：用accession number，作者姓名，物种，基因/蛋白名字，以及很多其它的文本术语来搜索核酸序列记录（在GenBank + PDB中）。更多的关于Entrez的信息见下。如果要检索大量数据，也可使用Batch Entrez（批量Entrez）。

2、 RefSeq ： NCBI数据库的参考序列。校正的，非冗余集合，包括基因组DNA contigs，已知基因的mRNAs和蛋白，在将来，整个的染色体。Accession numbers用NT_xxxxxx， NM_xxxxxx， NP_xxxxxx，和NC_xxxxxx的形式来表示。

3、 dbEST ：表达序列标签数据库，短的、单次（测序）阅读的cDNA序列。也包括来自于差异显示和RACE实验的cDNA序列。

4、 dbGSS ：基因组调查序列的数据库，短的、单次（测序）阅读的cDNA序列，exon trap获得的序列，cosmid/BAC/YAC末端，及其他。

5、 dbSTS ：序列标签位点的数据库，短的在基因组上可以被唯一操作的序列，用于产生作图位点。

6、 dbSNP ：单核苷酸多态性数据库，包括SNPs，小范围的插入/缺失，多态重复单元，和微卫星变异。

2. 完整的基因组：

1、参见下面Genome和Maps部分，包括各种物种资源，人，小鼠，大鼠，酵母，线虫，疟原虫，细菌，病毒，viroids，质粒。

2、发UniGene ：被整理成簇的EST和全长mRNA序列，每一个代表一种特定已知的或假设的人类基因，有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以cluster形式在Unigene网页下载，完整的数据可以从FTP站点repository/UniGene目录下下载。

1）人类：UniGene

2）小鼠：UniGene

3）大鼠：UniGene

4）斑马鱼：UniGene

3、 BLAST ：将你的序列同核酸库中的的序列比较，检索相似的序列。（更详细的信息见下面Tools/Sequence相似搜索部分）

蛋白序列：

1、 Entrez蛋白：用accession number，作者姓名，物种，基因/蛋白名字，以及很多其它的文本术语来搜索蛋白序列记录（在GenPept + Swiss-Prot + PIR + RPF + PDB中）。更多的关于Entrez的信息见下。如果要检索大量数据，也可使用Batch Entrez（批量Entrez）。 RefSeq — NCBI数据库的参考序列。Curated，非冗余集合包括基因组DNA contigs，已知基因的mRNAs和蛋白，在将来，整个的染色体。Accession numbers用NT_xxxxxx， NM_xxxxxx， NP_xxxxxx，和NC_xxxxxx的形式来表示。 FTPGenPept — 下载“genpept.fsa.Z”文件，这个文件包含了从GenBank/EMBL/DDBJ记录中翻译过来的FASTA格式的氨基酸序列，这些记录都有一到两个CDS特性的描述。

2、完整基因组：参见下面Genome和Maps部分，包括各种物种资源，人，小鼠，大鼠，酵母，线虫，疟原虫，细菌，病毒，viroids，质粒。

1） Entrez基因组：提供了一个编码区的概要和各种物种的分类表（TaxTable）。编码区概要列出了在基因组中所有的的蛋白，并提供链接到FASTA文件和BLAST。分类表总结了蛋白BLAST分析的结果，建议他们的可能功能，并用颜色编码的图来显示物种同其它物种之间的关系（参见下面''''Genomes和Maps，''''部分Entrez基因组的一般描述）

2） FTP基因组蛋白：从ftp站点的genbank/genomes目录下下载各种物种的FASTA格式的氨基酸序列.faa和蛋白表文件.ptt。参见readme文件。蛋白表也可以在Entrez基因组中看到。

3、 PROW ： Web上的蛋白资源，关于大约200种人类的CD细胞表面分子的简短官方向导。互相检索，为每个CD抗原提供大约20中标准信息的分类（生化功能，配体，等等）

4、 BLAST ：将你的序列同蛋白库中的的序列比较，检索相似的序列。（更详细的信息见下面Tools/Sequence相似搜索部分）

结构：

1、结构主页— 关于NCBI结构小组的一般信息和他们的研究计划，另外也可以访问分子模型数据库（MMDB）和用来搜索和显示结构的相关工具。

2、 MMDB：分子模型数据库— 一个关于三维生物分子结构的数据库，结构来自于X-ray晶体衍射和NMR色谱分析。MMDB是来源于Brookhaven蛋白数据库（PDB）三维结构的一部分，排除了那些理论模型。MMDB重新组织和验证了这些信息，从而保证在化学和大分子三维结构之间的交叉参考。数据的说明书包括生物多聚体的空间结构，这个分子在化学上是如何组织的，以及联系两者的一套指针。利用将化学，序列，和结构信息整合在一起，MMDB计划成为基于结构的同源模型化和蛋白结构预测的资源服务。MMDB的记录以ASN.1格式存储，可以用Cn3D， Rasmol，或Kinemage来显示。另外，数据库中类似的结构已经被用VAST确认，新的结构可以用VASTsearch来同数据库进行比较。

3、 Cn3D — “See in 3-D”，一个用于NCBI数据库的结构和序列相似显示工具，它允许观察3-D结构和序列—结构或结构—结构同源比较。Cn3D用起来就象你浏览器上的一个帮助工具。

4、 VAST — 矢量同源比较搜索工具—一个在NCBI开发的计算算法，用于确定相似的蛋白三维结构。每一个结构的“结构邻居”都是预先计算好的，而且可以通过MMDB的结构概要页面的链接访问。这些邻居可以用来确认那些不能被序列比较识别的远的同源性。

5、 VAST 搜索— 结构—结构相似搜索服务。比较一个新解出的蛋白结构和在MMDB/PDB数据库中的结构的三维坐标。VAST搜索计算一系列可能会被交互浏览的结构邻居，用分子图形来观察重叠和同源相似。

分类学：

1、 NCBI的分类数据库主页— 关于分类计划的一般信息，包括分类资源和同NCBI分类学家合作的外部管理者的列表。

2、分类浏览器— 搜索NCBI的分类数据库，包括大于70000个物种的名字和种系，这些物种都至少在遗传数据库中有一条核酸或蛋白序列。可以检索一个特定种或者更高分类（如属，科）的核酸，蛋白，和结构记录。如果有新物种的序列数据被放到数据库中，这个物种就北加到（分类）数据库中。NCBI的分类数据库的目的是为序列数据库建立一个一致的种系发生分类学。

文献数据库概要：

1、 PubMed — 一个关于生物医药科学的检索系统，包括引用，摘要，和杂志的索引术语。它包括直接由出版商提供给NCBI的文献引用以及链接到在出版商网址上的全文的URLs。PubMed包括MEDLINE和PREMEDLINE的完整内容。它还包括一些被MEDLINE认为超出范围的文章和杂志，（这些文章或杂志）由于内容或在某一时期不在索引范围内。因此PubMed是比MEDLINE的更大的集合。

2、杂志浏览器— 允许你去查找收录到PubMed系统的杂志的名字，MEDLINE的缩写，或ISSN号码。

3、 PubRef（开发中）— 一个关于来自于广大范围的科学杂志的数目记录，和链接到出版商网址的全文。PubRef包含了PubMEd，加上了来自其它学科的杂志出版商提供的引用和摘要。因此它是比PubMed更大的集合。这个计划的启动是因为NAS要求为科学领域的核心刊物提供一个“白皮书”服务。

4、 PubMed中心（开发中） — PubMed中心是一个无障碍的NIH资源，用于在生命科学领域中同业互查的基础研究报告。从2000年一月开始接受杂志文章。所有在PubMed中心的材料将由目前任一主要的摘要和索引服务中列出的杂志提供，或者在编辑委员会中拥有3个以上有主要资金机构的研究经费的拥有人的杂志提供。

5、 OMIM — 在线人类孟德尔遗传—经常更新的人类基因和遗传失调的目录，有链接到其它相关的文献参考，序列记录，和相关数据库。

6、书籍— 同书籍出版商合作NCBI为网络改编了教科书，并把他们链接到PubMed—生物医药书目数据库。这是为了给PubMed提供背景信息，这样使用者可以探究在PubMed搜索结果中不熟悉的概念。目前收录的书有：

7、 Molecular Biology of the Cell， 3rd ed. Alberts B.， Bray D.， Lewis J.， Raff M.， Roberts K.， Watson J.D.， 1994， Garland Publishing.

8、外部链接— 一个登记服务，用于建立从在Entrez中的特定的文章，杂志，或生物数据到外部网址的链接。第三方可以提供一个URL，资源名字，关于他们网址的简要的描述，和关于从NCBI数据的哪里他们希望建立链接的详细说明。这个详细说明可以用对Entrez有效的布尔查询来写，也可以用特定的文章或序列的标志列表来写。这样NCBI PubMed的用户将可以通过“NCBI小房间”服务（开发中）来选择哪个外部链接在他们的搜索中是可见的。

9、引用匹配— 允许你找到任何一篇在PubMed数据库中的文章的PubMed ID或MEDLINE UID，给出书目信息（杂志，卷，页码等）。

10、单篇文章的引用匹配。

11、许多文章的批量引用匹配。

12、 E-mail引用匹配也是可以的，也可以用于单篇或许多文章。如果要获得帮助文件，给citation_matcher@ncbi.nlm.nih.gov写一封只有内容为HELP的E-Mail。

4、果蝇基因组

1）黑腹果蝇主页：提供所有可使用的果蝇资源的概要，用图形的方式显示了染色体，允许你通过Entrez基因组浏览器的方法来搜索整个基因组的细胞遗传和序列信息。Entrez基因组提供了对于一个物种一致的遗传，物理，和序列数据的图形界面。当你用一个基因的代号来搜索时，它给出搜索结果的一个图形的基因组视图，从那你可以放大到你所感兴趣的区域的更详细的图谱视图，并且链接到序列数据和包含更多信息的相关资源。

2）黑腹果蝇基因组测序的状态：描述了目前在GenBank，Entrez Genomes，和FTP站点中的数据的范围。

3） Entrez图谱浏览器：整合的染色体图谱—图谱浏览器是Entrez基因组的一个软件组成部分，用来显示一个或多个用共同标记或基因名字互相align过的图谱，以及用相同序列进行比较过的序列图谱。在人类基因组数据和搜索技巧文件中有关于目前可以使用的果蝇的序列和细胞遗传学图谱。Entrez图谱浏览器的帮助文件提供了关于如何使用这个工具的一般说明。

4）位点链接（LocusLink）：为校正过的序列和遗传位点的描述信息提供一个单次查询界面。LocusLink给每个位点发布一个稳定的ID，并提供官方的命名，序列accesssion number， Unigene簇，图谱信息，和相关的网址。LocusLink是NCBI，人类基因命名委员会，OMIM和其它组织的合作结果。LocusLink目前包含人类，小鼠，大鼠，斑马鱼，和果蝇的位点，物种可以被分开或合在一起查询。

5、线虫基因组

Entrez基因组：染色体的图形表示，可以整个的查看，也可以逐步放大的看。链接到相关的序列数据。

6、酵母基因组

1） Entrez基因组：染色体的图形表示，可以整个的查看，也可以逐步放大的看。链接到相关的序列数据。

2） COGs ：相邻类的聚簇— 来自于完整基因组的基因家族自然系统。COGs用比较21种完整的基因组的编码的蛋白序列描绘了17个主要的种系发生系统。每个COG包含至少来自3个世系的独立蛋白或蛋白家族的相邻体，所以对应了一个古老的保守domain。

7、疟原虫基因组

1）疟原虫遗传学和基因组：提供与疟原虫遗传学和基因相关的数据和信息。资源包括物种特异的序列BLAST数据库（恶性疟原虫，所有疟原虫，以及弓形虫），基因组图谱，连锁标记，以及遗传学研究信息。链接到其他的疟原虫网站和相关的寄生虫遗传学数据库包括弓形虫。

2） Entrez基因组— 恶性疟原虫的染色体全长的图形视图，完整的染色体序列数据（2和3），链接到正在进行的染色体的分离数据表（来自于HB3 X Dd2杂交的染色体），链接到其他基因组测序中心。

3） FTP站点（pub/Malaria目录）：用于查找在DNA序列中STS的电子PCR疟原虫版。

4） FTP站点（genbank/genomes 目录）：下载各种格式的完整的染色体序列数据（2和3），包括GenBank的flat file （.gbk），GenBank的概要文件（.gbs），FASTA核酸文件（.fna），FASTA氨基酸文件（.faa），蛋白表（.ptt）和其他。

8、细菌基因组

1） Entrez基因组— 完整细菌基因组的图形表示，可以整个的查看，也可以逐步放大的看。链接到相关的序列数据。对每一个细菌都提供了一个编码区域的概要和TaxTable。

2）微生物基因组测序计划：完成的和正在进行的测序计划，链接到NCBI的图形视图和测序中心。

3） COGs ：相邻类的聚簇— 来自于完整基因组的基因家族自然系统。COGs用比较21种完整的基因组的编码的蛋白序列描绘了17个主要的种系发生系统。每个COG包含至少来自3个世系的独立蛋白或蛋白家族的相邻体，所以对应了一个古老的保守domain。

4） FTP站点：下载各种格式的完整的细菌染色体序列数据，包括GenBank的flat file （.gbk），GenBank的概要文件（.gbs），FASTA核酸文件（.fna），FASTA氨基酸文件（.faa），蛋白表（.ptt）和其他。

5）微生物基因组BLAST数据库：与完成的和未完成的微生物基因组进行BLAST