比较基因组学,系统进化树
互联网
6663
比较基因组学,系统进化树
NCBI Entrez中的Blink(BLAS TLink)对寻找跨物种的蛋白质同源系和直系同源是一个很好的工具。Blink不是一个独立的工具,它是作为连接存在于NCBI Entrez的每一个蛋白质的记录中,Blink的词条(entries)是基于通过多对多的BLAST序列比对得到的结果,最好的前200个比对结果被呈现。
在Blink的报告页面上,保守的蛋白质功能域展示在比对结果的最上面,通过相关的连接,与NCBI CDD(Conserved Domains Database)数据库相接。比对的结果根据物种分类用不同的颜色以图示的方式呈现,所有的蛋白质结果都有其特有的Blink报告。
“Best Hits”格式只展示每个物种最好的比对结果,从而可以允许很快地找到一个蛋白质在其他物种中的潜在直系同源系。
“Common Tree"按钮呈现与分类树分支相关的BLAST结果,用户可以查看每一个物种;"3D Structures"按钮将输出来源于结构记录的相关序列;"CDD search"按钮连接到与查询序列相关的保守功能域。
Homolo Gene是来自NCBI经计算和人工注释的基因直系同源系。计算的同源系来自于每一对生物体核酸序列比对的结果。在比对的过程中,利用了来源于UniGene的EST和mRNA序列,也包括注释基因组序列中的转录因子。
Homolo Gene可以利用关键词(基因名称、符号、序列号等)进行检索,但不能通过序列进行查询。Homolo Gene的记录与EntrezGene中的每一个基因记录相关联。
美国国家生物技术信息中心的COG(dusters Of orthologous groups of proteins)及KOG(eukaryotic orthologous groups)数据库是通过对完整的原核生物(COG)和真核生物(KOG)的蛋白质序列大量比较而来的。
目前,KOG所包含的真核生物只有8种,如人、果蝇、线虫、拟南芥菜、酵母等。直系同源系之间具有更高的相似性,功能上具有一致性。在多基因组的比对中,潜在的直系同源系在一起可以组成直系同源簇。根据定义,一个COG至少由来源于3个距离足够远的物种的蛋白质组成(3 clades)。
如果我们只考虑KOG数据库,有几种检索方法来访问这些数据库。其中一种方法是NCBI的CDD数据库保守功能域的查询。CDD数据库中除了包含有来源于Smart、Pram的蛋白质功能域及NCBI特异的数据外,还包含有与现有的COG或KOG相似性的结果。
输出是多序列比对的结果,同时还可直接连接到COG和KOG数据库的记录中。数据库Inparanoid对真核生物的直系同源利用复杂的算法进行了更深入的研究,为我们寻找真核生物之间的直系同源打下了好的基础。
Eukaryotic Gene Orthologs,原先又称为TIGRO rthologous Gene Alignments(TOGA),是关于真核生物中直系同源基因的数据库,是通过针对单个生物体的TIGR Gene lndices组成的尝试性保守(tentative consensus,TC)序列进行一对一的比较得来的。
用户可以通过SEARCH功能进行访问,可以进行BLAST比对,或利用基因名称或TIGR序列号进行查询。如果有结果,用户可以得到一个由一系列物种预测的直系同源系集中而成的“尝试性直系同源”(tentative ortholog)序列号。同时,通过ClustalW多序列比对形成的直系同源系cDNA序列也可展示出来。
EGO的一个特征是查询“人类疾病基因的直系同源”(orthologs of human disease genes)。也就是说,在OMIM数据库中,其人类疾病基因与TIGR Human Gene lndex序列号(THC号)是相匹配的,利用EGO数据库,人类疾病基因的直系同源系可以被确定。用户可以利用OMIM、LocusLink ID、基因名称和各种不同的序列号进行搜寻。
PhyloBLAST是进行蛋白质序列的分子系统进化树分析的软件。PhyloBLAST利用BLASTP来寻找Swiss―Prot数据库中的相关氨基酸序列。
最先的结果是包含有所有一对一比对的"BLAST style"图示。用户可以选择期望的序列,利用ClustalW多序列比对等来进行系统进化分析。相关的Phylip程式,包括简约法、UPGMA、neighbor joining和距离矩阵方法等,可以用来产生系统进化树。