以蛋白质序列为基础的预测

互联网2010-12-02

2658

以蛋白质序列为基础的相互作用预测有好些方法，主要有以直系同源为出发点、以功能域为基础、染色体邻近(chromosome proximity/gene neighborhood)、基因融合(genefusion)、in silico双杂交(in silico two hybrid)、镜像树(mirror tree)、系统进化谱(phylogeneticprofile)等。

这里主要介绍这些预测方法的基本原理，因这些方法的应用比较复杂，有些涉及大量运算，有兴趣的读者可以参阅本章后面的参考文献。

1.直系同源

直系同源的方法应用了上面提到的概念，即不同物种间属于直系同源的蛋白质其功能是可以转移的。

基于这个理论，在研究人的蛋白质相互作用时，可以借鉴其他物种中蛋白质相互作用的信息。如果在其他物种中已知两个蛋白质具有相互作用，而且这两个蛋白质在人类基因组编码的蛋白质中有直系同源的蛋白质，则人类的这两个蛋白质也极有可能相互作用。

2.以功能域为基础

以功能域为基础的蛋白质相互作用的预测是基于功能域是蛋白质相互作用的功能单位，因此一些数据库就搜集了功能域及功能域相互作用的信息，然后再根据这些信息来预测蛋白质的相互作用。如果两个功能域之间具有相互作用，则暗示着包含有这两个功能域的不同蛋白质之间也具有相互作用。

3.染色体邻近

此方法是研究两个基因在不同的基因组中的近邻关系。其依据是如果在进化过程中，在不同的基因组中的两个基因的这种近邻关系是保守的话，那么它们可能存在一定的相互作用关系或者功能连锁关系。

在一个基因群中，基因是保守的，但其位置则不一定，进化选择的压力倾向使相关功能的基因成簇。这种关系在微生物中表现得十分明显，特别是与代谢相关的基因，很多功能相关的基因聚集成簇形成操纵子。因此，利用基因在染色体上的位置关系可以推测蛋白质的功能和相互作用。

4.系统进化谱

在生物进化的过程中，功能相关的蛋白质在新的物种中趋向于同时保留或消除，即如果两个蛋白质具有功能的相关性，则它们的直系同源蛋白质将趋于同时出现在另一个基因组中。我们可以利用这种进化中蛋白质共出现或共缺失的模式来预测它们之间的相互作用。

如果考虑两个以上的基因，则可以建立起功能上的网络。在应用中，一般是将所研究的生物基因组中的蛋白质与一组参考基因组进行比对，检测蛋白质在不同物种中的保留和缺失情况。值得注意的是，这种预测出来的结果反映的是蛋白质之间的功能相关性，不一定是物理的相互作用。

此种方法只适用于已知基因组序列的物种，同时对一些重要的基因如它们在所有物种中都存在，则无法检测其编码蛋白质之间可能的相互作用。在系统进化谱中，物种的选择和BLAST中E值的选择对结果有很大的影响。

蛋白相邻类家族(theclustersoforthologousgroup，COG)就是采用这种方法的代表。另一个应用就是非同源的基因如果其在不同的基因组中出现的形式具有高度的相关性，则他们具有相同的功能或一组相关的功能。

5.基因融合

基因融合的理论依据是如果在某些生物体中的两个或多个基因在另一些物种中融合为一个基因，则这些不同基因所编码的相关蛋白质在功能上是紧密相联的，它们可能存在相互作用关系。

6.in silico杂交系统

该系统的理论基础是：研究结果表明一些相互作用的蛋白质应该保持同步进化，从而保持其相关的功能，即一对相互作用的蛋白质中一个蛋白质的氨基酸发生改变，可能会促使与其相互作用的另一个蛋白质中的相应氨基酸位点发生相适应的互补突变，从而保持相互作用的完整性。否则，在进化的过程中，这些蛋白质会由于选择的压力而被清除。因此，利用这种关系来预测蛋白质的相互作用。

7.镜像树系统

镜像树系统的核心思想是：计算包含不同物种的蛋白质家族间的进化距离，构建各自相应的进化树，在进化树之间相似性距离的基础上，构建镜像树，然后由镜像树之间的相似性距离和蛋白质在镜像树上的位置确定蛋白质之间的两两相互作用。

以上的方法为研究蛋白质的相互作用提供了新的思路。然而，上述所有方法都存在局限性，预测的特异性和敏感性都不高，存在着较高的假阳性和假阴性。