以蛋白质序列为基础的预测
互联网
以蛋白质序列为基础的相互作用预测有好些方法,主要有以直系同源为出发点、以功能域为基础、染色体邻近(chromosome proximity/gene neighborhood)、基因融合(genefusion)、in silico双杂交(in silico two hybrid)、镜像树(mirror tree)、系统进化谱(phylogeneticprofile)等。
这里主要介绍这些预测方法的基本原理,因这些方法的应用比较复杂,有些涉及大量运算,有兴趣的读者可以参阅本章后面的参考文献。
直系同源的方法应用了上面提到的概念,即不同物种间属于直系同源的蛋白质其功能是可以转移的。
基于这个理论,在研究人的蛋白质相互作用时,可以借鉴其他物种中蛋白质相互作用的信息。如果在其他物种中已知两个蛋白质具有相互作用,而且这两个蛋白质在人类基因组编码的蛋白质中有直系同源的蛋白质,则人类的这两个蛋白质也极有可能相互作用。
此方法是研究两个基因在不同的基因组中的近邻关系。其依据是如果在进化过程中,在不同的基因组中的两个基因的这种近邻关系是保守的话,那么它们可能存在一定的相互作用关系或者功能连锁关系。
在一个基因群中,基因是保守的,但其位置则不一定,进化选择的压力倾向使相关功能的基因成簇。这种关系在微生物中表现得十分明显,特别是与代谢相关的基因,很多功能相关的基因聚集成簇形成操纵子。因此,利用基因在染色体上的位置关系可以推测蛋白质的功能和相互作用。
在生物进化的过程中,功能相关的蛋白质在新的物种中趋向于同时保留或消除,即如果两个蛋白质具有功能的相关性,则它们的直系同源蛋白质将趋于同时出现在另一个基因组中。我们可以利用这种进化中蛋白质共出现或共缺失的模式来预测它们之间的相互作用。
如果考虑两个以上的基因,则可以建立起功能上的网络。在应用中,一般是将所研究的生物基因组中的蛋白质与一组参考基因组进行比对,检测蛋白质在不同物种中的保留和缺失情况。值得注意的是,这种预测出来的结果反映的是蛋白质之间的功能相关性,不一定是物理的相互作用。
此种方法只适用于已知基因组序列的物种,同时对一些重要的基因如它们在所有物种中都存在,则无法检测其编码蛋白质之间可能的相互作用。在系统进化谱中,物种的选择和BLAST中E值的选择对结果有很大的影响。