蛋白质三级机构预测－线索化法

互联网2008-08-28

2441

线索化模型产生的背景及发展

上面已经提到，两个自然进化的蛋白质如果具有30%的等同序列，则它们是同源的蛋白质，具有基本相同的三维结构。那么，其余的是否就不是同源的呢？实际并非如此。

在最新的蛋白质数据库PDB中，有上千对蛋白质具有同源的空间结构，但它们的序列等同部分小于25%，即远程同源。许多结构相似的蛋白质都是远程同源的。对于这类蛋白质，很难通过序列比对找出它们之间的关系，必须设计新的分析方法。

对于一个未知结构的蛋白质（U），如果找到一个已知结构的远程同源蛋白质（T），那么可以根据T的结构模板通过远程同源模型化方法建立U的三维结构模型。

一个成功的远程同源模型化方法要解决三个问题：（1）检测远程同源蛋白质（T）；（2）U和T的序列必须被正确地比对或对比排列；（3）修改一般的同源模型化过程，以应用于相似度非常低的情况，即处理更多的环区，建立合理的三维结构模型。

检测远程同源蛋白质是一个基本问题，而正确比对U和T的氨基酸序列则是更为复杂的问题。目前有许多方法声称能够解决第一个和第二个问题，其基本思想是：建立一个从U到已知结构T的线索，并通过一些基于环境或基于知识的势，评价序列与结构的适应性。

至于最后建立三维结构模型则是非常困难的，这是因为建立模型的过程不能校正在序列比对阶段出现的错误。现在，线索技术已成为蛋白质结构预测领域中最活跃的一块。在90年代发表的第一篇关于线索化方法的文章推动了线索化方法的深入研究。

线索化的主要思想是利用氨基酸的结构倾向（如形成二级结构的倾向、疏水性、极性等），评价一个序列所对应的结构是否能够适配到一个给定的结构环境中。

不久提出另一种不同的方法，即利用蛋白质数据库中丰富的信息，通过提取平均势场取出结构知识。利用势场监视特定氨基酸残基对之间的观察距离，而这些残基对具有特定的间隔（即两个残基之间的间隔的残基数）。

直到1995年，许多线索化方法才开始用平均势场。有一种针对二级结构预测的线索化方法，该方法首先对未知结构的蛋白质序列预测其二级结构，然后在已知结构的数据库中提取该二级结构，最终根据标准的动态规划方法，通过序列比对比较从数据库中得到的和预测得到的二级结构。

由于不同平均势场刻画蛋白质不同的结构特征，正确的远程同源蛋白质很可能是所得到的查找结果之一。然而，目前还没有一个单独方法能够在一半以上的情况下检测到正确远程同源蛋白质。

凡是经过大量测试、严格评估的方法，得到正确的远程同源蛋白质的几率小于40%。即使这样，其性能也远远好于传统的序列对比排列方法（在序列等同部分小于25%的情况下）。另外，各种结构预测实验的成功表明，在专家仔细筛选各种选择后，检测到远程同源蛋白质的可能性将会得到进一步地提高。

线索化模型的基本思想

建立序列到结构的线索的过程称为线索化，线索技术又称折叠识别技术。线索化或者折叠识别的目标是为目标蛋白质U寻找合适的蛋白质模板，这些模板蛋白质与U没有显著的序列相似性，但却是远程同源的。

如果找到这样的模板，则将U的序列与模板的结构进行比对（sequence-structurealignment），即建立线索。在此基础上利用模板结构为蛋白质U建立结构模型。

线索化是一个比预测三维结构更复杂的问题，是NP完全问题，需要采用近似求解方法或启发式求解方法。解决该问题的回报是非常高的，如果能够解决线索化问题，那么预测更多的蛋白质结构将成为可能。

对于不同的序列-结构匹配程度度量方法有不同的线索化方法，但是线索化方法一般有5个基本组成部分：（1）已知三维折叠结构的数据库；（2）一种适合于进行序列-结构比对的三维折叠信息的表示方法；（3）一个序列-结构匹配函数，该函数对匹配程度进行打分；（4）建立最优线索的策略，或者是进行序列-结构比对的策略；（5）一种评价序列-结构比对显著性的方法。

在线索技术中，假设存在有限数目的核心折叠（corefolds）。核心折叠实际上是构成蛋白质空间形状的基本模式。线索技术的首要任务是建立核心折叠数据库，在预测蛋白质空间结构时将一个待预测结构的蛋白质序列与数据库中核心折叠进行比对，找出比对结果最好的核心折叠，作为构造待预测蛋白质结构模型的根据。

线索化模型的优化算法

下面介绍一种基于序列与结构比对的最优线索化算法。

令s1，s2，···，sn为蛋白质序列S的n个元素，C1，C2，···，Cm为数据库中核心折叠C的m个核心区域。每一个核心区域由若干个氨基酸残基构成。令Cij为第i个核心区域第j个氨基酸位置。

假设核心折叠C中所有重要的相互作用都体现在各个Cij之间的两两作用，利用图这样的数据结构来表示这些相互作用。用图中的顶点表示Cij，如果Cij和Ci’j’之间存在相互作用，则在图中画一条从Cij所在顶点到Ci’j’所在顶点的边。

设t是一个从序列到核心折叠的线索，那么t说明了序列S的哪些元素si，sj，sk，···代表核心区域C1，C2，C3，···的起始位置。这实际上是一种从序列S到核心折叠C的比对，但是在这样的比对中序列元素内部没有空位，但是序列元素之间存在空位，这些空位将序列元素分割开来。

令λ代表核心折叠C中的环到序列S中空位的映射，显然λ是通过线索化而确定的。令f(t)是进行比对的得分函数，其定义如下：

f(t)=g1(v,t)+g2(u,v,t)+g3(λ,t)

其中g1(v,t)评价氨基酸残基v所处的位置；g2(u,v,t)评价残基u和v的相对位置，如果u和v键合，则得分高；g3(λ,t)评价环区，根据环区的大小进行打分。

完成上述概念定义之后，可以非常简单地描述线索化问题：对于给定的序列S和核心折叠C，选择一个线索t，使得f(t)的值最小，即寻找一个从S到C的最佳映射。虽然问题的描述非常简单，但是要解决这个问题却非常复杂，这是一个NP-完全问题。

准确地求解需要巨大的运算量，在实际应用中只能采用近似或启发式的方法进行求解。如采用分支约束的方法，通过压缩搜索空间，提高算法的执行效率。