蛋白质二级结构预测－最邻近方法（NearestNeighboringmethods）

互联网2008-08-28

2617

早期，由于数据的缺乏，预测方法多基于单条序列。随着序列和结构数据的增加，人们的研究转向同源序列分析，充分利用隐藏在同源序列中的结构信息，使得结构预测的准确率得到了较大的提高。

同源分析的基础是序列比较，通过序列比较发现相似的序列，根据相似序列具有相似结构的原理，将相似序列（或者序列片段）所对应的二级结构作为预测的结果。

在Levitt等人建立的相似片段方法中，将待预测的片段与数据库中已知二级结构的片段进行相似性比较，利用打分矩阵计算出相似性得分，根据相似性得分以及数据库中的构象态，构建出待预测片段的二级结构。

这一方法对数据库中同源序列的存在非常敏感，若数据库中有相似性大于30%的序列，则预测准确率可大大上升。另一种更为合理的方法是将待预测二级结构的蛋白质U与多个已知结构的同源序列Ti进行多重比对，对于U的每个残基位置，其构象态由多个同源序列对应位置的构象态决定，或取出现次数最多的构象态，或对各种可能的构象态给出得分值。

基于上述的策略，最邻近方法在预测二级结构方面包括两个过程，一是学习过程，二是预测过程。在学习阶段，用一个滑动窗口（例如长度为15）扫描已知结构的训练序列，序列个数为几百个，并且这些序列彼此之间的相似性很小。

通过窗口扫描形成大量的短片段（称为训练片段），记录这些片段中心氨基酸残基的二级结构。在预测阶段，利用同样大小的窗口扫描给定的序列U，将在每一个窗口位置下的序列片段U’与上述训练片段相比较，找出50个最相似的训练片段。

假设这些相似片段中心残基各种二级结构的出现频率分别为fα、fβ和fc，用它们预测片段U’中心残基的二级结构，可以取频率最高的构象态作为U’中心残基的二级结构，或者直接以fα、fβ和fc，反应U’中心残基各种构象态可能的分布。根据处理过程的特点，最邻近方法又称为相似片段法。