丁香实验_LOGO
登录
提问
我要登录
|免费注册
点赞
收藏
wx-share
分享

蛋白质二级结构预测-最邻近方法(NearestNeighboringmethods)

互联网

2500

早期,由于数据的缺乏,预测方法多基于单条序列。随着序列和结构数据的增加,人们的研究转向同源序列分析,充分利用隐藏在同源序列中的结构信息,使得结构预测的准确率得到了较大的提高。

同源分析的基础是序列比较,通过序列比较发现相似的序列,根据相似序列具有相似结构的原理,将相似序列(或者序列片段)所对应的二级结构作为预测的结果。

在Levitt等人建立的相似片段方法中,将待预测的片段与数据库中已知二级结构的片段进行相似性比较,利用打分矩阵计算出相似性得分,根据相似性得分以及数据库中的构象态,构建出待预测片段的二级结构。

这一方法对数据库中同源序列的存在非常敏感,若数据库中有相似性大于30%的序列,则预测准确率可大大上升。另一种更为合理的方法是将待预测二级结构的蛋白质U与多个已知结构的同源序列Ti进行多重比对,对于U的每个残基位置,其构象态由多个同源序列对应位置的构象态决定,或取出现次数最多的构象态,或对各种可能的构象态给出得分值。

基于上述的策略,最邻近方法在预测二级结构方面包括两个过程,一是学习过程,二是预测过程。在学习阶段,用一个滑动窗口(例如长度为15)扫描已知结构的训练序列,序列个数为几百个,并且这些序列彼此之间的相似性很小。

通过窗口扫描形成大量的短片段(称为训练片段),记录这些片段中心氨基酸残基的二级结构。在预测阶段,利用同样大小的窗口扫描给定的序列U,将在每一个窗口位置下的序列片段U’与上述训练片段相比较,找出50个最相似的训练片段。

假设这些相似片段中心残基各种二级结构的出现频率分别为fα、fβ和fc,用它们预测片段U’中心残基的二级结构,可以取频率最高的构象态作为U’中心残基的二级结构,或者直接以fα、fβ和fc,反应U’中心残基各种构象态可能的分布。根据处理过程的特点,最邻近方法又称为相似片段法。

提问
扫一扫
丁香实验小程序二维码
实验小助手
丁香实验公众号二维码
扫码领资料
反馈
TOP
打开小程序