采用计算方法的组合式蛋白质设计策略

最新修订时间：2024-05-13

材料与仪器

步骤

蛋白质设计中的概率性方法是提供在一个特定的蛋白质结构中对某氨基酸（出现）在一指定位点的概率估计。这里，我们讨论几种估计这些概率的方法并将重点放在直接解出这些概率的基于熵的自洽公式。

2.1 关联序列的比对

蛋白质结构的序列可变性可用序列和结构数据库来探讨。已知折叠为非常相似结构的序列可以从蛋白质数据库或结构比对数据库中鉴别出来 [48] 。如果一个序列的结构已知，具有足够序列相似性的 [ 如序列同一性（identity) 大于 40% ] 可以认为共享同一结构。对这样结构相似蛋白质的多序列比对可以把氨基酸位点特异的概率简单地估计为比对中每一位置（出现）每一氨基酸的频度 [49] 。这样一组概率常称为序列剖面（se-quence profile) 。如果序列的数量不够，以致于某些氨基酸在某些特别位点上从未出现过，伪计数（psedocount ) 和其他方法可以用来规整化这些频度，以使它们在折叠为选定结构这点上更有代表性。虽然如此，从这样的剖面得到的概率将使数据库中序列的性质产生严重偏差。因为存在大量相似性很低的序列折叠类似结构的例子，我们希望在更广的范围内对序列可变性得到完整的理解。从数据库导出的剖面也不适合于设计数据库中没有序列的新蛋白质结构。用一个给定的主链结构为模板，更普遍的计算方法可从头确定氨基酸概率。

2.2 建立剖面的定向搜索方法

定向搜索方法的重复应用可以估计一个序列整体的性质。对这类计算，通过给定主链原子坐标来选定一个目标结构。如果采用单个的蛋白质结构，几个最新的直接设计研究得到了与野生型序列相当相似的序列 [51~54 ] 。对一个给定结构，可以独立运行多序列搜索计算，以得到一组序列，这些序列的比对产生位点特异概率。Desjarlais 及其合作者，对与一特定折叠一致性的极相关的结构系统的每一个成员独立地运行了他们的序列预测算法 [ 55 ] 。对每一个结构，鉴别出一个优化的「成核」序列，随后，对整个结构探索序列/旋转异构。这个方法已被用于鉴定与小 β 片 WW 结构域 [4，55 ] 折叠相容的序列。对一特定折叠的 100 个微结构变体（1A 均方差）的每一个，应用序列预测算法构建了比应用单个结构更为离散得多的计算剖面 [ 56 ] 。Xencor Inc. 的工作者对一优化序列 ( 其中 β 内酰胺酶活性位点附近的残基被替换）进行了采样，采用了 Monte Carlo 采样法 [ 57 ] ，找到了对一种抗生素的抗性增加了 1000 倍多的序列。但是，构建剖面的这些方法非常耗费计算资源。因为，为建立氨基酸位点特异的频度，要完成重复的定向搜索。

2.3 序列系综的统计理论

已经建立起统计的、基于熵的公式，对给定的主链结构鉴定出一组位点特异的氨基酸概率，而不只是最优的序列[ 58，59 ] 。来源于统计学的理论被用来处理与主链结构相容的序列的数目和构成。这一理论也处理构成适合的整个空间，而不只是对实验和数值计算及取样可达到的小部分空间。亚优化序列的特性很容易检验。大蛋白结构（多于 100 个残基）计算起来很容易。这里的「熵」是指与目标结构相容的序列数。这个来源于热力学的概念被用来减少可能的序列数：对序列的限制减少了熵，并且伴随能量的降低熵也在减少。

方法中的输入是目标主链结构，以及定量化序列-结构相容性的能量函数。对于一个目标主链结构，该方法产生每一个氨基酸（出现）在每一个残基位点的概率（见注 2 )。在理论中整体的特性（如序列在该目标中的总能量）和局部特性（如在某特定位点所容许的氨基酸），两者可以作为限制包含在方法中。许多氨基酸概率的集合是可能的。这个方法用极大化有效熵的方法确定「最可几」（「最可能」）的这样的集合，借此，这种极大化是受限的。此方法有效地通过这样的限制来为系统提供手段，以减小需要搜索的序列空间体积，达到实验可及的水平。

在限制函数规定的具有期望的特性序列中，令 Wi 表示 α 氨基酸出现在残基位置 i 并使得其侧链为一组离散构象—— rk (α) ( 旋转异构态；参考 [6] 和 [ 60 ] ) 中的任何一个的概率。总的序列-构象熵一Sc ( 此处简单地称为「构象熵 ]）可以定义为

求和遍及每一个序列位点 i 和所有可能的氨基酸 α。对每一种氨基酸求和也遍及 k 种可能的旋转异构态——rk(α)。在限制条件 f 之下，通过极大化 Sc 来得到 Wi。极大化采用拉格朗日乘子法 [ 61 ] 。Wi[α，rk（α）] 的变分泛函 V 定义为

一般来说，限制条件 f 也是概率 Wi[α，rk（α）] 的函数。在确定与特定的限制相容的状态概率时，第 m 个限制函数 f_m 被限定取值 f_m⁰。确定概率的方程组和拉格朗日乘子的形式为（见注 3)：

这个大的耦合非线性方程组用求根法（root- finding) 求解。虽然这样的方法有很多选择，我们找到一种可以广泛采用的整体收敛的方法 [ 62] 。

2.3.1 能量函数

在计算中考虑两种能量——构象能 Ec 和环境能 Eenv，并在极大化构象熵中用作限制条件。

构象能 Ec 用基于原子的位能一 AMBER 力场 [63] 计算。Ec 包括范德华相互作用，带有与距离相关的介电常数（4ery ) 的静电相互作用，以及修正后的氢键项。对一个特定序列（α₁，…，α_N )，其中氨基酸的构象态是 [ r₁（α₁），…，r_N（α_N）] ，Ec 是

在考虑蛋白质能量函数的时候，单体项 εi [ α，rk（α）] 包括主链和侧链原子的相互作用，以及氨基酸的参考能量（见 1.2.3.3 小节）。双体项为对结构中两个不同位点的两个旋转异构态间相互作用的求和。对享有共同能量特性的大量序列，我们假定 Ec 由于序列改变引起的围绕其平均值的涨落不大。那么，我们可以写出

作为另一个限制项，引入环境能以在统计理论内用等效的方式计人疏水效应 [59] 。这个位能考虑了氨基酸的表面暴露倾向。我们可以用氨基酸概率把 Eenv 写成

式中，为在 1.2.3.2 小节定义的局部环境能量。需要注意的是这个能量不包含双体相互作用并且只取决于在每一个位置的氨基酸和旋转异构态。

2.3.2 溶解和疏水能

定量化疏水作用和其他溶液特性在蛋白质设计的方法上是一个重要的参数。用计算来检验序列中大量的变化是不切实际的，即使是计算溶液可及表面积，它常常与疏水倾向相关得很好，也可能要消耗大量计算资源。在用于统计计算一致的实用方法考虑溶液效应的努力中，作为每一个位点附近的 β 碳原子密度 ρ 的函数，引进了环境能 [59] 。一般来说，疏水残基倾向于定位在蛋白质的掩埋区，而亲水残基则倾向于定位在表面。因而，疏水残基倾向于有比亲水残基更高的 β 碳原子密度。通过 500 个不同的、已知结构的球蛋白，我们推导了计算氨基酸有效势能的通用「统计」势能方程

式中，p ( α，ρ ) 为观察到残基 α 的局部 β 碳原子密度为 ρ 的次数；p ( α ) 为观察到残基 α 在训练集中的次数；p ( ρ ) 为不管残基类型，局域密度 ρ 被观察到的次数；Te 为有效温度；密度 ρ 为以残基某个特定取向为中心的「自由体积」内 β 碳原子的密度。自由体积即未被侧链排除的平均体积

式中，n_β 为从侧链质心起在距离 R 内（比如 8A）的 β 碳原子数。我们注意局部密度依赖于残基的旋转异构态。这种基于 β 碳原子密度的位能与其他的氨基酸疏水标度相关得很好 [59]。对序列概率计算，Eenv 限制取值为一个具有同样结构的已知序列的值（如果有一个已知值的话），或者具有同样大小或链长的蛋白质代表值。

2.3.3 参考能量

在蛋白质设计中，我们寻求优化特定序列在目标结构中相对于未折叠态系综的能量。为了处理未折叠态，对每一个氨基酸引进一个参考能到 Ec 中，以模仿失活态的效果 [ 51，65 ] 。这个能量计算为每个氨基酸 α 在 N-乙酰基-α-N'-甲胺氨基酸形态下的「自由能」，并平均多种主链结构。这是对伸展的未折叠状态的平均值的粗略近似。参考能包含对可能的旋转异构态和可能的主链构象求和。主链构象的 ψ 和 φ 每隔 10° 取值一次。每个残基的参考能可以用下式估计：

式中，Emf 为用分子位能确定的 N-乙酰基-α-N'-甲胺形态的氨基酸 α 在特定的构象的构象能。这里，始终使用依赖于主链的旋转异构体数据库。参考能是相对于没有侧链的甘氨酸（G ) 测量。对主链的能量限制包括原子间相互作用并取下列形式

2.3.4 旋转构象和（氨基酸）身份概率

此理论极大化了构象熵 Sc，从而得到特定氨基酸以侧链构象 k 出现在位点 i 的概率 Wi。氨基酸概率 Wi ( α ) 可用

确定。

类比于统计热力学，由于限制构象能而出现的拉格朗日乘子，可以认为是等效的倒数温度。对应的热容量 C 定义为

对特定蛋白——SH 3 结构域应用这个理论作为例子。随着有效温度 Tc 的降低（即 Ec 降低；图 1.1)，构象熵也降低。在高能量下（高 Tc，低 βc），会产生许多残基间不利的相互作用（高能量），以及序列/旋转异构态在每一位点的宽泛分布。一般来说，在每个位点上可能的氨基酸和旋转异构态的数目，随能量的降低而降低。如图 1.1 所示，Cv 在 Tc ( = 1/βc）= 10 mol/kcal 通过一个峰值之后，大约在 2 mol/kcal 达到低谷。在这个点内部的残基类型和构象态相对地较为确定 [59]；而表面残基，尽管以亲水为主，仍有大量概率可比的旋转异构态。这是与数据库中蛋白质表面暴露残基的构象可变性相一致的。于是，对于确定在哪一个「有效温度」下检验概率，热容量是有帮助的。另外，与序列比对得到的剖面（如用同源性导出的蛋白质二级结构数据库；参考文献 [66]) 可直接比较得到很符合的结果，特别是在掩埋区（图 1.2)。

2.4 用于蛋白质剖面的基因库

在 1.1.3 小节，我们讨论了怎样应用特定结构的序列剖面。如果公用序列或定向搜索序列鉴定出了一个序列，它可以用多肽合成或合成编码该序列的基因然后再通过表达来直接地实现。大蛋白常用表达的方法来实现。如果概率性的序列信息被用来建立组合库（见注 4 ) ，需要有方法把蛋白质剖面转录为部分随机的基因序列库。核苷酸的非均匀分布，对编码偏向于特定氨基酸的多肽序列是必需的。在一组部分随机基因的每个位置的伪独立核苷酸概率可以用计算来确定，使得基因库编码的蛋白质库最好地重现期望的氨基酸剖面。然后，计算出的基因库可用于标准的 DNA 合成中。

如果氨基酸 α 的各种编码是等概率的（没有编码偏向），氨基酸 α 的概率为对应于这个氨基酸的各种编码的概率之和：

目标函数使期望的氨基酸概率分布与一给定的核苷酸概率分布编码的氨基酸概率分布之差定量化 [ 67，68 ] 。为了找到最好地再现期望的氨基酸频度而且避免终止码出现的核苷酸概率，Wang 等提出了一种新的目标函数「69」。此目标函数包含两项，一项为 X² 函数——它定量化期望和计算的氨基酸概率的绝对偏差，另一项为相对熵。这样的相对熵广泛地用于定量化两个概率分布间的「距离」，并且是判断一个分布的信息没有被包含在另一个分布中的强硬指标 [ 50 ]：

图 1.3 说明在特定蛋白质特定氨基酸位点，此处是 SH3 结构域的位点 54 的核苷酸设计。显示出来的是氨基酸的期望的频度（图 1.3 上的空心带）和用于计算的核苷酸概率编码的氨基酸频度（图 1.3 上的实心带）。在这个例子中两者符合得很好。因为氨基酸编码部分简并的原因，在很多情况下，期望和计算的概率分布不能精确地符合。这一计算方法提供了出色的完整序列（不包含终止码）：对于测试蛋白质的 50~60 个残基，若是经历过随机化的选择，其完整序列的产出会是 96% 以上。当基因的大部分或全部经历了组合替换，高的产出会显得尤为突出。

来源：丁香实验

关于丁香通

公司信息

个人用户

企业机构

无忧采购轻松科研

提问

扫一扫

实验小助手

扫码领资料

反馈

TOP

打开小程序