基于极性与非极性氨基酸的“二元组图” 进行蛋白质设计
丁香园
4310
1. 引言
众多研究结果表明,天然蛋白质结构对于氨基酸的替换具有非常显著的“耐受性”。因此很多不同的氨基酸序列可以编码产生给定的三维结构 [ 1~7 ] 。
我们利用这一 “耐受性”来发展蛋白质设计的总体策略。这一称为 “二元码”的策略是基于极性与非极性氨基酸适当的组合能指导多肽链折叠成相应的二级结构元素,同时使得包埋的非极性氨基酸形成所需的三级结构 [ 8~10] 。设计的 “二元组图” 利用了蛋白质二级结构中天然具备的周期性:α 螺旋具有每圈 3.6 个残基的重复周期性,而 β 股(β-strand ) 具有交替周期性(图 9.1)。因此,设计为双亲性 α 螺旋的二元组图序列应该在第三或第四位放上非极性氨基酸。相对应,设计一个双亲性 β 股应该在序列中交替安插极性和非极性氨基酸残基。在 “二元码” 策略中,蛋白质侧链的精确三维堆积并不需要预先确定。因此,在一个二元组图序列库中,每一个极性和非极性残基的侧链可以变化得非常剧烈,从而产生巨大的组合多样性。
二元组图蛋白质的组合库是由合成基因的组合库表达出来的。每个基因编码一个不同的氨基酸序列,但是在同一个给定组合库中的所有序列具有同样的极性和非极性残基图形。遗传代码(图 9.2 ) 的组成分布使得这种序列简并性成为可能。简并密码 NTN 编码非极性氨基酸残基,而简并密码 NAN 编码极性氨基酸残基(N 表示 A、G、 T、C 的混合物;见 9.2.2 节中相关密码子的利用)。利用这些简并密码子,非极性位 置上的氨基酸可以是苯丙氨酸(Phe)、亮氨酸(Len)、异亮氨酸(lie )、甲硫氨酸 (Met) 或者缬氨酸(Val);而极性位置的氨基酸则是谷氨酸(Glu)、谷氨酰胺 (Gin)、天冬氨酸(Asp)、天冬酰胺(Asn)、赖氨酸(Lys) 或者组氨酸(His)。
本章概述了应用二元组图设计新型蛋白质库的方法。利用我们实验室的具体实例,主要集中在设计全 α 螺旋蛋白质和全 β 片层蛋白质上。对于设计蛋白质组合库的综述,参见参考文献 [11]、[12]。
2. 材料与方法
2.1 设计结构模板
二元组图可以应用于一个蛋白质中任何双亲性 α 螺旋或 β 链部分。尽管我们实验室集中于设计全新蛋白质,二元码策略也可以用于已知蛋白质的局部区域,如活性中心,蛋白质核心的一部分,或者接触界面 [13] 。对于全新蛋白质的设计,这个策略能否成功取决于蛋白质结构模板设计的好坏。下面我们介绍设计结构模板需要考虑的几个因素。
2.1.1 二元组图的区域
1 ) α 螺旋设计
二元组图利用蛋白质二级结构中固有的周期性。α 螺旋具有每圈 3.6 个残基的重复周期性(图 9.1A )。要设计一节双亲性 α 螺旋二级结构片段,可以用二元图形 P-N-P-P-N-N-P ( P 表示极性残基,N 表示非极性残基 )。我们最初的 α 螺旋设计集中在四螺旋束模体上(图 9.3)。在这个结构中,每个螺旋疏水面都朝向束的中间核心,而各螺旋的亲水面则暴露在水溶液环境中。P-N-P-P-N-N-P 图样有利于形成双亲性 α 螺旋二级结构,使得形成所需三级结构之后所有的非极性氨基酸侧链都被包埋在内部。从我们设计的四螺旋束蛋白质库中,50 多个蛋白质被纯化及表征。所有都具有典型的 α 螺旋圆二色(CD) 光谱 ( 见注1)。更值得一提的是,此研究中有好几个蛋白质都表现出天然蛋白的性质。例如,核磁共振化学位移色散,协同性化学和热变性,以及慢速氢/氘交换率等 [ 14~18] 。
2 ) β 片层设计
双亲性 β 链具有 …P-N-P-N... 的交替周期性(图 9.1B)。基于这种周期性,合成基因的组合库可以编码产生 β 片层结构蛋白质。极性残基组成 β 片层的一面,而非极性残基组成相反的另一面。我们最初设计了具有 6 个 β 链的片层结构,每一股都具有二元组图 P-N-P-N-P-N-P [9] 。利用合成基因克隆到大肠杆菌中表达该库中的蛋白质,研究中所有的蛋白质都形成了 β 片层二级结构,具有典型的 β 片层圆二色光谱,217 nm 处有一个低谷(见 注 1)。从这个最初的组合库中得到的 β 片层蛋白质可以自组装成为淀粉样纤维沉淀 [9] 。这些纤维将非极性残基包埋在疏水核心,而极性残基则暴露在溶液中。
如果把上述的 β 片层蛋白质置于具有极性/非极性界面的非均一环境中,它们会形成不同的结构。例如,在空气/水界面,这些蛋白质自组装成平整的 β 片层单层,非极性残基向上指向空气,而极性残基向下指向水面 [19] 。或者,在水和高度有序的热熔石墨非极性界面,二元组图的 β 片层序列在石墨表面经历模板指导的组装进而产生了高度有序的结构 [ 20] 。
2.1.2 固定区域
实验中,经常需要固定蛋白质的部分序列( 即没有组合差异),特别是当目标序列很长的时候。设计合成基因库时,这部分固定的区域可以作为单链合成寡核苷酸退火时相互识别的位点,并引导互补链的酶合成(图 9.4 ; 由单链寡核苷酸进行全长基因组装部分见 9.2.3 )。
较短的或中等长度的单链寡核苷酸通常用于编码单独二级结构单元的二元组图。这些寡核苷酸 3' 端和 5' 端的非简并固定区域通常用于编码固定的转角区域(图 9.3 和图 9.4;参考文献 [ 8 ] 和 [ 9 ])。位于这些转角区域的氨基酸残基的选择则基于下面的统计及推理准则。
( 1 ) 转角区域氨基酸残基的选择基于位置偏好的原则。例如,在初始的四螺旋束库中,螺旋两端的 “ N 帽子” ( N- cap) 和 “ C 帽子” (C- cap) 区域放置甘氨酸残基(图 9.3;参考文献 [8])。天然蛋白中这些位置也经常出现甘氨酸残基 [ 21] 。在 C 帽子后面的位置,加入脯氨酸残基来终止螺旋结构。但某些情况下,脯氨酸残基可能并不适合,因为其引起的肽键顺反异构可能造成蛋白质的多构象(非单一构象)。在 β 片层库中,转角区域的设计则基于已知结构的天然蛋白质中氨基酸残基组合的 “转角可能性”(见注 2’;参考文献 [22])。
( 2 ) 转角区域的序列中可引入限制性位点。这在基因扩增中常常很有用(见 9.2.3;参考文献 [8])。
( 3 ) 固定区域的长度应满足序列特异性退火的需要。重叠 10~15 个碱基的寡核苷酸对通常用于退火反应。亦可通过固定转角区域前后密码子中的 1 或 2 个碱基来帮助退火。例如,合成寡核苷酸链 (5, - N AN - N TN - N TN - N AN - GGT- CCT- CGT- AGC- 3’) 画线部分的 12 个碱基为固定的部分,编码四残基转角区域。其之前为编码极性残基的 NAN,如果将第三个碱基固定,如 G,密码子变为 NAG,则在序则特异性退火时就产生额外的两个固定碱基(5 '- N AN - N TN - N TN - NAO-GGT - CCT- CGT- AGd )。同时, 因只固定了密码子的第 2、第 3 个 碱基(第 1 个碱基可变),氨基酸的多样性被保留。
除了转角区域外,N 端和 C 端的序列也需要固定。这些区域的固定序列通常是将基因克隆到表达载体时所需的。末端设计的一些准则如下。
( 1 ) N 端放置起始甲硫氨酸,这是胞内重组表达所需要的。
( 2 ) 可在固定区域安插含有芳香族生色团的残基(如酪氨酸、苯丙氨酸),这样有利于蛋白质的纯化及浓度的测定 [ 9,18] 。这些芳香族的氨基酸残基可放在固定转角区域或是链的一侧末端。在我们设计的一些库中,将一个酪氨酸残基安插在起始甲硫氨酸后面,这样不但可以引入生色团,也可防止体内实验中甲硫氨酸被切除 [ 23~26] 。
( 3 ) 设计蛋白质的 C 端残基应为带电荷的极性残基。因为蛋白质的 C 端序列可能会影响其胞内降解的速率,带电荷残基的加入会延长其胞内的半衰期 [ 27~29 ] 。因此,在四螺旋库中,就设计了半胱氨酸残基位于 C 端 [ 8, 18] 。此外,如果 α 螺旋的 C 端为带正电荷的残基(N 端为带负电荷的残基),则可以通过与螺旋的偶极作用稳定蛋白质 [ 30 ] 。
2.1.3 设计三级结构的考虑
所设计的模板最终能否成功取决于其编码的蛋白质的性质。如果目标是产生良好折叠的球蛋白,那么设计的模板就不但要求有很好的二级结构,也需要有三级结构。设计的模板要足够长以形成折叠良好的三维结构,同时又要尽量短使得正确扩增大的基因文库得以实现。我们设计的第一代四螺旋束(包含 74 个残基)库中的许多蛋白质 都形成了类似溶融球结构的中间物 [ 8,14~17 ] 。为了研究二元码策略编码类似天然蛋白质 三级结构的可能,我们设计了第二代二元组图蛋白质库 [18] 。这个库是以早先设计的 74 残基库中的序列蛋白质 86 为基础进行改造设计而来的。对蛋白质 86 的主要改动是给每个四螺旋加上 6 个不同组合的氨基酸残基,使得设计的第二代蛋白质与天然四螺旋蛋白质大小相似。增加的 24 个残基的设计同样遵循二元组图法则。
从第二代库中随机抽选 5 个序列进行性质鉴定,发现它们全部都比母蛋白 86 更加稳定 [17] 。同时,它们的核磁共振(nuclear magnetic resonance, NMR ) 波谱谱线大部分为分散的,显示很好解析的核 Overhauser 效应(nuclear overhauser effect, NOE ) 交叉峰,表示得到了独特的、良好折叠的三级结构 [18]。其中的两个蛋白质的结构通过 NMR 获得解析,均是所设计的有序的四螺旋束结构 [ 12,31 ]。
2.2 密码子的应用
正如 9.1 节中提到的,简并密码子 NAN 和 NTN 分别编码极性和非极性氨基酸残基(图 9.2)。然而,在 N 位置仅简单的使用等量的 A、C、T、G 碱基的混合物会给序列引入不良特性。更为重要的是,未加限制的 NAN 密码子有很高的概率编码终止密码子 ( 即每 16 个 NAN 密码子中就有 2 个终止密码子,概率为 12.5% ) 。下面是我们使用的设计极性与非极性密码子的一些准则。
2.2.1 NAN (极性)密码子
( 1 ) NAN 密码子的第一个碱基使用等比例的 G、C 和 A 的混合物,T 不使用,这样避免了终止密码子和酪氨酸残基的引入(见注 3 )。如果 4 种碱基都加入,则 T 碱基会形成终止密码子 TAG 和 TAA。
( 2 ) NAN 的第三个碱基的设计可以优先选择一些碱基。如果使用等比例的 G、C、 A、T 碱基的混合物,则产生组氨酸、谷氨酰胺、天冬酰胺、赖氨酸、天冬氨酸及谷氨酸的概率是相同的。但 NAN 编码的某些残基有形成 α 螺旋的固有倾向 [ 32~35 ] 。因此通过在第 3 个碱基的位置排除 T 碱基,则更多的形成谷氨酰胺、赖氨酸和谷氨酸,而不是组氨酸、天冬酰胺和天冬氨酸。这样就正好符合这些残基形成 α 螺旋的偏好 [ 32~35 ] 。
2.2.2 NTN ( 非极性)密码子
如果在 NTN 密码子的第 1 个和第 3 个 N 位置都放置等比例的 4 种碱基,那么编码亮氨酸的比率是甲硫氨酸的 6 倍(即 6 个亮氨酸密码子对 1 个甲硫氨酸密码子)。并且这种等比例的设计会造成内部 1/4 的疏水残基都将是缬氨酸,缬氨酸不易形成 α 螺旋,因此可能不适于某些设计。通过改变 N 位置上 4 种碱基的比率,各种疏水残基的相对含量会发生变化。例如,在初始的四螺旋束库,NTN 密码子的第 1 个碱基位置上 A : T : C : G 的摩尔比为 3 : 3 : 3 : 1,而第 3 个位置上只包含等摩尔的 G 和 C 碱基 [8] 。通过这种混合物的偏好,缬氨酸在疏水残基中所占的比率下降到 10%,而亮氨酸残基出现的频率也下降为甲硫氨酸的 3 倍。
2.2.3 宿主表达系统中密码子的应用
不论是固定区域或是组合区域,设计库中的 DNA 序列都应优先使用宿主表达系统喜好的密码子。例如,设计简并密码子的第三个碱基仅包含 G 和 C ( 而非 4 种碱基)以满足大肠杆菌对密码子的偏好性。对于宿主细胞很少使用的密码子,如大肠杆菌表达系统中 CGA、AGA 和 AGG ( 编码精氨酸),CTA ( 编码亮氨酸),CCC ( 编码脯氨酸),ATA (编码异亮氨酸)都应尽量避免,因为包含稀有密码子的基因很难被表达 [37] 。其他的(非大肠杆菌)表达系统也都有各自的密码子偏好性,在设计中应该考虑。
2.3 全长基因的组装
通常我们使用短的单链寡核苷酸组装全长基因(图 9.4)。这样可以减少直接合成长链核苷酸引起的固有误差( 多数由于缺失或移码引起)。5' 端和 3' 端的固定区域是单链寡核苷酸退火杂交并引导酶(DNA 聚合酶)合成互补链的位点。应用这一策略可以获得更多的正确编码新型目标蛋白的“无误基因”。
在合成半随机寡核苷酸时,一些是编码链(有义链),另一些是非编码链(无义链)。通常每条寡核苷酸链都编码一个独立的二元组图二级结构片段。用这样的片段组装全长基因使得单独的 α 螺旋和 β 股可作为独立的模块被设计和使用,因此增加了二元码策略的多样性(见注 4)。
在我们最初设计的四螺旋束库中,使用 4 条合成的寡核苷酸链构建全长基因。每条链都编码一个单独的螺旋及转角。如 9.2.1.2 中所述,转角区域都是固定的(即没有简并),以作为 DNA 聚合酶合成互补链时的引导位点(图 9.4;参考文献 [8])。
我们尝试了多种方法进行基因组装。比如同时构建了两个半基因库,将两者连接在一起生成编码全长蛋白质的基因库 [8]。为了确保做到正确的头尾相连,可在连接部位的固定区域设计非回文结构的限制性酶切位点 [8] 。其他的一些组装全长基因的方法包括多种聚合酶链反应策略(如重叠延伸 PCR),这些方法在我们构建的多个文库中都曾使用。
3. 注
1. α 螺旋和 β 片层库均由同样的二元码氨基酸残基组成。因此,并不是氨基酸组成的不同赋予所设计的蛋白质不同特征 [ 8~10 ] 。同样也不是因为序列长短的不同造成蛋白质的不同特性。不需考虑长度,周期序列 P- N- P- P- N- N -P 总是形成 α 螺旋二级结构,而 P- N- P- N- P - N -P 周期序列则总是形成 β 片层二级结构(在相同的实验条件下检测)。二元组图本身就是这两种不同结构的序列库的不同之处。
2. 对于二元码密码子 NAN 和 NTN,可编码 6 种极性氨基酸残基(谷氨酸、天冬氨酸、赖氨酸、天冬酰胺、谷氨酰胺及组氨酸)和 5 种非极性氨基酸残基(缬氨酸、甲硫氨酸、异亮氨酸、亮氨酸和苯丙氨酸)。除了这 11 种可变残基之外,可在序列的固定区域加入许多其他残基。例如,我们新近设计的包含 102 个残基的四螺旋束库就包含了 20 种氨基酸中的 17 种 [18] 。只去除了丙氨酸、脯氨酸和半胱氨酸。因为在天然蛋白质中,丙氨酸在蛋白质的表面和核心都有出现,其在二元码中的极性或非极性性质比较模糊。而脯氨酸是个特例,因其少角受限制,仅能在结构的某些固定区域使用。半胱氨酸仅在需要设计二硫键或金属结合位点时才使用。
3. 通过在极性密码子 NAN 的第一个碱基位置不使用 T 碱基,避免酪氨酸的出现。这是因为天然蛋白质中酪氨酸并不是完全的极性残基,经常会出现在疏水内核的位置。因此只有极性较强的残基(组氨酸、谷氨酰胺、天冬酰胺、赖氨酸、天冬氨酸和谷氨酸)才设计在蛋白质表面位置。
4. 用聚丙烯酰胺凝胶电泳法纯化合成的寡核苷酸非常必要。这样可减少将截短的寡核苷酸引入库中的可能性。虽然这一纯化步骤减少了 DNA 的含量(以及潜在的多样性),但文库中基因的质量得到了显著提高。
参考文献
1. Lira, W. A. and Sauer, R. T. ( 1 989) Alternative packing arrangements in the hydrophobic core of lambda repress or. Nature 339, 31-36.
2. Bowie, J. U. , Reidhaar-Olson, J, F. , Lim, W. A. , and Sauer, R. T. (1 990) Deciphering the message in proteinsequences : tolerance to amino acid substitutions. Science 2 4 7, 13 06-1310.
3. Axe, D. D. , Foster, N. W. , and Fersht, A. R. ( 1 99 6 ) Active barnase variants with completely random hydrophobic cores. Pr^oc. Natl. Acad. Sci. USA 9 3 , 5590-5594.
4. Gassner, N. C. , Baase, W. A. , and Matthews, B. W. ( 1 99 6 ) A test of the “jigsaw puzzle” model for proteinfolding by multiple methionine substitutions within the core of T4 lysozyme. PVoc. iVa以 ? Sa.. USA 9 3 , 12 155 -12158.
5. Riddle, D. S. , Santiago, J. V. , Bray-Hall, S. T. , et al. ( 1 997) Functional rapidly folding proteins from simplified amino acid sequences. Nat. Struct. Biol. 4 , 80 5-809.
6. Silverman, J. A. , Balakrishnan, R. , and Harbury, P. B. ( 2 0 0 1 ) Reverse engineering the (p/a)s barrelfold. Proc. Natl. Acad. Sci, USA 98, 3092-3097.
7. Lau, K. F. and Dill, K. A. (1 990) Theory for protein mutability and biogenesis. Proc. Natl. Acad. Sci. USA 87,638— 642.
8. Kamtekar, S. , Schiffer, J. M. , Xiong, H. , Babik, J. M. , and Hecht, M. H. ( 1 99 3 ) Protein design by binarypatterning of polar and nonpolar amino acids. Science 2 6 2, 16 80-1685.
9. West, M. W. , Wang, W. , Patterson, J. , Mancias, J. D. , Beasley, J. R. , and Hecht, ML H. (1 999) Denovo amyloidproteins from designed combinatorial libraries. Proc. NatL Acad. Sci. USA 9 6, 112 11- 11 2 16 .
10. Xiong, H. , Buckwalter, B. L. , Shieh, H. M. , and Hecht, M. H. (1 99 5 ) Periodicity of polar and nonpolar amino acids is the major determinant of secondary structure in self-assembling oligomericpeptides. Proc. Natl. Acad. Sci. USA 92, 6349-6353.
11. Moffet, D. A. and Hecht, M. H. ( 200 1) De novo proteins from combinatorial libraries. 1 0 1 ,3191-3203.
12. Hecht, M. H. , Das, A. , Go, A. , Bradley, L. H. , and Wei, Y. (2004) Denovo proteins from designed combinatorial libraries. Protein Sci. 13 , 1 7 11 - 1 72 3 .
13. Taylor, S. V. , Walter, K. U. , Kast, P. , and Hilvert, D. ( 2 0 0 1 ) Searching sequence space for proteincatalysts. Proc. Natl. Acad. Sci. USA 98, 1 0 596 -1 06 01 .
14. Roy, S. , Ratnaswamy, G. , Boice, J. A. , Fairman, F. , McLendon, G. , and Hecht, M. H. ( 1 997) A proteindesigned by binary patterning of polar and nonpolar amino acids displays native-like properties.J . Am. Chem. Soc. 11 9, 5302-5306.
15. Roy, S. , Helmer, K. J. , and Hecht, M. H. ( 1 997) Detecting native-like properties in combinatorial libraries ofde novo proteins. Folding Des. 2, 89-92.
16. Roy, S. and Hecht, M. H. (2000) Cooperative thermal denaturation of proteins designed by binary patterning ofpolar and nonpolar amino acids. Biochemistry 3 9, 4603-4607.
17. Rosenbaum, D. M. , Roy, S. , and Hecht, M. H. (1 999) Screening combinatorial libraries of de novo proteinsby hydrogen-deuterium exchange and electrospray mass spectrometry. J . Am. Chem. Soc. 1 2 1 , 9 509-9513.
18. Wei, Y. , Liu, T. I. P. , Sazinsky, S. L. , Moffet, D. A. , and Hecht, M. H. (2003 ) Well folded denovo proteins from a designed combinatorial library. Protein Sci. 1 2, 92-102.
19. Xu, G. , Wang, W. , Groves, J. T. , and Hecht, M. H. (200 1 ) Self-assembled monolayers from a designedcombinatorial library of denovo (3-sheet proteins. Proc. Natl. Acad. Sci.USA 98, 3652-3657.
20. Brown, C. L. , Aksay, I. A. , Saville, D. A. , and Hecht, M. H. (2002) Template-directed assembly of a de novo' designed protein. /. Am. Chem. Soc. 1 2 4 , 6846-6848.
21. Richardson, J. S. and Richardson, D. C. ( 1 988) Amino acid preferences for specific locations at the ends of alphahelices. Science 2 4 0, 1648-1652.
22. Hutchinson, E. G. and Thornton, J. M. ( 1 99 4 ) A revised set of potentials for p-turn formation in proteins. Protein Sci, 3 , 2207-22 16.
23. P. H. , Schmitter, M. J. , Dessen, P. , Fayat, G. , andBlanquet, S. ( 1 989) Extent of N-terminal methiexcision from Escherichia coli proteins is governed by the side-chain length of the penultimate aminoacid. Proc. Natl. Acad. Sci. USA 8 6 , 82 47-8251.
24. boge, H. , Bayne, S. , and Pedersen, J. (1 990) In vivo processing of N-terminal methionine in E. coli. FEBSLett. 266, 1-3.
25. Tsunasawa, S. ’ Stewart, J. W. ’ and Sherman, F. ( 1 98 5 ) Amino-terminal processing of mutant forms of yeastiso-l-cytochrome c. The specificities of methionine aminopeptidase and acetyltransferase. J . Biol. Chem.26 0, 5382-5391.
26. Huang,S. , Elliott, R. C. , Liu, P. S. , et al. ( 1 987) Specificity of cotranslational amino-terminal processing ofproteins in yeast. Biochemistry 2 6 , 82 42-8246.
27. Bowie, J. U. and Sauer, R. T. (1 989) Identification of C-terminal extensions that protect proteins from intracellular proteolysis. J . Biol. Chem.264, 7596-7602.
28. Oarsell D. A. , Silber, K. R. , and Sauer, R. T. ( 1 990) Carboxy-terminal determinants of intracellular proteindegradation. Genes Dev. 4 , 277-28 6.
29. Milla, M. E. , Brown, B. M. , and Sauer, R. T. (1 99 3 ) P22 Arc repressor: enhanced expression of unstable mutants by addition of polar C-terminal sequences. Protein Sci.2, 2198-2205.
30. Shoemaker, K. R. , Kim, P. S. , York, E. J. , Stewart, J. M. , and Baldwin, R. L. (1 987) Tests of the helix dipole model for stabilization of alpha-helices. Nature 32 6 , 563-567.
31. Kim, S. , Fela, D. , and Hecht, M. H. (200 3) Solution structure of a de novo protein from a designedcombinatorial library. Proc. Na^Z. Aca^. Scz. USA 1 00, 13270-13273.
32. Chou, P. Y. and Fasman, G. D. (1978) Empirical predictions of protein conformation. Artnu. Rev. Biocherru 4 7, 251-276.
33. GD. (1 989) Prediction o f Protein Structure and the Principles o f Protein Conforrnation. Plenum,New York, NY.
34. Creighton, T. E. ( 1 99 3 ) Proteins: Structures and Molecular Properties.2nd ed. , Freeman, New York, NY.
35. C. N. and Scholtz, J. M. (1 998) A helix propensity scale based on experimental studies of peptides andproteins. Biophys. J .75 , 422-427.
36. DeBoer, H. A. and Kastelem, R. A. ( 1 98 6 ) in Maximizing Gene Expression (Rezinikoff, W. and Gold, L .,eds. ) , Butterworth, Stoneham, MA, pp. 225-285.
37. J ( 1 99 5 ) Effects of rare codon clusters on high-level expression of heterologous proteins in Escherichiacoli. Curr. Opin. BiotechnoL 6 , 494-500.
众多研究结果表明,天然蛋白质结构对于氨基酸的替换具有非常显著的“耐受性”。因此很多不同的氨基酸序列可以编码产生给定的三维结构 [ 1~7 ] 。
我们利用这一 “耐受性”来发展蛋白质设计的总体策略。这一称为 “二元码”的策略是基于极性与非极性氨基酸适当的组合能指导多肽链折叠成相应的二级结构元素,同时使得包埋的非极性氨基酸形成所需的三级结构 [ 8~10] 。设计的 “二元组图” 利用了蛋白质二级结构中天然具备的周期性:α 螺旋具有每圈 3.6 个残基的重复周期性,而 β 股(β-strand ) 具有交替周期性(图 9.1)。因此,设计为双亲性 α 螺旋的二元组图序列应该在第三或第四位放上非极性氨基酸。相对应,设计一个双亲性 β 股应该在序列中交替安插极性和非极性氨基酸残基。在 “二元码” 策略中,蛋白质侧链的精确三维堆积并不需要预先确定。因此,在一个二元组图序列库中,每一个极性和非极性残基的侧链可以变化得非常剧烈,从而产生巨大的组合多样性。
二元组图蛋白质的组合库是由合成基因的组合库表达出来的。每个基因编码一个不同的氨基酸序列,但是在同一个给定组合库中的所有序列具有同样的极性和非极性残基图形。遗传代码(图 9.2 ) 的组成分布使得这种序列简并性成为可能。简并密码 NTN 编码非极性氨基酸残基,而简并密码 NAN 编码极性氨基酸残基(N 表示 A、G、 T、C 的混合物;见 9.2.2 节中相关密码子的利用)。利用这些简并密码子,非极性位 置上的氨基酸可以是苯丙氨酸(Phe)、亮氨酸(Len)、异亮氨酸(lie )、甲硫氨酸 (Met) 或者缬氨酸(Val);而极性位置的氨基酸则是谷氨酸(Glu)、谷氨酰胺 (Gin)、天冬氨酸(Asp)、天冬酰胺(Asn)、赖氨酸(Lys) 或者组氨酸(His)。
本章概述了应用二元组图设计新型蛋白质库的方法。利用我们实验室的具体实例,主要集中在设计全 α 螺旋蛋白质和全 β 片层蛋白质上。对于设计蛋白质组合库的综述,参见参考文献 [11]、[12]。
2. 材料与方法
2.1 设计结构模板
二元组图可以应用于一个蛋白质中任何双亲性 α 螺旋或 β 链部分。尽管我们实验室集中于设计全新蛋白质,二元码策略也可以用于已知蛋白质的局部区域,如活性中心,蛋白质核心的一部分,或者接触界面 [13] 。对于全新蛋白质的设计,这个策略能否成功取决于蛋白质结构模板设计的好坏。下面我们介绍设计结构模板需要考虑的几个因素。
2.1.1 二元组图的区域
1 ) α 螺旋设计
二元组图利用蛋白质二级结构中固有的周期性。α 螺旋具有每圈 3.6 个残基的重复周期性(图 9.1A )。要设计一节双亲性 α 螺旋二级结构片段,可以用二元图形 P-N-P-P-N-N-P ( P 表示极性残基,N 表示非极性残基 )。我们最初的 α 螺旋设计集中在四螺旋束模体上(图 9.3)。在这个结构中,每个螺旋疏水面都朝向束的中间核心,而各螺旋的亲水面则暴露在水溶液环境中。P-N-P-P-N-N-P 图样有利于形成双亲性 α 螺旋二级结构,使得形成所需三级结构之后所有的非极性氨基酸侧链都被包埋在内部。从我们设计的四螺旋束蛋白质库中,50 多个蛋白质被纯化及表征。所有都具有典型的 α 螺旋圆二色(CD) 光谱 ( 见注1)。更值得一提的是,此研究中有好几个蛋白质都表现出天然蛋白的性质。例如,核磁共振化学位移色散,协同性化学和热变性,以及慢速氢/氘交换率等 [ 14~18] 。
2 ) β 片层设计
双亲性 β 链具有 …P-N-P-N... 的交替周期性(图 9.1B)。基于这种周期性,合成基因的组合库可以编码产生 β 片层结构蛋白质。极性残基组成 β 片层的一面,而非极性残基组成相反的另一面。我们最初设计了具有 6 个 β 链的片层结构,每一股都具有二元组图 P-N-P-N-P-N-P [9] 。利用合成基因克隆到大肠杆菌中表达该库中的蛋白质,研究中所有的蛋白质都形成了 β 片层二级结构,具有典型的 β 片层圆二色光谱,217 nm 处有一个低谷(见 注 1)。从这个最初的组合库中得到的 β 片层蛋白质可以自组装成为淀粉样纤维沉淀 [9] 。这些纤维将非极性残基包埋在疏水核心,而极性残基则暴露在溶液中。
如果把上述的 β 片层蛋白质置于具有极性/非极性界面的非均一环境中,它们会形成不同的结构。例如,在空气/水界面,这些蛋白质自组装成平整的 β 片层单层,非极性残基向上指向空气,而极性残基向下指向水面 [19] 。或者,在水和高度有序的热熔石墨非极性界面,二元组图的 β 片层序列在石墨表面经历模板指导的组装进而产生了高度有序的结构 [ 20] 。
2.1.2 固定区域
实验中,经常需要固定蛋白质的部分序列( 即没有组合差异),特别是当目标序列很长的时候。设计合成基因库时,这部分固定的区域可以作为单链合成寡核苷酸退火时相互识别的位点,并引导互补链的酶合成(图 9.4 ; 由单链寡核苷酸进行全长基因组装部分见 9.2.3 )。
较短的或中等长度的单链寡核苷酸通常用于编码单独二级结构单元的二元组图。这些寡核苷酸 3' 端和 5' 端的非简并固定区域通常用于编码固定的转角区域(图 9.3 和图 9.4;参考文献 [ 8 ] 和 [ 9 ])。位于这些转角区域的氨基酸残基的选择则基于下面的统计及推理准则。
( 1 ) 转角区域氨基酸残基的选择基于位置偏好的原则。例如,在初始的四螺旋束库中,螺旋两端的 “ N 帽子” ( N- cap) 和 “ C 帽子” (C- cap) 区域放置甘氨酸残基(图 9.3;参考文献 [8])。天然蛋白中这些位置也经常出现甘氨酸残基 [ 21] 。在 C 帽子后面的位置,加入脯氨酸残基来终止螺旋结构。但某些情况下,脯氨酸残基可能并不适合,因为其引起的肽键顺反异构可能造成蛋白质的多构象(非单一构象)。在 β 片层库中,转角区域的设计则基于已知结构的天然蛋白质中氨基酸残基组合的 “转角可能性”(见注 2’;参考文献 [22])。
( 2 ) 转角区域的序列中可引入限制性位点。这在基因扩增中常常很有用(见 9.2.3;参考文献 [8])。
( 3 ) 固定区域的长度应满足序列特异性退火的需要。重叠 10~15 个碱基的寡核苷酸对通常用于退火反应。亦可通过固定转角区域前后密码子中的 1 或 2 个碱基来帮助退火。例如,合成寡核苷酸链 (5, - N AN - N TN - N TN - N AN - GGT- CCT- CGT- AGC- 3’) 画线部分的 12 个碱基为固定的部分,编码四残基转角区域。其之前为编码极性残基的 NAN,如果将第三个碱基固定,如 G,密码子变为 NAG,则在序则特异性退火时就产生额外的两个固定碱基(5 '- N AN - N TN - N TN - NAO-GGT - CCT- CGT- AGd )。同时, 因只固定了密码子的第 2、第 3 个 碱基(第 1 个碱基可变),氨基酸的多样性被保留。
除了转角区域外,N 端和 C 端的序列也需要固定。这些区域的固定序列通常是将基因克隆到表达载体时所需的。末端设计的一些准则如下。
( 1 ) N 端放置起始甲硫氨酸,这是胞内重组表达所需要的。
( 2 ) 可在固定区域安插含有芳香族生色团的残基(如酪氨酸、苯丙氨酸),这样有利于蛋白质的纯化及浓度的测定 [ 9,18] 。这些芳香族的氨基酸残基可放在固定转角区域或是链的一侧末端。在我们设计的一些库中,将一个酪氨酸残基安插在起始甲硫氨酸后面,这样不但可以引入生色团,也可防止体内实验中甲硫氨酸被切除 [ 23~26] 。
( 3 ) 设计蛋白质的 C 端残基应为带电荷的极性残基。因为蛋白质的 C 端序列可能会影响其胞内降解的速率,带电荷残基的加入会延长其胞内的半衰期 [ 27~29 ] 。因此,在四螺旋库中,就设计了半胱氨酸残基位于 C 端 [ 8, 18] 。此外,如果 α 螺旋的 C 端为带正电荷的残基(N 端为带负电荷的残基),则可以通过与螺旋的偶极作用稳定蛋白质 [ 30 ] 。
2.1.3 设计三级结构的考虑
所设计的模板最终能否成功取决于其编码的蛋白质的性质。如果目标是产生良好折叠的球蛋白,那么设计的模板就不但要求有很好的二级结构,也需要有三级结构。设计的模板要足够长以形成折叠良好的三维结构,同时又要尽量短使得正确扩增大的基因文库得以实现。我们设计的第一代四螺旋束(包含 74 个残基)库中的许多蛋白质 都形成了类似溶融球结构的中间物 [ 8,14~17 ] 。为了研究二元码策略编码类似天然蛋白质 三级结构的可能,我们设计了第二代二元组图蛋白质库 [18] 。这个库是以早先设计的 74 残基库中的序列蛋白质 86 为基础进行改造设计而来的。对蛋白质 86 的主要改动是给每个四螺旋加上 6 个不同组合的氨基酸残基,使得设计的第二代蛋白质与天然四螺旋蛋白质大小相似。增加的 24 个残基的设计同样遵循二元组图法则。
从第二代库中随机抽选 5 个序列进行性质鉴定,发现它们全部都比母蛋白 86 更加稳定 [17] 。同时,它们的核磁共振(nuclear magnetic resonance, NMR ) 波谱谱线大部分为分散的,显示很好解析的核 Overhauser 效应(nuclear overhauser effect, NOE ) 交叉峰,表示得到了独特的、良好折叠的三级结构 [18]。其中的两个蛋白质的结构通过 NMR 获得解析,均是所设计的有序的四螺旋束结构 [ 12,31 ]。
2.2 密码子的应用
正如 9.1 节中提到的,简并密码子 NAN 和 NTN 分别编码极性和非极性氨基酸残基(图 9.2)。然而,在 N 位置仅简单的使用等量的 A、C、T、G 碱基的混合物会给序列引入不良特性。更为重要的是,未加限制的 NAN 密码子有很高的概率编码终止密码子 ( 即每 16 个 NAN 密码子中就有 2 个终止密码子,概率为 12.5% ) 。下面是我们使用的设计极性与非极性密码子的一些准则。
2.2.1 NAN (极性)密码子
( 1 ) NAN 密码子的第一个碱基使用等比例的 G、C 和 A 的混合物,T 不使用,这样避免了终止密码子和酪氨酸残基的引入(见注 3 )。如果 4 种碱基都加入,则 T 碱基会形成终止密码子 TAG 和 TAA。
( 2 ) NAN 的第三个碱基的设计可以优先选择一些碱基。如果使用等比例的 G、C、 A、T 碱基的混合物,则产生组氨酸、谷氨酰胺、天冬酰胺、赖氨酸、天冬氨酸及谷氨酸的概率是相同的。但 NAN 编码的某些残基有形成 α 螺旋的固有倾向 [ 32~35 ] 。因此通过在第 3 个碱基的位置排除 T 碱基,则更多的形成谷氨酰胺、赖氨酸和谷氨酸,而不是组氨酸、天冬酰胺和天冬氨酸。这样就正好符合这些残基形成 α 螺旋的偏好 [ 32~35 ] 。
2.2.2 NTN ( 非极性)密码子
如果在 NTN 密码子的第 1 个和第 3 个 N 位置都放置等比例的 4 种碱基,那么编码亮氨酸的比率是甲硫氨酸的 6 倍(即 6 个亮氨酸密码子对 1 个甲硫氨酸密码子)。并且这种等比例的设计会造成内部 1/4 的疏水残基都将是缬氨酸,缬氨酸不易形成 α 螺旋,因此可能不适于某些设计。通过改变 N 位置上 4 种碱基的比率,各种疏水残基的相对含量会发生变化。例如,在初始的四螺旋束库,NTN 密码子的第 1 个碱基位置上 A : T : C : G 的摩尔比为 3 : 3 : 3 : 1,而第 3 个位置上只包含等摩尔的 G 和 C 碱基 [8] 。通过这种混合物的偏好,缬氨酸在疏水残基中所占的比率下降到 10%,而亮氨酸残基出现的频率也下降为甲硫氨酸的 3 倍。
2.2.3 宿主表达系统中密码子的应用
不论是固定区域或是组合区域,设计库中的 DNA 序列都应优先使用宿主表达系统喜好的密码子。例如,设计简并密码子的第三个碱基仅包含 G 和 C ( 而非 4 种碱基)以满足大肠杆菌对密码子的偏好性。对于宿主细胞很少使用的密码子,如大肠杆菌表达系统中 CGA、AGA 和 AGG ( 编码精氨酸),CTA ( 编码亮氨酸),CCC ( 编码脯氨酸),ATA (编码异亮氨酸)都应尽量避免,因为包含稀有密码子的基因很难被表达 [37] 。其他的(非大肠杆菌)表达系统也都有各自的密码子偏好性,在设计中应该考虑。
2.3 全长基因的组装
通常我们使用短的单链寡核苷酸组装全长基因(图 9.4)。这样可以减少直接合成长链核苷酸引起的固有误差( 多数由于缺失或移码引起)。5' 端和 3' 端的固定区域是单链寡核苷酸退火杂交并引导酶(DNA 聚合酶)合成互补链的位点。应用这一策略可以获得更多的正确编码新型目标蛋白的“无误基因”。
在合成半随机寡核苷酸时,一些是编码链(有义链),另一些是非编码链(无义链)。通常每条寡核苷酸链都编码一个独立的二元组图二级结构片段。用这样的片段组装全长基因使得单独的 α 螺旋和 β 股可作为独立的模块被设计和使用,因此增加了二元码策略的多样性(见注 4)。
在我们最初设计的四螺旋束库中,使用 4 条合成的寡核苷酸链构建全长基因。每条链都编码一个单独的螺旋及转角。如 9.2.1.2 中所述,转角区域都是固定的(即没有简并),以作为 DNA 聚合酶合成互补链时的引导位点(图 9.4;参考文献 [8])。
我们尝试了多种方法进行基因组装。比如同时构建了两个半基因库,将两者连接在一起生成编码全长蛋白质的基因库 [8]。为了确保做到正确的头尾相连,可在连接部位的固定区域设计非回文结构的限制性酶切位点 [8] 。其他的一些组装全长基因的方法包括多种聚合酶链反应策略(如重叠延伸 PCR),这些方法在我们构建的多个文库中都曾使用。
3. 注
1. α 螺旋和 β 片层库均由同样的二元码氨基酸残基组成。因此,并不是氨基酸组成的不同赋予所设计的蛋白质不同特征 [ 8~10 ] 。同样也不是因为序列长短的不同造成蛋白质的不同特性。不需考虑长度,周期序列 P- N- P- P- N- N -P 总是形成 α 螺旋二级结构,而 P- N- P- N- P - N -P 周期序列则总是形成 β 片层二级结构(在相同的实验条件下检测)。二元组图本身就是这两种不同结构的序列库的不同之处。
2. 对于二元码密码子 NAN 和 NTN,可编码 6 种极性氨基酸残基(谷氨酸、天冬氨酸、赖氨酸、天冬酰胺、谷氨酰胺及组氨酸)和 5 种非极性氨基酸残基(缬氨酸、甲硫氨酸、异亮氨酸、亮氨酸和苯丙氨酸)。除了这 11 种可变残基之外,可在序列的固定区域加入许多其他残基。例如,我们新近设计的包含 102 个残基的四螺旋束库就包含了 20 种氨基酸中的 17 种 [18] 。只去除了丙氨酸、脯氨酸和半胱氨酸。因为在天然蛋白质中,丙氨酸在蛋白质的表面和核心都有出现,其在二元码中的极性或非极性性质比较模糊。而脯氨酸是个特例,因其少角受限制,仅能在结构的某些固定区域使用。半胱氨酸仅在需要设计二硫键或金属结合位点时才使用。
3. 通过在极性密码子 NAN 的第一个碱基位置不使用 T 碱基,避免酪氨酸的出现。这是因为天然蛋白质中酪氨酸并不是完全的极性残基,经常会出现在疏水内核的位置。因此只有极性较强的残基(组氨酸、谷氨酰胺、天冬酰胺、赖氨酸、天冬氨酸和谷氨酸)才设计在蛋白质表面位置。
4. 用聚丙烯酰胺凝胶电泳法纯化合成的寡核苷酸非常必要。这样可减少将截短的寡核苷酸引入库中的可能性。虽然这一纯化步骤减少了 DNA 的含量(以及潜在的多样性),但文库中基因的质量得到了显著提高。
参考文献
1. Lira, W. A. and Sauer, R. T. ( 1 989) Alternative packing arrangements in the hydrophobic core of lambda repress or. Nature 339, 31-36.
2. Bowie, J. U. , Reidhaar-Olson, J, F. , Lim, W. A. , and Sauer, R. T. (1 990) Deciphering the message in proteinsequences : tolerance to amino acid substitutions. Science 2 4 7, 13 06-1310.
3. Axe, D. D. , Foster, N. W. , and Fersht, A. R. ( 1 99 6 ) Active barnase variants with completely random hydrophobic cores. Pr^oc. Natl. Acad. Sci. USA 9 3 , 5590-5594.
4. Gassner, N. C. , Baase, W. A. , and Matthews, B. W. ( 1 99 6 ) A test of the “jigsaw puzzle” model for proteinfolding by multiple methionine substitutions within the core of T4 lysozyme. PVoc. iVa以 ? Sa.. USA 9 3 , 12 155 -12158.
5. Riddle, D. S. , Santiago, J. V. , Bray-Hall, S. T. , et al. ( 1 997) Functional rapidly folding proteins from simplified amino acid sequences. Nat. Struct. Biol. 4 , 80 5-809.
6. Silverman, J. A. , Balakrishnan, R. , and Harbury, P. B. ( 2 0 0 1 ) Reverse engineering the (p/a)s barrelfold. Proc. Natl. Acad. Sci, USA 98, 3092-3097.
7. Lau, K. F. and Dill, K. A. (1 990) Theory for protein mutability and biogenesis. Proc. Natl. Acad. Sci. USA 87,638— 642.
8. Kamtekar, S. , Schiffer, J. M. , Xiong, H. , Babik, J. M. , and Hecht, M. H. ( 1 99 3 ) Protein design by binarypatterning of polar and nonpolar amino acids. Science 2 6 2, 16 80-1685.
9. West, M. W. , Wang, W. , Patterson, J. , Mancias, J. D. , Beasley, J. R. , and Hecht, ML H. (1 999) Denovo amyloidproteins from designed combinatorial libraries. Proc. NatL Acad. Sci. USA 9 6, 112 11- 11 2 16 .
10. Xiong, H. , Buckwalter, B. L. , Shieh, H. M. , and Hecht, M. H. (1 99 5 ) Periodicity of polar and nonpolar amino acids is the major determinant of secondary structure in self-assembling oligomericpeptides. Proc. Natl. Acad. Sci. USA 92, 6349-6353.
11. Moffet, D. A. and Hecht, M. H. ( 200 1) De novo proteins from combinatorial libraries. 1 0 1 ,3191-3203.
12. Hecht, M. H. , Das, A. , Go, A. , Bradley, L. H. , and Wei, Y. (2004) Denovo proteins from designed combinatorial libraries. Protein Sci. 13 , 1 7 11 - 1 72 3 .
13. Taylor, S. V. , Walter, K. U. , Kast, P. , and Hilvert, D. ( 2 0 0 1 ) Searching sequence space for proteincatalysts. Proc. Natl. Acad. Sci. USA 98, 1 0 596 -1 06 01 .
14. Roy, S. , Ratnaswamy, G. , Boice, J. A. , Fairman, F. , McLendon, G. , and Hecht, M. H. ( 1 997) A proteindesigned by binary patterning of polar and nonpolar amino acids displays native-like properties.J . Am. Chem. Soc. 11 9, 5302-5306.
15. Roy, S. , Helmer, K. J. , and Hecht, M. H. ( 1 997) Detecting native-like properties in combinatorial libraries ofde novo proteins. Folding Des. 2, 89-92.
16. Roy, S. and Hecht, M. H. (2000) Cooperative thermal denaturation of proteins designed by binary patterning ofpolar and nonpolar amino acids. Biochemistry 3 9, 4603-4607.
17. Rosenbaum, D. M. , Roy, S. , and Hecht, M. H. (1 999) Screening combinatorial libraries of de novo proteinsby hydrogen-deuterium exchange and electrospray mass spectrometry. J . Am. Chem. Soc. 1 2 1 , 9 509-9513.
18. Wei, Y. , Liu, T. I. P. , Sazinsky, S. L. , Moffet, D. A. , and Hecht, M. H. (2003 ) Well folded denovo proteins from a designed combinatorial library. Protein Sci. 1 2, 92-102.
19. Xu, G. , Wang, W. , Groves, J. T. , and Hecht, M. H. (200 1 ) Self-assembled monolayers from a designedcombinatorial library of denovo (3-sheet proteins. Proc. Natl. Acad. Sci.USA 98, 3652-3657.
20. Brown, C. L. , Aksay, I. A. , Saville, D. A. , and Hecht, M. H. (2002) Template-directed assembly of a de novo' designed protein. /. Am. Chem. Soc. 1 2 4 , 6846-6848.
21. Richardson, J. S. and Richardson, D. C. ( 1 988) Amino acid preferences for specific locations at the ends of alphahelices. Science 2 4 0, 1648-1652.
22. Hutchinson, E. G. and Thornton, J. M. ( 1 99 4 ) A revised set of potentials for p-turn formation in proteins. Protein Sci, 3 , 2207-22 16.
23. P. H. , Schmitter, M. J. , Dessen, P. , Fayat, G. , andBlanquet, S. ( 1 989) Extent of N-terminal methiexcision from Escherichia coli proteins is governed by the side-chain length of the penultimate aminoacid. Proc. Natl. Acad. Sci. USA 8 6 , 82 47-8251.
24. boge, H. , Bayne, S. , and Pedersen, J. (1 990) In vivo processing of N-terminal methionine in E. coli. FEBSLett. 266, 1-3.
25. Tsunasawa, S. ’ Stewart, J. W. ’ and Sherman, F. ( 1 98 5 ) Amino-terminal processing of mutant forms of yeastiso-l-cytochrome c. The specificities of methionine aminopeptidase and acetyltransferase. J . Biol. Chem.26 0, 5382-5391.
26. Huang,S. , Elliott, R. C. , Liu, P. S. , et al. ( 1 987) Specificity of cotranslational amino-terminal processing ofproteins in yeast. Biochemistry 2 6 , 82 42-8246.
27. Bowie, J. U. and Sauer, R. T. (1 989) Identification of C-terminal extensions that protect proteins from intracellular proteolysis. J . Biol. Chem.264, 7596-7602.
28. Oarsell D. A. , Silber, K. R. , and Sauer, R. T. ( 1 990) Carboxy-terminal determinants of intracellular proteindegradation. Genes Dev. 4 , 277-28 6.
29. Milla, M. E. , Brown, B. M. , and Sauer, R. T. (1 99 3 ) P22 Arc repressor: enhanced expression of unstable mutants by addition of polar C-terminal sequences. Protein Sci.2, 2198-2205.
30. Shoemaker, K. R. , Kim, P. S. , York, E. J. , Stewart, J. M. , and Baldwin, R. L. (1 987) Tests of the helix dipole model for stabilization of alpha-helices. Nature 32 6 , 563-567.
31. Kim, S. , Fela, D. , and Hecht, M. H. (200 3) Solution structure of a de novo protein from a designedcombinatorial library. Proc. Na^Z. Aca^. Scz. USA 1 00, 13270-13273.
32. Chou, P. Y. and Fasman, G. D. (1978) Empirical predictions of protein conformation. Artnu. Rev. Biocherru 4 7, 251-276.
33. GD. (1 989) Prediction o f Protein Structure and the Principles o f Protein Conforrnation. Plenum,New York, NY.
34. Creighton, T. E. ( 1 99 3 ) Proteins: Structures and Molecular Properties.2nd ed. , Freeman, New York, NY.
35. C. N. and Scholtz, J. M. (1 998) A helix propensity scale based on experimental studies of peptides andproteins. Biophys. J .75 , 422-427.
36. DeBoer, H. A. and Kastelem, R. A. ( 1 98 6 ) in Maximizing Gene Expression (Rezinikoff, W. and Gold, L .,eds. ) , Butterworth, Stoneham, MA, pp. 225-285.
37. J ( 1 99 5 ) Effects of rare codon clusters on high-level expression of heterologous proteins in Escherichiacoli. Curr. Opin. BiotechnoL 6 , 494-500.