原核表达--表达前的分析比什么都重要
互联网
表达不同于其它一些实验,比如:提取质粒、PCR、电镜切片,这些人为控制的因素比较多,出问题相对来说也比较好分析。表达呢,你把质粒克隆好啦,交给细胞,然后有些事情就不全是你要怎样就怎样了。原核表达在表达当中来说还是比较简单,细菌培养条件简单、生长速度快,需要的仪器和培养基都比较便宜。当然,它也存在一些缺乏高级修饰、细胞内部还原性过高等缺点。
原核表达从一开始的设计就非常重要,所谓好的开始是成功的一半。做足准备功夫,可是省去很多将来后悔的事情。首先,我们要根据是否要求可溶将载体分成两大类,如果希望可以同时尝试多种表达系统,也有许多商业化的系统供选择。
前面已经介绍过许多公司的商业化载体、菌株和多系统表达体系,现在我想先从自己的蛋白分析讲起。同样的载体、同样的系统,很可能表达这个蛋白表达量奇高,但是另外一个就是做不出来,所以没有万能的载体,只有永恒的分析。当然如果你的蛋白曾经在原核系统中成功表达出来那是最好的,选择同样的载体表达成功率会高很多。如果没有也最好尝试找一些曾经表达过和你的蛋白拥有相类似结构的文献。比如大部分含有哺乳动物src同源的SH2蛋白相互作用域的蛋白都是用pGEX系列载体表达出来的。根据经验而言,含有较少半胱氨酸和脯氨酸的、平均大小为60kD的单体蛋白较容易表达。
在下面将列出几个影响表达的因素,大家可以在表达前根据这几个因素自己分析一下:
1.翻译起始位点
现在大部分的表达载体都提供起始位点,所以它已经把起始密码子与核糖体结合位点的距离进行优化了,一般情况下不需要自己再加,不过还是要留意载体图谱上是否注明有起始密码子和终止密码子
2.GC含量
表达序列中的GC含量超过70%的时候可能会降低蛋白在大肠杆菌中的表达水平。GC含量可以利用DNA STAR、Vector NTI Suite等软件进行预测。
3.二级结构
在起始密码子附近的mRNA二级结构可能会抑制翻译的起始或者造成翻译暂停从而产生不完全的蛋白。如果利用软件分析DNA或RNA结构上有柄(stem)结构,并且结合长度超过8个碱基,这种结构会因为位点专一突变等因素而变得不稳定。
4.基因或者蛋白的大小
一般说来小于5kD或者大于100kD的蛋白都是难以表达的。蛋白越小,越容易被降解。在这种情况下可以采取串联表达,在每个表达单位(即单体蛋白)间设计蛋白水解或者是化学断裂位点。如果蛋白较小,那么加入融合标签GST、Trx、MBP或者其它较大的促进融合的蛋白标签就较有可能使蛋白正确折叠,并以融合形式表达。
对于另一个极端,大于60kD的蛋白建议使用较小的标签,如6×组氨酸标签。对于结构研究较清楚的蛋白可以采取截取表达。当然表达时要根据目的进行截取,如果是要进行抗体制备而截取,那么一定要保证截取的部位抗原性较强。对于抗原性也可以利用软件分析,比如Vector NIT Suite或者一些在线软件,不过在分析之余也要认识到这是一种数据统计的结论,如果蛋白和免疫动物亲缘关系较远的话还是不妨一试的。
5.亲疏水性
这也是一种经验之谈,相信经常做表达的人都发现表达亲水区域时表达量会比较高,如果你要表达一个膜蛋白,那么劝你做好长期抗战的准备吧。有许多软件可以对氨基酸的亲疏水性进行分析,比如Vector NIT Suite,除此之外还可以利用在线跨膜区预测软件http://www.cbs.dtu.dk/services/TMHMM/ 对跨膜区进行预测。
对于自己表达的蛋白有所了解后就可以开始对载体进行选择了,目前商业化的载体基本上包含以下几个元件:
除了上面标出的元件外还需要有复制起点,它对于控制质粒的拷贝数非常重要;另外就是筛选标记了,比如蓝白斑筛选的lacZ,各种抗生素标记。在以上几个元件中,我们需要注意的是负责调节与启动的元件,也就是调控子和启动子。其中启动子对于蛋白表达的速度起着举足轻重的作用,它与最终蛋白的表达量、是否可融密不可分。这里,对于世面上广泛销售的几种原核表达载体使用的启动子进行总结。
启动子 | 来源 | 调控手段(浓度) | 强度 |
LacUV5 | 乳糖操纵元 | lacI/IPTG (0.1-1mM) | 强 |
Trp | 色氨酸操纵元 | trpR 3- β - 吲哚丙烯酸 | 强 |
Tac | 结合了色氨酸启动子的 -35 序列和乳糖启动子的 -10 序列 | lacI/IPTG (0.1-1mM) | 强 |
PL | λ噬菌体 | λ cI 阻遏物 / 温度 | 强 |
噬菌体 T5 | T5 噬菌体 | lacI/IPTG (0.1-1mM) | 强 |
pBAD | 阿拉伯糖操纵元 | AraBAD/ 阿拉伯糖( 1 μ m-10mM ) | 严谨 |
T7 | T7 RNA 聚合酶 | lacI/IPTG (0.1-1mM) | 非常强 |
乳糖操纵子是应用最广泛的调控模式,除了IPTG这种化学诱导方式之外还有利用吲哚丙烯酸和阿拉伯糖的化学诱导。如果你害怕这些化学物质会损害细菌的生长,那么你可以尝试利用温度诱导的载体,如:pDH2。它利用PL启动子,在温度上升到42℃后进行诱导表达。
可以看到在所有启动子里属T7启动子最强,它可以将大肠杆菌的资源最大程度地调用过来表达外源蛋白。这样一些难表达的蛋白都可以在pET系统里面表达出来,但是是不是越强就越好呢?如果你需要表达蛋白是可溶的,那么T7启动子就不那么适合了。较弱的启动子转录速度较慢,这样对于表达可溶、稳定、完整的蛋白比较有利。
Novagen可以说是的pET系统是最王牌的T7启动子表达系统,可是当T7启动子的强启动效应不受欢迎的时候怎么办呢?在这里给读者留个小小的疑问,看看大家有没有仔细看笔者写的Novagen篇。提示一下,虽然它转录速度快,但是可以控制它的拷贝数,又或者是……利用这些原理Novagen载体也可以毒性高的外源蛋白。
载体上除了启动子这个需要注意之外,另外一个就是标签了。很多标签是为了增加蛋白的可溶性,也有一些是为了方便鉴定表达产物,所以在表达时可以选择加标签。是否加标签要看个人需要,笔者认为如果是表达一个人家没表达过的蛋白最好还是加标签,这样方便将来鉴定。如果从经济角度考虑最好加入6×组氨酸标签,笔者曾经以为加什么标签都无所谓(前提是不需要融合表达),结果加了个Novagen的T7・Tag,等到鉴定的时候发现单抗那么贵。而且还不好买的,一些较少人用的标签会让你很伤脑筋。这也是表达前要准备的功课之一哦。
好了,如果你选好了载体,那么下一步就是设计引物的。相信大多数人都是利用PCR把目的基因调出来的吧。设计引物可以使用一下两个软件,Primer Premier或者Oligo。如果要表达全长,其实也就没那么多要考虑,从一头一尾找至少8个匹配序列在加上与载体匹配的序列就可以了。
不过,我还是有以下几点提醒一下各位:
1.这一点其实很容易理解,但是有时也容易被遗忘。那就是先查查表达外源片段中含有什么内切酶位点,不要设计重了,否则酶切时发现怎么老是有预期外的小片段出现。
2.根据载体上的酶切位点设计引物,现在许多类似T载原理的克隆方法也可以应用到原核表达中了,如果T载克隆方法要定向很多时候要多加4个碱基,设计引物时候可别忘了加。在设计酶切位点的5’端不要忘了加保护碱基,不同内切酶所需的保护碱基不同,SalⅠ不需要保护碱基,EcoRⅤ需要1个,NotⅠ需要2个,HindⅢ最好有3个。一般情况下,都设计2个。
3.注意启始密码子和终止密码子的读码框。如果载体上有ATG可以不另外加了,但是通常ATG后不是紧跟外源片段的,如果中间含有载体序列,务必确定中间这段序列不会造成你外源序列的移码。按情况需要,可以加1到2个碱基在引物中使读码框正确。有始有终,同样正常的终止密码子才能保证蛋白的产出。大部分载体也有终止密码子,如果你对载体的不放心,也可以在引物中设计上终止密码子,这样万无一失。
4.还有就是设计一对引物需要注意的地方:一对引物之间Tm值相差不宜过大,能一样最好;一对引物不宜形成发夹结构、互相配对,若配对时最好不要是G-C的结合(可以用软件分析);3'端以G、C结尾为宜等等。如果要详细研究可以看一下PCR技术的相关书籍,很厚。还有就是记得把上游引物设计成有义链,下游设计成反义链,否则就没有片段出现了。虽然这是很小的地方,可是经常会被忽略。
5.如果你是进行截取表达,那么除了之前提到的要注意截取亲水区,还有一点就是对密码子的使用频率进行分析。如果在大肠杆菌中使用较少的密码子在外源片段中连续出现,还是避开它为上策。
看完这么多是不是觉得有点思绪万千呢。以前给我上课的一位教授说过,做试验,那要大胆设计,小心求证。快去合成引物开始表达吧。