[精华]利用软件进行PCR引物设计的一般概念
丁香园论坛
一家之说,欢迎指教!
1.简介
寡聚核苷酸引物的选择,通常是整个扩增反应成功的关键。所选的引物序列将决定PCR产物的大小、位置、以及扩增区域的Tm值这个和扩增物产量有关的重要物理参数。好的引物设计可以避免背景和非特异产物的产生,甚至在RNA-PCR中也能识别cDNA或基因组模板。引物设计也极大的影响扩增产量:若使用设计粗糙的引物,产物将很少甚至没有;而使用正确设计的引物得到的产物量可接近于反应指数期的产量理论值。当然,即使有了好的引物,依然需要进行反应条件的优化,比如调整Mg2+浓度,使用特殊的共溶剂如二甲基亚砜、甲酰胺和甘油。
计算机辅助引物设计比人工设计或随机选取更有效。一些影响PCR反应中引物作用的因素诸如溶解温度、引物间可能的同源性等,易于在计算机软件中被编码和限定。计算机的高速度可完成对引物位置、长度以及适应用户特殊条件的其他有关引物的变换可能性的大量计算。通过对成千种组合的检测,调整各项参数,可提出适合用户特殊实验的引物。因此通过计算机软件选择的引物的总体“质量”(由用户在程序参数中设定)保证优于通过人工导出的引物。
需要指出的是,引物不必与模板完全同源,因此可包含启动子序列、限制酶识别位点或5’端的各种修饰,这种对引物的修饰不会妨碍PCR反应,而会在以后使用扩增子时发挥作用。
2.基本PCR引物设计参数
引物设计的目的是在两个目标间取得平衡:扩增特异性和扩增效率。特异性是指发生错误引发的频率。特异性不好或劣等的引物会产生额外无关和不想要的PCR扩增子,在EB染色的琼脂糖凝胶上可见到;引物效率是指在每一PCR循环中一对引物扩增的产物与理论上成倍增长量的接近程度。
①引物长度;
特异性一般通过引物长度和退火温度控制。如果PCR的退火温度设置在近于引物Tm值(引物/模板双链体的解链温度)几度的范围内,18到24个碱基的寡核苷酸链是有很好的序列特异性的。引物越长,扩增退火时被引发的模板越少。为优化PCR反应,使用确保溶解温度不低于54℃的最短的引物,可获得最好的效率和特异性。
总的来说,最好在特异性允许的范围内寻求安全性。每增加一个核苷酸,引物特异性提高4倍;这样,大多数应用的最短引物长度为18个核苷酸。引物设计时使合成的寡核苷酸链(18~24聚物)适用于多种实验条件仍不失为明智之举。
②引物的二级结构
包括引物自身二聚体、发卡结构、引物间二聚体等。这些因素会影响引物和模板的结合从而影响引物效率。对于引物的3’末端形成的二聚体,应控制其ΔG大于-5.0kcal/mol或少于三个连续的碱基互补,因为此种情形的引物二聚体有进一步形成更稳定结构的可能性,引物中间或5’端的要求可适当放宽。引物自身形成的发卡结构,也以3’端或近3’端对引物-模板结合影响更大;影响发卡结构的稳定性的因素除了碱基互补配对的键能之外,与茎环结构形式亦有很大的关系。应尽量避免3’末端有发卡结构的引物。
③引物GC含量和Tm值
PCR引物应该保持合理的GC含量。含有50%的G+C的20个碱基的寡核苷酸链的Tm值大概在56~62℃范围内,这可为有效退火提供足够热度。一对引物的GC含量和Tm值应该协调。协调性差的引物对的效率和特异性都较差,因为降低了Tm值导致特异性的丧失。这种情况下引物Tm值越高,其错误引发的机率也越大。若采用太高的退火温度,Tm值低的引物对可能完全不发挥作用。在从一批在特定序列范围内已合成好的寡核苷酸中选择一对新的引物时,这种GC含量和Tm值的协调非常关键。一般来说,一对引物的Tm值相差尽量不超过2~3摄氏度,同时引物和产物的Tm值也不要相差太大,20摄氏度范围内较好。
④引物的额外序列与退火温度
若有额外的序列信息要加到引物中,例如T7RNA聚合酶结合位点、限制酶切位点或者GC发夹结构可以使用加长的引物。一般说来,引物5’端添加无关序列不会影响引物特异序列的退火。有时候,引物中添加了大量与模板不配对的碱基,可以在较低退火温度的条件下进行4到5个扩增循环;然后在假定引物5’端序列已经加入到模板中,计算得出的退火温度下进行其余的循环。
在引物上添加限制酶位点时一个重要的考虑是大多数限制酶的有效切割要求在它们的识别序列的5’端有2至3个非特异的额外碱基,这样就会增加引物的非模板特异序列的长度。长引物序列的另一个缺点是影响溶解温度的精确计算,而这对于确定PCR反应时的退火温度又是必须的。对于低于20个碱基的引物,Tm值可以根据Tm=4(G+C)+2(A+T)计算。而对于较长的引物,Tm值需要考虑动力学参数、从“最近邻位”的计算方式得到,现有的PCR引物设计软件大多数都采用这种方式。
⑤引物的3’末端核苷酸组成
引物3’末端和模板的碱基完全配对对于获得好的结果是非常重要的,而引物3’末端最后5到6个核苷酸的错配应尽可能的少。如果3’末端的错配过多,通过降低反应的退火温度来补偿这种错配不会有什么效果,反应几乎注定要失败。
引物3’末端的另一个问题是防止一对引物内的同源性。应特别注意引物不能互补,尤其是在3’末端。引物间的互补将导致不想要的引物双链体的出现,这样获得的PCR产物其实是引物自身的扩增。这将会在引物双链体产物和天然模板之间产生竞争PCR状态,从而影响扩增成功。
引物3’末端的稳定性由引物3’末端的碱基组成决定,一般考虑末端5个碱基的ΔG。此值的大小对扩增有较大的影响,负值大,则3’末端稳定性高,扩增效率更高,同时也更易于异位引发。
需要注意的是,引物3’末端应尽量避免T。实验证明,以T结尾的引物即使与T, G或C错配仍可有效延伸。
⑥PCR产物的长度及在耙序列内的位置
所有的计算机程序都提供对PCR产物长度范围的选择。一般说来,PCR产物长度对扩增效率有影响。特定的应用情况下,PCR产物长度部分取决于模板材料。
预期产物的特定长度经常取决于应用的需要。若目的是建立测定特异DNA片段的临床检验方法,120~300bp的小DNA扩增产物可能是最好的。产物应具有好的特异性和高的产生效率,并含有能用于探针捕捉杂交实验的足够信息。这一长度范围的产物可以通过采用两步扩增循环方法得到,从而减少扩增时间。
其他PCR方法有不同的最佳产物长度。例如,通过定量的RNA-PCR检测基因表达时,产物应该足够大以便构成竞争性模板,这样,产物和竞争物都能够在凝胶上很容易的分辨出来。这些产物一般在250~750bp范围内。
⑦补充说明
若在cDNA序列内找寻PCR引物,需特别注意两点:首先,尽力将引物和产物保持在mRNA的编码区域内,因为这是生成蛋白质的独特序列,不像3’末端非编码区域与许多其他mRNA有同源性;第二,尽力把引物放在不同的外显子上,以便使RNA特异的PCR产物与从污染DNA中产生的产物在大小上相区别。
若PCR的目的是克隆一个基因或cDNA的特异序列,产物的大小是根据具体应用预选的。在这里,计算机程序可以提供关于期望区域侧翼选择引物对的信息。
在选择用来扩增来自不同物种DNA的引物时,应避开mRNA的5’和3’末端非翻译区序列,因为它们可能没有任何的同源性。
3.简并引物设计
①设计简并引物时,一定要检查靶扩增区域选定氨基酸遗传密码的简并度。很显然,我们期望选择简并度最低的氨基酸,达到提高特异性的目的。
②充分注意物种对于密码子的偏好性,选择该物种使用频率高的密码子,以降低引物的简并性。
③应努力避免3’末端的简并,对于大多数氨基酸残基来说,意味着引物3’末端不要位于密码子的第三位。
④在一些多义位置使用脱氧次黄嘌呤(dI)代替简并碱基。
4. 测序引物设计
当然,测序引物的设计一般都由测序公司来完成,如果需要自己设计的话;那么除了按照上面所提到的引物设计通用标准外,还需要注意两点:
①测序引物的特异性的标准掌握应该更严格一些,也就是说设计时更优先考虑特异性。因为在测序反应中,如果引物与模板在非预期位置退火并引发链延伸,会对结果对来很大的干扰甚至造成结果无法识读。
②测序引物的Tm值适当高一些。现在大部分测序反应均选用耐热的测序级DNA聚合酶来催化,并采用PCR的热循环程序。选用的测序引物的Tm值稍高一些,有助于使反应顺利跨过待测模板的二级结构区,也有助于降低非特异反应。
5. 探针的设计
探针的设计,根据不同的用途各有其设计特点,这里只是就通用的原则进行讨论:
①探针的长短一般在20-50核苷酸之间,过长合成成本高,且易出现聚合酶合成错误,杂交时间长。太短则特异性下降。
②注意G和C的含量努力控制在40-60%,同时一种碱基连续重复不超过4个,以免非特异性杂交产生。
③探针自身序列不能形成二聚体,也不能有“发夹”结构存在,这一点上的要求就要比普通引物设计严格得多。
④如果探针地靶目标是多个基因的混合物,就必须控制该探针与无关基因之间的相似性在70%以下。