序列测定的技术和策略
互联网
Sanger双脱氧链终止法
Maxam-Gilbert DNA化学降解法
测序策略
目前应用的两种快速序列测定技术是Sanger等(1977)提出的酶法及Maxam和Gilbert(1977)提出的化学降解法。虽然其原理大相径庭,但这两种方法都是同样生成互相独立的若干组带放射性标记的寡核苷酸,每组寡核苷酸都有固定的起点,但却随机终止于特定的一种或者多种残基上。由于DNA上的每一个碱基出现在可变终止端的机会均等,因些上述每一组产物都是一些寡核苷酸混合物,这些寡核苷酸的长度由某一种特定碱基在原DNA全片段上的位置所决定。然后在可以区分长度仅差一个核苷酸的不同DNA分子的条件下,对各组寡核苷酸进行电泳分析,只要把几组寡核苷酸加样于测序凝胶中若干个相邻的泳道这上,即可从凝胶的放射自影片上直接读出DNA上的核苷酸顺序。
一Sanger双脱氧链终止法
Sanger法DNA测序的试剂
引物
模板
DNA聚合酶
放射性标记的dNTP
dNTP类似物
现行的逻终止法人加减法序列测定技术(Sacger和Coulson,1975)发展而来的。加减法首次引入了使用特异引物在DNA聚合酶作用下进行延伸反应、碱基特异性的链终止,以及采用聚丙烯酰胺凝胶区分长度差一个核苷酸的单链DAN等3种方法。尽管有了这些进展,但加减法仍然太不精确,也太不得法,因此难以广为接受。直至引入双氧核苷三磷酸(ddTBP)作为链终止剂(Sanger等,1977 ),酶法DNA序列测定技术才得到广泛应用。2’,3’ddNTP与普通dNTP不同之处在同它们在脱氧核糖的3’ 位置缺少一个羟基。它们可以在DNA聚合酶作用下通过其5’ 三磷酸基团掺入到正在增长的DNA链中,但由于没有3’羟基,它们不能同后续的dNTP形成磷酸二酯链,因此,正在增长的DNA链不可能继续延伸。这样,在DNA合成反应混合物的4种普通dNTP中加入少量的一种ddNTP后,链延伸将与偶然发生但却十分特异的链终止展开竞争,反应产物是一系列的核苷酸链,其长度取决于从用以起始DNA合成的引物末端到出现过早链终止的位置之间的距离。在4组独立的酶反应中分别采用4种不同的ddNTP,结果将产生4组寡核苷酸,它们将分别终止于模板链的每一个A、每一个G或每一个T的位置上。
Sanger法DNA测序的试剂
1.引物
酶促测序反应中利用一个与模板链特定序列互补的合成寡核苷酸作为DNA合成的引物。在许多情况下,可将靶DNA片段克隆于M13噬菌体或噬菌粒载体,以取得单链DNA分子作为模板。但也可以采用Sanger 法商定变性双链DNA模板的序列。在以上两种情况下,都可以采用能与位于靶DNA侧翼的载体序列相退火的通用引物,而不必取得与未知DNA序列互补的引物。适于M13噬菌体重组克隆的通用测序引物一般长15-29 个核苷酸,并可与紧靠M13mp18噬菌体多克隆位点区的HindⅢ位点成M13mp19 噬菌体多克隆位点区的EcoRI位点的序列互补。这些引物同样也可用于对克隆于pUC质粒的DNA进行“双链”测序,并可从许多厂商中购置得到。此外,还有若干家公司出售一些引物,这些引物下为了对通过多种限制酶切位点克隆于不同质粒的靶DNA进行测序而设计的。
2.模板
如上所述,有两类DNA可以用作Sanger 法测序的模板:纯单链DNA和经过热变性或碱变性的双链DNA。采用通常从重组M13噬菌体颗粒中分离得到的单链DNA应中获得数百个核苷酸的序列。如用变性双链DNA用模板,则较难获得这咱质量的结果。尽管采用双链DNA模板的方法显然既简单又方便(Chen和Seeburg,1985),然而只是在不久前得到改进以后,这一方法才发展到能够获得明确可信结果的水平。其中有两个因素是至关重要的,这就是模板DNA的质量和所用DNA聚合酶的种类。小量制箅的质粒DNA常常被寡脱氧核糖核苷酸小分子、核糖苷酸及DNA聚合酶的抑制剂所污染,其中前两种污染物可被用作随机引物。结果,种种“鬼”带、强终止现象,以及其他假象往往使测序凝胶含混不清、黯然失色。因此采用小量制备的质粒NDA来测定未知DNA克隆片段的序列,并不可取。然而,这类DNA常可作为对已经通过另一方法测定的序列进行进一步的合适模板。采用CsCl-溴化乙锭梯度平衡离心法来纯化质粒DNA,测序的结果会好得多,但却要耗费大量的人务和物力。模板链的每一个A、每一个G或每一个T的位置上。
3.DNA聚合酶
通常用于双脱氧法序列测定的有几种不同的酶,其中包括大肠杆菌DNA聚合酶I的Klenow片段(Sanger等,1977),反转录酶(见文献,如Mieredorf和Prfeffer,1987)经过修饰消除了3’→5’外节酶活性的T7噬菌体DNA聚合酶(Sequenase)和测序酶2.0),Tabor和Richardson,1978]惟及从嗜热水生菌(T’hermus aquaticus)分离的耐热DNA聚合物(Taq DNA聚合酶)。这些酶的特性差别悬殊,因而可大大影响通过链终止反应所获得的DNA序列的数量的质量。
(1)大肠杆菌DNA聚合酶IKlenow 片段 这种酶是最初用以建立Sanger法的酶,也是至今仍然广泛用于DNA序列测定的酶。通常碰到的两个问题是:1)Koenow片段的持续合成能力低,以致一些片段并非由于dd NTP的掺入,而是因为聚合酸人模板上随机解离而终止合成,因而导致背景增高。由于该酶不能沿模板进行长中距离移动,因此利用该酶进行的标准测序反应所得序列的长度有限。通常,这一反应只能得到大约250-350个核苷酸的序列。如果分两步进行反应,所得序列的数目可以翻一番;其中第一步是初始标记步骤,采用低浓度的dNTP,而随后的第二步是链延伸-链终止反应,含有ddNTP和高浓度的dNTP(Johoston-Dow等,1987;Stambaugh和Blakesley,1988)。然而即使有了这些改进,用Klenow 酶所测序列的长度通常还是不如持续合成能力较强的测序酶。2)这种酶对模板中的同聚核苷酸段或其他含牢固二级结构的区域进行复制的效能很低。将聚合反应的温度提高到55℃,可以缓解但并不能彻底解决这一问题(Gomer和Firtel,1985)。有时可采用一些dNTP类似物[如dITP或7-脱氮dGTP(7-deaza-dGTP)]来获取模板中可形成稳定二级结构的相应区段的序列信息,但Kleow酶对这些类似物的作用不如测序酶有效,这也许是因为它们使Klenow酶原已较低的持续合成能力进一步降低。总而言这,可以选用大肠杆菌DNA聚合酶IKlenow片段测定从引物5’位置起250个碱基以内的一段DNA序列,但不宜用它来测定更长一段DNA序列或者具有二重对称和(或)同聚核苷酸段的DNA序列。
(2)反转录酶 尽管日常测序工作并不广泛使用反转录酶,但有时用这个酶解决一些由于模板DNA中存在A/T或G/C同聚核苷酸区而引起的问题。来自禽类和鼠类反转录病毒的反转录酶在这一看来要比Klenow酶略胜一筹(Karanthaansis,1982;Graham等,1986 ),尽管它们也许还是比测序酶逊色(Cameron-Mills,1988;Revak等1988)。
(3)测序酶: 测序酶(SequenaseTM)是一种经过化学修饰的T7噬菌体DNA聚合酶。这酶原来具有很强的3’→5’外切核酸活性,经过修饰后,这一活性大部分均被消除。测序酶2.0版是测序酶的基因工程产品,它完全缺失了3’ →5’外切核酸酶活性,极其稳定而经活性要比经化学修饰的测序酶高2倍。测序酶持续合成能力很强,聚合速率很高,对诸如dITP和7-脱氮-dGTP等用于提高分子辨率使测序凝胶某些区段上的压缩条带得以分开的核苷酸类似物具有广泛的耐受性。它是测定长段DNA序列的首选酶。测序酶可以沿模板移动很长的距离,因而一套反应常常就可以测定数百个核苷酸的DNA序列。实际上,测得序列的长度更多是受聚丙烯酰胺凝胶的分辨能力而不是受该聚合酶的特性所制约。为了充分利用测序酶极高的持续合成能力,可采用两步测序反应。第一步首先采用低浓度的dNTP的较低温度,以便将合成反应限制在适度之下并确保放射性标记dNTP和较低温度,以便将合成反应限制在适度之下并确保放射性标记dNTP的有效掺入,这步反应的产物是仅仅延伸了20-30碱基的引物。再将第一步反应等分于4组1套的标准反应系统中,每组反应中都含有高浓度的d NTP和一种ddNTP。这样聚合反应就得以继续,直至造成链终止的核革酸掺入正在增长的链中。
(4)Taq DNA聚合酶 Taq DNA聚合酶适用于测定在37 ℃形成大段稳定十级结构的单链DNA模板序列。这是因为Taq DNA聚合酶在70-75℃活性最高,这一温度下即使GC丰富的模板也无法形成二级结构。按照1nnis 等(1988)介绍的方法使用Taq DNA聚合酶进行测序,在放射自显影片上得到的测序梯连续数百个碱基条带始终清晰如一,表明这种酶的持续合成能力甚佳。模板链的每一个A、每一个G或每一个T的位置上。模板链的每一个A、每一个G或每一个T的位置上。
4.放射性标记的dNTP
直至几年以前,实际上所有DNA测序反应都用[α-32P]dNTP来进行。然而32P发射的强β粒子造成两个问题。首先由于发生散射,放射自显影片上的条带远比凝胶上的DNA条带更宽、更为扩散,因此将影响到所读取的序列(尤其是从放射自显影片的上部所读取的序列)的正确性并将制约从单一凝胶上能读出的核苷酸序列的长度。其次32P的衰变会引起样品中DNA的辐射分解,因此用32P进行标记的测序反应只能保存一两天,否则DNA将被严重破坏以至测序凝胶上模糊不清、真假莫辨。[35 S]dATP的引入(Biggin等,1983)大大缓解了上述两方面的矛盾。由于35 S衰变产生较弱的β粒子,其散射有所减弱,凝胶和放射自显影片之间在分辨率上相差无几,因此可以从一套反应中确切测定数百核苷酸的DNA序列。此外,35 S的低能辐射所引起的样品分解比较轻微,因此,测序反应可在-20℃保存至1周,而分辨率不见下降。这样,职果聚丙烯酰胺凝胶方面了发生技术故障,只要对测序反应进行重分析即可。
5.dNTP类似物
二重对称的DNA区段(特别是GC含量高者)可以形成链内二级过程中不能充分变性。因此将引起不规则迁移,使邻近的DNA条带压缩在一起,以致难以读出序列。这种压缩现象归因于DNA二级结构的存在,而且不可能通过改变测序反应中出序列。这种压缩现象归因于DNA二级结构地存在,而且不可能通过改变测序反应中所用DNA聚合酶的种类而得到减轻。但是凝胶中的压缩区段往往可以通过采用诸如dITP(2’-脱氧次黄苷15’ -三磷酸)或7-脱氮-dGTP(7-脱氮-2’-脱氧鸟苷-5’ -三磷酸)等核苷酸类似物进行分辨。这些类似物与普通碱基的配对能力较弱,而且是测序酶和Taq DNA聚合酶等DNA聚合酶的合适底物(Gough和Murray,1983;Mixusawa等,1986;Innis等,1988)。但对某些压缩条带,7-脱氮-dGTP无济于事;同样,dITP也无补于另一压缩条带(尤其是得于GC丰富区的缩条带)的分辨。如果需要采用类似物,首先可试用dOTP,如果压缩条带用d ITP或7-脱氮-dGTP都无法分辨,则转而测定另一条链的DNA序列几乎总能如愿以偿。如上所述,两种形式的测序酶和Taq DNA聚合酶对核苷酸类似物的耐受性优于大肠杆菌DNA聚合酶IKlenow片段。此外,制造厂商声称在测定含稳固二结构的模板序列时,测序酶2.0版要优于原来的测序酶。测序酶2.0版持续合成能力强于测序酶,其作用总是一气呵成,很少半途而废,因而消除了“鬼”带。而且,测序酶2.0版对诸如dITP类核苷酸类惟物的耐受性看来也优于原来的测序酶。
二、Maxam-Gilbert DNA化学降解法
与包括合成反应的链终止技术不同,Maxam-Gilbert法要对原DNA进行化学降解。这一方法是在体外研究lac阻抑制与lac操纵基因相互作用时酝酿发展起来的。时至今日,可以探测DNA构象的蛋白质-DNA相到作用,仍然是Maxam- Gilbert法独具的鲜明特点。在这一方法(Maxam和Gilbert,1980)中,一个末端标记的DNA片段在5组互相独立的的化学反应分别得到部分降解,其中每一组反应特异地针对某于种或某一类碱基。因此生成5组放射性标记的分子,从共同起点(放射性标记末端)延续到发生化学降解的位点。每组混合物中均含有长短不一的DNA分子,其长度取决于该组反应所针对的碱基在原DNA全片段上的位置。此后,各组均通过聚丙烯酰胺凝胶电泳进行分离,再通过放射自显影来检测末端标记的分子。相对而言,Maxam-Gilbert法自初次提出以来,基本没有变化。虽然设计了另一些化学降解反应(见综述:Ambrose和Pless,1987),但这些反应一般只作为Maxam和Gilbert(1977,1980)最早提出的反应的补充。这一方法的成败,完全取决于上述这些佞两步进行的降解反应的特异性。第一步先对特定碱基(或特定类型的碱基)进行化学修饰,而第二步修饰碱基从糖环上脱落,修饰碱基5’和3’的磷酸二酯链断裂。在每种情况下,这些反应都要在精心控制的条件下进行,以确保每一个DNA分子平均只有一个靶碱基被修饰。随后用哌啶裂解修饰碱基的5’和3’位置,得到一组长度从一到数百个核苷酸不等的末端标记分子。比较G、A+G、C+T、C和A>C各个泳道,右从测序凝胶的放射自显影片上读出DNA序列。由于种种原因(如采用32P进行放射性标记、末端标记DNA的比活度、裂解位点的统计学分布、凝胶技术方面的局限性等等),Maxam-Gilber法所能测定的长充要比Sanger法短一些,它对放射性标记末端250个核苷酸以内的DNA序列效果最佳。在70年代Maxam-Gilbert法和Sanger法刚刚问世时,利用化学降解进行测序不但重现性更高,而且也容易为普通研究人员所掌握。Sanger 法南非要单链模板和特异寡核苷酸的,并需获得大肠杆菌DNA聚合酶IKlenow 片段的高质量酶制剂,而Maxam-Gilbert法只需要人所共的简单化学试剂。但随着M13 噬菌体和噬菌粒载体的发展,也由于现成的合成引物唾手可得及测序反应日臻完善,双脱氧链终止法如今远比Maxam-Gilbert法应用得广泛。然而,化学降解较之链终止法具有一个明显的优点:所测序列来自原DNA分子而不是酶促合成所产生的拷贝。因此,利用Maxam-Gilbert法可对合成的寡核苷酸进行测序,可以分析诸如甲基化等DNA修饰的情况,不可以通过化学保护及修饰干扰实验来研究DNA二级结构及蛋白质与DNA的相互作用。然而,由于Sanger法既简便又快速,因此是现今的最佳选择方案。事实上,目前大多数测序策略都是为Sanger法而设计的。类核苷酸类惟物的耐受性看来也优于原来的测序酶。
三、测序策略
确证性测序
从头测序
开始测序之前,必须根据待测序列区的长度,所要求的测序精确度以现有有设施来制定测序总策略。只有一小部分的研究划需需分从头测定大段从测定过和序列,而列多的情况是通过测序对突变(如点突变和缺失)进行定位和鉴定,并证实构建的重组DNA的方向与结构。用于上述两种目的的方略大不相同。
(一)确证性测序
确证性测序(例如对利用寡核苷酸倡导的诱变而产生的突变体进行测序)往往只需要仅仅一套反应,以取得双链DNA其中一条链上局部区域的核苷酸序列,通常只须对亚克隆于M13噬菌体或噬菌粒载体上的一段合适的限制酶切片段进行测序,即可如原以偿。在许多情况下,等测区落于通用引物的测序范围之内;若不然,最好的方法就是合成一段长度为17-19核苷酸的寡核苷酸引物,与距离待测区约50-100核苷酸的序列互补。只要可能,应同时测定野生型基因上同源区的序列和突变的相应序列。直接在同一张放射自显影片上对照有关序列,极有助于确证变异区序列并将使突变体与野生型基因之间任何出乎意料之外的其他差异一目了然。
(二)从头测序
从头测序的目的是要提供一段DNA的准确核苷酸序列,这一区段可长达数千碱基,而其序列从来未经测定。由于单套测序反应所能准确测定的靶DNA序列最长可达400碱基左右,因引进行从头侧序必须经过精心策划。长约400碱基的枝DNA可以按互为相反的方向分别克隆于2种M13噬菌体载体(如M13mp18 和13mp 119)上。然后每条链的全序列可以通过利用通用测序引物进行的单套反应得以测定。如果要对更长的靶DNA(如长达数千碱基)进行测序,则可在两种通用策略中一而行:
(1)随机法(或鸟枪测序法)在随机法中,序列资料是从含有靶DNA随机片段的亚克隆中收集而来的。既不须努力确定这些亚克隆在靶DNA中的位置,也不必设法查明究竟测出的是哪一条链的序列,只要把积累资料贮存起来,最后可用计算机排列妥当(Staden,1986)。这一方法是由剑桥的医学研究委员会(M.R.C.)实验室率推行的,曾经成功地用于测定人线粒体DNA(Anderson 等,1981)、人腺病毒DNA(Gingeras等,1982;Roberts等,1986)、λ噬菌体DNA(Sanger等,1982),以及Epstenin-Barr病毒DNA(Baer等,1984)的序列。
(2)定向法 在定向法中,靶DNA的测序按计划有秩序地进行。例如,靶DNA的全序列可以通过测定一系列嵌套的缺失突变体的序列而获得,这些突变体具有相同的起点(通常在靶DNA的一端)并分别穿入靶序列区纵深不同距离处,因此它们可以使靶DNA中更遥不可及的区段渐进地落入可利用通用引物进行测序的范围之中。另一种方法是,利用一套反应中取得的核苷酸序列设计新的寡核苷酸充当后续一套反应的引物,从而循序渐进地获得从示测定过的靶DNA片段的序列。因此在这一方法中。DNA序列的积累是通过沿DNA链渐进移动引物结合位点而实现的。尽管对随机法与定向法的取舍通常由实验室的物力与专长所决定,但仍有一少其他因素也会影响最终的抉择,这些将在稍后加以讨论。
选择随机定向测定策略的影响因素
(1)计算设备 任何大规模的测序计划将在很大程度上依赖计算机程序对原始序列资料进行分类、整理和排列(Staden,1986)。在权衡随机法的利与弊之时,必须将与适当的计算机设备进行联机的问题放到压倒一切的位置上来考虑。如果这些设备尚无从适当的计算机设备进行联机的问题放到压倒一切的位置上来考虑。如果这些设备尚无从谈起,就必须将采用随机策略的想法束之高阁,转而从前已述及的两种定向方法中择一而行。
(2)靶DNA的性质:如果靶DNA很可能会有散在的重复序列,那么就应当组建嵌套的缺失体用于测序。计算机在区分重复序列方面可能束手无策,而寡核苷酸引物则会同多个位点发生退火。
(3)完成测序计划所需时间:完成一个测序计旬所需工作蜈可通过以下指示进行估计:
1)从单套反应中平均可是300-400核苷酸的序列。
2)一个人一天可以轻松自如地操作24-32套反应。
3)因此一个测序工作周,可以测出15kb核苷酸序列,这一周包括:
a.用一天时间制备单链DNA模板。
b.用一天时间测定DNA序列。
c.用一天读出原始DNA序列并加以排列。
d.再用两天生物旱生测序、重新进行电泳,以便澄清模棱两可这处并取得各个克隆之间的重叠区序列。
采用随机法,所要测定的序列通常会比靶DNA所具有的实际长度4-6倍。在大多数情况下,直至双链90%左右的序列测出以后,才能得到单一的一段邻接不断的序列。由于进行测序的亚克隆是随机挑选出来的,因此靶DNA某些区段的序列在全段序列未能测出前会被重复测定,至于需要多长时间才能找出最后几个亚克隆并进行测序,从而使序列提以测全,则无法未卜先知。往往会发现,以上亚克隆在文库中得不到充分反映,因此南非要处用与侧翼序列相应的寡核苷酸探针进行筛选,以分离这些亚克隆。利用限制酶将大分子靶DNA进一步分为大小适中(4-5kb)而易于处理的片段,可以使上述推理上难题得以缓和,每一个这样的片段都可以用随机法单独进行测序。
定向缺失法有时需要投入大量的时间生成并鉴定一整套嵌套的缺失体。然而一旦这上步水到渠成,则可以从靶DNA上早以妥善安排的多个区段上互为相反的两端向内部延伸,才能测定DNA双逻的全序列。另一种办法是用单套缺失突变体来取得靶DNA单链的序,然后利用其信息合成一套寡核苷酸引物,以便用于确证DNA互补链的序列(见后)。
(4)使用寡核苷酸合成仪的方便程度:如果能够无拘无束地使用寡核苷酸合成仪,则可快速、廉价地合成由用户设计的引物。假定要花1-2天时间来合成一个寡核苷酸,那么在最快速度下每周可以由靶DNA的一个特定起点开始从头测定600-800个核苷酸的序列。如果同时使用几个起点开始从头测序; 或者也可以将M13mp18和M13mp19噬菌体载体,利用通用引物同时从两端开始测序;或者也可以将序列内部的限制酶切片段亚克隆循下列原则:设计DNA测序物时,应遵循下列原则:
1)应寡核苷酸与靶DNA的正确主靶DNA中确凿疑的序列相互补。尤其是利用循序渐进的寡核苷酸法来测定从未测过的DNA序列时,这一点更加重要。尽量让新设计的寡核苷酸互补于已知序列的最远端,这是十分自然的人民代表倾向。然而在大多数情况下,该序列是从测序凝胶顶部间隔紧密的条带中读取的,而在此处发生阅读错误往往司空见惯。因此紧好保守一些,让所设计的引物与位于样品泳前沿之后一定距离内的序列机互补,在凝胶的这一区段上读出的序列可信程度较高。
2)引物的碱基组分比便应匀称[40-55%(G+C)],而且长度至少应有18个核苷酸。如果(G+C)%
在上述阈值之外,应将寡核苷酸长度设计为(18 n/2)个核苷酸,其中对AT丰富区,则n=50-(G+C)%对GC丰富区,则n=(G+C)%-50。
3)检查新设计二重对称区,因为可自杂交形在发夹或茎环结构的寡核苷酸是低物。效引
a.其中不含二重对称区,因为可自杂交形成发夹或茎环结构地寡核苷酸是低效引物。
b.它既不会同载体DNA也不会同序列已经测出的靶DNA区段相互补,如能保证这一点,将大大减少寡核苷酸从模板DNA的不只一个位置上引导DNA合成的可能性。已商品化的大部分用于DNA分析的计算机程序都能够从序列中检索合成寡核苷酸的互补区。
(5)序列的准确性:如果认真地进行DNA序列测定,错误率将小于0.1 %。但要达到这样高的准确性,必须完整地测定靶DNA两条链的序列并澄清棱两可及相互矛盾之处。在这一点上随机测序有其优点,因为在该方法中耐需要骤步对丰余的原始序列资料进行累积,从而使最终所排出的序列的准确性大为改观。然而靶DNA中可能存在一些区域,无论采用随机法还是定向法都不能准确测定其序列。解决这些凝难序列往往需要花费意外长的时间,有时还要使用碱基类似物(以消除条带压缩现象)或Maxam-Gilbert测序法。
(6)测序计划的下一步打算:不同的测序策略将会得到不同类型的样品材料,这些材料可用于以后的实验。例如,为NDA测序而构建的多套缺失体可用于研究启动子区中的结构域,而与靶片段不同区段互补的多套寡核苷酸,可用于测定靶DNA突变体的序列。为鸟枪法测序而构建可以留作随后进行定点诱变或制备放射性标记探针的材料。