DNA序列分析方法与内容小结
互联网
- 相关专题
DNA序列分析主要测定的是组成DNA的核苷酸序列(DNA的一级结构),核酸的核苷酸序列测定依据方法有两种:一、Sanger双脱氧链终止法原理和Maxam Gilbert DNA化学降解法原理。本文叙述了两种测序 方法的基本步骤和DNA序列分析的主要内容。
DNA序列分析的方法
DNA的一级结构决定了基因的功能,欲想解释基因的生物学含义,首先必须知道其DNA顺序。因此DNA序列分析(DNa sequencing)是分子 遗传学中一项既重要又基本的课题。
1986年由美国学者提出的,目前正在实施的人类基因组计划(human genome project),则是要通过对人类基因组3×109bp全序列的序列分析和人类基因的染色体图谱 制定达到了解其结构,认识其功能,即从分子遗传学水平来认识人类自身的结构和功能特征的目的。
核酸的核苷酸序列测定方法已经过近20年的发展,因而测序 的具体方法五花八门、种类繁多。但是究其所依据的基本原理,不外乎Sanger的核酸链合成终止法及Maxam和Gilbert的化学降解法两大类。虽然原理不同,但这两种方法都同样生成互相独立的若干组带放射性标记的寡核苷酸,每组寡核苷酸都有固定的起点,但却随机终止于特定的一种或多种残基上。由于DNA链上每一个碱基出现在可变终止端的机会均等,因而上述每一组产物都是一些寡核苷酸的混合物,这些寡核苷酸的长度由某一种特定碱基在原DNA片段上的位置所决定。然后在可以区分长度仅相差一个核苷酸的不同DNA分子的条件下,对各组寡核苷酸进行电泳分析,只要把几组寡核苷酸加样于测序凝胶中若干个相邻的泳道之上,即可从凝胶的放射自显影片上直接读出DNA上的核苷酸顺序。以下分别介绍。
1.Sanger双脱氧链终止法
DNA的合成总是从5′端向3′端进行的。DNA的合成需要模板以及相应的引导核酸链。DNA的合成过程中,在合成的DNA链的3′末端,依据碱基配对的原则,通过生成新的3′,5′-磷酸二酯键,使DNA链合成终止,产生短的DNA链。具体测序 工作中,平行进行四组反应,每组反应均使用相同的模板,相同的引物以及四种脱氧核苷酸;并在四组反应中各加入适量的四种之一的双脱氧核苷酸,使其随机地接入DNA链中,使链合成终止,产生相应的四组具有特定长度的、不同长短的DNA链。这四组DNA链再经过聚丙烯酸胺凝胶电泳按链的长短分离开,经过放射自显影显示区带,就可以直接读出被测DNA的核苷酸序列
2.Maxam Gilbert DNA化学降解法
Maxam Gilbert DNA化学降解法的基本步骤为:
(1)先将DNA的末端之一进行标记(通常为放射性同位素32P;
(2)在多组互相独立的化学反应中分别进行特定碱基的化学修饰;
(3)在修饰碱基位置化学法断开DNA链;
(4)聚丙烯酰胺凝胶电泳将DNA链按长短分开;
(5)根据放射自显影显示区带,直接读出DNA的核苷酸序列。
1确定开放读码框
通过翻译得到6条读码框后,下一步就要确定哪个是正确的阅读框。通常,我们选择中间没有被终止密码子(TGA、TAA、或TAG)隔开的最大读码框作为正确结果,即开放读码框(Open Readin Frame,简称ORF)。ORF的结尾比它的起始容易判断。一般编码序列的起始位点是蛋氨酸的密码子ATG;但蛋氨酸在编码序列内部也经常出现,即ATG并不一定是ORF的起始标志。因此,有必要应用其它方法找到5'端非编码区的末端。
幸运的是,确实有一些规律可以帮助我们在DNA中找到蛋白质编码区。就像上面提到的足够长度的ORF(基于随机出现较长ORF的概率很小的事实)。识别边缘处的Kozak序列对确定编码区的起始位点也有一定帮助。而且,密码子在编码区和非编码区有不同的统计规律。尤其是一些特殊氨基酸在不同物种中密码子的使用情况有很大区别,偏爱密码子的规律在非编码区体现不出来。因此,偏爱密码子的统计分析有助于推测5'及3'非编码区,并对发现错误翻译也有所帮助,因为在错误翻译中不常用的密码子会大量出现。不同物种对某些氨基酸使用不同密码子的情况,可见区别非常大。据目前所知,共有六种三联体密码子编码丝氨酸。每种丝氨酸密码子都有可能在CDS中出现,不同物种对密码子的使用具有高度选择性。这种特性可以用于帮助预测DNA的那些区域可能编码蛋白质。
除了特定的偏爱密码子,许多物种密码子的第3个碱基位置倾向使用G或C而不是A或T。因此,G/C在这个位置的出现频率较高,这一特征可以进一步用来确定ORF。
最后,如果在起始密码子上游发现核糖体结合位点,就可以更肯定的说找到了一个ORF,因为核糖体结合位点指导核糖体结合到正确的翻译起始部位。但是,不管怎样,预测基因最可靠的方法恐怕还得与同源蛋白质序列比较。
2 内含子与外显子
真核生物的基因有外显子与内含子两部分,外显子组成编码区,内含子不参与编码区的组成(见图框5.2)。真核生物基因有外显子/内含子的一个结果就是其基因产物可能有不同的长度,因为并非所有的外显子都包含在最终的mRNA中(包含在mRNA内的外显子的排列顺序没有改变)。由于mRNA的编辑产生了不同的多肽,进而形成不同蛋白质,这些蛋白质就互称为剪切变体(Splice Variants)或者可变剪切形式(Alternatively Spliced Forms)。因此,查询cDNA或mRNA数据库(转录水平的信息)时,匹配结果看上去有缺失的部分,而实际上,这可能是可变剪切的结果。
3 DNA序列拼接
DNA序列分析的另一个重要方面是将一个DNA克隆经自动测序得到的片段装配成完整的核苷酸序列。有些生化分析要求有相当准确的序列数据,对于一个序列已知的基因,必须核实克隆得到的序列是否与已知基因的序列一致。如果不一致,就必须设计实验加以修正。克隆出错的原因可能是多方面的,如使用了不恰当的引物,或在多聚酶链式反应(Polymerase Chain Reaction,简称PCR)中使用了低效率的酶。
克隆可以是能够直接测序的mRNA,或是以mRNA为模板合成的cDNA。单链克隆的测序过程如下:先根据克隆载体上插入位点两端的寡核苷酸序列设计引物,引物与相应序列杂交上后,它们就以插入序列为模板开始延伸。
双脱氧核苷酸(ddATP,ddTTP,ddGTP,ddCTP)可以终止延伸反应。由于反应体系中有大量的脱氧核苷酸(dATP,dTTP,dGTP,dCTP),它们与双脱氧核苷酸随机结合到模板上,因此延伸反应会终止在不同的碱基上,结果每个引物都合成了一系列不同长度的片段。这些片段通过放射性同位素电泳或者荧光法测序。一般情况下,一次试验不可能测定CDS的全长,因此必须通过重叠片段的多重比对得到整个CDS,这就必须进行序列拼接。
序列拼接软件通过计算序列中每个位点上各种核苷酸可能出现的分值,找出一致序列(Consensus Sequence)。可以设置一些参数来约束每个位点允许出现的错配数。通常,为确定序列拼接的质量,需要对一个片段进行多次测序。正链和负链上每个位置至少在两次以上测序结果一致,该位点的测序结果的才比较可信;相反,序列中的某一位点几次测序结果不一致,这一位点的可信度则较低。
测序并得到高可信度的序列是一项需要时间和耐心的工作,尤其在使用自动荧光测序仪进行高通量测序时,更是如此。一个高质量的序列,需要一个熟练的分析人员,在一套可靠的分析软件的帮助下经过数小时对荧光图谱(测序原始资料)的分析才能获得。分析人员要熟悉测序实验操作的缺欠,了解GC富集区(导致强的DNA二级结构域并影响测序结果),重复序列等的影响,所有这些使序列拼接成为一项高技术工作。
小结:DNA序列分析 的内容包括三个重要内容,依次为:确定开放读码框(Open Readin Frame,ORF),内含子与外显子(编码与非编码区),DNA序列拼接(DNA测序完成)。