核酸序列预测分析的基本方法

互联网2013-08-19

4455

核酸序列预测分析的基本思路：
当我们得到一个DNA序列时，一般都需要对该片段进行分析，确定它的功能区域，寻找调控区域、编码区域，预测其编码蛋白，这些就是我们研究DNA序列的目的。
核酸序列的预测就是在核酸序列中寻找基因，找出基因的位置及功能位点，以及标记已知的序列模式等过程。在此过程中，确认一段DNA序列是一个基因需要有多个证据的支持：
1、一般而言，在重复片段频繁出现的区域里，基因编码区和调控区不太可能出现；
2、如果某段DNA片段的假想产物与某个已知的蛋白质或其它基因的产物具有较高序列相似性的话，那么这个DNA片段就非常可能属于外显子片段；
3、在一段DNA序列上出现统计上的规律性，即所谓的“密码子偏好性”，也是说明这段DNA是蛋白质编码区的有力证据；
4、其它的证据包括与“模板”序列的模式相匹配、简单序列模式如TATA Box等相匹配等。
一般而言，确定基因的位置和结构需要多个方法综合运用，而且需要遵循一定的规则：
1、对于真核生物序列，在进行预测之前先要进行重复序列分析，把重复序列标记出来并除去；
2、选用预测分析程序时要注意程序的物种特异性，要弄清程序适用的是基因组序列还是cDNA序列；很多程序对序列长度也有要求，有的程序只适用于长序列，而对EST这类残缺的序列则不适用。
要注意的是，尽管各种预测方法都基于现有的生物学数据和已有的生物学知识，但在不同模型或算法基础上建立的不同分析程序有其一定的适用范围和相应的限制条件，因此最好对同一个生物学问题尽量多用几种分析程序，综合分析各种方法得到的结果和结果的可靠性。此外，生物信息学的分析只是为生物学研究提供参考，这些信息能提高研究的效率或提供研究的思路，但很多问题还需要通过实验的方法得到验证。
一般地，核酸序列信息分析的基本思路：编码区序列(简称CDS)与EST数据比较→→寻找感兴趣ESTs (标准:长度≥100bp，同源性介于50%~85%之间)→→所选ESTs与GenEmble数据库比较→→找出未克隆ESTs→→再与dbEST、dsSTS、dbHTGs、MGD及UniGene数据库比较搜寻重叠群Contigs→→设计引物进行PCR扩增或筛选cDNA文库或索取cDNA克隆号进行电子拼接获取全长cDNA→→基因定位、表达、结构、功能检测分析等。

核酸序列预测分析的基本方法

1、核酸序列的同源性检索

　　目前，通过数据库查询、cDNA文库直接测序、mRNA差别显示(DDRT-PCR)、代表性差示分析(RDA-PCR)和抑制差减杂交(SSH)等方法获得的EST数据越来越庞大。GenBank数据库中收录的EST序列有数百万个之多。由于EST代表着一段表达基因序列，这样就可用其与公共数据库进行同源性检索，检索与其同源的核酸序列。
典型分析是采取NCBI的Blast软件对GenBank中的非冗余数据库（non-redundant database, nr）进行查询。该数据库是对GenBank、EMBL和DDBJ中去除所有相同核酸序列进行整合后所得的最为全面的已知基因数据库，其中包括部分基因组序列。

　　http://blast.ncbi.nlm.nih.gov/Blast.cgi中选择数据库“Nucleotide”，利用blastn程序进行同源性检索，按照提示进行查询。
2、比较基因组分析

　　达尔文的进化论给比较基因组学提供了理论依据。动物进化从低等到高等，动物与动物之间存在着亲缘关系。这种关系可以从基因序列上反映出来：亲缘关系越近，其基因序列的同源性就越高。可以根据已知亲缘关系较大的动物的基因序列来扩增目的基因的序列。

3、利用Unigene数据库进行电子克隆

　　http://www.ncbi.nlm.nih.gov/projects/dbEST/中选择数据库“dbEST”，利用blastn程序进行同源性检索。一般情况下可从EST数据库中检索到一批与待分析序列高度同源的EST序列，选择同源性比分最高的一条EST序列，然后再从NCBI的UniGene数据库中进行检索，得到相应的UniGene编号。获得待分析序列的UniGene编号以后，就可以将与UniGene Cluster的所有核酸序列下载到本地，利用Sequencher TM或其他的序列装配软件进行组装。形成较长的新生序列。
4、cDNA序列的开放阅读框分析
大量的实验证明，在真核生物起始蛋白质合成时，40S核糖体亚基及有关合成起始因子首先与mRNA模板靠近5' 末端处结合，然后向3' 末端滑行，发现AUG起始密码子时，与60S大亚基结合形成80S起始复合物开始转译蛋白质。这就是Kozak提出的真核生物蛋白质合成起始的“扫描模式”。mRNA需要翻译为蛋白质方能发挥生物学作用，因此，核酸序列的开放阅读框（open reading frame, ORF）的分析便成为核酸分析的一个重要部分。基于遗传密码表，可通过计算机方便分析核酸序列的读码框。http://www.ncbi.nlm.nih.gov/gorf/gorf.html中输入cDNA序列，计算机将按照六种相位翻译成蛋白质。
5、编码区统计特性分析

　　统计获得的经验说明，DNA中密码子的使用频率不是平均分布的，某些密码子会以较高的频率使用而另一些则较少出现。这样就使得编码区的序列呈现出可察觉的统计特异性，即所谓的“密码子偏好性”。利用这一特性对未知序列进行统计学分析可以发现编码区的粗略位置。这一类技术包括：双密码子计数(统计连续两个密码子的出现频率)；核苷酸周期性分析(分析同一个核苷酸在3、6、9……位置上周期性出现的规律)；均一/复杂性分析(长同聚物的统计计数)；开放可读框架分析等。

　　常见的编码区统计特性分析工具将多种统计分析技术组合起来，给出对编码区的综合判别。著名的程序有GRAIL和GenMark等，GRAIL提供了基于Web的服务。

6、启动子分析
启动子是基因表达所必需的重要序列信号，识别出启动子对于基因辨识十分重要。有一些程序根据实验获得的转录因子结合特性来描述启动子的序列特征，并依次作为启动子预测的依据，但实际的效果并不十分理想，遗漏和假阳性都比较严重。总的来说，启动子仍是值得继续研究探索的难题。
7、内含子/外显子剪接位点

　　剪接位点一般具有较明显的序列特征，但是要注意可变剪接的问题。由于可变剪接在数据库里的注释非常不完整，因此很难评估剪接位点识别程序预测剪接位点的敏感性和精度。如果把剪接位点和两侧的编码特性结合起来分析则有助于提供剪接位点的识别效果。
8、基于核酸序列的电子基因定位
对核酸序列进行电子基因定位（即基因的染色体定位），通过所定位区带的相邻基因或者基因簇间接提示该基因的功能，是核酸序列分析的一个重要方面。进行电子定位一般有两种策略：(1)通过序列标签位点(Sequence Tagged Site,STS)进行定位；(2)通过UniGene/RH技术进行定位。

（1）利用STS数据库进行电子基因定位
利用此种方式进行定位时主要是利用NCBI的电子PCR资源，输入待分析的序列即可进行查询，即http://www.ncbi.nlm.nih.gov/sutils/e-pcr/。

（2）利用UniGene数据库进行电子基因定位
参考前述，首先获得待分析序列所对应的UniGene编号。而大部分UniGene序列已经具有较为明确的利用放射性杂交（radiation hybrid,RH）技术所给出的定位信息，所以，根据此结果就可以得到待分析序列的基因定位。

9、电子表达谱分析
在获得待分析序列的UniGene编号以后，就可以通过参与形成UniGene Cluster的序列的/细胞来间接地反映待分析序列在何种组织表达，体现在字段“cDNA sources”中。

10、基于序列同源性分析的蛋白质功能预测

　　相似的序列很可能具有相似的功能。因此，蛋白质的功能预测最为可靠的方法是进行数据库相似性检索。此方法应至少80个氨基酸长度范围内具有25%以上的序列一致才提示可能的显著意义。

　　目前一般方法是基于NCBI/Blast软件的蛋白质同源性分析类似于核酸序列的同源性分析，用户直接将待分析的蛋白质序列输入NCBI/Blast软件的序列输入框内，选择程序“Blastp”就可联网进行相应分析。即http://blast.ncbi.nlm.nih.gov/Blast.cgi

11、其它综合基因预测工具
除了上面提到的程序之外，还有许多用于基因预测的工具，它们大多把各个方面的分析综合起来，对基因进行整体的分析和预测。多种信息的综合分析有助于提高预测的可靠性，但也有一些局限：物种适用范围的局限；对多基因或部分基因，有的预测出的基因结构不可靠；预测的精度对许多新发现基因比较低；对序列中的错误很敏感；对可变剪接、重叠基因和启动子等复杂基因语法效果不佳。

(责任编辑：大汉昆仑王)

关于丁香通

公司信息

个人用户

企业机构

无忧采购轻松科研

提问

扫一扫

实验小助手

扫码领资料

反馈

TOP

打开小程序