生物信息学应用:序列分析、电子克隆等初探
互联网
生物信息学可指利用信息技术管理和分析生物学数据。这就意味着生物信息学所涉及的范围相当广泛,从人工智能、机器人一直到基因组(genome)分析。就基因组分析这一角度来看,生物信息学主要是指核酸和蛋白质序列数据的计算机处理和分析。近年来,蛋白质结构数据的快速增长,使蛋白质三维结构的处理分析也归入到生物信息学的范畴。
近年来,三大国际一级生物信息数据库,即美国国家信息中心(National Center of Biotechnology Information,NCB)的Gen Bank、欧洲分子生物学室验室(European Molecular Biology Laboratory-Euro-pean Bioinformatics Institute, EMBL-EBI)的EM-BL 和日本DNA数据库(DNA Data Bank of Japan,DDBJ) 新收录的核酸序列数据中,EST占65%以上。
随着生物信息学(Bioinformatics)的发展,通过检索数据库进行核酸序列同源性检索,电子基因定位、电子延伸、电子克隆和电子表达以及蛋白质功能分析、基因鉴定等方面起到了重要作用,已成为人们认识生物个体生长发育、繁殖分化、遗传变异、疾病发生、衰老死亡等生命过程的有力工具。
1、核酸序列的同源性检索
目前,通过数据库查询、cDNA文库直接测序、mRNA差别显示(DDRT-PCR)、代表性差示分析(RDA-PCR)和抑制差减杂交(SSH)等方法获得的EST数据越来越庞大。GenBank数据库中收录的EST序列有数百万个之多。
由于EST代表着一段表达基因序列,这样就可用其与公共数据库进行同源性检索,检索与其同源的核酸序列。典型分析是采取NCBI的Blast软件对GenBank中的非冗余数据库(non-redundant database,nr)进行查询。
该数据库是对GenBank EMBL 和DDBJ中去除所有相同核酸序列进行整合后所得的最为全面的已知基因数据库,其中包括部分基因组序列。联网至选择数据库“Nucleotide”,利用blastn程序进行同源性检索。按照提示进行查询。
2、比较基因组分析
达尔文的进化论给比较基因组学提供了理论依据。动物进化从低等到高等,动物与动物之间存在着亲缘关系。这种关系可以从基因序列上反映出来。亲缘关系越近,其基因序列的同源性就越高。可以根据已经亲缘关系较大的动物的基因序列来扩增目的基因的序列。
3、利用Unigene数据库进行电子克隆
此分析需要联网至选择数据库“dbEST”,利用blastn程序进行同源性检索。一般情况下可从EST数据库中检索到一批与代分析序列高度同源的EST序列。选择同源性比分最高的一条EST序列。从NCBI的UniGene数据库中进行检索,得到相应的UniGene编号。
获得待分析序列的UniGene编号以后,就可以将与UniGene Cluster的所有核酸序列下载到本地,利用SequencherTM或其他的序列装配软件进行组装。形成较长的新生序列。
4、cDNA序列的开放阅读框分析
大量的实验证明,在真核生物起始蛋白质合成时,40S核糖体亚基及有关合成起始因子首先与mRNA模板靠近5`末端处结合,然后向3`末端滑行,发现AUG起始MM子时,与60S大亚基结合形成80S起始复合物。开始转译蛋白质。这就是Kozak提出的真核生物蛋白质合成起始的“扫描模式”。
MRNA需要翻译为蛋白质方能发挥生物学作用,因此,核酸序列的开放阅读框(open reading frame.ORF)的分析便成为核酸分析的一个重要部分。基于遗传MM表,可通过计算机方便分析核酸序列的读码框。联网至 finder,输入cDNA序列,计算机将按照六种相位翻译成蛋白质。
5、基于核酸序列的电子基因定位
对核酸序列进行电子基因定位(即基因的染色体定位),通过所定位区带的相邻基因或者基因簇间接提示该基因的功能,是核酸分析的一个重要方面。进行电子定位一般有两种策略:(1)通过序列标签位点(Sequence Tagged Site,STS)进行定位;(2)通过UniGene/RH技术进行定位。
①利用STS数据库进行电子基因定位
利用此种方式进行定位时主要是利用NCBI的电子PCR资源,即登录http://www.ncbi.nlm.nih.gov/genome/sts/eper.cgi,输入待分析的序列即可进行查询。
②利用UniGene数据库进行电子基因定位
参考前述,首现获得待分析序列所对应的UniGene编号。而大部分UniGene序列已经具有较为明确的利用放射性杂交(radiation hybrid,RH)技术所给出的定位信息,所以,根据此结果就可以得到待分析序列的基因定位。
6、电子表达谱分析
在获得待分析序列的UniGene编号以后,就可以通过参与形成UniGene Cluster 的序列的/细胞来间接地反映待分析序列在何种组织表达,体现在字段“cDNA sources”中。
7、基于序列同源性分析的蛋白质功能预测
相似的序列很可能具有相似的功能。因此,蛋白质的功能预测最为可靠的方法是进行数据库相似性检索。此方法应至少80个氨基酸长度范围内具有25%以上的序列一致才提示可能的显著意义。目前一般方法是基于NCBI/Blast软件的蛋白质同源性分析,类似于核酸序列的同源性分析,用户直接将待分析的蛋白质序列输入NCBI/Blast软件(http://www.ncbi.nlm.nih.gov/blast/)的序列输入框内,选择程序:Blastp”就可联网进行相应分析。
8、较长或全长的cDNA序列注册
进行较长或全长cDNA序列注册时,可将其制成一个注册文件,其中可包含有多条cDNA序列。用户需要将可能多的信息在GenBank所规范的字段中填写。序列注册文件生成以后,可直接将其以附件方式向NCBI发送Email(gb-sub@ncbi.nlm.nih.gov)。一般在3~7个工作日之内可得到回音,并获得新的GenBank序列接收号。具体过程如下:下载Sequin软件;安装Sequin软件;运行Sequin.exe文件。按要求回答一系列问题,包括作者及单位、核酸序列信息、注解信息等。最后将生成一个序列注册文件(扩展名为sqn)。可将该文件以附件形式向NCBI发送(gb-sub@ncbi.nlm.nih.gov)。
一般地,核酸序列信息分析的基本思路:编码区序列(简称CDS)与EST数据比较→寻找感兴趣ESTS(标准:长度≥100bp,同源性介于50%~85%之间)→所选ESTs与GenEmble数据库比较→找出未克隆ESTs→再与dbEST、dsSTS、dbHTGs、MGD及UniGene数据库比较搜寻重叠群Contigs→设计引物进行PCR扩增或筛选cDNA文库或索取cDNA克隆号进行电子拼接获取全长cDNA→基因定位、表达、结构、功能检测分析等。