EST电子延伸克隆方法
互联网
3502
|
一、
预处理
Ø用crossmatch程序,去除载体序列(载体序列库:ftp://ncbi.nlm.nih.gov/repository/vector)。
处理时应注意的问题:
1、如果是用自已的EST数据库延伸,最好用phred-qa 'filename'的方法进行base calling质量鉴定,然后再用phrap进行组装时就可以充分利用phred的打分情况。一般来说,30分意味着正确率约为99.9%。
2、BLAST的EV值得选好,根据比对的数据库大小,EV值适当地进行调整。如果是比对人源EST库,可在1e-30--1e-40之间。在phrap组装contig以后,需要判定有效组装的contig,这里有一个contig得分情况应该参考,不然,phrap可能组建出N多方案,如果只靠跟种子的同源性筛选contig,很容易把本来就错误的contig拿来做下一轮的种子。
Ø将ESTs序列将与人重复序列库(RepBas:http://www.girinst.org)比较,去除重复序列,提高拼接的效率。
Ø其它潜在的污染序列,有几种污染属于研究前沿,至今没有很好的解决。包括:来自基因组DNA的污染、来自pre-mRNA的污染、跨越非常规内含子(不是以GT或GC开头和AG结尾的内含子)的EST,这些都会影响拼接的成功率和正确率。
二、聚类(clustering):
在对大量ESTs数据进行分析时,情况比较复杂,从概念上区分“聚类”和“拼接”是必要的。聚类过程的目的是将标记同一基因相同转录本的、具有重叠部分(over-lapping)的ESTs整合至单一的簇(cluster)中。用BLAST和fasta进行同源性搜索其实就是聚类的前导工作。
聚类分为不严格的和严格的聚类(loose and stringent clustering):
不严格的聚类:不严格的聚类系统产生大的、“松散”的类。在所形成的每一类中,表达基因ESTs数据的覆盖率高,含有同一基因不同的转录形式,如各种选择性剪接体、由选择不同的多腺苷酸位点(polyadenylation site)而产生的不同的转录本等。其主要缺点在于每一类中可能包含旁系同源基因(paralogous expressed gene)的转录本,信噪比低,序列的忠实性低。这种系统的代表,如STACK采用的基于字的聚类算法,即d-square聚类。
严格的聚类:严格的聚类系统产生高度相关的聚类成员,因此忠实性更加可靠。但是,表达基因ESTs数据的覆盖率低,因此所含有的同一基因的不同转录形式少。这种系统的代表,如TIGR的Gene Indices所采用的类似于BLAST和FASTA的序列比对程序FLAST。
三、连接,主要介绍几种连接程序
PHRAP (phragment assembly program):http://bozeman.genome.washington.edu/index.html)
PHRAP是一个拼接霰弹法产生的序列片断的程序。有如下特点:
Ø允许使用所判读的完整序列而不仅仅是经剪切的高质量部分;
Ø在重复序列出现时可以结合使用者提供的或内部计算的数据质量来提高拼接的正确性;
Ø构建一个由高质量部分镶嵌的拼接程序而不是所谓的一致序列;
Ø可提供广泛的包括质量值在内的关于拼接的信息,可控制非常大的数据集,但它单独不能提供编辑或浏览的功能;
Ø最佳搭配是PHREP+PHRAP+CONSED,该套系统就可以高效、规模化地进行EST序列的拼接延伸;
Ø缺点是如果以可变剪切的基因来试验,Phrap可正确地拼接出它所产生的一个蛋白,但是不能发现其它可变剪切的结果,如AMP2基因。
CAP3:在线服务:http://bioinfomatics.iastate.edu/aat/sas.html
该软件是CAP(contig assembly programme)的改进版本,可在线进行。该软件适用于EST拼接,可快速去除不能拼接在一起的序列,运用动态规划算法可容忍序列的部分错误,可剪切掉所判断序列中5`和3`端碱基质量不高的区域。它在计算重叠时使用碱基质量值加以控制,建立多重比对,产生一致序列。并且它可使用正反向约束修正拼接错误和连接片段重叠群。
PHRAP可以产生较长的重叠群,而CAP3拼接起来的一致性错误比较少,同时它运用正反向约束机制来处理低质量序列时更容易得到结构框架。但是它同样不能发现AMP2基因的可变剪切变体。
TIGR assembler
与PHRAP一样是针对基因组序列拼接的。采用的是贪婪算法,我们同样地拿它检验AMP2,可以拼接出它的蛋白,而且可以找到由两个EST构成的变体,但是没有任何证据和实验能够证明它的真实性。
zEST assembler
zEST assembler是专门为EST设计的拼接软件。它由两个步骤组成:EST聚类;拼接EST。运用zEST assembler优势在于可以发现不同变体和多态性。zEST assembler不同于其它程序,采用的是自组织算法,通过EST与已有的一致序列相比获得新的一致序列,从而得到新的变体。
四、分析(analysis)及文库构建
分析主要包括基因注释及功能分析、后续分析两大块。注释可通过序列联配(Blastan、Blastx)及蛋白质功能搜索(二级结构比对)完成。后续分析包括比较基因组学分析、基因表达谱分析、新基因研究、基因可变剪切分析及实验验证等。