基因组分析注释流程
互联网
11138
基因组分析注释流程
所有的大规模测序中心都依赖功能强大的生物信息学支持,以分析它们产生的海量数据。分析的水平和类型多变,但是其共同需求就是结合多种注释证据,为注释者和公众提供便于使用的界面的稳定工具。在TIGR,基因组注释工具的应用在过去几年中不断发展,已将自动开放阅读框(openreading frame,ORF)识别、非ORF特征识别、数据库匹配、基因的功能分类结合在一起。Glimmer(Salzberg等,1998;Delcher等,1999a),一种用于Markov模型插值的算法,应用于原核生物的ORF识别。预测编码区是用BlastP(Altschul等,1990)搜索公共数据库。蛋白质间的匹配则用修改过的Smith-Waterman(Waterman,1998)算法进行联配,
这种算法通过改变读码框来最大延伸相似区(Fleischmann等,1995;Fraser等,1995)。基因识别通过对无冗余的细菌蛋白质数据库(nraa)进行搜索来实现,nraa由TIGR开发,并由GenBank、Genpept、PIR和SwissProt的公共文件协助。在nraa中,ORF匹配自动分为普通名称匹配和功能类型匹配(Riley,1993)。对没有预测克隆区的基因组区域和在数据库中没有匹配的区域,Glimmer预测在初始搜索和新基因由联配区外推时,可用BlastX(Altschul等,1990)重新评估。现在的工作方向是将基因实体(geneontology,GO)系统(Ashburner等,2000)与自动化流程结合。
为了增强潜在基因识别的能力,建立在多序列比较基础上的方法和工具及建立家族的方法(Eddy,1998)得到了应用。用预测的蛋白质序列,由MKDOM软件(Gouzy等,1997)建立的多序列联配生成旁系同源基因家族。多序列联配可将相似的蛋白质分类成家族,其目的是检验注释结构和识别在简单的两两联配中未被发现的家族成员。蛋白质也在隐性Markov模型[HMM,PFam v3。l(Bateman等,2000),TIGRFam(Haft等,2001)]数据库中进行搜索,此数据库通过蛋白质家族/超家族多序列联配建立。
除了通过ORF分析和相似性搜索发现基因之外,还可利用其他很多性质进行常规分析和记录。TopPred用于识别蛋白质中的可能跨膜结构域(Claros和yonHeijne,1994)。SignalP(Nielsen等,1997)可预测分泌蛋白中的信号肽和它们可能的剪切位点。而编码不翻译RNA的基因则可通过在核酸水平的数据库中搜索来识别。搜索tRNA基因可由tRNAScan-SE(Lowe和Eddy,1997)完成。基因组中的重复序列用MUMmer识别,这是一种建立在后缀树(suffixtree)基础上的算法(Delcher等,1999b,2002),可以非常迅速地发现大基因组序列中所有的重复区域。重复组被分成几类,以用来引导组装和注释。
自动注释的结果可由注释团队使用Manatee界面人工检查,这种界面允许外部的合作者在期刊发表的准备过程中获得数据。
最后,一组基因组控制(genomecontrol,GC)程序可自动完成来自微生物基因组注释数据的日常处理。它运行夜间处理控制系统,来升级那些被人工或自动修改的ORF信息。这确保了注释的不断更新和同步。