基因组序列分析
互联网
1675
随着人类基因密码解读完成,伴随而来的大量 DNA 序列资料,马上产生一个重要的课题,即如何从这些资料中,找到大约四万个人类的主要基因。人类的 DNA 序列中大概仅有不到 5% 是能产生蛋白质的基因,因此要从人类基因组中辨认出有功能的基因,首先就必须了解基因的结构。一般来说,人类基因可概分为以下几个部分:激活子、5'非转译区、表现序列、内子、3'非转译区、聚腺启酸化作用点,其中只有表现序列才携带产生蛋白质的讯息。
因此,辨认基因的计算机程序,最主要的任务就是从 DNA 序列中,找出基因表现的开始与结束位置,即起始密码与停止密码,及接合点(分为提供点和接受点),进而将同一基因所有的表现序列拼凑出来,最终的目的就是建立出一个完整的基因。科学家研究使用计算机方法去预测散布在基因组中的基因,已经有 15 年的历史。目前有两种预测基因的计算机方法,一是根据机率与统计的方法,另一是寻找相似性的方法,随着已知基因的大量累积,新的计算机程序大都采用寻找相似性的方法。
因此,辨认基因的计算机程序,最主要的任务就是从 DNA 序列中,找出基因表现的开始与结束位置,即起始密码与停止密码,及接合点(分为提供点和接受点),进而将同一基因所有的表现序列拼凑出来,最终的目的就是建立出一个完整的基因。科学家研究使用计算机方法去预测散布在基因组中的基因,已经有 15 年的历史。目前有两种预测基因的计算机方法,一是根据机率与统计的方法,另一是寻找相似性的方法,随着已知基因的大量累积,新的计算机程序大都采用寻找相似性的方法。