基因组序列分析

互联网2013-11-14

1696

随着人类基因密码解读完成，伴随而来的大量 DNA 序列资料，马上产生一个重要的课题，即如何从这些资料中，找到大约四万个人类的主要基因。人类的 DNA 序列中大概仅有不到 5％是能产生蛋白质的基因，因此要从人类基因组中辨认出有功能的基因，首先就必须了解基因的结构。一般来说，人类基因可概分为以下几个部分：激活子、5'非转译区、表现序列、内子、3'非转译区、聚腺启酸化作用点，其中只有表现序列才携带产生蛋白质的讯息。

因此，辨认基因的计算机程序，最主要的任务就是从 DNA 序列中，找出基因表现的开始与结束位置，即起始密码与停止密码，及接合点（分为提供点和接受点），进而将同一基因所有的表现序列拼凑出来，最终的目的就是建立出一个完整的基因。科学家研究使用计算机方法去预测散布在基因组中的基因，已经有 15 年的历史。目前有两种预测基因的计算机方法，一是根据机率与统计的方法，另一是寻找相似性的方法，随着已知基因的大量累积，新的计算机程序大都采用寻找相似性的方法。