越来越多的怪异基因
互联网
776
越来越多的怪异基因
斯坦特和他同时代的科学家都非常清楚地知道,这其中的某些细节是非常重要的。他们知道,在蛋白质固定到其附近的DNA位时,基因可被关闭或开启。他们还了解到,一些编码RNA分子的基因从来不会变成蛋白质。相反,他们有其他的任务,如帮助建立核糖体内的蛋白质。
但是,这些例外似乎显得并不重要,还不足以引起科学家对基因的定义提出疑问。耶鲁大学的生物信息学家马克・格斯坦说:“生物学的工作方式迥异于数学。如果你在数学找到一个反例,你就必须回过头去重新思考定义。生物学并不如此,当出现一、两个反例时,人们更愿意对其进行处理。”
20世纪80年代和90年代,科学家们发现了越来越多的反例,当一个细胞产生一个RNA转录时,它会把巨大的DNA块切断,只留存一些小残余。(细胞复制的DNA部分称为外显子,被抛在一边的部分称为内含子。)大量非编码的DNA片段存在于这些蛋白质编码区域。人类基因组中的2.1万个蛋白质编码基因只占了整个基因组的1.2%%。
2000年,一个国际科学家小组完成了首个基因组―――人体细胞中的所有遗传物质的草图。他们确定了许多蛋白质编码基因的位置,但是人类基因组中98.8%%的其他基因仍有待探索。
从那时起,科学家们开始在基因组的丛林中不断跋涉,一点一点地描绘着基因组的精妙细节。其中最大的一个项目就是“DNA元件的百科全书”,简称为Encode。数以百计的科学家开始协同作战,以确定人类基因
组中每一个DNA片段的功能。去年夏天,他们发表了1%%基因组的成果―――大约300万个DNA“字符”。遗传代码是以字符形式表示的,就像电影标题“Gattaca”(千钧一发)中的每一个字母都代表着一种称为碱基的分子:G(鸟嘌呤),A(腺嘌呤),T(胸腺嘧啶),C(胞嘧啶)。Encode小组预计到明年就可以得出其他99%%基因组的初步结果。
Encode的研究结果显示,至少从传统的基因定义标准看,基因组中充斥着各种怪异的基因。例如,一个单个的所谓基因可以产生一个以上的蛋白质。在一个称为选择性剪接的过程中,一个细胞可以选择不同的外显子组合制作出不同的副本。大约在30年前,科学家就首次发现了选择性剪接的例子,但他们无法确定这种情况到底有多普遍。现在一些研究表明,几乎所有的基因都被剪接。Encode小组估计,蛋白质编码区域平均能产生5.7个不同的副本。不同种类的细胞似乎能从同一基因产生不同的副本。
更为怪异的是,细胞常常将外显子“扔进”来自其他基因的副本中。这些外显子可能来自“遥远的地方”,甚至来自不同的染色体。
因此,Encode的负责人之一、冷泉港实验室的托马斯・金格拉斯认为,“再也不能认为基因是在一个物理位置上的单一DNA片段,在我们所认为的基因组组织方式上,已出现了范式转移”。