酵母:一种模式生物
互联网
刘擎, 余龙
( 复旦大学遗传学研究所,上海)
关键词:酵母;模式
生物
;基因组
1996年4月,在国际互联网的公共数据库中公布了酿酒酵母(以下简称酵母)的完整基因组顺序,它被称为遗传学上的里程碑。
因为首先,这是人们第一次获得真核 生物 基因组的完整核苷酸序列;其次,这是人们第一次获得一种易于操作的实验生物系统的完整基因组。酵母是一种较好的模式生物,通过对其基因组的深入研究将有助于人们了解高等真核生物基因组的结构和功能。
酿酒酵母作为一种模式生物在实验系统研究方面具有许多内在的优势。首先,酵母是一种单细胞生物,能够在基本培养基上生长,使得实验者能够通过改变物理或化学环境完全控制其生长。
其次,酵母在单倍体和二倍体的状态下均能生长,并能在实验条件下较为方便地控制单倍体和二倍体之间的相互转换,对其基因功能的研究十分有利。如在单倍体状态下,只需一次基因替换,就能得到某个特定基因缺失的酵母株;
而对于一些缺失后致死的基因,人们可以在二倍体菌株中进行基因替换,然后通过孢子筛选,获得带有基因缺失的单倍体菌株。此外,酵母的生命周期很适合经典的遗传学分析,使得在酵母16条染色体上构建精细的遗传图谱成为可能。
更重要的是,目前已发展了一些非常有效的技术使得酵母基因组中6000个基因中的任何一个基因均能被突变的等位基因取代,甚至从基因组中完全缺失,这种方法具有很高的效率和准确性。
1.酵母基因组组成
在酿酒酵母测序计划开始之前,人们通过传统的遗传学方法已确定了酵母中编码RNA或蛋白质的大约2600个基因。
通过对酿酒酵母的完整基因组测序,发现在12068kb的全基因组序列中有5885个编码专一性蛋白质的开放阅读框。这意味着在酵母基因组中平均每隔2kb就存在一个编码蛋白质的基因,即整个基因组有72%的核苷酸顺序由开放阅读框组成。
这说明酵母基因比其它高等真核生物基因排列紧密。如在线虫基因组中,平均每隔6kb存在一个编码蛋白质的基因;在人类基因组中,平均每隔30kb或更多的碱基才能发现一个编码蛋白质的基因。酵母基因组的紧密性是因为基因间隔区较短与基因中内含子稀少。
酵母基因组的开放阅读框平均长度为1450bp即483个密码子,最长的是位于XII号染色体上的一个功能未知的开放阅读框(4910个密码子),还有极少数的开放阅读框长度超过1500个密码子。
在酵母基因组中,也有编码短蛋白的基因,例如,编码由40个氨基酸组成的细胞质 膜蛋白 脂质的PMP1基因。此外,酵母基因组中还包含:约140个编码RNA的基因,排列在XII号染色体的长末端;40个编码SnRNA的基因,散布于16条染色体;属于43个家族的275个tRNA基因也广泛分布于基因组中。
表1 酵母染色体简况
染色体编号 |
长度(bp) | 基因数 | tRNA基因数 |
I | 23×10 3 | 89 | 4 |
II | 807188 | 410 | 13 |
III | 315×10 3 | 182 | 10 |
IV | 1531974 | 796 | 27 |
V | 569202 | 271 | 13 |
VI | 270×10 3 | 129 | 10 |
VII | 1090936 | 572 | 33 |
VIII | 561×10 3 | 269 | 11 |
IX | 439886 | 221 | 10 |
X | 745442 | 379 | 24 |
XI | 666448 | 331 | 16 |
XII | 1078171 | 534 | 22 |
XIII | 924430 | 459 | 21 |
XIV | 784328 | 419 | 15 |
XV | 1092283 | 560 | 20 |
XVI | 948061 | 487 | 17 |
序列测定揭示了酵母基因组中大范围的碱基组成变化。多数酵母染色体由不同程度的、大范围的GC丰富DNA序列和GC缺乏DNA序列镶嵌组成。这种GC含量的变化与染色体的结构、基因的密度以及重组频率有关。
GC含量高的区域一般位于染色体臂的中部,这些区域的基因密度较高;GC含量低的区域一般靠近端粒和着丝粒,这些区域内基因数目较为贫乏。
Simchen等证实,酵母的遗传重组即双链断裂的相对发生率与染色体的GC丰富区相耦合,而且不同染色体的重组频率有所差别,较小的Ⅰ、Ⅲ、Ⅳ和Ⅸ号染色体的重组频率比整个基因组的平均重组频率高。