中度重复序列
互联网
中度重复序列大致指在真核基因组中重复数十至数万(<105)次的重复顺序。其复性速度快于单拷贝顺序,但慢于高度重复顺序。少数在基因组中成串排列在一个区域,大多数与单拷贝基因间隔排列。依据重复顺序的长度,中度重复顺序可分为两种类型。
(1)短分散片段 (short interspersed repeated segments, SINES)这类重复顺序的平均长度约为300bp(〈500bp),它们与平均长度约为1000bp的单拷贝顺序间隔排列。拷贝数可达10万左右。如Alu家族,Hinf家族等属于这种类型的中度重复序列。
(2)长分散片段 (Long interspersed repeated segments, LINES)这类重复顺序的长度大于1000bp,平均长度为3500-5000bp,它们与平均长度为13000bp(个别长几万bp)的单拷贝顺序间隔排列。
也有的实验显示人基因组中所有LINES之间的平均距离为2.2kb,拷贝数一般在1万左右,如KpnⅠ家族等。中度重复顺序在基因组中所占比例在不同种属之间差异很大,一般约占10-40%,在人约为12%。这些顺序大多不编码蛋白质。
这些非编码的中度重复顺序的功能可能类似于高度重复顺序。在结构基因之间,基因簇中,以及内含子内都可以见到这些短的和长的中度重复顺序。按本文的分类原则有些中度重复顺序则是编码蛋白质或rRNA的结构基因,如HLA基因,rRNA基因,tRNA基因,组蛋白基因,免疫球蛋白基因等。
中度重复顺序一般具有种特异性;在适当的情况下,可以应用它们作为探针区分不同种哺乳动物细胞的DNA。下面介绍几种典型的中度重复顺序。
Alu家族: Alu家族是哺乳动物包括人基因组中含量最丰富的一种中度重复顺序家族,在单倍体人基因组中重复达30万-50万次,约占人基因组的3-6%。
Alu家族每个成员的长度约300bp,由于每个单位长度中有一个限制性内切酶Alu的切点(AG↓CT)从而将其切成长130和170bp的两段,因而定名为Alu序列(或Alu家族)。Alu序列分散在整个人体或其他哺乳动物基因组中,在间隔DNA,内含子中都发现有Alu序列,平均每5kbDNA就有一个Alu顺序。
已建立的基因组中无例外地含有Alu顺序。Alu顺序具有种的特异性,人的Alu顺序制备的探针只能用于检测人的基因组中的Alu序列。由于在大多数的含有人的DNA的克隆中都含有Alu顺序,因此,可以这样认为,用人的Alu序列制备的探针与要筛选的克隆杂交,阳性者即为含有人DNA克隆,阴性者不含有人DNA。
序列分析表明人类Alu顺序是由两个约130bp的正向重复构成的二聚体,而在第二个单体中有一个31bp的插入序列,该插入序列在Alu家族的不同成员之间核苷酸顺序相似但不相同。每个Alu顺序两侧为6-20bp的正向重复顺序,不同的Alu成员的侧翼重复顺序也各不相同。
Alu序列的5'端比较保守,但富含脱氧腺苷酸残基的3'端在不同的Alu成员中是有变化的。在相近的生物体中Alu家族在结构上存在相似性,一般认为灵长类基因组中的Alu顺序多为由两个130bp的正向重复组成的二聚体,而啮类动物则为由一个130bp左右的DNA片段组成的单体。
Alu序列在不同的哺乳动物之间存在着一定的相似性,但其序列相差较大,不会产生交叉杂交。Alu顺序广泛散布于整个基因组的原因可能是由于Alu顺序可由RNA聚合酶转录成RNA分子,再经反转录酶的作用形成cDNA,然后重新插入基因组所致。
也有人认为Alu序列两侧存在着短的重复顺序,使得Alu顺序很象转座子,因此推测Alu顺序可能也是能够移动的。这可能是它们在整个基因组中含量如此丰富,颁布如此广泛的原因之一。
Alu家族的功能是多方面的,由于在许多核内不均一RNA(hnRNA)中含有大量的Alu顺序,而且,Alu顺序含有与某些真核基因内含子剪接接头相似的序列,因而,Alu顺序可能参与hnRNA的加工与成熟。
Alu序列在人基因组中不寻常地大量存在,提示它与遗传重组及染色体不稳定性有关。最近发现在人的组织细胞中存在自然发生的染色体外双链环状DAN,被称为人类质粒(human plasmid),而这些质粒又毫无例外地含有Alu顺序。还有研究表明,Alu顺序中的某些区段有形成Z-DNA的能力。
另外,Alu顺序可能具有转录调节作用。
KpnⅠ家族: KpnⅠ家族是中度重复顺序中仅次于Alu家族的第二大家族。用限制性内切酶KpnⅠ消化人类及其它灵长类动物的DNA,在电泳谱上可以看到4个不同长度的片段,分别为1.2,1.5,1.8和1.9kb,这就是所谓的KpnⅠ家族。
KpnⅠ家族成员顺序比Alu家族更长(如人KpnⅠ顺序长6.4kb),而且更加不均一,呈散在分布,属于中度重复顺序的长分散片段型。尽管不同长度类型的KpnⅠ家族(称为亚类,subfamily)之间同源性比较小,不能互相杂交,但它们的3'端有广泛的同源性。
KpnⅠ家族的拷贝数约为3000 ̄4800个,占人体基因组的1%,与散在分布的Alu家族相似,KpnⅠ家族中至少有一部份也是通过KpnⅠ顺序的RNA转录产物的cDNA拷贝的重新插入到人基因组DNA中而产生的。
Hinf家族: 这一家族以319bp长度的串联重复存在于人体基因组中。用限制性内切酶HinfⅠ消化人体DNA,可以分离到这一片段。Hinf家族在单位基因组内约有50 100个拷贝,分散在不同的区域。319bp单位可以再分成两个亚单位,分别为172bp和147bp,它们之间有70%的同源性。
多聚dT-dG家族: 这一家族的基本单位是dT-dG双核苷酸,多个dT-dG双核苷酸串联重复在一起,分散于人体基因组中。已经发现,这个家族的一个成员位于人类δ和β珠蛋白基因之间,含有17个dT-dG双核苷酸组成的串联重复顺序。
在人基因组中,dT-dG交替顺序达106拷贝,这些顺序的平均长度为40bp。人们推测,这样一个短的串联重复顺序可能是基因转变(gene conversion)或不等交换(unequal crossing-over)的识别信号。
另外,这些嘌呤和嘧啶的交替顺序有助于Z-DNA的形成,在基因调节中可能起着重要的作用。中度重复顺序除了包括以上非编码区域外,许多编码区如rRNA基因,tRNA基因,组蛋白基因等在基因组中也多次重复,属于中度重复顺序。
rRNA基因: 在原核生物如大肠杆菌基因组中,rRNA基因一共是七套;在真核生物中rRNA基因的重复次数更多。
在真核生物基因组中18S和28S,rRNA基因是在同一转录单位中,低等的真核生物如酵母中,5SrRNA也和18S,28SrRNA在同一转录单位中;而在高等生物中,5SrRNA是单独转录的,而且其在基因组中的重复次数高于18S和28S基因。和一般的中度重复顺序不一样,各重复单位中的rRNA基因都是相同的。
rRNA基因通常集中成簇存在,而不是分散于基因组中,这样的区域称为rDNA,如染色体的核仁组织区(nucleolus organizer region)即为rDNA区。 18S和28SrRNA基因构成一个转录单位。从转录单位上转录下来的rRNA前体经过酶切成为18S和28SrRNA。
在哺乳动物和两栖动物中,18S和28SrRNA之间一同被转录下来的间隔区经过加工成为5.8SrRNA(在大肠杆菌中该区含有tRNA序列)。rRNA前体的其它部份被降解成核苷酸。真核生物中每个转录单位约长7-8kb(在哺乳动物中长13kb),其中编码rRNA的部份占70-80%(哺乳动物中只占50%左右)。
一个rRNA基因簇(rDNA簇)含有许多转录单位,转录单位之间为不转录的间隔区,该间隔区由21-100bp片段组成的类似卫星DNA的串联重复顺序。
转录单位和不转录的间隔区构成一个rDNA重复单位。由于不转录的间隔区中类似卫星DNA的串联重复次数不一样,因此,在不同生物及同种生物的不同rDNA重复单位之间不转录间隔区的长短相差甚大。
非洲爪蟾的rDNA簇中,由类似卫星DNA的重复序列交替排列构成。5'端为一固定长度的独特顺序;后面的重复区域是由97bp的重复单位组成;另外两个重复区域是由60bp或81bp的重复单位构成;由于每个重复区域中重复单位的重复次数在不同的rDNA重复单位中不一样,因而造成不同的不转录间隔区的长短不一。
另外两个固定长度的区域称为Bam岛(因为这两个片段的分离是采用BamHI酶消化制备的)。
Bam岛的后半部与转录单位前面的序列(含有启动子)相似;另外在60/81bp的重复区域中也有类似的序列。根据这些结构特点,有人认为不转录的间隔区可能在转录单位的转录起始中起着重要作用。
rDNA的重复单位在许多动物的卵子形成过程中进行大量复制扩增,如爪蟾在扩增前有rDNA重复单位500个,在从卵母细胞前身(oocyteprecursor)发展到卵母细胞过程中(3周时间),rDNA的重复单位可扩增400倍,每个细胞核的核仁数增加到几百个。
扩增rDNA的过程是采用滚环式复制方式在核仁区进行的,扩增的DNA不纳入到染色体中,而是包含在核区。卵母细胞成熟后,大量的rDNA由于失去了存在的意义而逐渐降解。
在卵子形成的过程中rDNA大量扩增的目的,就是为了产生大量的rRNA,组装成核糖体,用于合成大量的蛋白质,以满足受精后发育的需要。在大多数真核细胞中5SrRNA基因和18S,28SrRNA基因不属于一个转录单位。
5SrRNA基因在基因组中亦呈串联重复排列成基因簇。其结构在非洲爪蟾中研究得最为清楚。在爪蟾体细胞中5SrRNA基因约有500拷贝,而在卵细胞中5S基因可重复20000多次。这大概是为了和卵细胞中大量扩增的28S和18S基因相统一。
在爪蟾中发现有几种5SrRNA基因。最主要的一种其结构形式与18S、28S基因相似,即5S基因与非转录间隔区相间排列,组成一个重复单位。
每个重复单位的5'端是含有A-T丰富区的一段49bp长的G-C丰富区;下面跟是120bp的5SrRNA基因;后面又是一段 并不转录的序列,而且与前面的5S基因比较有9个点突变,因此称为这段基因为假基因(pseudo gene)。尽管假基因不被转录,但在5S基因簇中总是有等量的5S基因和它的假基因。
在卵细胞中还有一个次要的5SrRNA基因,与主要的5S基因在序列上有一定和差异,在结构上与主要的5S基因相似,但整个重复单位长只有350bp,而且间隔区与主要的5S基因完全不一样。
人类的rRNA基因位于13,14,15,21和22号染色体的核仁组织区,每个核仁组织区平均含有50个rRNA基因的重复单位。5SrRNA基因似乎全部位于1号染色体(1q42-43)上,每单倍体基因组约有1000个5SrRNA基因。tRNA基因的清确重复次数比较难以估计。
在非洲爪蟾中约有300个拷贝由tRNAmet,tRNAphe,tRNATrp及其它tRNA基因组成的3.18kb的串联重复单位。而在人体单倍基因组中约有1000-2000个tRNA基因,为50-60种rRNA编码,每种平均重复20-30次。
组蛋白基因: 组蛋白基因在各种生物体内重复的次数不一样,但都在中度重复的范围内。通常每种组蛋白的基因在同一种生物中拷贝数是相同的。鸡的基因组中组蛋白基因有10个拷贝,在哺乳动物中为20拷贝,非洲爪蟾为40拷贝,而海胆的每种组蛋白的基因达300-600拷贝。
不同生物中组蛋白基因在基因组中的排列不一样,组蛋白基因没有一定的排列方式,而在拷贝数高的基因组中(>100拷贝),大部份组蛋白基因串联重复形成基因簇。
海胆发育早期五种组蛋白基形成一个重复单位,每种组蛋白基因之间是非转录间隔区,5个间隔区均不相同。这样的重复单位在整个基因组中重复300次以上,而且这些重复单位基本上是相同的。在海胆中,5种组蛋白基因的转录方向都是相同的,每种组蛋白基因独立的产生自己的mRNA。
非洲爪蟾卵细胞5S基因重复单位包括一个基因和一个假基因。在三种不同的海胆中,其组蛋白基因重复单位中非转录间隔区在长度和序列上差异是很大的,尽管它们的组蛋白基因的长度和序列相差不多。实际上,在同一种海胆内不同的组蛋白基因重复单位之间,相应的非转录间隔区也不是完全相同的。
另外,在海胆胚胎发育晚期,要由晚期组蛋白基因来编码组蛋白,该基因与上述的早期组蛋白基因有轻微的差异,但该组蛋白基因不成簇排列,整个基因组仅有10个拷贝,呈散在分布。
在果蝇和非洲爪蟾中,5种组蛋白也排成一个重复单位,也存在间隔区,而且组蛋白基因的转录方向不一样。多个重复单位也形成串联重复排列。进化到哺乳动物,组蛋白基因一般不再形成重复单位,而呈散在分布或集成一小群。
尽管组蛋白基因在基因组中的排列和分布在不同生物之间相差甚大,但是所有组蛋白基因都不含内含子,而且在序列上相应的组蛋白基因都很相似,从而编码的组蛋白在结构上和功能上也极为相似。
基因组中存在大量重复序列用以编码组蛋白是有其重要意义的。DNA复制时,组蛋白也要成倍增加,而且往往在DNA合成一小段后,组蛋白马上就要与其相结合,这要求在较短的时间内合成大量的组蛋白,因而需要有大量的组蛋白基因存在。
人体基因组中还有几个大的基因簇,也属于中度重复顺序长的分散片段型。在一个基因簇内含有几百个功能相关的基因,这些基因簇又称为超基因(Super gene),如人类主要组织相容性抗原复合体HLA和免疫球蛋白重链及轻链基因都属于超基因。
超基因可能是由于基因扩增后又经过功能和结构上的轻微改变而产生的,但仍保留了原始基因的结构及功能的完整性。