基因7（中文版）第二章---首次公开！！！

丁香园论坛2015-06-29

2642

版主，能否给我加分？

第二章从基因到基因组

我们可以从多个层次来考虑基因和基因组图谱的绘制工作：
~undefined一张连续的遗传图谱可以根据遗传重组频率来确定突变之间的距离（或是突变发生的位置）。它是通过对显形突变观察来确定的。因为根据遗传图上多点叠加所计算出来的遗传频率会有所偏差，而不能正确的表达基因特性。
~undefined一张连续图谱也可以通过测定基因组DNA之间的重组来构造。这些断点会因为限制性内切酶的作用而产生不同的序列变化。因为这些变异很常见，所以可以通过几乎所有的生物体的所有突变来观察。它和其它所有的图谱有一样的弱点：两点间距离需要通过重组来确定。
~undefined限制性酶切图是通过限制性内切酶将DNA切成片断，然后确定不同断点之间的距离来构造的。它们根据DNA的长度来表达长度，所以它们提供遗传物质的自然图谱。限制性酶切图没有固定的基因识别点。因为它和基因图有关，所以突变必须在限制点上表达它们的作用。基因组上的大变化可以因为它们对基因大小的影响或是限制性片段的数量而被发现。点突变的发现会困难得多。
~undefined如果一个DNA的分离片段被给出来，我们可以确定它们在两点之间的顺序。通过选择一个合适的点，短区域可以被结合到一个整体区域和其附近的顺序上。通过比较一个DNA顺序和该基因代表的蛋白序列，我们可以描绘出编码多肽链的区域代码，而且通过在两个方向上延长顺序，邻近基因的距离可被确定。
通过比较普遍基因与一个突变等位基因的顺序，我们可确定突变的本质和其发生的位点。这决定了基因图谱（建立在突变位点的基础上）和物理图谱（建立在均匀组成的DNA序列基础上）的关系。最终基因组的图谱区域可以通过DNA碱基对来表达，而不是通常遗传学的相对图谱单元。根据DNA顺序确定的图谱很高程度上给出了基因型。
相同的技术被在不同层次上用来对基因和基因组进行鉴定和排序。在其他情况下，这种方法被用来测定DNA的连续片段以便获得一张连续的遗传图谱。其中最重要的特征是片段与片段之间的表达是相关联的，我们可以由此确定片段是否丢失。这种方法被同时用在对限制性片段的排序和片段的连接上。
由于基因可以被蛋白产物的性质或有时是仅仅一些DNA顺序而确定下来，所以我们不再依据所提供的原始材料来构建基因组图谱。当然，突变对于确定基因产物的功能来说是在关重要的。一种补偿特定基因自然突变的缺失的方法可以那些允许动物基因组中的基因被扰乱、允许零突变的顺序被观察到的方法来提供。随着技术而来的是新基因的介绍，突变基因而在体外构建并在体内探测到，这个增加了确定基因的能力。我们将在第３章讨论这些技术的应用来延伸、替代传统的遗传学。

限制性图谱是通过将DNA切割为特定片段而构建的
一旦一个DNA片段被分离开，一个关键性步骤en route以获得它的顺序而在分子水平上构建核酸图谱。任何DNA分子的物理图谱可以通过在特定的位点断裂而得到，这些位点的距离可被精确测量到。为了确定较短顺序的DNA双链作为断裂的目标，特定的裂点可以通过限制性内切而获得来实现。
每一种限制性酶对应一个特定的双链目标DNA，该DNA通常且有4-6个碱基对。该酶可以在具有它所对应的核苷酸顺序的DNA分子中进行切除。不同的限制性酶对应不同顺序，它们的活性有很大一部分都已经被确定下来（从多种细菌中获得）。（有关它们自然寄居环境的背景将在第１６章讨论）。
用来确认DNA切除位点的图叫限制性图谱。该图表示出特点是限制酶所对应核苷酸的线性顺序。图谱中的距离由碱基对来决定。短距离表示bp，长距离表示为kp，对应103个碱基对。在染色体水平上，可用Mb表示(1Mb=106bp)。
当一DNA分子被限制性酶所切除，它将断裂为特定片断，这些片断可用电泳技术来分离。切下来的DNA片断首先放在琼脂糖或聚丙烯胺凝胶上，当通上电流后，每一个片段的移动速率与分子量的对数成反比。
这个运动产生了一系列的带，每一条带对应一个特定大小的片段，且该片断沿着凝胶逐渐减小。每一个片段的长度可从凝胶上测出来，我们可用另一块同样大小的凝胶进行平行比较操作。这个操作包含一些已知大小的标准片段（称作标记），这个标记的移动决定了凝胶上片段长度和移动距离的关系。
图2.1（DNA可以被限制性内切酶切成片段然后通过凝胶电泳分离出来）显示该技术的一个例子。１个5000bp长的DNA分子由两个限制性酶A和B切成片段，而后DNA进行电泳。每一条片段的大小由已知大小的片段的位置来决定，如中部所示。这证明了酶A将DNA切成4段(长为2100， 1400， 1000， 500pb)，酶B切为3段(长为2500， 1300， 1200bp)。那么是否能根据这些数据制作一个图谱，来显示DNA分子的特定的断裂点呢？
这两种酶的切割形式可用几种方式进行相关性研究。图2.2显示double digestion分析法的原则。在该技术中，DNA可被两种酶切也可被两者之一切除。用这种技术的最有决定意义的方式是在消化液中提取每一条由酶A或B切除的片段，然后再用其它酶切除。产品同样可用电泳来分析。
我们可用这些数据构建一个原始分子量为5000bp的DNA的图谱，如Figure 2.3所示。
图2.2中每个凝胶上都根据图6.1分离出的片段作上了标记。A-2100表示用酶A所切除的DNA分子的2100bp片段。当该片段被酶B切除，它又断裂为1900bp、200bp。所以酶B的切点与其中酶A最近一端的切点相距200bp，而与另一端的酶A切点相距1900bp。如图2.3上部所示。
当我们用酶A切B-2500片段时，我们可以看到一个相关的图型，它被切成 1900bp和600bp。所以1900bp片段由两个切点而产生，A一端，B另一端。它可以从这两个单切点片段中释放出来（A-2100或B-2500），只要含有它即可。所以这些单切点片段在含有1900bp区域上进行覆盖。这种覆盖情况在图2.3第二个图片上进行描述，它将我们的图片延伸到右侧增加了一个酶B的切点。
这张图证明了一个限制性图谱制作的重要原则。当我们考虑从这些小的片段中构建一个更大的片段时，我们可以依赖长度可加性（在实验允许的范围内）。这样A-2100片段包含了200bp和1900bp片段，然而B-2500片段包含了1900bp和600bP片段。
图2。2通过两组间对比可以确定酶的作用点
当所有的片段以这种方式进行分析时，我们看到用B切原始的Ａ片段所产生的任何一个片段在用A切原始B片段的双消化液中的其中之一中被发现。整个情况可以在双消化液（凝胶在图2.2的右边）中看到，在消化液中每一个二切点片段只出现一次，这些数据允许就这些切点置于清晰的图谱中。
限制性图谱的关键是如何利用覆盖片段。因为A-2100，B-2500片段的覆盖区处于1900bp的中部，我们可以将1900bp左边的A切点200bp与右边的B切点600bp联系起来。同样，我们可以更深入地将图谱中的两端进行延长。左边的200bp片段也可由酶A切B-1200而产生，所以下一个B切点一定位于左边1000bp处。右边600bp片段也可由酶B切A-1400产生，所以下一个A点一定传于右边800bp处。这样产生了图2.3的第三张图。
现在我们可以通过确定两端片段的来源来成图谱。在左边1000bp片段由B-1200或没有被酶B切的A-1000而产生。这样A-1000位于图谱的底端；换句话说，从完整的5000bp区域左端开始，距第一个A切点有1000bP，距第一个B切点有1200bp(这就是为何B切点没有显示在上图左端，尽管我们在分析中把末端作为B的切点)。
在图谱的右端，800bp双切片段是由酶A切除B-1300而产生的，所以我们必须在右端加一个 500bp片段。这是终端片段，正如在单切 A消化液中所见的A-500一样。这样我们完成了图2.3底部的图谱。
图2.3 限制性酶切图可以通过将不同片断还原到原图来建立

另一有用技术是末端标记，而DNA分子的末端用放射性P元素进行标记（一定的酶可将P单元特定地加到5`或3`端）。这允许了包含末端的片段由于放射标记而被识别。这样在片段A准备中， A-1000， A-500将迅速置于图谱两端，片段B-1200， B-1300将被认为是末端片段。
我们现在可以制作一个完整的5000bp外区域图谱。这在图2.5中又显示了它更正式的形式。这张图显示了特异的限制性酶切DNA的位置，这些切点的距离由碱基对进行测量。这样DNA被分割成一系列由限制性酶决定的确定长度的区域，这些长度区域由限制酶切割。真正构建限制性图谱时需要许多酶，所以解决由各种各样酶产生的十分复杂的覆盖片段是十分必要的。许多更进一步的技术就用来构建图谱。
图2。4当限制性酶切片段通过其尾部标志确定时，每个片断从断裂点到尾部都有确定的距离连续的片段就通过测定相临的连续点来扩增。

图2.5限制性酶切图是DNA上的一系列线性有序点。
图上的点是通过酶A或酶B对DNA的切割来确定的。

基因多态性的体现
最早的孟得尔对基因组的分类是在等位基因的野生型和变异型之间的。随后我们发现了更多等位基因的存在，每种都会有不同的显形表达（在有些情况下你并不能恰当指出哪一种是野生型）。
基因图谱的构建是建立在基因组成数量变化存在的基础之上的。多于一种变异体的共存被称为基因多样性。作为稳定组成的复等位基因的任何位点是通过多态性定义的。更精确地说，一个等位基因如果它在成分中出现的频率＞１％，即被定义为多态性。
根据表型，多态性包括一个野生型等位基因和一系列突变等位基因。考虑一下突变等位基因多形性的基础。它们拥有一种突变使得基因产品即蛋白质的功能被转化，这样产生了类型的变化。如果我们比较一下限制性图谱或是相关等位基因和DNA顺序，它们也将是多形性的，即每一张图谱或顺序将不同于其它。
尽管野生型从表形上讲是不明显的，它自己可能是多形性的。野生型等位基因的多种观点可能由那些并不影响他们功能的不同顺序而被区分出来，因此在表形变异体上不能检测出来。从基因型的角度考虑，一个种群可能有扩展的多形性。许多不同顺序变异体可能在一给定地方存在，它们中一些因为它们影响了表现形而明显，但其它即由于它们无可视效果而被隐藏。
我们因此看到在一个地方，那可能有一个变化的连续体，包括那些影响DNA顺序但却不影响蛋白质顺序的，那些影响蛋白质顺序却不影响其功能的，那些创造具有不同活性的蛋白质的，那些创造无功能的突变蛋白质的。

图2.6 点突变对限制性酶切点的影响是通过限制性酶切片段的变化来发现的。我们可以通过比较不同个体的限制性图谱来探测基因组的一些变形。这个尺度是用一个限制性酶的断裂而产生的片段变化而构成的，图2.6显示了当一个目标切点存在于一个个体的基因组而与其它相分离，则在第一个基因组中的额外断裂将产生两个片段，与第二个基因组中的单片段相对应。

因为限制性图谱独立于基因功能之外，这个水平上的变形可被探测出来不管这个顺序变化是否影响表形。可能仅仅一小部分在基因组上的限制性位点的多态性直接影响了表型，大部分并不影响蛋白质产品（例如，因为它们位于基因之间）。
图2.7 限制性酶切点的多态性现象会跟据孟德尔定律来传递。四组等位基因上的酶切记号在所有可能的情况中被成双找到且不相互干扰。
两个个体之间限制性图谱的不同被称为限制性片段长度多形性。它可以被用作一个基因标记，正如其它标记一样。我们直接获取基因型，代替了检测表形一些特点，正如限制图谱所示。图2.7显示了一个包含了三代的限制多形性家谱。它在DNA片段标记的水平上，展示了孟德尔分离定律。
图2.8 限制性点的多态性可以作为基因记号利用其表现型（比如说眼睛的眼色）来测量重组频率
重组频率可以在一个限制性标记和一个可视表形标记间被测出来，如图2.8所示。这样一个基因型图谱可包含基因形和表型标记。
因为限制性标记并不束缚于那些影响表型的基因组变化，它们在分子水平上提供了能确定基因型位点的强有力的技术。一个典型的问题集中于表形上已知效果的一个突变，在这时相关的基因位点可能置于基因图谱上，但对此我们没有任何关于对应基因或蛋白的知识。许多具损伤或致命性的人类疾病属于这一类，例如胆囊纤维样病变显示了孟德尔的遗传性，但突变功能的分子机制直到它可以作为标识该基因的结果，而准确分辩出时才知道。
如果限制性多形性在基因组中无规律出现，其中一些就出现在特异的目标基因旁。我们可以通过它们与突变表型的紧密联系的本质，来辩别出这样的限制性标记。如果我们比较受DNA疾病困扰的病人和正常人的DNA图谱，我们可以发现一个特殊的限制性切点总是存在（或分离缺失）于病人。
一个假想的例子显示于图2.9。这个位置对应于寻找限制性标记与表型的100％的联锁。它使暗含限制性标记与突变基因靠得如此近，以致于它通过重组手段从没被分离开过。
图2.9 如果一个限制性酶切点与某表现型相关联，那么这个点就应该被定位在相关基因处。一些变化可能会使某些连接异于正常人而与致病基因相似。
这样一个标记的分辨有两个重要结果：
它可以提供一个探测疾病的诊断进程。一大类疾病在遗传上能很好的辩认，但在分子角度上却不易分析。如果一个限制性标记与表形可靠地连接，则它的存在可用来诊断疾病，不管是在出生前还是其后。
这将导致基因的分离，限制性标记一定在基因图谱上，位于基因相对近的地方，如果这两个地方很少或根本没有重组。尽管“相当近”在基因角度上可能成为根据DNA碱基对而定的相当的距离，然而它提供了一个我们可能沿着DNA链前进到基因本身的起点。
当我们寻找致病基因的时候，除非粗略的缺失或其它显著变化确定了病人中的致病基因，确定位点是非常困难的。任何并未由疾病的遗传标记的重组而得到分离的基因都是位点的候选者。这意味着在这个基因上的RFLP必然出现在该病的任何情况中，可能在一个DNA区域上有许多这样的基因被确认与这种病紧密联系。尽管基因图谱不能证明任何特殊的基因对该病负责，但它可能排除了目标基因，带有一种疾病的一个病人显示出了在一个目标位点与RFLP重组的现象足以排除那个位点。
相反地是证明一个对某种疾病负责的基因的缺陷的存在的困难。显示每一个带病病人在基因中有突变是很有必要的。在一些情况下，与一种疾病相关的突变不仅影响一种基因，而是更大的缺乏，与疾病相关的基因可能不很明显。唯一能牵连到基因的另人满意的证据是证明它能在各种情况下致病，而且在某些情况下，它是唯一的致病基因。这需要内部突变的确认，即采取点突变或小的缺失的形式。
人类基因组的庞大决定探测一个特别的限制性多形性远不只是一个繁琐的任务。在确认需要检测的基因组相关部分时存在有实际的困难，与传统的基因标记相比，我们需要一个能够覆盖所有基因组的限制性标记的电池。用这样一个方便的电池，去浏览一个能与已知标记相联系的新的标记（表型或基因型）已成为可能。
RFLPs在人类基因组中出现的如此频繁以至于它在制作基因图谱时非常有用。如果将任何两个个体染色体等位基因顺序进行比较，个体碱基对的出现不同的频率>1每1000bp。那些影响限制性位点的碱基变换可以作为RFLPs被探测出来。
一旦一个RFLP被置于一个连接集中，它将置于遗传图谱上，而且距其侧面标记的图谱距离也被确定下来。有关人和老鼠图谱RFLPs的努力引导到两类基因组连接图谱的构造。人类图谱包含>5000种标记，并被1.6cm的平均距离而分离开来，若鼠图谱则包含>7000种标记，其平均距离为~0.2cm。任何未知点可以为这些位点的连接而检测出来，且这些位点能通过这种方式很快置于图谱之上。
一些有趣的特点出现于人类的RFLP图。重组速率在女性与男性中是不同的。典型染色体在女性中其长度是男性的1.9倍，即在卵子中的重组几率几乎二倍于在精子中。这样，男性中每个图谱单元有约1.2×107 bp ，但在女性中（见表6.1）约 7×106bp每个图谱单元。每条染色体（在图谱单元中）的基因长度与其物理长度（我们先前在图3.8讨论过 D.melanogaster染色体的巨大数量与物质关系）成比例。这种关系并不完全一致，然后，重组几率的地方性不同发生在每一种性别当中。在染色体末端有一种朝向多形性和重组率的增长的趋势。

RFLPs的存在提供了用来建立明确本子代关系技术的基础。在血统受到怀疑的情况下，父母与孩子间合适的染色体区域的比较允许这个关系的绝对指定。用来确定个体的DNA限制性分析的应用被称为DNA指纹分析法。我们将在第4章详细讨论人类基因组中用来制图的变化多端的“微小卫星”顺序。
真核基因常是间断的
真核基因被分子图谱描绘出来以后，我们估计它们可能将会和原核基因有相同的结构。我们因此推测基因是由一段和蛋白质共线性的DNA组成的。但是由DNA 和信使RNA之间结构的比较显示它们存在着许多差异，信使RNA往往包含一段核苷酸序列，按照基因编码规则，这段序列与蛋白生成物有关，但是这些基因包括了编码区的另外的序列，这些序列代表了蛋白。但基因包括了位于编码区的多余序列，它们可以中断表达蛋白的序列。在真菌中这种差异是常见的，但在细菌中就罕见了。
组成间断基因的DNA序列分为两类，如图2.10：
1. 外显子: 代表着信使RNA。精确地说。基因都是以外显子来开始和终止的，与此相对应的是RNA的5’端和3’端;
2. 内含子则是在当初级转录产物被送到成熟RNA加工时插入的可移动序列。
Figure2.10间断基因通过前驱RNA被表达。当外显子被拼接到一起的时候，内含子移开。
基因表达需要一个新的步骤，这个步骤在原核生物中是不发生的。 DNA代表了基因组，但RNA是一个前体，它不能被用来制造蛋白，首先，内含子必须从RNA中转移出来，移到仅由外显子组成的信使RNA上，这个过程叫RNA的拼接。它包括一个初级转录产物上的精确缺失，在另外一侧的RNA末端形成的一个共价完整分子。我们将在第22章讨论拼接的机理和调控。
结构基因包含了在基因组上点之间的区域，这些点对应RNA上的5’端和3’端终止碱基。我们知道转录始于mRNA的5’端，但也有可能它扩展超过了5’末端，从而产生DNA切割。（见22章）基因的定义可以被扩展到在基因两端的调控区域，这些区域是用来启动和（有时）终止基因表达的。

这会让我们对基因的认识有什么改变呢？随着拼结，外显子被连接成在 DNA中它们所存在的那种序列，这样在单个的外显子和相应的部分蛋白链上基因和蛋白的共线性被获得，基因中突变顺序和蛋白质中氨基酸被代替顺序是一致的。但是基因中的距离与蛋白中的距离并不完全相符。基因的计算由起始RNA（前体）而非信使RNA所决定。
所有的外显子都在相同的RNA分子上，而且它们的拼结仅仅是分子内的反应。通常没有被不同RNA分子所携带的外显子，因此这种机制排除了任何代表不同等位基因拼结的序列。因此突变在一个不与其它互补的基因的外显子上，这样它们被定义为互补组。
内含子突变会造成什么后果呢？既然内含子并不是信使RNA的一部分，它们中的突变并不影响蛋白结构，然而，它们能阻止信使RNA的生成——例如，通过抑制外显子的拼结，这种突变仅仅作用在携带它的等位基因上，因此与另外等位基因上的突变相互补，组成了作为外显子的等同互补组的一部分。
真核基因并不需要被间断。一些相应的蛋白产物为原核基因，在酵母中，大部分基因实际上是不被间断的，在更高级的真核生物中，许多基因被间断，而且内含子往往比外显子要长，所产生的基因比编码区也要大。
断裂基因的结构是保守的
当一个基因是连续的时，DNA的限制的图谱和mRNA图谱是相对应的（通过标记一个cDNA可逆转录获得）。
当基因含有内含子时，每个基因末端的图谱对应着一个信息序列末端的图谱，但是在基因内部，图普是多样化的，因为存在着一些“额外”序列，而信息序列中不存在这些“额外”序列，每一个这样的区域对应于一个内含子。图2.11就是一个例子。它对比了β－球蛋白基因和mDNA的限制图谱。这里有两个内含子，每个内含子包含一段cDNA没有的限制位点。
在cDNA和基因中外显子中限制性位点的模式是一样的。
Figure2.11老鼠β－globin cDNA 与遗传DNA限制性图谱的比较显示基因拥有在cDNA没有的两个附加区域，其他区域能在cDNA和基因之间被精确的校正
最终，通过核基因组与cDNA克隆的比较，就可以精确地定位出内含子序列，达到序列水平上的分辨率是保证我们能够确定每个基因片段都被辨识的基础，短的内含子或外显子若恰好不含有限制性位点，常在限制酶图谱中丢失（若一个内含子存在于一个长的外显子之中，则易被丢失，若一个外显子长度小于50bp,也很难和cDNA探针杂交从而被丢失），但一个序列的对比是清晰的，图2.12显示一个存在于编码区内的内含子常会破坏阅读框架的完整性，但在cDNA中，阅读框架是完整的。
Figure2.12内含子是基因中一段序列，但在mRNA没有（这里用cDNA序列表示出来）。阅读框用交替出现的开放或封闭阻点来显示，注意全部三个可能的阅读框被内含子终止密码阻碍。
还没有一个特殊的规律来描述变化多样的真核基因结构，有些基因是连续的，所以它的基因组序列和mRNA是共线性的，大多数高等真核生物的基因是不连续的，但内含子的大小和数量变化很大。一般来说，核基因的内含子在所有阅读框架中都终止密码子，而且它们都不具有编码蛋白的功能。
各种类型的基因都可能是不连续的：编码蛋白的核基因，编码rRNA的核仁基因，以及编码tRNA的基因等，断裂现象也存在于一些低等真核生物的线粒体，叶绿体基因中，断裂基因并不存在于每一种真核生物中，同时它也可以存在于细菌和噬菌体中，尽管它在原核生物基因组中很少出现。
在编码mRNA的基因中，两端的外显子常包含一些非翻译的先导序列和尾部结构，中间的外显子才编码蛋白，而编码rRNA或tRNA的断裂基因，外显子没有编码蛋白的功能。
一些断裂基因只有一个或很少的内含子。球蛋白是被广泛研究的一个例子。（见第四章）存在两种普遍的球蛋白基因α、β，它们有共同的结构类型，哺乳动物球蛋白基因的结构也有着一致性。（见2.13）
在所有已知活性的球蛋白基因中，断裂现象发生在同源性位点上，包括哺乳动物、鸟类和青蛙，第一个内含子总是相当短，第二个内含子又相当长，但绝对长度是有变化的，常常由于第二个内含子的变化导致整个球蛋白基因长度的变化，在老鼠中，α-球蛋白基因的第二个内含子只有150bp，所以整个基因长850bp，而β-球白的主要基因长1382bp。可见，基因长度的变化比mRNA长度变化范围大得多（α－球蛋白mRNA长585bp，而β－球蛋白mRNA长620bp）
DHFR（二氢叶酸还原酶）有一个较大的基因（见图2.14），由6个外显子组成，相对应mRNA长度为2000bp，但是它的DNA序列却十分长，这是由于它的内含子非常长的缘故，在三种哺乳动物中，外显子基本保持一样，内含子的相对位置也不改变，但长度变化却非常大，这就导致了基因长度范围为25~31bp。

Figure2.14哺乳动物DHFR基因有相同的亲缘组织：很短的外显子和很长的内含子，但对应内含子长度变化很大
球蛋白和DHFR基因说明了一个普遍现象：那些在通化过程中相关的基因有着相类似的结构，至少包括了一些含子位置的保守性，基因长度的变化主要取决于内含子长度的变化。
外显子序列是保守的而内含子却是变化的若问一个结构基因是否是非重复的，答案很模糊，因为常常某段基因从总体上说是特殊的，但其内部的外显子却与别的基因的外显子相关联。作为一种规律，当两个基因有联系，它们外显子之间的关系比内显子之间的关系要密切。在极端情况下，两个基因的外显子可能为相同的蛋白序列编码，但内显子可能不一样。这表明这两个基因来源于共同祖先基因的复制。然后拷贝之间的不同之处被计算出来，但为了编码蛋白功能的需要，在外显子中它们是被限制的。
我们后来看到当我们考虑基因的进化时，外显子被认为是基本的构成材料。一个基因可能有一些和另一个基因的外显子有关系的外显子，但其他的外显子可能没有关系。通常内显子在这种情况下完全没有关系。这些基因起源于个别外显子的复制和转运。
两个基因的亲缘关系可以用点阵绘图的方法来描述，图2.15中每一个点都表明在两个基因中存在相同位点，如果两个基因完全相同，那么所有点将组成一条倾斜角45度的直线。这条直线会因为两序列缺乏相同性而断断续续，也可能因为相对于另一个序列有缺失或插入而水平或垂直移位。

Figure2.15鼠αmaj和αmin球蛋白基因序列在密码区有紧密的亲缘关系，但在侧面区域和大内含子则不同。数据由Philip Leder提供。
当老鼠的两个β－球蛋白基因相比时，这条直线延伸穿过了三个外显子和一个小的内含子，但在侧翼序列和大的内含子部分却消失了，由此可以看出，编码序列是相关的，且这种亲缘关系可以保留在外显子一内含子边界处，但在较长的内含子和基因端部序列，不存在这种相关性。
两个外显子的差异程度直接与两个蛋白差异程度相关联。外显子的差异主要由于碱基替代造成的，在被翻译的序列内，外显子由于受到编码AA这一功能的限制而很少改变序列，且许多变化并未影响密码子的含义，因为这些发生变化的碱基常是密码子的第三个碱基，在非翻译序列（如5’端和3’端序列）中，发生变化的可能性大了许多。
而在内含子中，序列变化多是由于碱基插入或缺失或替换造成的。内含子演化的速度比外显子快得多，不同物种相同基因相比较，有时发现外显子是同源的，而内含子却有很大差异。
在内含子、外显子中突变速率是相同的，但外显子通过不利因素的选择，有效地修复了这些突变，而内含子，由于不编码功能蛋白，可以自由地发生突变，通过不断积累最终导致巨大差别，这种差异也说明了内含子不具备序列特异性这个特征，人们一直未弄清它的存在对基因功能是否是必须的。
利用外显子的保守性分离基因用来确定基因的一些主要手段是基于外显子保守性和内含子变化性之间的差别。若一个基因它的功能在一定范围物种中具有保守性，这个序列编码的蛋白一定具以下特征：1、它一定有一个可译框（可读框）；2、在别的物种中它有相关序列。这些特征可以被用来分离基因。
假定我们通过基因数据已经知道一段特定序列位于一个给定染色体上的某个区域，如果我们缺乏对此基因产物的了解，我们如何判定基因在这个可能（举例）大于100kb的区域中的具体位置呢？
我们以一个大致位于这个区域附近的克隆为起始，然后我们“走”过经基因库确定重叠克隆的区域，如图2.16所示。来自第一克隆末端的片断是用来分离沿染色体延展很长的克隆。这些回旋的克隆是被用来分离另一种的。在一个循环中，一个新的基因被选择，原因是它的限制图谱的一端和以前克隆的一端同时生成，但在另一端有新材料。它有可能走过上百kb，典型速度是每月>100kb。染色体移动让邻近的一些大的染色体区域在克隆库中再现。

Figure2.16染色体移走通过在重复遗传克隆之间成功的杂交实现。
当然一旦染色体序列获得之后，确定一个特殊基因就变得十分容易了。而这通过测定一个邻近的，通过移走而得到的连续基因序列或通过连接用另外方式得到的基因（诸如直接比较序列）可以做到。手中有了一个序列，通过和RNA或蛋白质产物比较可以确定一个基因，或者通过序列上的一个突变确定一个基因。
已经证明存在一种好的方法，它可以有效制定对一些药物很重要的基因。它可以从具有上述特征的保守序列中筛选出相对较小的片段。首先我们要证明这个片段可以和别的物种的基因杂交，然后我们要验证它具可译框。
第一条可以用动物印迹法（zoo blot）来证明，首先我们从上述区域克隆出一小段序列作为探针（放射性标记的）。利用Southern blotting的方法和别的物种的相关DNA杂交，这个探针常是人的DNA，若发现在许多物种中都存在与之杂交的片段，我们可以认为它是基因的外显子。
这类确定的外显子经测序后，若证明它们含可译框，就可被用来分离这个区域周围的基因。若这些都显示出是外显子的一部分，则可以继续鉴定整个基因，然后分离相应的cDNA或mRNA，最后鉴定蛋白。
这个方法对于那些通过遗传学已证明存在的，但其性质还未知的基因是很有效的，图2.17显示了动物印迹法应用于这个范围的调查。例如人Y染色体上的zfy基因，它可以和哺
乳动物或其它一些物种的性染色体杂交，且包含一个可译框，于是证明它是一个保守基因。

当目标基因由于大的内含子而被分散时，这种方法更显重要，定点在杜兴氏营养不良（DMD）中被证实。DMD是一种肌肉退化性混乱的疾病，它和X染色体连锁，在男婴中发病率为1/3500。图2.18概括了识别基因过程的步骤。
连锁分析将DMD基因座位定于X染色体短臂的第21条带上，病人的这条染色体带常发生重排，将与DNA连锁的探针与正常人及病人DNA进行杂交，杂交结果表明病人DNA的此区的确存在重排和缺失。

染色体行走（chromosomal walk）被用来构建探针（大约100kb）两侧区域的限制性酶切图谱。从一系列病人DNA的分析来看，这个可向任意一端延伸的区域存在严重缺失，这就表明了缺失的片段对于基因的功能十分重要，同时指出这个功能性基因完全或全部存在于这个区域中，所以完全存在于这个区域的缺少是最为显著的。

在确定这段基因在此范围之后，我们需要确认外显子和内含子。通过动物印迹法，可以证明这个片段可与老鼠的X染色体及其他哺乳动物的DNA杂交。如图2.19所描述，然后又仔细测定它的可读框以及内含子一外显子交界处的特异性序列。附合这一系列标准的片段可以作为一个探针，用于检查从肌肉细胞mRNA而来的cDNA的同源序列。
和cDNA相对应的基因证实存在一个异常大的mRNA（14kb）。和基因组杂交表明mRNA中至少有60个外显子，而它们覆盖了DNA至少 2000kb。这就证明了DMD基因是最长的基因，事实上，它比已知的所有基因长10倍左右。
有一被基因编码的蛋白（约500KD）和为肌营养不良蛋白，它是肌肉的组成之一，但存在的量非常少，所有DMD病人的这个基因座位和蛋白都缺失。

另外一种快速确定一段序列外显子的方法叫外显子截留法（exon trapping）图2.20说明首先要有一个包含强起启动子的载体（vector），且只含一个内含子及被它分隔的2个外显子，当这个载体被转染到细胞中后，它的转录产生了大量包含2个外显子的RNA，在其内含子中存在一个限制性酶切位点，可以在此插入感兴趣的外源基因片段。如果这个外源基因片段不含外显子，则它的存在不会影响RNA的拼接方式，这样，成熟的RNA和载体亲本RNA有着相同的序列，但若这个外源基因包含一个外显子且两端含有部分内含子，则剪接时切割位点可在于这个外来外显子的任意一侧，且这个外源外显子序列就被插入到了载体两个外显子中间。可以通过将胞质RNA反转录成cDNA及PCR技术将这个外源外显子扩增。由于动物细胞中内含子很大，而外显子很小，所以在DNA的随机片段中有很大的可能在所需外显子两侧含有部分内含子，这样外显子就被截留了。

基因的大小的大范围的分布

断裂基因的存在为基因远远大于编码蛋白的单位这一现象提供了证据。基因增大，内含子将会增加更大，同时外显子仍保持很小。

图2.21表明用于编码蛋白的外显子相对于整个基因来讲总是很小，主要都是编码小于100个氨基酸序列的基因（在脊椎动物中，常是小于50个AA），而且与下述观点很符合，即编码小的，单个结构域蛋白的基因的变化是很小的。不同生物体，不同外显子的大小是没有很大差别，有时在脊椎动物中会缺少一些较大的外显子（在真菌和果蝇中存在编码大于300AA的基因，这是外显子的最大长度。这是一个连续基因，即基因只由一个外显子组成）。在编码不翻译的5’和3’端区域时，常有一些较大的外显子。

图2.22表明内含子一般都比外显子长，它们的长度从与外显子相类似（小于200bp）到十几个kb不等，有的极端情况，会有50-60kb。

图2.23显示了在酵母菌，昆虫类，哺乳动物这些综合有机体内的基因。在s.cerevsiae中，大部分基因（>96%）是连续的，那些基因的外显子紧密连接在一起，几乎没有一种 s.cerevsiae的基因含4以上内含子。

图2.23酵母菌种的大多数基因是连续的。但昆虫类哺乳类中的大多数是间段的。（连续基因只有一个外显子，且统一位于左支柱。）

在昆虫和哺乳动物中，情况恰好相反，只有很小部分的基因是连续的（哺乳动物中有6%）.昆虫基因含有很少的外显子，一般少于10个，哺乳动物的基因断裂成许多片段，有些只会有几十个外显子。
如果对比一下各种生物全部基因组，我们可以由图2.24看见在酵母和高等真核生物间存在着巨大的差别，平均每个酵母的基因是1.4kb,很少有超过5kb的，但恰恰相反的是，在真核生物基因组中，很少有短于2kb的，一般都是在5kb到100kb之间。

从大量的连续基因到大量断裂基因的过渡存在于低等真核生物，在真菌中（除了酵母）大部基因是断裂的，但它们只有相当少的内含子，而且基因很短（<5kb）。到长基因的转化就在高等真核生物了，在昆虫中基因变得相当长了，可能当基因增加到某一程度时，基因组复杂性和生物体复杂性之间的关系也就消失了（图3.1）。
基因过长主要是由内含子过长造成的，并非由于过大的产物。基因组大小和mRNA大小之间没有必然的联系。同样，基因大小和外显子数目之间也没有必然关系，因此基因大小主要由其内部的内含子大小决定的。哺乳动物、昆虫和鸟类，基因平均长度大约是mRNA的5倍。
一些DNA序列编码不仅仅是一个蛋白

许多基因组成了一种仅仅编码一个蛋白的DNA序列（虽然这种基因可能在任一端包含有无编码区和在编码区的内含子）。然而，一个DNA序列并不具有代表蛋白的唯一功能，因为一个单个的DNA序列编码多于一个蛋白。
重叠基因发生在相对简单的情况下，这种情况下一个基因是另一个基因的一部分。第一半（或第二半）基因被独自用来判别整个的另一半基因的蛋白。这种关系在图2.25 中将被解释，它并不说明任何特殊的基因问题（虽然要求对蛋白的合成进行调节）。虽然在蛋白制造产生部分长度和全长的形式时，部分分裂会产生，但最终的结果是相同的。

图2.25通过不同位点的起始表达使一个单独基因可以产生两个蛋白。
当相同序列的DNA被两个非同源蛋白被分享时，两个基因重叠为一个更细小的形式，当相同的DNA序列被转移到多于一个的先导链时，这种情况就更为增加了。在细胞的基因中，一个 DNA序列往往被１／３的潜在的先导链所翻译，但是在一些病毒和线粒体基因中，在两种相邻的基因间，有一个重叠被不同的先导链所翻译，这种情况在图2.26中被解释，重叠之间的距离通常相对较小，以至许多序列代表了包含独有编码功能的蛋白。

图2.26通过识别不同框架中的DNA两个基因可以公用同样的序列。
在这些基因中，可选择的基因表达模式创造了在途径中用来连接外显子的按钮开关。这样一个特别的外显子将与可转换的外显子中的一个相连接，来形成一个信使RNA。这种可转换的形式产生蛋白，这种蛋白一部分是普通的，另一部分则不同。在图2.27中为一个例子，它显示了当通过一条途径来表达时一些范围起外显子的作用，但在另外途径中则起内含子的作用。

图2.27显示了基因的一种单独转录方式，但它可用两种方式中任一种拼接。在第一种途径中，两个内含子被排除，三个外显子结合在一起。在第二种途径中，第二个外显子没有被识别。结果，一个单独的大内含子被排除。这个内含子由内含子1+外显子2+内含子2构成。从作用上讲，这种途径中外显子2被作为单独内含子的一部分来对待。这个途径所制造的两个蛋白的末端都是相同的，但其中一个在中间有附加的一个序列。这样DNA就编码多于一个的蛋白。
图2.27选择性基因拼接应用同样的pre-mDNA来产生具有不同结合方式外显子的mRNAs.

有时两种途径同时操纵，RNA中某部分被用这两种方法来拼结；有时这两种途径是可转换的，以至于它们在不同条件下得以表达，一个在一个细胞中型和一个在另一个细胞中型。
在某些情况下，上述改变不会影响最终蛋白的氨基酸顺序，例如，改变5’端或3’端非翻译区，但最终蛋白仍只有一种。其他情况下，一个外显子被另一个所取代的情形如图2.28描述。

在这些例子中，两个mRNA产生蛋白有着广泛的重叠序列，但在绞接替换的区域是不同的，鼠肌肉中的肌钙蛋白T基因中间的3’端，含有5个外显子，但只有4个用来建造重叠的mRNA，3个外显子——w，x，z，在表现型中一样，但一种类型中α外显子绞接在x，z中间，另一种β代替α，α与β组成了肌钙蛋白T基因，所以氨基酸序列的不同目前在于w，z之间，α、β两个中一个用于替换。只有α、β中一个用来组成各自的mRNA，但两个不能同时在一个mRNA中使用。
可见，不同的剪接方式可以使重叠序列DNA产生不同蛋白质。奇怪的是，高等真核生物尽管有数目庞大的基因组，但也存在这种现象。很难说清到底有多少基因具有不同的表达方式，但这样的基因的确是占有一定比例的

断裂基因是如何演化的？
现今断裂基因的起源是什么呢？
 是早期编码蛋白的基因由连续DNA组成，内含子逐渐插入造成吗？
 还是很久以来基因就有断裂结构，一直保持到现在？
真核原核基因现在存在这种结构差别是如何造成的？是真核生物加入了内含子，还是原核生物丢失了内含子？
这种断裂结构是原始基因重构造新的蛋白的遗痕吗？假定早期的细胞有许多分离的编码蛋白的基因，一个演化的方式就是将这些分离的、编码不同肽链的基因重排，连接起来从而构建新的蛋白质。
如果蛋白编码单位必需是由连续的一系列密码子构成，则这种重建需要DNA进行精确的重组，将两个分离的蛋白编码单位首尾相连，组成一个阅读框架。若这种重组不成功，则会威胁到细胞的生存，因为最先的两个分离的蛋白编码单位已不存在了。
如果适当的DNA重组能将2个编码单位合并在同一个转录单元中，就可以在RNA水平上试验不同的剪接模式来将两个蛋白合并到一个多肽中去，若这些重组都不成功，则最初的蛋白编码单位仍保留以待进一步尝试。这种方法基本上允许细胞重组时，在不影响生存能力前提下尝试性地缺失部分RNA。
如果现在的蛋白是由早期分离的蛋白组合演化而来，则蛋白编码单元的增加一定是次序增加的，一段时间增添一个外显子。若这种模式成立，则我们会问在现存的基因结构中，是否仍可以看出每个片段具有的分离的功能呢？换句话说，基因中每个外显子是否在现存的蛋白中编码一个功能结构域呢？
在有些情况，基因的结构和蛋白质之间有着明显的关系，这一点被免疫球蛋白很好地证实了。它的基因的每一个外显子恰好编码蛋白的一个功能结构域。图2.29比较了一个免疫球蛋白及其基因的结构。
一个免疫球蛋白是两条轻链、两条重链组成的四聚体，它有几个显著的结构域，而且存在许多类型的重链，每一种类型由一种基因编码，每类基因都会有一系列外显子相应于蛋白不同的结构域。
在很多例子中，外显子都被证实有特殊的功能。在分泌蛋白中，第1个外显子编码肽链N端的信号序列，这个序列常常参与蛋白的分泌过程，典型的例子就是胰岛素。
有时，在基因演化过程中，外显子会被不断复制，产生一系列重复序列，在鸡胶原中，一个54bp的外显子重复了多次，产生一系列54bp或54bp整数倍的外显子，在不同基因间存在部分相同的序列表明，外显子在不同基间会转移和重组。
排列顺序一般发生在仅有一部分连接的基因之间，可能表示外显子在基因之间迁移或再形成，图2.30主要说明人类LDL（质膜低密度脂蛋白）及其它蛋白的关系。
在LDL（质膜低密度脂蛋白）受体基因的中心部分包含的一系列外显子和EGF（表皮生长因子）前体基因同源，在其N端的外显子序列和血蛋白补充因子C9的基因同源，这说明LDL基因中一系列不同功能的组份组合而具备了新的功能，而这些组份仍存在于别的蛋白中。
外显子和已知蛋白的结构域的关系有时并不清晰，有时是1：1的关系，有时却无法描述。一个可能就是内含子的切割造成了几个相邻外显子的融合，这个看法的难点在于必须假定内含子的切割是精确的，不会影响到编码区的完整性；还一种说法则是其内含子是插入到一个连续部分中而形成的，这一观点的难点在于必须假定内含子本身就携带了可被切割的信息。
外显子相对较小（见图2.20），可能编码子最小的被假定认为是稳定折叠结构的肽链（约20-40个线基）可能蛋白最初是由更小的组份组成的，每个组份并不对应现在所具备的功能，而是几个组份合并后，产生了一个新的功能，外显子的数目随着蛋白长度的增加而增加，这与增加适当组成可以使蛋白获得多重功能这一观点相一致。
这个观点可能解释了蛋白结构的另一个特征：外显子—内含子的交界处常处于蛋白质的表面，因为当新组份加入到一个蛋白中时，连接处，至少是最近新连上的组份一定是存在于表面的。
进化的保守性在球蛋白中完美的体现出来。它的全部基因包含三个外显子（见图2.13）。两个内含子总是存在于相对于编码区很一致的位置上，中心的外显子代表了球蛋白链中结合血红素的结构域。活性蛋白是由2个α球蛋白链和2个β球蛋白链组成的四聚体。
另外两种与球蛋白相关的蛋白的存在更有效证明了上述观点。血红蛋白是动物体内结合氧的单聚体蛋白。它的氨基酸的序列说明它和别的球蛋白有共同的起源，豆血红蛋白是豆类植物中结合氧的蛋白。它和血红蛋白一样是个单聚体，它们和别的血红素结合蛋白有着共同的祖先。球蛋白，血红蛋白和豆血红蛋白共同组成了球蛋白超家族，它们的基因组成是一个基因家族，也是由共同祖先演化而来的。
血红蛋白是由人类基因组中一个基因所编码的，它和球蛋白基因基本上一样，三个外显子结构说明由于基因的演化形成了血红蛋白和球蛋白功能的分离。
豆血红蛋白的基因含有三个内含子，第1个和第3个的位置和球蛋白2个内含子所处位置是相同的。这种惊人的相似说明很多血红素结合蛋白都是通过基因割裂而来的（见图2.31）。
在豆血红蛋白中，中心的内含子将对应于球白中心外显子序列分割成两部分，是球蛋白的中心外显子由古代的两个外显子合并而来，还是在单一的中心外显子中插入了一段内含子而形成了豆血红蛋白呢？
同源基因中结构的差别为演化提供了信息，胰岛素就是一例，哺乳动物和鸟类只有一个基因编码肽岛素（除了有两个基因的啮齿类）。图2.32示这些基因的结构。
对不同物种的相关基因结构比较的主要目的是为了说明它们基因结构的共同性表明它们是由同一基因演化分离而来的，在鸡中。单一的胰岛素基因有2个内含子，老鼠的其中一个基因与之有相同的结构。这个共同性说明胰岛素最初有2个内含子，而老鼠的另一个基因只含有1个内含子，说明它在演化过程中首先进行复制，然后从一个拷贝中精确地移去了一个内含子。
一些基因结构在不同物种中显示了巨大的差异，这些物种在基因演化中一定进行了大量的基因转移和插入。
最典型的例子就是肌动蛋白基因。典型的肌动蛋白基因有一个非翻译的前导区（<100bp），一个编码区（约1200bp），和一个尾巴（约200bp）。多数肌动蛋白基因是不连续的，且内含子存在于编码序列中，除了少数存在于先导序列中。
几乎每个肌动蛋白基因具有不同的断裂模式。考查所有类型的基因，内含子出现在12种不同的位置上，但是每一个单个基因的内含子数目均小于6，有些基因只有一个内含子，甚至有一个基因是连续的，为什么会发生这种情况呢？如果我们假定原始的肌动蛋白基因是不连续的，现在的基因与原始基因相关，但缺失了部分内含子，在不同的进化分支上缺失不同的内含子。可能有些内含子完全消失，这样在原始基因中可能有20个或更多个内含子。另一个观点认为在不同进化分支上，内含子独立地插入到序列中，在不同物种中内含子位置的关系可能最终被用来构建一个基因的进化树。
在rRNA和tRNA，多样性普遍存在。可以找到不同的形式，有或没有内含子。在tRNA中，所有分子有相同的一般结构，但它看上去的似乎不像是通过把两个区域合并在一起演化而来的。因为在结构中不同区域基因参考了相当重要的功能，因此它的演化可能是由内含子不断插入基因造成的。
细胞器基因架起了真核和原核基因之间的桥梁，由于线粒体、叶绿体和细菌的基因组之间存在很大相似性，人们认为细胞器可能由一些进入真核生物细胞质与之内共生的早期细胞演化而来的。同时，一些细胞器基因含有内含子，这一点又和真核生物基因十分相似。
在许多叶绿体基因中，都存在内含子，包括那些和E.coli基因相似的基因。这说明内共生发生在原核生物丢失内含子之前，如果存在一个合适的基因，可能可以推测出内共生现象发生的时期。
线粒体基因组显得有些特别。酵母和哺乳动物线粒体基因编码了完全相同的蛋白，尽管二者结构上存在很大差别。脊椎动物线粒体基因组相当小，由结构十分紧密的连续基因组成，而酵母的线粒体基因组却大得多，而且有一些复杂的断裂基因，这两者哪个起源更早些呢？酵母线粒体基因的内含子具有移动性，它们是独立的序列，可以从一个RNA中剪接掉而插入另一个DNA序列，这说明它们的基因通过内含子的不断插入而演化。（见16章）

典例的范围
基因的概念在过去的几年里显著的进化，名字中包含的问题是基因所特有的我们不能再说基因是持续唯一的某种蛋白遗传基因密码DNA中的顺序，在DNA展开的条件下，是有责任产生一个某种蛋白，通用习惯认为是DNA整个顺序从mRNA第一个位点到最后相符合位点被认为是基因，外显子，内含子等。
当蛋白代表的基因顺序重叠或表现交替时，我们则舍弃通常对于基因的描述，不说“一个基因一个多肽”而应说“一个多肽一个基因”。所以我们认为顺序实际上负责产生一个多肽（包括内含子及外显子）而组成基因，当认出从另一个蛋白中部分相同的顺序也属于它的基因，这将允许用这些描述，则“重叠”或“交替”基因。
现在我们可以较远关系的基因我们可以认为：一个酶的假说。从那时起，那个问题是个普通问题，一旦发现基因代表一个蛋白，这一个典型成为符合每个基因功能是合成一种蛋白的概念。
这种概念存在于分子生物学这一典例中：一个DNA功能顺序是某一蛋白的遗传密码或成为蛋白相邻密码不可缺少的部分。这一典型在我们带出基因蛋白基因的关系有多远？
多分子的有机物发育依赖于利用不同基因产生细胞中不同表现的细胞。基因的表达取决于一个规则的像小瀑布的网状物。基因的第一表达在胚胎发育时导致基因表达包含下一阶段的发展，直到所有组织成熟形成的功能，天然规则的网状分子是不被了解的，我们认为它产物密码包含的基因（可能是蛋白或RNA）。
这样一套相互作用几乎为通过其有机体发育，我们可以问它是否足够充分，一个特别的问题涉及位置信息所特有的角色，我们知道受精卵的所有部分并不相等。细胞中不同区域发育成不同的组织（更确切地说是巨大分子）。
我们不知道这时特殊区域如何组合在一起，但我们可以推测，在卵上特殊位点的存在导致在细胞中基因安顺序在这些区域不同的表达，从而引起了有机体的发育，一起卵特殊位点上的发育……
这可能提示我们问某些信息对有机体发育的需要是否包含了我们不能直接归因于DNA序列的结构（尽管某些特殊顺序的表达可能需要不变的位点信息），更简单地说，如果我们可以读出整个有机体基因组整个DNA序列的构成，说明它的形成蛋白和规则区域，我们可以通过检测可能的基因表达来造出一个有机体（或一个简单的细胞）？
总结：
基因和基因组可以用限制性图谱来表示其特点，利用切割点的间距代表了核酸，在基因组中存在的序列多态性产生了限制性切点的多态性。限制可用作基因的标志，一个RFLP连锁图谱通常通过分析RFLPs之间的重组来产生。
所有类型的真核细胞的基因组包含被中断的基因，那些被中断基因比例在酵母中较低在低等真核生物中更低，少数基因在高等真核生物中未被中断。
内含子存在于各类基因中，包括那些编码rRNA和tRNA的基因。在所有组织中，基因结构是一样的，外显子在RNA和DNA中的连接顺序也是相同的。内含子一般不具有编码蛋白的功能。通过剪接，内含子被切除，一些基因具有不同剪接方式，一个内含子在另一种情况下可能是外显子。
不同物种同源基因中，内含子的位置是保守的，然而，它的序列是变化的，甚至可能变得没有任何联系，但外显子序列通常是相关联的，利用外显子的保守性可以分离不同物种中的同源基因。
所有类型的真核基因组都含有断裂基因。断裂基因所占的比例在酵母中很低，在低等真核生物中逐渐增大，在高等真核生物中很少有连续基因存在。基因大小主要由内含子长度决定。在高等真核生物中，内含子变得很大，同时基因大小也猛增。在哺乳动物中，基因大小一般是1~200kb，有时会更大。目前已知的最长的是肌营养不良蛋白的基因，约2000kb。
一些基因之间只显示部分外显子的同源性，说明它们在发展过程中不断加入了各自特有的外显子成份，从而表达出不同的蛋白质分子，这些成份在不同蛋白质中参与不同功能。基因的发展是不断增加外显子这一观点表明，在原始生物基因中存在着内含子。一些同源基因之间的关系可以用内含子的不断缺失来解释，在不同的后代分发中，不同的内含子发生缺失。

问题：
断裂基因是如何演化的？
答：在tRNA中，所有分子有相同的一般结构，但它看上去的似乎不像是通过把两个区域合并在一起演化而来的。因为在结构中不同区域基因参考了相当重要的功能，因此它的演化可能是由内含子不断插入基因造成的。

酵母和哺乳动物线粒体基因编码了完全相同的蛋白，尽管二者结构上存在很大差别。脊椎动物线粒体基因组相当小，由结构十分紧密的连续基因组成，而酵母的线粒体基因组却大得多，而且有一些复杂的断裂基因，这两者哪个起源更早些呢？
答：酵母线粒体基因的内含子具有移动性，它们是独立的序列，可以从一个RNA中剪接掉而插入另一个DNA序列，这说明它们的基因通过内含子的不断插入而演化。

外显子截留法的反应机理是什么？
答：首先要有一个包含强起启动子的载体（vector），且只含一个内含子及被它分隔的2个外显子，当这个载体被转染到细胞中后，它的转录产生了大量包含2个外显子的RNA，在其内含子中存在一个限制性酶切位点，可以在此插入感兴趣的外源基因片段。
如果这个外源基因片段不含外显子，则它的存在不会影响RNA的拼接方式，这样，成熟的RNA和载体亲本RNA有着相同的序列。
若这个外源基因包含一个外显子且两端含有部分内含子，则剪接时切割位点可在于这个外来外显子的任意一侧，且这个外源外显子序列就被插入到了载体两个外显子中间。可以通过将胞质RNA反转录成cDNA及PCR技术将这个外源外显子扩增。
由于动物细胞中内含子很大，而外显子很小，所以在DNA的随机片段中有很大的可能在所需外显子两侧含有部分内含子，这样外显子就被截留了。

你能归纳一下真核生物基因组的特点吗?
答：1.基因组中有大量低度,中度,高度重复序列；
2.基因大多是不连续的,由编码的外显子与不编码的内含子镶嵌排列而成；
3.非编码区多于编码区；
4.基因不存在操纵子结构,功能相关基因也大多分散在不同的染色体上,即使空间位置相近也分别转录,转录产物为单顺反子.；
5.真核生物基因组DNA大多与蛋白质一起构成染色质(单位是核小体)。

什么是限制性酶切图谱？有何用处？
答：所谓限制性酶切图谱，就是指一系列限制酶的特异识别序列在DNA链上的出现频率和它们之间的相对位置。不同限制酶其识别特异性序列不同，因而在同一DNA链上出现的频率和位置也各不相同；不同来源的DNA分子，其核苷酸序列不同，也各有自己的特异性内切酶图谱。由此可见限制性内切酶图谱实际上就是指限制性内切核酸酶的特异切点在DNA上的定位，表现出一些部位的线性序列，它是DNA分子结构特性的反应。
分离出一个DNA片段之后，要从分子水平上研究基因的结构，必须绘制基因的限制性内切酶的酶切图谱，以了解各特异性酶的识别序列在基因中的分部位置，然后才能进行核苷酸的序列分析。

关于丁香通

公司信息

个人用户

企业机构

无忧采购轻松科研

提问

扫一扫

实验小助手

扫码领资料

反馈

TOP

打开小程序