疾病基因克隆的策略及主要方法
互联网
申海鹰 周元国(第三军医大学野战外科研究所分子生物学中心,重庆400042)
摘要 疾病基因的分离和克隆 是功能学的研究热点,具体策略的选择取决于疾病背景资料的掌握程度,为能快速、准确地克隆 出目的基因,本文介绍两类常用的基因克隆 策略――定位克隆 策略、功能策略――及其主要方法,如:家系连锁分析、等位基因共占法、人群相关分析法、抑制性消减杂交、差示反转录PCR、差异消减显示法、代表性差异分析法、比较杂交等,并作简要的评价。
关键词 基因;定位;消减杂交
Strategies and methods for cloning pathogenic gene SHEN Hai-ying, ZHOU Yuan-guo. (Center of Molecular Biology, Research Institute of Surgery and Daping Hospital, Third Military Medical University, Chongqing 400042)
Abstract Isolation and cloning of pathogenic gene is a hot spot in functional genome study, while it is the disease background which decides the selection of the strategies. Two strategies, mapping strategy and functional cloning strategy, which can clone the objective gene rapidly and accurately were introduced. Some main methods including family-based linkage analysis, allele sharing method, population association analysis, suppression subtractive hybridization (SSH), differential display reverse-transcription PCR (DD-RT-PCR ), differential subtraction display (DSD), representational difference analysis (RDA), comparative genome hybridization (CEH) were elucidated briefly.
Key words: Gene; Mapping clone; Subtractive hybridization
基因组全序列测定可望提前完成,而以功能鉴定为中心的功能基因组学应运而生,将人类5~10万个基因定位及克隆 是一项庞大而艰巨的任务。自1911年Wilson将色盲基因定位于X染色体起,随着连锁分析方法的发展和体细胞杂交、重组DNA 、分子杂交以及PCR技术的发现和应用,陆续出现了几种改进或全新的遗传学基因定位和克隆 方法。与此同时,另一类以消减杂交为基本原理的代表性差异分析、基因组错配扫描、比较杂交及mRNA 差示等方法的出现和应用,使一些多基因遗传病相关致病基因的筛查和定位面临突破。迄今为止,约有5000个遗传性状被定位,其中400多个为致病基因[1]。根据不同的背景资料,人类基因可采取的思路有四种。
目前人类基因克隆的主要策略有三种:一是反向遗传学定位克隆 策略,它通过RFLP、微卫星DNA 等遗传标记,先获得某一表型基因在染色体上的定位,再在候选区域内选择已知基因,进行致病突变的筛选,并获得cDNA 及全基因;另一类是从蛋白质功能着手的功能克隆 策略,采用以消减杂交为策略的多种分子生物学手段,先通过消减获得特异表达或缺失的基因片段,然后进行染色体定位乃至获得全基因。本文拟就前两种主要策略和各自方法的优缺点作一介绍和分析。此外,尚有介于两者之间的候选克隆 策略,包括定位候选克隆 和功能候选,前者是在将疾病基因以连锁分析和染色体分析基本定位以后,再在候选区域内选择所有已知基因进行致病突变的筛选。后者是根据致病基因的可能功能,检测Genbank中的基因功能区域,将含有接近功能域的基因用于致病的突变检测。
1. 定位(positional cloning)策略
其基本思路是通过连锁分析(linkage analysis)原理进行基因定位。若多态标记与待定基因距离较远,则它们在向子代传递时会发生自由分离,呈“连锁平衡”;反之,则不发生自由分离,而呈现“共分离(co segregation)”现象,即“连锁不平衡”。据此可在染色体上定位与某一DNA 标记相连锁的基因。两基因间连锁程度以遗传距离表示:1厘摩(cM)=1%重组率,即1000kb。DNA 标记的选择经历了从致病基因→ABO、HLA多态位点→RFLP→微卫星DNA 的发展过程。微卫星DNA (microsatellite DNA ),是一种遍布于真核的短重复序列、长度2~10bp之间、按孟德尔方式遗传、呈高度多态,能进行PCR扩增。除DNA 标记的进展外,基因定位也得益于连锁分析方法和理论的改进,目前主要有:家系连锁分析、等位基因共占法及人群相关性分析等。
1.1家系连锁分析(family-based linkage analysis)法
是以二代或二代以上的家系材料为基础,观察标记位点与疾病致病基因位点在家系内是否呈共分离,并计算出遗传距离及连锁程度。目前最常用的方法是优势对数计分(Lods)法,Lod值代表两位点连锁的机率与不呈连锁的机率比的对数值,>3肯定连锁,<-2否定连锁,介于1与-2之间则需增加家系材料。该法优点在于对连锁的判断能力强,能确定连锁程度,适于呈孟德尔遗传、外显率高、纯一的单基因突变病分析[2],如糖尿病中的一种亚型MODY及少数呈多代多发患者的IDDM及NIDDM家系。缺点是需要完整的系谱材料,结果受遗传模型设定的影响,对遗传参数如基因频率、基因传递率、外显率及表型模拟率等依赖较大,故对一些复杂多基因疾病进行家系连锁分析很难获得满意结果[3]。
基于观察受累同胞或家系成员间标记位点等位基因的共占情况[4],即来源于同一祖先的致病基因由受累的亲属共占的机率大于随机分布的机率,包括受累同胞对(Affected sib pair, ASP)分析及家系成员(APM)分析。在ASP中,当标记位点与疾病无连锁时,双亲的标记位点等位基因随机分配给子代;若存在连锁,则受累同胞间共有等位基因机率将高于连锁时的预期值。APM是ASP的延伸,通过观察家系内所有患病成员标记位点等位基因的共有情况,来提高每个家系的信息量。原则上,若具备双亲样本材料,可据此判定受累同胞的相同等位基因片段是否同源,即传递一致性(identical-by-descent, IBD)分析;若无双亲资料,则只能通过同胞间等位基因比较来推测其是否共有,即状态一致性(identical-by-state, IBS)分析。若双亲均为纯合子以致判断困难者,可经统计处理用最大拟然实验估测出最可能的传递情况[5]。
该法优点是:①不受遗传模式等遗传参数影响,为非参数分析法;②对系谱材料要求低,只需一代或二代的家系内患病成员资料,而不需非患病成员资料;③可进行定量性状研究[6];④可研究两个不相连锁位点对疾病的联合作用,以解决复杂病易感基因间的相互关系;⑤对遗传异质性容许度大;⑥在候选基因研究中可应用间距较远(~20cM)的标记,故特别适合多基因遗传病及参数情况多数未明的复杂病研究。采用此法已发现在染色体6p24-22区域存在起很小效应的精神分裂症致病基因。缺点在于:①对连锁的判别效能弱于家系连锁分析,不能确定连锁程度;②检出力低于相关分析;③若家系中双亲均为患者的机率较高时,因易感基因可由双亲传递给子代,会影响分析正确性。
1.3人群相关分析(association analysis)法
原理是在一定人群中设置患者组和对照组,在可能的候选致病基因附近选择遗传标记,通过观察标记位点与致病基因位点间存在连锁不平衡现象,得到某一遗传标记和引起疾病基因关联的相对危险度,又称连锁不平衡定位(linkage disequilibrium mapping, LDM)法[7]。显然,标记位点与致病基因越近,且突变率越低,杂合度越高,则用标记检测致病基因位点的机率越高。LDM法假设在人群中某一致病基因起源于同一远祖,经过若干代的传递,那些与致病基因紧密连锁的基因或DNA 标记被一起分配到不同的患病个体。研究那些表面上无亲缘关系的患者是否有相同的DNA 标记的等位基因,根据该DNA 标记可以得到待研究基因在染色体上的定位。LDM法适合在人口流动极小,相对同源的人群中进行。该类人群遗传背景及环境相近,但患者间亲缘关系远(较家系分析而言),故其连锁不平衡作用大,此时定位基因所需遗传标记及研究的患者数较一般人群相关性分析少。
其优点有:①无亲缘关系患者样本容易随机采集,并完全符合群体中疾病的临床谱;②为非参数分析;③检出力高于家系连锁分析,在复杂病研究中不但可以检出主效基因,而且可以检出相对风险率小于5.0的次效基因;④检出的相关位点与致病突变的距离多在1cM以内,而家系连锁分析则为2~10cM;⑤可提示相关位点或基因的传递方式及效应性质(致病或保护作用),并可由亚组分析发现疾病的遗传异质性。但相关分析亦有缺点:在种群组成差异的两组间,会因标记位点等位基因频率及易感基因频率差异导致假阳性结果,即群体分层(population stratification)现象。对此,一些新的研究方法如:患者家系对照者分析(affected family-based control, AFBAC)、单倍型相对风险率分析(haplotype relative risk, HRR)以及倍受推崇的家系传递连锁不平衡检验(transmission disequilibrium test, TDT)得以应用。
TDT法是在家系内进行相关分析[8],观察双亲(至少一个为杂合子)是否有某种等位基因传递给患者的频率明显增高,而呈现连锁不平衡。TDT有以下优点:①可完全消除种族分层引起的误差;②可用于分析父、母在基因传递上的差异,如遗传印记(imprinting)的影响;③可分析相关位点参与发病程度及基因间相互关系,TDT法的应用解决了胰岛素基因是否与IDDM相关的长期争论。但TDT也有不足:①中老年发病的患者不易取得其双亲标本;②疾病异质性将明显降低其检出力,可按疾病病理性状分成亚组或直接研究该性状的相关位点,将有助于解析疾病的易感位点;③部分疾病因外显不全而发病晚,对照群体内可存在部分易感基因聚集但尚未发病的个体,以致影响检出力,可用高龄个体为对照来改善;④距候选基因较远的标记(>100kb),不能用于TDT分析。
1.4 cDNA 筛选
染色体定位只是定位克隆 的第一步。由于cDNA 筛选、确认的困难,使其成为定位策略的“瓶颈”所在。目前获得基因序列的方法大致有[9]:①对<500kb的关键部位进行直接测序 ;②比较作图和测序 ;③基因结构特征分析,有关的信息可以从http://www.ncbi.nlm.nih.gov/xREFdb/中得到;④cDNA 捕获,并采用突变检测体系进一步验证疾病相关基因,主要有CpG岛捕捉层析法、外显子捕捉法、直接筛选PCR法等方法。cDNA 筛选往往涉及到能够获得合适的标本(如存在缺失、无义突变等),有时甚至出现已获得该基因的cDNA 全序列,因未发现在患者中的突变而无法确认的现象。
2. 消减杂交(subtractive hybridization)策略
消减杂交原理是将不同个体或不同细胞来源,即通常所指的样本(tester, T)方和参照(driver, D)方的DNA 或mRNA 进行杂交,两者之间的差异,如缺失或特异表达的部分,因不能形成杂交体而被筛选出来[10]。该类方法有:差示反转录PCR、代表性差异分析、S1富集法、抑制性消减杂交、基因组错配扫描、比较杂交及差异消减杂交等。
2.1消减杂交(subtractive hybridization, SH)法和抑制性消减杂交(suppression subtractive hybridization, SSH)法
消减杂交法包括消减gDNA 及消减cDNA 文库。消减gDNA 文库是将两种来源的DNA 杂交,以分离较大片段的染色体缺失。Kunkel等将DMD(Duchenne muscular dystrophy)基因克隆 成功,是该方法第一次在疾病基因中发挥作用。消减cDNA 文库法是筛选某种特异表达的cDNA 片段。上述两种消减杂交法缺点在于缺乏有效的富集手段,不能获得较小的DNA 缺失片段或表达量较低的mRNA 。
SSH法原理是[11]:先将T方与D方mRNA 逆转录成cDNA ,然后用限制性内切酶将两者切割为小片段。把T方均分为二后分别连接不同的接头,与过量的D方cDNA 进行不充分杂交,然后混合两份杂交样品,再与新加入的变性D方cDNA 进行第二次消减杂交,杂交后完全补平末端,加入合适引物接头(接头1与接头2引物)进行PCR扩增获取目的片段。该技术避免了SH中分离单双链DNA 的步骤,且因每一mRNA 逆转录成的cDNA 可经酶切为一个以上的片段,故检测效率较高,二轮杂交和二轮PCR可扩增大量的特异表达片段,能分离出T方上调表达的基因,具有假阳性少、重复性强的优点[12]。其缺点是:①所需起始材料较多(mRNA 需数微克);②较多依赖于PCR技术中酶切后与接头的连接效率;③不能同时进行数个材料或不同处理材料之间的比较。
2.2 差示反转录PCR(differential display reverse-transcription PCR,DD-RT-PCR )法和差异消减显示(differential subtraction display, DSD)法
DD-RT-PCR 法[13]是比较不同组织或不同状态下mRNA 表达的差异,原理为:利用真核细胞mRNA s结尾处polyA结构,设计一套(12条)3’端象T12MN样引物,在5’端再设计20条(10-mer)随机顺序的引物,可使不同长度的基因得到扩增。在测序 胶上切下差异片段进行PCR扩增并进一步分析。该法简便、高效、易行、实验周期短(仅需一周),同时可以比较大批样本,对样品的要求较低,可检测低丰度的mRNA 。不足的是:①部分已获的cDNA 片段不一定是产生某一性状或疾病的原因,而可能是该疾病或性状发生后的表达产物;②信噪比过低,可出现非特异扩增,假阳性条带多;③工作量大、无法定量研究;④扩增的条带往往是3’UTR区的一段短序列,所含信息量少,常造成筛选困难。
DSD法[14]是在DD-RT-PDR呈现出差异条带之后,同时回收差异条带与D方相应范围的条带,回收的D方差异条带用非生物素标记的引物与dNTPs进行PCR扩增,其产物进行消减杂交,用链亲和素去除共有的产物,剩下的产物由带有α-32PdATP的dNTPs进行扩增,再重复差异显示,回收差异条带并。此技术的最大优势是所获差异条带Northern杂交重现性好、假阳性少、敏感性强,可获得长片段,对起始材料要求少,可获得低丰度差异表达基因。缺点是步骤繁琐、工作量大、周期长、更多依赖于PCR技术。
2.3代表性差异分析(representational difference analysis, DRA)法和S1核酸酶介导的缺失基因探针富集法
RDA法包括DNA (gDNA )代表性差异分析和cDNA 代表性差异分析[15]。其原理是:T方和D方cDNA 在进行差示分析前,采用不同的限制性内切酶酶切,将两者PCR扩增后液相杂交,除去共有部分(称为消减富集)。只有T方DNA 中仅有的序列能与自身复性形成3’末端突出的粘性末端,再加入TaqDNA 多聚酶,那些自身变性的5’端带有接头的双链DNA 的3’端被补平。并以其为PCR引物的结合点,富集T方中特有序列(称为动力学富集)。该法优点是:①假阳性少,不会产生象DD-RT-PCR 那样模凌两可的结果,从而降低了随后分析的难度;②cDNA RDA可用于非polyA结尾的mRNA 的检测,且可选择性扩增T中的单拷贝序列;③在复杂性状相关基因定位中,可应用RDA法构建染色体区域连锁图,为连锁分析提供条件,同时也可以将这些片段作为侯选基因筛查的探针。
S1富集法[16]的原理近似与RDA法,所不同的是用同一种限制性内切酶酶切D方和T方 DNA ,将寡核苷酸引物连接到填平了末端的T方 DNA 片段上,液相杂交后以S1核酸酶降解单链,T中仅有的DNA 形成的平头末端双链不被降解,而得以扩增富集。这两种方法可成功富集<50kb的片段,将仅在样本中存在的DNA 片段富集105~106倍。
上述两法的缺点是所需的起始材料较多、周期较长,不能用于点突变、小的缺失或插入、转录末端片段及缺乏合适酶切位点的基因检测,因为往往不清楚什么情况下某一器官或组织会发生基因重组,也不知道组织中基因嵌合的程度,故可能难以达到预期目的。另外,酶切结果也可使cDNA 的信息量丢失。
2.4错配扫描(genomic mismatch scanning, GMS)法
GMS采用与RDA相反的思路[17],目的是从遗传背景有差异,但遗传性状相同的远亲受累亲属中筛选出那些可能包含有导致这一性状的基因相同的DNA 片段(IBD序列)。GMS操作过程是先将两个血亲个体gDNA 用限制性内切酶切割,其中一个以DAM甲基化酶处理后与另一个血亲gDNA 等量混合杂交,形成同源和异源双链,用Dpn1和Mbo1等酶去除两条链都被甲基化和两条链都未被甲基化的双链DNA 分子,再用MutHLS酶去除来自不同基因组但不精确配对的杂交双链;将筛选到的IBD序列作为探针,与列阵排布的全进行杂交,即可将其迅速定位。GMS法优点在于对多基因引起的疾病,如肿瘤、糖尿病等更为有效,GMS相当于用极限密度的DNA 多态标记(以人群每300bp有一个碱基变异计算,人基因组3×109中大约包括107潜在的多态标记)进行连锁作图,因而能迅速检测受累亲属对中的IBD序列[18],这为复杂性状相关基因的分离和定位开辟了一个新的途径。其缺点是该法所获取的DNA 量较少,另外人类中存在的大量重复顺序会影响杂交的有效性和特异性。
2.5比较杂交(comparative genome hybridization, CGH)法
是一种将消减杂交、荧光染色体原位杂交(fluorescence in situ hybridization FISH)相结合,用于检测待测组织DNA 顺序拷贝数目的变化(缺失、扩增、复制),并将这些异常在染色体上定位的方法[19]。将不同基因组DNA 分别用不同颜色(绿、红)的荧光标记后,等比例一同与染色体杂交,扫描不同染色体上两种颜色的比率变化,来判断该处存在缺失或扩增。CGH法是消减杂交策略各方法中唯一不能直接获得基因片段的方法,其优点是CGH在一次实验中即可对整个进行检测,节省了操作步骤,并能将检测出的异常DNA 序列在染色体上定位,便于进一步筛选相关基因。其缺点是不能显示染色体易位、倒位及其他不改变DNA 拷贝数目的异常,并且该法的稳定性和重复性有待于提高。
2.6 DNA 微阵列杂交系统
新近DNA 微阵列(DNA micro arrays)又称DNA (DNA chips)技术的发展[20],使研究者可以从感兴趣的文库中随机选择克隆 。这种平行分析与DNA 测序 相结合可以高效地进行人类表达分析和探寻未知基因。该系统在概念与功能上与中期染色体FISH相似,但有3点重要区别:①DNA 靶单元不受组成成分限制,可以使中期YAC克隆 ,或显微切割的染色体单体,也可使单个CDNA 和寡核苷酸,故更具灵活性;②DNA 比FISH法更容易识别和定量分析;③该系统具有更好的一致性和连续性,可以进行自动化制作、杂交和数据分析。
3. 两类策略的联系
上述两种策略虽然主导思想有所不同,但可以相互补充,有些过程也是两者共有的,例如cDNA 的筛查已经成为这两类方法共同的限速途径。表达序列标志(expressed sequence tags, EST)正是这两类方法之间的桥梁。一些消减杂交的手段可用于定位克隆 ,反之亦然。如GMS可用于连锁不平衡分析,而通过连锁分析将致病基因初略定位后,可以将该片段染色体进行显微切割,与正常片段进行消减杂交,以获得特异的缺失DNA 片段。随着人类计划的进展,将逐渐使连锁图、物理图及EST图密度和精度提高,也将给基因的定位、克隆 带来深远的影响。方法上,定位将省略建立contig寻找cDNA 的工作;消减杂交则会省略定位和获得全长DNA 的步骤。
但是,将5~10万个基因定位及终究是一项艰巨的工程,我们相信新技术、新方法的不断应用和完善,必将大力推进人类功能学的研究进程。
参 考 文 献
1. Tom S, Andrew P.R. Identifying human disease genes. Human Molecular Genetics. Oxford U.K. Bios Scientific Publisher Ltd.1996:367-99
2. Rust S, Walter M, Funke H, et al. Assignment of Tangier disease to chromosome 9q31 by a graphical linkage exclusion strategy. Nat Genet, 1998 Sep 20:196-198
3. Badner JA, Gershon ES, Goldin LR. Optimal ascertainment strategies to detect linkage to common disease alleles. Am J Hum Genet, 1998 Sep 63:3880-3888
4. Holmans P. Affected sib-pair methods for detecting linkage to dichotomous traits: review of the methodology. Hum Biol, 1998 Dec, 70:6, 1025-40
5. Davies JL, Kawaguchi Y, Bennett ST, et al. A genome-wide search for human type 1-diabetes susceptibility genes. Nature, 1994,371(6493): 130-6
6. Gu C, Rao DC. A linkage strategy for detection of human quantitative-trait loci.Ⅰ.Generalized relative risk ratios and power of sib pair with extreme trait values. Am J Hum Genet, 1997,61:1,200-10
7. Schibler L, Cribiu EP, Oustry-Vaiman A, et al. Fine mapping suggests that the goat Polled Intersex Syndrome and the human Blepharophimosis Ptosis Epicanthus Syndrome map to a 100-kb homologous region. Genome Res 2000 Mar;10(3):311-8
8. Bevan S, Popat S, Houlston RS. Relative power of linkage and transmission disequilibrium test strategies to detect non-HLA linked celiac disease susceptibility genes. Gut, 1999,45:5,668-71
9. Boehm T. Positional cloning and gene identification. Methods, 1998,14:152-158
10. Zhu F, Yan W, Zhao ZL, et al. Improved PCR-based subtractive hybridization strategy for cloning differentially expressed genes. Biotechniques 2000 Aug;29(2):310-3
11. Diatchenko L, Lau YF, Campbell AP, et al. Suppression subtractive hybridization: a method for generating differentially regulated or tissue-specific cDNA probes and libraries. Proc Natl Acad Sci U S A, 1996 Jun, 93:12, 6025-30
12. Zylka MJ; Reppert SM. Discovery of a putative heme-binding protein family (SOUL/HBP) by two-tissue suppression subtractive hybridization and database searches. Brain Res Mol Brain Res, 1999 Dec, 74:1-2, 175-81
13. Verkoczy LK; Berinstein NL. Isolation of genes negatively or positively co-expressed with human recombination activating gene 1 (RAG1) by differential display PCR (DD RT-PCR ). Nucleic Acids Res, 1998 Oct, 26:19, 4497-507
14. Pardinas JR; Combates NJ; Prouty SM; et al. Differential subtraction display: a unified approach for isolation of cDNA s from differentially expressed genes. Anal Biochem, 1998 Mar, 257:2, 161-8
15. Ying SY; Lin S . High-performance subtractive hybridization of cDNA s by covalent bonding between specific complementary nucleotides. Biotechniques, 1999 May, 26:5, 966-8, 970-2, 979 passim
16. Zhu S, Wu M. Enrichment of DNA fragment for deleted sequences in human genome with nuclease S1 digestion and PCR amplification. Nucl Arids Res.1994,22:12,2428-9
17. Cheung VG; Nelson SF. Genomic mismatch scanning identifies human genomic DNA shared identical by descent. Genomics, 1998 Jan, 47:1, 1-6
18. Morrow BJ; Graham JE; Curtiss R . Genomic subtractive hybridization and selective capture of transcribed sequences identify a novel Salmonella typhimurium fimbrial operon and putative transcriptional regulator that are absent from the Salmonella typhi genome. Infect Immun, 1999 Oct, 67:10, 5106-16
19. Helou K, Lu XC, Montelius-Alatalo K, et al. A dual-color FISH framework map for the characterization of the Sai1 tumor suppression region on rat chromosome 5. Genes Chromosomes Cancer 2000 Apr;27(4):362-72
20. Zeschnigk M, Horsthemke B, Lohmann D. Detection of homozygous deletions in tumors by hybridization of representational difference analysis (RDA) products to chromosome-specific YAC clone arrays. Nucleic Acids Res 1999 Nov 1;27(21):e30