连锁分析和关联研究的原理
互联网
7280
连锁分析和关联研究的原理
连锁分析和关联研究的原理和假说基本上是相似,两者均以相邻近的DNA变异共分离为基础。连锁分析是通过鉴定经多代传递仍完整的单倍型为基础的,检测在一个家系中等位基因与疾病的传递是否相关。而关联研究则是通过鉴定经许多代数传递后仍保留完好的相邻近DNA变异之间的DNA片段,检测在一个群体中疾病和等位基因的相关性的存在与否。因此,关联研究也可认为是在未观察到的、可能存在的家系中进行的大规模的连锁分析。随着人口不断膨胀,世代传递中连锁和关联状态经重组不断被打断。当与某一特定性状相关的功能性突变出现时,该突变位于先前既已存在的DNA变异组合成的单倍型中。由于连锁分析只对在世的几代人中进行,重组在短短这几代人中发生的机会较少,因此连锁分析所鉴定的含疾病相关基因的染色体区域往往很大,甚至达几百万碱基,含上千个基因(图l―3)。与此相反,关联研究是以群体历史上的重组为基础,因此理论上在随机交配的群体中疾病基因的相关区域非常小,只含一个基因或基因片段。通过随后多代的传递,重组将使突变与最初的单倍型中的等位基因分离开来,个别的DNA变异仍与突变一道组成单倍型传递很多代,这种等位基因的非随机关联就是连锁不平衡。连锁不平衡是关联研究的基础。
连锁不平衡可以被认为是对连锁分析的补充,在未知连锁的条件下可以通过连锁不平衡确定致病基因位点。连锁不平衡相对于连锁分析更易找到微效基因,相比于单基因遗传模式更适合于多基因遗传模式。无亲缘关系患者样本收集较易,可随机采集,完全符合群体临床疾病谱。相关分析为非参数性分析,不需设定遗传方式等各种参数,并且连锁不平衡的检出力高于家系连锁分析。在多基因疾病中,不但可检出主效基因,而且可检出相对风险率小于5.0%的次效基因,这正是同一位点相关分析阳性而连锁分析阴性的原因之一。但在实际检测中,关联分析也有不利的方面,只能在一定条件下有效,如低突变率及遗传标记位点与致病相关基因位点足够近才能避免频繁的重组,同时需要大量样本才有利于严格意义上的显著结果的发现。这一方法还要考虑到如何使患者组与正常对照组相匹配,以及人群、地理和社会背景等。而在这些不同条件下,等位片段的频率往往有很大的差异,这一现象被称为群体分层(populationstratification)。为克服这一问题,在研究方案的设计上必须注重病例组与对照组相匹配,对家系样本需增加患者父母未传递的等位片段作匹配比较。当某一特定等位片段在传递时出现的概率比随机的概率显著增多时,则认为存在连锁不平衡。
基于此原理的遗传统计方法有对隐性遗传模式非常有效的传递不平衡(transmission disequilibrium test,TDT),以及患者家系对照者分析(affected family―based controls,AFBAC)、单倍型相对风险率分析(haplotyperelativerisk,HRR)等方法。TDT是在家系内进行关联分析,观察双亲(至少一个是杂合子)将标记位点等位基因传递给患者的频率。TDT的优点有:①可完全消除种族分层引起的误差;②可用于分析父母在基因传递上的差异。TDT的缺点有:①中老年发病患者中的双亲多已亡故,而不易取得标本;②疾病异质性将明显降低相关分析的检出率,按疾病病理生理性状(又称中间性状)分成亚组或直接研究中间性状的相关位点,将有助于解析疾病的易感位点;③由于外显不全,发病晚,对照群体内可存在尚未发病的个体,导致影响检出率;④由于对遗传标记的杂合度要求较高,双亲必须是杂合子才能进行TDT分析,故SNP标记在TDT分析中较难发挥作用。
除了可直接对候选基因和定位区域内的变异进行分析外,关联研究亦可用于全基因组疾病定位,此即连锁不平衡基因定位。对于在人群中患病率低,且不易获得众多家系研究对象的疾病,可行的基因定位途径是关联分析。DNA芯片等高通量的分型技术使连锁不平衡基因定位成为可能,并已有商品化连锁不平衡基因定位的产品。利用这些SNP芯片,科学家已找到了一些多基因疾病的致病基因。任何列联表分析软件都可以用来比较病例与对照间的频率差异,但若等位基因或基因型分布不集中,患者和对照等位基因或基因型所构成的列联表比较稀疏,需要采用随机模拟、置换或枚举求得精确率。多个等位基因的分析可采用Logistic回归分析。如果造成连锁不平衡是由于人群始祖效应,相应的分析方法则更为有效。