群体选择和群体分层
互联网
不管是定位克隆 还是关联研究,单基因病还是多基因病,来自大家系、隔离群体或疾病相关染色体改变的遗传病患者样品起关键作用。至今所报道的重要疾病基因的克隆,往往与很好的大家系或隔离群体遗传资料有关。
如先天性心脏缺陷致病基因GATA4、儿童型视网膜营养不良致病基因RDHl2和冠心病的致病基因MEF2A等均是在大家系中被发现的,而心肌梗死和脑卒中的致病基因ALOX5AP、家族性混合型高脂血症的致病基因USFl和哮喘相关基因GPRA等则是在隔离群体中克隆到的。故而大家系和隔离群体显得非常重要,找到了隔离群体和大家系,也就容易找到疾病相关基因。我国近几年在疾病相关基因的克隆方面取得了很大的成绩,也与大家系分不开。如心房颤动的致病基因KCNQl和KCNQ2、儿童白内障致病基因HSF4等均是在大家系中定位克隆的。
大家系的优势不言而喻,而隔离群体在致病相关基因研究方面的优势主要在于祖先人数较少、人口流动性极小以及较少有种群混合。交配和生殖上的隔离使得这些群体的遗传多样性降低,减少了遗传的复杂性,因此可能具有较高同质性和诊断的一致性。
由于祖先群体小,更有可能产生只有一个遗传学病因的特定性状群体。在这样的一个群体中,可以确定患者个体共享的一段染色体片段,这一片段可以作为疾病的候选片段来分析。但利用隔离群体也存在一些问题,如近亲繁殖水平可能较高,这将导致杂合性降低,因而TDT效率随之降低;含不相关突变的染色体样本数量受到限制;相对短的种群历史,通常能提高LD所识别的距离,但也降低了LD基因定位水平。
虽然利用大家系或隔离群体搜寻多基因疾病易感基因拥有很多优势,但并不是每个研究者均能获得的。一般人群较大家系或隔离群体更易获得,取样方便,绝大多数都是用一般人群进行疾病致病基因研究。但由于一般人群遗传异质性高,存在群体分层现象,易造成实验的误差。
如何匹配实验的对照组和病例组以消除群体分层,一直是遗传学家争论的焦点之一。群体分层系不同种群混合所形成,以致关联研究中无法检测到疾病相关位点,是造成关联研究假阳性的原因之一。至今所报道的关联结果究竟有多少是由于群体分层形成的,仍不得而知。群体分层存在于那些由不同种群且各种群疾病发病率各不相同的新近混合形成的群体中,是一个很严重的问题。但在同一种群里,群体结构水平差异通常较小,假如关联研究中避免了总体水平的群体结构,群体分层的问题事实并不严重。
为了去除群体分层,最常采用的方法是根据祖先和祖籍等资料仔细匹配病例组和对照组。但由于存在亚群,不能完全避免群体分层。最为有效的方法是设立基因组对照(genomiccontr01)检测群体分层。
基因组对照是在全基因组中选取一定密度与所研究疾病及其危险因素无关的相互间不连锁的常见SNP,对疾病组和对照组进行分型,研究他们的遗传背景是否一致。如果病例组和对照组完全匹配,无群体分层,这些SNP与疾病之间的关联符合x2 分布(自由度为1)。假如存在群体分层,相关统计学分布则会以一定的系数膨胀,膨胀系数用入表示,入随样本数的增加而变大。
进行基因组对照时,若选取的SNP位点过少,并不能有效地校正群体分层。基因组对照究竟选用多少数目的SNP,视研究中的遗传效应的程度而定。如果疾病相关位点效应很强,户值非常显著,只需分型几十个SNP就能基本排除群体分层,确定阳性关联结果。相反,若易感基因效应微弱,需要分型大量的SNP方能排除群体分层。基因组对照使得应用群体样本和控制假阳性率成为可能,其最大的缺点是需要额外SNP,以目前的分型技术,费用仍不菲