SNPs概念
互联网
SNPs概念
(single nucleotide polymorphism , SNP ,发音为 “snips”), 主要是指在基因组水平上由单个核苷酸的变异所引起的 DNA 序列多态性。它是人类可遗传的变异中最常见的一种。占所有已知多态性的 90% 以上。 SNP 在人类基因组中广泛存在,平均每 500 ~ 1000 个碱基对中就有 1 个,估计其总数可达 300 万个甚至更多。
SNP 所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换 (transition) 或颠换 (transversion) 所引起,也可由碱基的插入或缺失所致。但通常所说的 SNP 并不包括后两种情况。
理论上讲, SNP 既可能是二等位多态性,也可能是 3 个或 4 个等位多态性,但实际上,后两者非常少见,几乎可以忽略。因此,通常所说的 SNP 都是二等位多态性的。这种变异可能是转换 (C T ,在其互补链上则为 G A) ,也可能是颠换 (C A , G T , C G , A T) 。转换的发生率总是明显高于其它几种变异,具有转换型变异的 SNP 约占 2/3 ,其它几种变异的发生几率相似。 Wang 等的研究也证明了这一点。转换的几率之所以高,可能是因为 CpG 二核苷酸上的胞嘧啶残基是人类基因组中最易发生突变的位点,其中大多数是甲基化的,可自发地脱去氨基而形成胸腺嘧啶。
在基因组 DNA 中,任何碱基均有可能发生变异,因此 SNP 既有可能在基因序列内,也有可能在基因以外的非编码序列上。总的来说,位于编码区内的 SNP(coding SNP,cSNP) 比较少,因为在外显子内,其变异率仅及周围序列的 1/5 。但它在遗传性疾病研究中却具有重要意义,因此 cSNP 的研究更受关注。
从对生物的遗传性状的影响上来看, cSNP 又可分为 2 种:一种是同义 cSNP(synonymous cSNP), 即 SNP 所致的编码序列的改变并不影响其所翻译的蛋白质的氨基酸序列,突变碱基与未突变碱基的含义相同;另一种是非同义 cSNP(non-synonymous cSNP), 指碱基序列的改变可使以其为蓝本翻译的蛋白质序列发生改变,从而影响了蛋白质的功能。这种改变常是导致生物性状改变的直接原因。 cSNP 中约有一半为非同义 cSNP 。
先形成的 SNP 在人群中常有更高的频率,后形成的 SNP 所占的比率较低。各地各民族人群中特定 SNP 并非一定都存在,其所占比率也不尽相同,但大约有 85% 应是共通的。
SNP 自身的特性决定了它更适合于对复杂性状与疾病的遗传解剖以及基于群体的基因识别等方面的研究:
SNP 数量多,分布广泛。据估计,人类基因组中每 1000 个核苷酸就有一个 SNP ,人类 30 亿碱基中共有 300 万以上的 SNPs 。 SNP 遍布于整个人类基因组中,根据 SNP 在基因中的位置,可分为基因编码区 SNPs ( Coding-region SNPs , cSNPs )、基因周边 SNPs ( Perigenic SNPs , pSNPs )以及基因间 SNPs ( Intergenic SNPs , iSNPs )等三类。
SNP 适于快速、规模化筛查。组成 DNA 的碱基虽然有 4 种,但 SNP 一般只有两种碱基组成,所以它是一种二态的标记,即二等位基因( biallelic )。 由于 SNP 的二态性,非此即彼,在基因组筛选中 SNPs 往往只需 +/- 的分析而不用分析片段的长度,这就利于发展自动化技术筛选或检测 SNPs 。
SNP 等位基因频率的容易估计。采用混和样本估算等位基因的频率是种高效快速的策略。该策略的原理是:首先选择参考样本制作标准曲线,然后将待测的混和样本与标准曲线进行比较,根据所得信号的比例确定混和样本中各种等位基因的频率。 易于基因分型。 SNPs 的二态性,也有利于对其进行基因分型。对 SNP 进行基因分型包括三方面的内容: (1) 鉴别基因型所采用的化学反应,常用的技术手段包括: DNA 分子杂交、引物延伸、等位基因特异的寡核苷酸连接反应、侧翼探针切割反应以及基于这些方法的变通技术; (2) 完成这些化学反应所采用的模式,包括液相反应、固相支持物上进行的反应以及二者皆有的反应。 (3) 化学反应结束后,需要应用生物技术系统检测反应结果。
上一篇:抗体制备技术的选择(下) 下一篇:SNP 检测方法及研究现状