研究 SNP 基因分型有哪些方法?
丁香园
SNP,全称 Single Nucleotide Polymorphisms,是指在基因组上单个核苷酸的变异,包括转换、颠换、缺失和插入,形成的遗传标记,其数量很多,多态性丰富。从理论上来看每一个 SNP 位点都可以有 4 种不同的变异形式, 但实际上发生的只有两种, 即转换和颠换, 二者之比为 2:1。SNP 在 CG 序列上出现最为频繁, 而且多是 C 转换为 T , 原因是 CG 中的胞嘧啶常被甲基化, 而后自发地脱氨成为胸腺嘧啶。
一般而言,SNP 是指变异频率大于 1 % 的单核苷酸变异。在人类基因组中大概每 1000 个碱基就有一个 SNP , 人类基因组上的 SNP 总量大概是 3 ×10^6 个 。因此,SNP 成为第三代遗传标志, 人体许多表型差异、对药物或疾病的易感性等等都可能与 SNP 有关。
SNP 根据其在基因中的位置,可以分为基因编码区、基因非编码区、基因间隔区(基因之间的区域)。由于基因序列的兼并性,编码序列中的 SNP 不一定会改变蛋白的氨基酸序列。编码区的 SNP 有两种类型: 同义和非同义。同义单核苷酸多态性并不影响蛋白质序列,而非同义的则会改变蛋白质的氨基酸序列。
而不在蛋白质编码区的 SNP 仍可能影响基因剪接、转录子结合、信使 RNA 降解或非编码区的 RNA 序列。受到这种单核苷酸多态性(SNP)影响的基因表达被称为单核苷酸多态性表达(ESNP),可能发生在此基因的上游或下游。
直接测序法
目前很多朋友在研究 SNP 位点的时候,仍然在选用直接测序法,Sanger 测序原理为双脱氧终止法,会忠实的延伸出模板链上的碱基序列,在毛细管电泳中会依次收集各个碱基的荧光信号,SNP 则会在测序结果中出现如下套峰的情况,示例如下:
图片来源:Google
优点:直接测序法是目前最直观,准确性相对而言最高的 SNP 分型方法,适用于发现未知 SNP 位点,检测少量样本,少量位点的碱基多态性。
缺点:通量太低,且成本较高,但是随着现在高通量的测序技术的飞速发展,目的片段甚至全基因组的高通量测序也让直接测序法重新焕发活力!
片段长度多态性法
RFLP(Restriction Fragment Length Polymorphism,限制性片段长度多态性)是一种较早的进行 SNP 分型的技术,简单来说就是在包含 SNP 位点的序列中存在有特定的限制性内切酶酶切位点,而 SNP 位点基因型的改变则会使该酶切位点失效,这样根据酶切之后 PCR 片段长度的多态性即可得知对应的基因型,下面用一张图片来示意该方法的实验流程:
如上图所示,三种基因型的结果条带数目不一致,可以比较容易判读样本的基因型。
优点:适合小批量样本的分型实验,不需要特殊的仪器,只需要一台 PCR 仪以及电泳仪器即可;
缺点:通量小且对于位点要求高(需要特定的酶切位点),且没法儿准确的鉴别假阳性的情况(酶切不完全)。
针对上述情况,如果是没找到合适的酶切位点,或者说存在的酶切位点所需要的内切酶成本较高,可以通过在 PCR 引物上引入错配,得到理想的酶切位点;
其次,为了增大该种方法的检测精确性,一种方法是在 PCR 产物中选择一个内参酶切位点(与目标酶切位点一致,用以检测酶切是否完全),第二种方法就是改进出了荧光酶切方法,即在 PCR 的产物上添加上荧光,通过测序仪收集荧光信号,报告产物的长度,该种方法的优势在于毛细管电泳的精确性更高,分辨率更大,同时可以混合上样,降低实验分型的成本,提高效率。
飞行质谱法
基质辅助激光解吸电离飞行时间质谱(Matrix Assisted Laser Desorption/Ionization Time of Flight Mass Spectrometry,MALDI-TOF MS)技术的 SNP 分型原理是:先通过 PCR 扩增目标序列,然后加入 SNP 序列特异延伸引物,在 SNP 位点上延伸 1 个碱基。将制备的样品分析物与芯片基质共结晶,将该晶体放入质谱仪的真空管, 而后用瞬时纳秒(10 - 9s)强激光激发,基质分子吸收辐射能量,导致能量蓄积并迅速产热,使基质晶体升华,核酸分子就会解吸附并转变为亚稳态离子,产生的离子多为单电荷离子,这些单电荷离子在加速电场中获得相同的动能,进而在一非电场漂移区内按照其质荷比率的不同得以分离,在真空小管中飞行到达检测器。
MALDI 产生的离子常用飞行时间(Time-of-Flight,TOF)检测器来检测,离子质量越小,就越快到达。利用质谱分析对质量的灵敏度特别高的特点,很容易将仅含有一个不同碱基的两段基因序列区别开,推导出 SNP 分型。
优点:成本较低,不需要合成特殊的荧光引物,只需要一对 PCR 引物以及延伸引物即可;检测方便,灵敏度高,数据准确性有保证;
缺点:对于 SNP 位点两侧序列要求较高,存在特殊序列,如 SNP 位点,插入缺失等会影响准确性,另外,对于样本质量稍微有些高,补数据较为麻烦,如果样本质量不是很好的,建议谨慎选用;最后一点是检测成本低是基于位点数以及样本数较多的情况而言,目前市面上的公司一般是 25 - 30 个位点一个体系,384 孔板为一个反应收费。
Taqman 荧光探针法
Taqman 探针想必各位都不陌生,原理介绍如下:
该技术是由 ABI 研发的 SNP 分型技术,其技术原理如下:PCR 反应时,加入一对两端有不同荧光标记的 MGB 特异探针来识别不同等位基因(allele1 和 allele2),5’端为报告荧光基团(reporter),3’端为淬灭荧光基团 (quencher)。PCR 过程中,两个探针能与正向引物和反向引物之间的互补序列特异退火结合。当探针以完整形式存在时,由于能量共振转移,荧光基团只发出微弱荧光。
特异的探针与相应的等位基因结合后,DNA 聚合酶发挥 5’到 3’外切酶活性,把报告荧光基团切割下来,脱离 3’端淬灭荧光基团的淬灭作用(quench),从而发出荧光。两个探针的 5’端标有不同的荧光(FAM 或 VIC),3’端标有 MGB 淬灭基团结合体。根据检测到的不同荧光,可以判断相应样本的 SNP 等位基因型。
上图右侧即为 Taqman 实验分型后的结果图,以上,蓝色和红色代表两种纯合子,右上角的绿色则为杂合子,左下角的黑色为 NTC,其余地方散落的黑色的点则为由于样本原因无法准确分型的结果。
优点:操作简单,准确性高,判读也很方便,认可度高;
缺点:探针合成耗时较长,一般为 ABI 公司合成,从我自己的经历讲,国内合成的探针质量不稳定,价格偏高,通量小,一般为 1 - 2 个位点适用,对于样本的质量要求较高,除了样本无降解外,还需要浓度尽可能的一致,这样结果才会比较集中。
多重 SNaPshot 检测方法
SNaPshot 技术又称为小测序技术,是由美国应用生物公司 (ABI) 开发的主要针对中等通量 (<20) 的 SNP 分型项目的分型技术。既然叫小测序技术,那么他的原理就跟一代测序很类似了,在一个含有测序酶,四种荧光标记的 ddNTP(注意:这里只有 ddNTP,并没有测序反应中的 dNTP),紧挨多态位点 5’端的不同长度延伸引物和 PCR 产物模板的反应体系中,引物延伸一个碱基即终止。
经 ABI 测序仪跑胶后,根据峰的颜色可知掺入的碱基种类,从而确定该样本的基因型,针对不同的 SNP 位点设计不同长度的延伸引物来做到多个 SNP 在一个反应体系中进行分型。
重新绘制了下 SNaPshot 的原理图如下:根据毛细管跑出来的峰的颜色区分一个样本的单个位点的基因型,根据峰的位置区分位点。
优点:方法灵活,位点选择性不大,只要位点一侧的序列符合设计测序引物的条件即可,对于插入缺失,同源区域等也有比较好的检测方案可以设计。
缺点:价格比较高。
LDR 连接酶检测反应法
LDR 法是基于核酸特异杂交原理,设计两条 3' 端碱基不一样的鉴别引物用以鉴别 SNP 位点的两种 Allele,同时设计一条在位点另一侧的通用的引物,在高温连接酶的作用下,当左右两条寡核苷酸探针(鉴别引物以及通用引物)与目的 DNA 序列完全互补,并且两条探针之间没有空隙时才能发生连接反应,通过温控循环该特异性连接反应可反复进行,达到线性扩增的效果,最后通过荧光扫描片段长度(在通用引物的合成时已经在一端进行了荧光修饰),实现对 SNP 位点的检测。
原理图如下,图中可以看出同一个位点的两个 Allele 通过引物的长度不同进行了区分,不同的位点之间则是通过位置进行的区分。
优点:操作简单,无需特制的试剂,比较适合 10 个位点以下的检测。
缺点:该方法需要在位点两侧设计引物,对于位点的要求会较 SNaPshot 方法较高。
改进的连接酶检测法(iMLDR)
iMLDR 技术是基于传统的连接酶反应经过改进后的多重 SNP 分型技术,相比于传统的连接酶反应技术,iMLDR 提高了准确性和分型的成功率,该方法的特色在于采用了一个双连接反应,将区分基因型的荧光使用连接方法加到连接产物上,这样一来可以轻松的增加该分型方法的通量。
重新绘制了下该方法的原理图,分型方法的原理图上已经描述的很清楚啦:
优点:准确性较于 LDR 来说有了一定的提升,检测通量较高。
缺点: LDR 一样,对于位点的选择性较高。
基因芯片法
DNA 基因芯片技术是近年来新开发的一种 DNA 序列变异检测工具,其原理是利用目标 DNA 与支持物上所固定的密集的寡核苷酸探针阵列进行等位基因特异性反应,根据反应信号的有无和强弱确定 SNP 位点。
近年来随着复杂性疾病研究的深入,以及可利用的基因组数据的增加,基于各种原理的 SNP 芯片反应被开发出来,以适应不同目的、规模和条件的基因分型,那么市面上现在常见的基因芯片 Illumina SNP 芯片分型平台(包括 Infinium®技术和 GoldenGate®技术)和 Affymetrix 基因分型平台(Affymetrix GeneTitan®技术),这两大公司的基因分型平台是目前应用最为广泛的基因分型平台,适用于大样本不同标记密度的快速基因分型。
这里由于商品化芯片种类有很多,就不单独介绍,有需要的同学可以去各家公司的官网上进行查询,这里主要介绍一下这两家的芯片的制造区别:Illumina 的技术为微珠技术,将 DNA 探针序列偶联到微珠的表面,再将各种微珠均匀的撒在已经通过光蚀刻技术蚀刻出很多微孔的玻璃基片上,而 Affymetrix 的技术则是直接在玻璃载体表面通过光蚀刻的方法植上探针序列,具体的技术细节这里就不做赘述了。
SNPSCAN 分型法
SNPSCAN 分型法采用连接酶连接反应的高特异性实现对 SNP 位点等位基因的识别,然后通过在连接探针末端引入不同长度的非特异性序列以及通过连接酶加接反应获得位点对应的不同长度连接产物,利用标记荧光的通用引物对连接产物进行 PCR 扩增,通过荧光毛细管电泳扩增产物进行电泳分离,最后通过 GeneMapper 软件分析获取各个 SNP 位点的基因型。
重绘了一下原理图,帮助大家理解这种方法:
优点:通量足够大,原理上来说可以一次性检测 48n 个位点。
缺点:对于位点的要求更高,比 LDR 的要求更高,因为该方法检测的只有位点两侧的几十 bp 序列,如果这部分的序列存在着比较特殊的结构或者很高的同源性,那么基本可以告别这种方法了。