人类基因组标准寡核苷酸库基因序列的选择和探针的设计
互联网
一、介绍
人类基因组标准寡核苷酸库针对人类基因组中20,726个确证的基因设计了22,740个70mer的寡核苷酸探针。每一个探针都经过了严格设计和优化,从而确保了基因表达阵列分析能得到非常好的结果。
人类基因组标准寡核苷酸库以60个384孔板的形式提供。每一孔含有600pmol的探针。每一板中都含有一个阴性对照。
人类基因组标准寡核苷酸探针库中寡核苷酸探针序列从NCBI人类标准序列数据库(HumanReferenceSequence)(November2002)中得到。其中包括了一组能够检测1300多个基因的选择性剪接mRNA异构物的探针组。
目标基因的精心选择和探针的严格设计对于任何一组寡核苷酸探针组都至关重要。本文将简要介绍Illumina标准寡核苷酸探针组目标基因选择和探针设计的方法。
二、基因序列的选择和特点分析
2.1 人类基因
Illumina建立了一套生物信息学方案能够对选定的DNA和RNA序列信息整合成一个综合的基因信息库。这一信息库排除了冗余基因并包含有转录本结构信息,它对于设计高质量的全基因组基因表达探针组尤为必要。
这一数据库的建立有如下一些要求:
► 序列准确性(Sequenceaccuracy):从标准序列数据库中挑选的序列都准确可靠。
► 标注质量(Annotationquality):经确证的标注优先于自动生成的标注。
► 稳定性及更新频率(Stabilityandupdatefrequency):基因鉴定的方法不同,稳定性也不同。自动生成的结果每一次公布时都可能不一样。而经过验证过的序列则有根可寻。我们在选择基因时都尽可能地从稳定的数据库中选择序列。
► 序列特异性:在基因特异性表达探针选择时避免使用相似的基因序列。
► 选择性剪接:提供各选择性剪接产物特异的探针,同时提供与某一基因不同剪接体都能杂交上的通用探针。
2.2 数据来源
数据主要来源于NCBI的人类标准序列数据库。它由两部分独立的亚库组成,分别具有不同的质量和特点。
(1)经确认的标准序列(C-REFSEQ)
这一资源库是基因序列信息的参照标准。C-RefSeq用NCBI的LocusLink方法来支持基于合作的人工确认程序。每一基因序列在确认的不同阶段都有记录(例如预测期,提供期,核实期)。
每一C-RefSeq转录本(用NM_前缀以便识别)都加上一个经人类基因命名委员会(HumanGene NomenclatureCommittee,HGNC)同意的基因符号。通过对同一基因的不同选择性剪接产物的确认可以对生产相对与每一种RNA分子的标识。
因此C-RefSeqRNA序列是高质量且稳定的数据库。它包含有超过15,300个基因的信息。
(2)基因组评注数据库(Genome Annotation RefSeq,GA-REFSEQ)
GA-REFSEQ通过自动化处理完成,而不经过人工验证或修改。数据通过对转录本(如RefSeq RNAs及GenBank中的RNA和EST序列)的注释和基因预测算法(GenomeScan)得到。尽管人类基因组测序已快完成,而且普遍认为质量不错,但基因鉴定仍有得有失。GA-RefSeq转录本又被称为模式mRNAs,用XM_作为前缀以便识别。
我们用人类ESTs来验证并进一步注释GA-SefSeq以使得序列更准确,并验 证转录本结构。这提供了可选择的UniGene,它可以避免基因链中的错误和错聚(misclustering)。
2.3 选择性剪接基因(C-RefSeq)
Illumina序列选择方法有一部分是专门处理那些表达多种mRNA异构物的基因的。因为C-RefSeq的高质量和基因符号标注的一致性,我们可以把这一特性用于系统的筛选选择性剪接的基因表达探针。C-RefSeq中每个具有多种mRNA异构物的基因都通过传统的程序进行分析,识别出两种区域:
► A(All-isoforms)区,所以选择性剪接产物都具备。
► I(Isoform-specific)区,各选择性剪接产物特异区。
大多数选择性剪接的基因都包含一个A区,大多数转录本都含有I区。这些区域有如下一些探针:
► 一个A探针(每个基因一个探针,如果所有异构物都有一个相同区域;否则探针数为零):针对基因的所有已知转录异构物。
► 多个I探针(每个异构物一个探针,该异构物应具有足够的特异序列以设计特异探针):针对每一特异转录异构物。
附录1中给出了探针设计结果和一个实例。
2.4 推断基因的验证
GA-RefSeq模式mRNA序列通过已经验证的EST序列进行验证,以进一步确认其序列准确性并获得它的转录本结构。这一步骤一般分为两个阶段:
► In-House确证人的ESTs
► 仅用序列已知的cDNA文库中的EST序列进行确证(>300ESTs)
► 仅用高质量的EST序列
► 去掉很短的和很长的EST序列
► 用ESTS对GA-REFSEQ序列进行分析
► 将EST序列和GA-RefSeq进行比对
► 找出潜在的ESTchimeras
► 通过ESTs鉴定序列区域
► 对每一GA-RefSeq建立一个EST覆盖谱
► 检测EST覆盖区域的突然变动(GA-RefSeq的错误碱基或潜在剪切位点)
这一方法有诸多优点
► 序列准确性(Sequenceaccuracy):要求基因组序列的所有碱基都分别被至少一个EST序列所确证,探针设计在高准确区。
► 链的决定(Stranddetermination):GA-RefSeq序列决定编码序列的高准确性
► 生物证据(Biologicalevidence):用ESTs算法确认的结果是用于设计探针的区域很可能就是真正的mRNA。
2.5序列特异性
所有转录本序列都和其它基因转录本相比较以确定不同基因的相似区域。用BLAST和后处理工具在两个水平上进行鉴定:
► 总体的相似性大于某一长度
► 每一比对仅有一小段相同。
► 寡核苷酸探针选择。
一旦某一特定的转录序列被选择出来就需要建立寡核苷酸探针选择选择方案以实现杂交条件优化。
3.1 方法
首先,探针设计算法来评估转录本与探针互补的一段序列。这一内容包括下列信息:
► 与其他基因类似
► 序列复杂性
► 选择性剪接基因序列特异性区域
► 选择性剪接基因通用区域
► EST覆盖区
一旦与设计区域互补的序列知道则要考虑评估所有可能的70mers在互补区域,并根据以下条件选择最好的一个:
► 内部发夹结构的预测
► 杂交均一性融解温度Tm值的预测。Tm值计算公式:
Tm=81.5+16.6log10[Na+]+0.41%GC–500/Length ([Na+]=0.1M)
► 距离转录本3’端的长度,解决cDNA合成中3‘偏好问题
附录2中是序列选择和探针设计的流程图。
3.2 选择和设计结果
根据选择和设计的标准,合成的人类基因组标准寡核苷酸库具有以下一些特点(表1A和表1B):
附录1:选择性剪切基因;设计结果和实例
结果:
在C-RefSeq的1,399个选择性剪接基因中,我们成功的为1,310个基因设计了A和I探针。
► 1,277个基因含有针对于所有选择性剪接产物的A探针,
► 1,029个基因含有共2,037个针对于特定选择性剪接转录本的I探针
例子:
人alpha-1-A-adrenergicreceptor(ADR1A)是一个基因通过选择性剪接得到多个产物的例子。它是一个G蛋白耦连受体家族的一员,通过G蛋白Gq/11家族传递信号。这一基因经选择性剪接产生四个不同的转录本。它们编码四种C端不同但具有相似配体结合区的蛋白。
在人类基因组标准寡核苷酸库中针对这一基因有五个探针(表2)。
附录2:序列选择和探针设计流程