【共享】 EST技术及其在基因全长cDNA克隆上的应用策略
丁香园论坛
2705
第二军医大学细胞生物学教研室;上海200433 何志颖;姚玉成(综述);胡以平(审校)
关键词:EST技术;“电子”基因克隆;生物信息学;基因
摘要: 随着人类基因组计划的顺利进行,EST技术被广泛应用于基因识别、绘制基因表达图谱、寻找新基因等研究领域。利用人类基因组研究不断产生的数据,从ESTs即cDNA的部分序列入手,通过同源筛选,获得基因部分乃至全长cDNA序列,避免或减轻了构建与筛选cDNA文库等繁锁实验室工作。本文从原理、应用及其在科学研究上产生的影响等方面对EST技术进行了概述。
表达序列标签(expressed sequence tags,ESTs)是指从不同组织来源的cDNA序列。这一概念首次由Adams等于1991年提出。近年来由此形成的技术路线被广泛应用于基因识别、绘制基因表达图谱、寻找新基因等研究领域,并且取得了显著成效。在通过mRNA差异显示、代表性差异分析等方法获得未知基因的cDNA部分序列后,研究者都迫切希望克隆到其全长cDNA序列,以便对该基因的功能进行研究。克隆全长cDNA序列的传统途径是采用噬斑原位杂交的方法筛选cDNA文库,或采用PCR的方法,这些方法由于工作量大、耗时、耗材等缺点已满足不了人类基因组时代迅猛发展的要求。而随着人类基因组计划的开展,在基因结构、定位、表达和功能研究等方面都积累了大量的数据,如何充分利用这些已有的数据资源,加速人类基因克隆研究,同时避免重复工作,节省开支,已成为一个急迫而富有挑战性的课题摆在我们面前,采用生物信息学方法延伸表达序列标签(ESTs)序列,获得基因部分乃至全长cDNAycg,将为基因克隆和表达分析提供空前的动力,并为生物信息学功能的充分发挥提供广阔的空间。文本将就EST技术的应用并就其在基因全长cDNA克隆上的应用作一较为详细的介绍。
1、ESTs与基因识别
EST技术最常见的用途是基因识别,传统的全基因组测序并不是发现基因最有效率的方法,这一方法显得即昂贵又费时。因为基因组中只有2%的序列编码蛋白质,因此一部分科学家支持首先对基因的转录产物进行大规模测序,即从真正编码蛋白质的mRNA出发,构建各种cDNA文库,并对库中的克隆进行大规模测序。Adams等提出的表达序列标签的概念标志着大规模cDNA测序时代的到来。虽然ESTs序列数据对不精确,精确度最高为97%,但实践证明EST技术可大大加速新基因的发现与研究。Medzhitov等通过果蝇黑胃TOLL蛋白进行dbEST数据库检索,该蛋白已证实在成熟果蝇抗真菌反应中发挥重要作用,通过同源分析的方法,找到相应的人类同源EST(登录号为H48602),这为接下来研究人类TOLL同源蛋白的功能提供了很好的条件。hMSH5基因是从酿酒酵母菌MSH5存在30%的一致性,它与hMSH4特异性相互作用,在减数分裂和精子发生过程中发挥一定的作用。由此可见,应用EST技术,可以跳过生物分类学的界限,从生物模型的已识别基因迅速克隆出人和小鼠基因组相应的更复杂的未知基因。生物间在核苷酸水平上的进货差异阻碍了传统意义上的杂交或以PCR为基础的基因克隆策略,即使是亲缘关系很接近的生物也不例外,如C.elegans和C.briggsae,它们仅在2~5千万年前分化形成。而通过计算机进行dbEST进行数据库筛选,其配制是电子杂交实验,提供了一条更为广泛的基因识别路线,这一路线允许基因组间存在差异,这使得基因识别与新基因克隆策略发生革命性变化,同时它也提供了一个足够大小和复杂的基因数据库,目前,ESTs数量正以平均每月10万条的速度递增。
2、ESTs和物理图谱构建
ESTs在多种以基因为基础的人和植物基因组物理图谱构建中扮演着重要角色。在这一应用中,从ESTs发展起来的PCR或杂交分析可用来识别YACs、BACs或其他含有大片段插入克隆类型的载体,它们是构建基因组物理图谱的基础,将EST与基因组物理图谱相比较即可辨认出含有剩余基因序列的基因组区间,包括调控基因表达的DNA控制元件,对这些元件进行分析就有可能获得对基因功能的详细了解。物理图谱与遗传图谱间的相互参考,形成一个用途更广泛的综合资源,获得这张综合图谱后,研究人员就可以孟德尔遗传特征为基础,将相关基因定位在基因组区间上,并且通过查询以ESTs为基础的苈图谱,即可获得这一区间上所有基因的名单。该综合资源用途的大小取决于EST数据库中拥有的基因数目。目前人和小鼠EST的不断扩充使其应用更加广泛和便捷。
3、ESTs和基因组序列注释
EST数据库并非完美无瑕,因为ESTs不能被剪切为单列序列位点识读,故精确度只能达到97%,另外,ESTS受制于表达倾向(expression bias),因为产生ESTs的cDNA是组织中丰富的mRNA以一定比例反转录而成,因此,表达水平很低的EST数据库中找到,而表达量高的基因在EST数据库中却过量存在。虽然可在起始mRNA或由它合成双链cDNA时进行富集,减小cDNA文库,但cDNA文库中仍存在大量高丰度的cDNA克隆。因此,一个理想的cDNA文库必须去除或尽量消除多科信息克隆的影响,这就涉及到cDNA文库的前加工技术;均等化(normalization),减少与丰富编码基因相关的cDNA数目;消减杂交(subtractive hybridization),应用序列标记cDNA识别并去除文库中多余的克降,这些技术的发展,使基因识别更依赖于EST技术,甚至可通过该技术获得精确的基因组DNA序列,在华盛顿大学基因组测序中心和Sanger中心的联合攻关下,C.elegans基因组10亿个碱基对的测序工作基本完成。因此ESTs是一系列基因寻找工具中不可缺少后部分,而这些工具都是基因组序列为基础的。EST技术关于基因组DNA序列的其他应用还包括对基因内含子、外是子排列的精确预测,选择性接合事件的识别,反常基因组排列结构的识别等。
4、ESTs与“电子”基因克隆
利用计算机来协助克隆基因,称为“电子”基因克隆(sillcon cloning),是与定位克隆、定位候选克隆策略并列的方法之一,即采用生物信息学的方法延伸EST序列,以获得基因部分乃至全长的cDNA序列。EST数据库的迅速扩张,已经并将继续导致识别与克隆新基因策略发生革命性变化。
4.1EST序列的获取
利用计算机来协助克隆的第一步是必须获得感兴趣的EST,在dbEST数据库中找出EST的最有途径是寻找同源序列,标准:长度≥100bp,同源性50%以上、85%以下。可通过数个万维网界而使用BLAST检索程度实现,其中最常用的如NCBI(National Center for Biotechnology Information)的eneBank、意大利Tigem的ESTmachine(包括EST提取者和EST组装机器)、THC(Tentative Human Consensus Sequences)数据库、ESTBlast检索程序——通过英国人类基因组作图项目资源中心(Human Genome Mapping Project Resource Center,HGMP—RC)服务器上访问。然后将检出序列组装为重叠群(contig),以此重叠群为被检序列,重复进行BLAST检索与序列组装,延伸重叠样系列,重复以上过程,直到没有更多的重叠EST检出或者说重叠群序列不能继续延伸,有时可获得全长的基因编码序列。获得这些EST序列数据后,再与GeneBank核酸数据库进行相似性检测,假如凤有精确匹配基因,将EST序列数据据EST六种阅读框翻译成蛋白质,接着与蛋白质序列数据库进行比较分析。基因分析的结果大致有三种:第一是已知基因,是研究对象为人类已鉴定和了解的基因;第二是以前未经鉴定的新基因;第三是未知基因,这部分基因之间无同种或异种基因的匹配。新基因和未知基因将进一步用于生物学研究。
4.2基因的电子定位
基因的电子定位采用NCBI的电子PCR程序进行检索,寻找EST序列上是否存在序列标签位点(sequence tagged sites,STS),STS作为基因组中的单拷贝序列,是新一代的遗传标记系统,其数目多,覆盖密度较大,达到平均每1kb一个STS或更密集。将寻找到的STS与相应的染色体相比较,即可将此序列定位在该染色体上。
4.3IMAGE克隆的索取
许多ESTs所对应的cDNA克隆可通过基因组及其表达的整合分子分析(intergrated molecular analysis of genomes and their expression,IMAGE)协定免疫索取,这与电子基因克隆相辅相成,IMAGE协定由美国LLNL国家实验室主持,宗旨是共享排列好的cDNA文库中的克隆重,大规模的EST测序项目如Merk&Cow公司投资的人类ESTs项目等都加入了IMAGE协定。当研究者通过另外的途径得到基因的部分序列,并通过同源性检索后发现该片段与加入IMAGE协定的EST序列高度同源时,便可免费索取其原始克隆,可通过美国的ATCC组织(American Type Culture Collection)索取,从而避免或减轻筛选全长基因的麻烦,以集中精力进行基因的功能研究。
5、结论
人类基因组计划已进入后基因组时代,基因组学的研究从结构基因组学过渡到功能基因组学,利用结构基因组学的同存数据,充分发挥EST技术的优势,将为大规模进行基因识别、克隆和表达分析提供空前的动力,为生物论处学功能的发挥提供广阔的空间。
关键词:EST技术;“电子”基因克隆;生物信息学;基因
摘要: 随着人类基因组计划的顺利进行,EST技术被广泛应用于基因识别、绘制基因表达图谱、寻找新基因等研究领域。利用人类基因组研究不断产生的数据,从ESTs即cDNA的部分序列入手,通过同源筛选,获得基因部分乃至全长cDNA序列,避免或减轻了构建与筛选cDNA文库等繁锁实验室工作。本文从原理、应用及其在科学研究上产生的影响等方面对EST技术进行了概述。
表达序列标签(expressed sequence tags,ESTs)是指从不同组织来源的cDNA序列。这一概念首次由Adams等于1991年提出。近年来由此形成的技术路线被广泛应用于基因识别、绘制基因表达图谱、寻找新基因等研究领域,并且取得了显著成效。在通过mRNA差异显示、代表性差异分析等方法获得未知基因的cDNA部分序列后,研究者都迫切希望克隆到其全长cDNA序列,以便对该基因的功能进行研究。克隆全长cDNA序列的传统途径是采用噬斑原位杂交的方法筛选cDNA文库,或采用PCR的方法,这些方法由于工作量大、耗时、耗材等缺点已满足不了人类基因组时代迅猛发展的要求。而随着人类基因组计划的开展,在基因结构、定位、表达和功能研究等方面都积累了大量的数据,如何充分利用这些已有的数据资源,加速人类基因克隆研究,同时避免重复工作,节省开支,已成为一个急迫而富有挑战性的课题摆在我们面前,采用生物信息学方法延伸表达序列标签(ESTs)序列,获得基因部分乃至全长cDNAycg,将为基因克隆和表达分析提供空前的动力,并为生物信息学功能的充分发挥提供广阔的空间。文本将就EST技术的应用并就其在基因全长cDNA克隆上的应用作一较为详细的介绍。
1、ESTs与基因识别
EST技术最常见的用途是基因识别,传统的全基因组测序并不是发现基因最有效率的方法,这一方法显得即昂贵又费时。因为基因组中只有2%的序列编码蛋白质,因此一部分科学家支持首先对基因的转录产物进行大规模测序,即从真正编码蛋白质的mRNA出发,构建各种cDNA文库,并对库中的克隆进行大规模测序。Adams等提出的表达序列标签的概念标志着大规模cDNA测序时代的到来。虽然ESTs序列数据对不精确,精确度最高为97%,但实践证明EST技术可大大加速新基因的发现与研究。Medzhitov等通过果蝇黑胃TOLL蛋白进行dbEST数据库检索,该蛋白已证实在成熟果蝇抗真菌反应中发挥重要作用,通过同源分析的方法,找到相应的人类同源EST(登录号为H48602),这为接下来研究人类TOLL同源蛋白的功能提供了很好的条件。hMSH5基因是从酿酒酵母菌MSH5存在30%的一致性,它与hMSH4特异性相互作用,在减数分裂和精子发生过程中发挥一定的作用。由此可见,应用EST技术,可以跳过生物分类学的界限,从生物模型的已识别基因迅速克隆出人和小鼠基因组相应的更复杂的未知基因。生物间在核苷酸水平上的进货差异阻碍了传统意义上的杂交或以PCR为基础的基因克隆策略,即使是亲缘关系很接近的生物也不例外,如C.elegans和C.briggsae,它们仅在2~5千万年前分化形成。而通过计算机进行dbEST进行数据库筛选,其配制是电子杂交实验,提供了一条更为广泛的基因识别路线,这一路线允许基因组间存在差异,这使得基因识别与新基因克隆策略发生革命性变化,同时它也提供了一个足够大小和复杂的基因数据库,目前,ESTs数量正以平均每月10万条的速度递增。
2、ESTs和物理图谱构建
ESTs在多种以基因为基础的人和植物基因组物理图谱构建中扮演着重要角色。在这一应用中,从ESTs发展起来的PCR或杂交分析可用来识别YACs、BACs或其他含有大片段插入克隆类型的载体,它们是构建基因组物理图谱的基础,将EST与基因组物理图谱相比较即可辨认出含有剩余基因序列的基因组区间,包括调控基因表达的DNA控制元件,对这些元件进行分析就有可能获得对基因功能的详细了解。物理图谱与遗传图谱间的相互参考,形成一个用途更广泛的综合资源,获得这张综合图谱后,研究人员就可以孟德尔遗传特征为基础,将相关基因定位在基因组区间上,并且通过查询以ESTs为基础的苈图谱,即可获得这一区间上所有基因的名单。该综合资源用途的大小取决于EST数据库中拥有的基因数目。目前人和小鼠EST的不断扩充使其应用更加广泛和便捷。
3、ESTs和基因组序列注释
EST数据库并非完美无瑕,因为ESTs不能被剪切为单列序列位点识读,故精确度只能达到97%,另外,ESTS受制于表达倾向(expression bias),因为产生ESTs的cDNA是组织中丰富的mRNA以一定比例反转录而成,因此,表达水平很低的EST数据库中找到,而表达量高的基因在EST数据库中却过量存在。虽然可在起始mRNA或由它合成双链cDNA时进行富集,减小cDNA文库,但cDNA文库中仍存在大量高丰度的cDNA克隆。因此,一个理想的cDNA文库必须去除或尽量消除多科信息克隆的影响,这就涉及到cDNA文库的前加工技术;均等化(normalization),减少与丰富编码基因相关的cDNA数目;消减杂交(subtractive hybridization),应用序列标记cDNA识别并去除文库中多余的克降,这些技术的发展,使基因识别更依赖于EST技术,甚至可通过该技术获得精确的基因组DNA序列,在华盛顿大学基因组测序中心和Sanger中心的联合攻关下,C.elegans基因组10亿个碱基对的测序工作基本完成。因此ESTs是一系列基因寻找工具中不可缺少后部分,而这些工具都是基因组序列为基础的。EST技术关于基因组DNA序列的其他应用还包括对基因内含子、外是子排列的精确预测,选择性接合事件的识别,反常基因组排列结构的识别等。
4、ESTs与“电子”基因克隆
利用计算机来协助克隆基因,称为“电子”基因克隆(sillcon cloning),是与定位克隆、定位候选克隆策略并列的方法之一,即采用生物信息学的方法延伸EST序列,以获得基因部分乃至全长的cDNA序列。EST数据库的迅速扩张,已经并将继续导致识别与克隆新基因策略发生革命性变化。
4.1EST序列的获取
利用计算机来协助克隆的第一步是必须获得感兴趣的EST,在dbEST数据库中找出EST的最有途径是寻找同源序列,标准:长度≥100bp,同源性50%以上、85%以下。可通过数个万维网界而使用BLAST检索程度实现,其中最常用的如NCBI(National Center for Biotechnology Information)的eneBank、意大利Tigem的ESTmachine(包括EST提取者和EST组装机器)、THC(Tentative Human Consensus Sequences)数据库、ESTBlast检索程序——通过英国人类基因组作图项目资源中心(Human Genome Mapping Project Resource Center,HGMP—RC)服务器上访问。然后将检出序列组装为重叠群(contig),以此重叠群为被检序列,重复进行BLAST检索与序列组装,延伸重叠样系列,重复以上过程,直到没有更多的重叠EST检出或者说重叠群序列不能继续延伸,有时可获得全长的基因编码序列。获得这些EST序列数据后,再与GeneBank核酸数据库进行相似性检测,假如凤有精确匹配基因,将EST序列数据据EST六种阅读框翻译成蛋白质,接着与蛋白质序列数据库进行比较分析。基因分析的结果大致有三种:第一是已知基因,是研究对象为人类已鉴定和了解的基因;第二是以前未经鉴定的新基因;第三是未知基因,这部分基因之间无同种或异种基因的匹配。新基因和未知基因将进一步用于生物学研究。
4.2基因的电子定位
基因的电子定位采用NCBI的电子PCR程序进行检索,寻找EST序列上是否存在序列标签位点(sequence tagged sites,STS),STS作为基因组中的单拷贝序列,是新一代的遗传标记系统,其数目多,覆盖密度较大,达到平均每1kb一个STS或更密集。将寻找到的STS与相应的染色体相比较,即可将此序列定位在该染色体上。
4.3IMAGE克隆的索取
许多ESTs所对应的cDNA克隆可通过基因组及其表达的整合分子分析(intergrated molecular analysis of genomes and their expression,IMAGE)协定免疫索取,这与电子基因克隆相辅相成,IMAGE协定由美国LLNL国家实验室主持,宗旨是共享排列好的cDNA文库中的克隆重,大规模的EST测序项目如Merk&Cow公司投资的人类ESTs项目等都加入了IMAGE协定。当研究者通过另外的途径得到基因的部分序列,并通过同源性检索后发现该片段与加入IMAGE协定的EST序列高度同源时,便可免费索取其原始克隆,可通过美国的ATCC组织(American Type Culture Collection)索取,从而避免或减轻筛选全长基因的麻烦,以集中精力进行基因的功能研究。
5、结论
人类基因组计划已进入后基因组时代,基因组学的研究从结构基因组学过渡到功能基因组学,利用结构基因组学的同存数据,充分发挥EST技术的优势,将为大规模进行基因识别、克隆和表达分析提供空前的动力,为生物论处学功能的发挥提供广阔的空间。