【共享】如何找到一个感兴趣的基因并确定其结构(转自基因治疗讨论版)
丁香园论坛
2439
From:
http://www.dxy.cn/bbs/post/view?bid=75&id=5304778&sty=1&tpg=1&age=0
1.国立生物技术信息中心(NCBI)图谱浏览器(Map Viewer)可以通过NCBI主页进入NCBI的人类图谱浏览器,网址为http://www.ncbi.nlm.nih.gov/。点击右栏标有“Human map viewer”的超级链接即可进入图谱浏览器的主页。页面上端的符号标明此为Build 29,或NCBI人类基因组的第29次数据装配。Build 29是以2002年4月5日的序列数据为基础而建立的。在它之前的基因组装配称为Build 28,以2001年12月24日的序列数据为基础而建立。想要寻找图谱上的任何信息,比如基因符号、基因库的登录号、标记物名称或疾病名称,只需在“Search for”窗口输入相应的术语名,然后点击“Find”即可。例如,输入“ADAM2”然后点“Find”。而染色体栏“on chromosome”的窗口会空出以进行基于文本的查找。
结果,浏览器的页面显示了所有人类染色体的示意图,并用指针指出ADAM2在第8号染色体短臂上的位置。搜寻结果表明基因存在于两种NCBI图谱上,Genes_cyto和Genes_seq。Genes_cyto指细胞遗传学图谱,而Genes_seq指序列图谱,点击任易一种链接将打开相应的图谱。
这方面及其它NCBI图谱的详细介绍可通过http://www.ncbi.nlm.nih.gov/PMGifs/Genomes/humansearch.html.进行查找。若需要了解关于ADAM2更多的情况包括所有可利用的图谱,点击“Map element”内相应的选项(本例为ADAM2),将会显示ADAM2及少数8p11.2上的相邻序列。三种图谱都将在本视图显示并将在下面进行详细说明,其它例子所用的图谱可通过Maps & Options附加到本视图。
最右边的图谱为主要图谱,此图谱提供了最详细的资料。本例中的主要图谱即为Genes_seq(基因序列)图谱,描述了ADAM2的内含子/外显子组成,是通过ADAM2 mRNA在基因组上的序列对齐比较(alignment)而建立的。此基因有14个外显子。在ADAM2基因符号旁的箭头(粉红色区域内)显示了基因转录的方向。基因符号本身与LocusLink相链接,这是一类NCBI资源,可提供有关此基因的大量信息,包括别名、核苷酸及蛋白质序列,并与其它资源相链接(见问题10)。基因符号右侧的链接指向了有关此基因的附加信息。
sv,或称序列浏览,表明基因在基因组克隆重叠群(contig)上的位置,包括核酸和编码的蛋白质序列。
ev给使用者提供证据浏览,显示了支持某特定基因模型的生物学证据。这个视图显示所有的标准序列模型(RefSeq)、基因库mRNAs(GenBank mRNAs)、转录子(无论注解的、已知的或潜在的)及与基因组contig进行序列对齐比较的表达序列标签(ESTs)。证据浏览更多的信息可通过点击任意证据浏览页上的Evidence Viewer Help链接进入NCBI网页查询。
hm为NCBI的人-小鼠同源图谱的链接,显示人类和小鼠之间同源的基因组序列。
seq允许使用者以文本格式重新获取某一区域的基因组序列,序列显示的区域可很容易地进行替换。
mm为Model Maker的链接,显示当GenBank mRNAs、ESTs及基因预测与基因组序列对齐比较时的外显子。随后使用者即可选择特定的外显子创建一个用户化的基因模式。有关Model Maker的更多的信息可通过点击任一mm页上的“help”栏进入NCBI主页获得。
UniG_Hs图谱显示已经与基因组进行序列对齐比较的人类UniGene簇。灰色的柱状图描述了比对的ESTs的数目,而蓝色线条显示了UniGene簇在基因组中的定位。深蓝色线是进行序列对齐比较的区域(即外显子),浅蓝色划线则表示潜在的内含子。在此例中UniGene簇Hs.177959在基因组中的定位跟随着ADAM2和所有的外显子。
Genes_cyto图谱显示了基因在细胞遗传学图谱中的位置,橙色条带显示基因位置。尽管ADAM2已被很好地定位,并以一条短线表现出来,其它的基因比如它后面一条长线上成组的基因也被按照细胞遗传学定位于第8号染色体上较宽的区域。
点击蓝色工具条上的缩放控制区可进行缩小,利于使用者观察第8号染色体较大的区域。缩小一个水平可显示1/100的染色体区域,在此区域共有20条基因,20条基因均可被显示。ADAM2基因在所有图谱上的区域均以红色突出。在Genes_seq图谱上ADAM2定位于ADAM18及LOC206849之间。
2. UCSC(University of California,Santa Cruz)基因组浏览器
UCSC基因组浏览器的主页为http://genome.ucsc.edu/。目前,UCSC不仅提供最新版的小鼠和人类基因组数据,同时也提供许多较早的汇编。使用基因组浏览器时,先在窗口上方蓝色工具条的下拉式菜单中选择相应的生物体(本例为Human),然后点击标有Browser的链接。在结果页,选择相应的人类数据汇编版本进行阅读。2001年8月的基因组浏览器建立于UCSC使用在当时所能获得的序列数据建立的人类基因组汇编。2001年12月的浏览器显示了对NCBI的人类基因组build 28的注解。而2002年4月的浏览器显示了对NCBI的build 29的注解。因为最近的这个人类资料汇编的注解不及2001年12月的汇编全面,所以本文所列举的例子来自较早的汇编。在下拉式菜单中选择“Dec. 2001”从数据库获得汇编资料。
查询所支持的类型列于文本输入框下面。在标有“position”处输入“ADAM2”然后点击“Submit”项。查找的结果以两种类别显示,分别为“Known Genes”和“mRNA Associated Search Results”。标有“Known Genes”的部分显示了将NCBI的参考mRNA序列定位到基因组中。“mRNA Associated Search Results”则代表了GenBank的其它mRNA序列定位到基因组中。点击“Known Genes”与ADAM2的链接可见ADAM2 mRNA参考序列在基因组的状况(NM_001464)。
放大视图显示第8号染色体基因组序列从36234934到36280132碱基的区域,位于8p12。标记为Known Genes (来自RefSeq)的蓝色路径显示已知基因的内含子和外显子结构。垂直框表示外显子而水平线则为内含子。ADAM2基因似乎具有14个外显子,转录的方向由内含子上的箭头示意。标记有Acembly Gene Predictions, Ensembl Gene Predictions和Fgenesh++ Gene Predictions的路径为基因预测的结果(见问题7)。其它数据库核酸序列的对齐比较显示在GenBank的Human mRNAs、spliced EST、UniGene和来自于GenBank路径中的Nonhuman mRNAs。小鼠和Tetraodon基因序列翻译后的序列对齐比较在小鼠和鱼BLAT路径内。显示单核苷酸多态性(SNPs)、重复元件及微阵排列数据的路径列于页面底部。关于每个路径附加的细节可通过选择位于底部的Track Controls中的路径名获得。
查看ADAM2前后基因序列,点击位于右上角的“zoom out”框进行缩小,ADAM2位于TEM5和ADAM18之间。
3. Ensembl网站Ensembl项目网站
(http://www.ensembl.org/)为四个物种:人类、小鼠、斑马鱼(zebrafish)和蚊子提供基因组浏览器。点击“Human”以查看人类基因组的主要条目。目前人类Ensembl的版本为6.28.1,是以NCBI基因组Build 28为基础而建立的。欲进行搜索可在文本框中输入“ADAM2”并通过在下拉式菜单中选择“Gene”以限定搜索范围,点击上方标有“Lookup”的按钮,点击与ADAM2基因的链接可返回单独的结果。
点击与ADAM2的链接可重新回到GeneView窗口,此页包含四个部分的数据,第一部份为ADAM2的概貌,包括基因登录号,蛋白质结构域和家族的相关链接。链接Ensembl查看高度同源的小鼠序列可在“Homology Matches”部分获得,以后的例子会在这方面作出更详细的介绍。GeneView窗的第二部份,提供有关基因转录子的信息,cDNA序列被列出,其内含子和外显子结构以图表表示,同时在此基因前后位置附近有限数量的基因也以图表形式表示出来。外显子序列在GeneView中的第三部份显示,剪接位点显示于第四部份。如果预计基因具有不止一个转录子,则每个转录子拥有各自的转录产物、外显子和剪接位点部分。
ADAM2完整的前后基因组序列内容可通过返回GeneView的第一部份和点击“Genomic Location”框中的链接来查看。所出现的ContigView框的顶端部分描述了染色体,其中最为关键的部分以红色标示。此浏览显示了此基因的基因组前后序列,包括染色体条带、contigs、标志和在图上靠近8p12的基因。点击任意这些项目可显示相关内容,感兴趣的部分在DNA图谱上以红色标记。由Ensembl注释的ADAM2附近的基因为Q96KB2和ADAM18。
ContigView页的底部即Detailed View,是一个放大了的区域,标示出已经定位于此区域的人类基因组所有特征。Overview和Detailed View之间的浏览器按钮将视图从左至右移动以及放大和缩小。所显示的内容可通过选择“Features”的下拉式菜单进行移动以选取需要查看的内容。
所显示的内容为默认值,DNA(contigs)图谱将正链(上方)上的条目从反链(下方)分开,此处反链的唯一特征为GENSCAN基因预测程序提出(见问题7)的单一的Genscan转录子。正链表现出了5种特征。从底部开始,ADAM2转录子显示为红色,提示其为一个已知的转录子,对应于接近全长的cDNA序列、蛋白质序列或在公共数据库中两者均可得到的转录子。黑色转录子通过EST或蛋白质序列的类似性预测。“EST Transcr”链接于独立的ESTs序列对齐比较,而靠近顶端的UniGene路径显示了UniGene簇。正链上的Genscan模式包含了在已知的转录子中发现的外显子。“Proteins and Human proteins”框指出与本版本的基因组进行序列对齐比较的蛋白质序列。而“NCBI Transcr”链接于NCBI Map Viewer。将计算机鼠标放置于任一特征位置则可显示此特征名称,并可链接到更为详细的信息。
NCBI、UCSC及Ensembl有时对同一基因使用不同的符号,所以通过不同的浏览器获得的信息难以进行比较,此外,这3个站点保留了独立的注解途径,并且都未尝试将相同的mRNA序列排列到基因组中。NCBI目前显示build 29, Ensembl显示build28,而UCSC则提供build 28(2001.12.)和build 29(2002.04.)。尽管在本指南中所有UCSC的例子都将推荐使用注解较好的build 28。因为两种汇编数据之间存在的差异,在NCBI、UCSC及Ensembl中显示的数据就存在极小的差别,但在这3个站点中自由地穿梭仍然是很容易的。例如NCBI可通过LocusLink人类基因入口上方的黑色框链接UCSC和Ensembl,而Ensembl指导NCBI和UCSC使用者通过“Jump to”链接于它的“ContigView”。UCSC基因组浏览器的一些版本有与Ensembl和NCBI的Map Viewer的链接,链接点位于浏览页顶部的蓝框内。
http://www.dxy.cn/bbs/post/view?bid=75&id=5304778&sty=1&tpg=1&age=0
1.国立生物技术信息中心(NCBI)图谱浏览器(Map Viewer)可以通过NCBI主页进入NCBI的人类图谱浏览器,网址为http://www.ncbi.nlm.nih.gov/。点击右栏标有“Human map viewer”的超级链接即可进入图谱浏览器的主页。页面上端的符号标明此为Build 29,或NCBI人类基因组的第29次数据装配。Build 29是以2002年4月5日的序列数据为基础而建立的。在它之前的基因组装配称为Build 28,以2001年12月24日的序列数据为基础而建立。想要寻找图谱上的任何信息,比如基因符号、基因库的登录号、标记物名称或疾病名称,只需在“Search for”窗口输入相应的术语名,然后点击“Find”即可。例如,输入“ADAM2”然后点“Find”。而染色体栏“on chromosome”的窗口会空出以进行基于文本的查找。
结果,浏览器的页面显示了所有人类染色体的示意图,并用指针指出ADAM2在第8号染色体短臂上的位置。搜寻结果表明基因存在于两种NCBI图谱上,Genes_cyto和Genes_seq。Genes_cyto指细胞遗传学图谱,而Genes_seq指序列图谱,点击任易一种链接将打开相应的图谱。
这方面及其它NCBI图谱的详细介绍可通过http://www.ncbi.nlm.nih.gov/PMGifs/Genomes/humansearch.html.进行查找。若需要了解关于ADAM2更多的情况包括所有可利用的图谱,点击“Map element”内相应的选项(本例为ADAM2),将会显示ADAM2及少数8p11.2上的相邻序列。三种图谱都将在本视图显示并将在下面进行详细说明,其它例子所用的图谱可通过Maps & Options附加到本视图。
最右边的图谱为主要图谱,此图谱提供了最详细的资料。本例中的主要图谱即为Genes_seq(基因序列)图谱,描述了ADAM2的内含子/外显子组成,是通过ADAM2 mRNA在基因组上的序列对齐比较(alignment)而建立的。此基因有14个外显子。在ADAM2基因符号旁的箭头(粉红色区域内)显示了基因转录的方向。基因符号本身与LocusLink相链接,这是一类NCBI资源,可提供有关此基因的大量信息,包括别名、核苷酸及蛋白质序列,并与其它资源相链接(见问题10)。基因符号右侧的链接指向了有关此基因的附加信息。
sv,或称序列浏览,表明基因在基因组克隆重叠群(contig)上的位置,包括核酸和编码的蛋白质序列。
ev给使用者提供证据浏览,显示了支持某特定基因模型的生物学证据。这个视图显示所有的标准序列模型(RefSeq)、基因库mRNAs(GenBank mRNAs)、转录子(无论注解的、已知的或潜在的)及与基因组contig进行序列对齐比较的表达序列标签(ESTs)。证据浏览更多的信息可通过点击任意证据浏览页上的Evidence Viewer Help链接进入NCBI网页查询。
hm为NCBI的人-小鼠同源图谱的链接,显示人类和小鼠之间同源的基因组序列。
seq允许使用者以文本格式重新获取某一区域的基因组序列,序列显示的区域可很容易地进行替换。
mm为Model Maker的链接,显示当GenBank mRNAs、ESTs及基因预测与基因组序列对齐比较时的外显子。随后使用者即可选择特定的外显子创建一个用户化的基因模式。有关Model Maker的更多的信息可通过点击任一mm页上的“help”栏进入NCBI主页获得。
UniG_Hs图谱显示已经与基因组进行序列对齐比较的人类UniGene簇。灰色的柱状图描述了比对的ESTs的数目,而蓝色线条显示了UniGene簇在基因组中的定位。深蓝色线是进行序列对齐比较的区域(即外显子),浅蓝色划线则表示潜在的内含子。在此例中UniGene簇Hs.177959在基因组中的定位跟随着ADAM2和所有的外显子。
Genes_cyto图谱显示了基因在细胞遗传学图谱中的位置,橙色条带显示基因位置。尽管ADAM2已被很好地定位,并以一条短线表现出来,其它的基因比如它后面一条长线上成组的基因也被按照细胞遗传学定位于第8号染色体上较宽的区域。
点击蓝色工具条上的缩放控制区可进行缩小,利于使用者观察第8号染色体较大的区域。缩小一个水平可显示1/100的染色体区域,在此区域共有20条基因,20条基因均可被显示。ADAM2基因在所有图谱上的区域均以红色突出。在Genes_seq图谱上ADAM2定位于ADAM18及LOC206849之间。
2. UCSC(University of California,Santa Cruz)基因组浏览器
UCSC基因组浏览器的主页为http://genome.ucsc.edu/。目前,UCSC不仅提供最新版的小鼠和人类基因组数据,同时也提供许多较早的汇编。使用基因组浏览器时,先在窗口上方蓝色工具条的下拉式菜单中选择相应的生物体(本例为Human),然后点击标有Browser的链接。在结果页,选择相应的人类数据汇编版本进行阅读。2001年8月的基因组浏览器建立于UCSC使用在当时所能获得的序列数据建立的人类基因组汇编。2001年12月的浏览器显示了对NCBI的人类基因组build 28的注解。而2002年4月的浏览器显示了对NCBI的build 29的注解。因为最近的这个人类资料汇编的注解不及2001年12月的汇编全面,所以本文所列举的例子来自较早的汇编。在下拉式菜单中选择“Dec. 2001”从数据库获得汇编资料。
查询所支持的类型列于文本输入框下面。在标有“position”处输入“ADAM2”然后点击“Submit”项。查找的结果以两种类别显示,分别为“Known Genes”和“mRNA Associated Search Results”。标有“Known Genes”的部分显示了将NCBI的参考mRNA序列定位到基因组中。“mRNA Associated Search Results”则代表了GenBank的其它mRNA序列定位到基因组中。点击“Known Genes”与ADAM2的链接可见ADAM2 mRNA参考序列在基因组的状况(NM_001464)。
放大视图显示第8号染色体基因组序列从36234934到36280132碱基的区域,位于8p12。标记为Known Genes (来自RefSeq)的蓝色路径显示已知基因的内含子和外显子结构。垂直框表示外显子而水平线则为内含子。ADAM2基因似乎具有14个外显子,转录的方向由内含子上的箭头示意。标记有Acembly Gene Predictions, Ensembl Gene Predictions和Fgenesh++ Gene Predictions的路径为基因预测的结果(见问题7)。其它数据库核酸序列的对齐比较显示在GenBank的Human mRNAs、spliced EST、UniGene和来自于GenBank路径中的Nonhuman mRNAs。小鼠和Tetraodon基因序列翻译后的序列对齐比较在小鼠和鱼BLAT路径内。显示单核苷酸多态性(SNPs)、重复元件及微阵排列数据的路径列于页面底部。关于每个路径附加的细节可通过选择位于底部的Track Controls中的路径名获得。
查看ADAM2前后基因序列,点击位于右上角的“zoom out”框进行缩小,ADAM2位于TEM5和ADAM18之间。
3. Ensembl网站Ensembl项目网站
(http://www.ensembl.org/)为四个物种:人类、小鼠、斑马鱼(zebrafish)和蚊子提供基因组浏览器。点击“Human”以查看人类基因组的主要条目。目前人类Ensembl的版本为6.28.1,是以NCBI基因组Build 28为基础而建立的。欲进行搜索可在文本框中输入“ADAM2”并通过在下拉式菜单中选择“Gene”以限定搜索范围,点击上方标有“Lookup”的按钮,点击与ADAM2基因的链接可返回单独的结果。
点击与ADAM2的链接可重新回到GeneView窗口,此页包含四个部分的数据,第一部份为ADAM2的概貌,包括基因登录号,蛋白质结构域和家族的相关链接。链接Ensembl查看高度同源的小鼠序列可在“Homology Matches”部分获得,以后的例子会在这方面作出更详细的介绍。GeneView窗的第二部份,提供有关基因转录子的信息,cDNA序列被列出,其内含子和外显子结构以图表表示,同时在此基因前后位置附近有限数量的基因也以图表形式表示出来。外显子序列在GeneView中的第三部份显示,剪接位点显示于第四部份。如果预计基因具有不止一个转录子,则每个转录子拥有各自的转录产物、外显子和剪接位点部分。
ADAM2完整的前后基因组序列内容可通过返回GeneView的第一部份和点击“Genomic Location”框中的链接来查看。所出现的ContigView框的顶端部分描述了染色体,其中最为关键的部分以红色标示。此浏览显示了此基因的基因组前后序列,包括染色体条带、contigs、标志和在图上靠近8p12的基因。点击任意这些项目可显示相关内容,感兴趣的部分在DNA图谱上以红色标记。由Ensembl注释的ADAM2附近的基因为Q96KB2和ADAM18。
ContigView页的底部即Detailed View,是一个放大了的区域,标示出已经定位于此区域的人类基因组所有特征。Overview和Detailed View之间的浏览器按钮将视图从左至右移动以及放大和缩小。所显示的内容可通过选择“Features”的下拉式菜单进行移动以选取需要查看的内容。
所显示的内容为默认值,DNA(contigs)图谱将正链(上方)上的条目从反链(下方)分开,此处反链的唯一特征为GENSCAN基因预测程序提出(见问题7)的单一的Genscan转录子。正链表现出了5种特征。从底部开始,ADAM2转录子显示为红色,提示其为一个已知的转录子,对应于接近全长的cDNA序列、蛋白质序列或在公共数据库中两者均可得到的转录子。黑色转录子通过EST或蛋白质序列的类似性预测。“EST Transcr”链接于独立的ESTs序列对齐比较,而靠近顶端的UniGene路径显示了UniGene簇。正链上的Genscan模式包含了在已知的转录子中发现的外显子。“Proteins and Human proteins”框指出与本版本的基因组进行序列对齐比较的蛋白质序列。而“NCBI Transcr”链接于NCBI Map Viewer。将计算机鼠标放置于任一特征位置则可显示此特征名称,并可链接到更为详细的信息。
NCBI、UCSC及Ensembl有时对同一基因使用不同的符号,所以通过不同的浏览器获得的信息难以进行比较,此外,这3个站点保留了独立的注解途径,并且都未尝试将相同的mRNA序列排列到基因组中。NCBI目前显示build 29, Ensembl显示build28,而UCSC则提供build 28(2001.12.)和build 29(2002.04.)。尽管在本指南中所有UCSC的例子都将推荐使用注解较好的build 28。因为两种汇编数据之间存在的差异,在NCBI、UCSC及Ensembl中显示的数据就存在极小的差别,但在这3个站点中自由地穿梭仍然是很容易的。例如NCBI可通过LocusLink人类基因入口上方的黑色框链接UCSC和Ensembl,而Ensembl指导NCBI和UCSC使用者通过“Jump to”链接于它的“ContigView”。UCSC基因组浏览器的一些版本有与Ensembl和NCBI的Map Viewer的链接,链接点位于浏览页顶部的蓝框内。