如何找到选择性剪接位点位置?
互联网
- 相关专题
- NCBI-做到最全最强大
举例说明如下。一个mRNA片段在基因库的登录号为BG334944。首先,登录http://www.NCBI .nlm.nih.gov/Entrez/,在NCBI的Entrez界面找到这个EST的核苷酸序列。在页面上部的对话框中键入登录号BG334944,下拉菜单中选择Nucleotide,点击Go。结果页面显示有关登录号BG334944的条目。为了在FASTA格式(一种生物学信息程序的常用格式)找到这个序列,在这个页面上把下拉菜单变成FASTA后点击Text,产生一个包含FASTA格式的序列的新页面,然后将序列拷贝下来。
为了确定这段序列在基因组 中的位置,使用UCSC的BLAT工具。登录http://genome.ucsc.edu/,将你的网页浏览器指到UCSC基因组浏览器的主页开始搜索。在页面一侧的蓝色框里,从Organism下拉菜单中选择Human,然后点击Blat。然后将从上面Entrez得到的FASTA格式的序列粘贴到BLAT搜索页面的大的文本框上。把Freeze下拉菜单变成Dec. 2001,将Query Type下拉菜单变成DNA,然后点击Submit。服务器将很快找出搜索结果:唯一与之匹配的是一段长为636bp的片段,位于9号染色体上,为正链。
为了得到更加详细的资料,在页面上条目的左边点击details链接,得到一个长的页面,界面包含三个部分:mRNA序列(上部),基因组 序列(中部)以及和基因组序列相对应的mRNA序列对齐比较。在序列对齐比较(alignment)图中,和cDNA及基因组序列匹配的碱基是用暗绿色的大写字母标记的。缺口用稍低的黑体字标记。淡蓝色稍高的碱基标记的是缺口两边序列对齐比较区域的结合部分,常常是剪接位点。
返回BLAT摘要页面搜索,点击browser。这将产生一个用图解说明特异性的mRNA序列在对应的基因组 序列上的位置。标记Chromosome Band(染色体带)的路径提示mRNA位于9q34.11。询问序列本身出现在标记有Your Sequence from BLAT Search的直线上。页面上显示的序列是不连续的:相似的区域显示为垂直线,缺口显示为细的水平线,排列的方向由箭头的方向表示。被查询的EST的比对排列区域对应于已知基因的外显子立即显示在线条的下面(Known Genes,在这里是RAB9P40)。在UCSC的搜索框内键入EST的名称BG334944,将会产生一个与上述点击browser相似的结果。这个例子的部分目的是阐述BLAT的用途。
大约图谱 向下到一半的位置是标记着Human ESTs That Have Been Spliced的路径(人类已经剪接的ESTs)。因为所有的ESTs都浓缩在一条线上,这个路径最初显示比较密集,所有的EST密集排列在一条直线上。点击该路径标记,可以看到这一区域内与基因组比对排列的所有EST,这些EST可能代表了具有不同剪接位点的转录物(抄本)。这将扩展这个图形的区域,所以每一个EST占据一条直线。ESTs的长度是可变的,但是大部分包含已知基因的相同的外显子并且(大概)以同样的方式剪接。仔细地检查并与已知基因相比较,提示有一些ESTs缺失了一个或多个外显子。留心查看标记了BE798864和W52533的线条,前者缺失第5外显子,而后者则缺失第4、5、6外显子。
通过点击特定的线条可以考察任何ESTs的详细资料。比如,点击BE798864所在的线条,可以得到这个EST的详细资料页面。这个EST与基因组序列有99.8%的同源性。在标记有EST/Genomic Alignments区域点击任何超链接线条都会返回到实际上的一个碱基挨一个碱基的排列。EST的末端可以不同,但是在推测有外显子缺失附近区域的序列是相同的。
当mRNA改变其编码的野生型蛋白质序列的时候,这个mRNA很可能存在生物学意义上的的选择性剪接。为了确定EST BE798864是否会编码不同于已知基因(RAB9P40)编码的蛋白质,我们可以用NCBI的BLAST 2 Sequences工具直接比较这两个序列。首先,打开一个新的浏览器窗口,因为上面的搜索资料在这儿也需要,当需要使用多个网页工具时,这样将避免过分使用浏览器的前进和后退键。然后从http://www.ncbi.nlm.nih.gov/BLAST登录BLAST主页。在Pairwise BLAST标题下选择BLAST 2 Sequences。在这个页面上,用户可以仅仅输入登录号而不用输入剪切和粘贴的序列进入对话框。
对于EST来说,仅在标有Enter accession or GI for Sequence 1的对话框中输入EST的登录号(BE798864)。获得RAB9P40的登录号需要返回前面的图解,然后点击基因路径。一旦这些都做好了,在标有Enter accession or GI for Sequence 2的对话框中输入基因的登录号(NM_005833)。确认Program下拉菜单设定在blastn(比较两个核苷酸序列),然后点击页面底部的Align键就会得到所示的比对排列图。序列1 (the EST)默认为查询序列,而序列2(已知基因)则被默认为目标序列。起始于第三行末端排列的已知基因翻译的蛋白序列也显示出来,检查这些排列发现这个EST缺失153个核苷酸(该mRNA第360–512核苷酸),对应于BE798864缺失的第5外显子。这个缺口在开放读码框架内,所以这个EST可以编码与已知基因具同源性但稍短的蛋白质。
由于EST序列测定的特点决定,ESTs经常包含测序错配率远远高于已经完成的基因组序列甚而基因组草图序列的错配率。但令人鼓舞的是EST BE798864在基因组序列上排列完好,其编码的蛋白质可能与已知基因编码的蛋白质具有相同的结构。另外,从UCSC图解来看,这个区域的其他ESTs如BE779110也会引起RAB9P40的第5外显子缺失。但是,所有这些预测都必须通过上面讲的EST–genomic排列质量来检验。最后的选择性剪接的证据当然还必须在实验室中才能找到。