手把手教你预测基因的 G4 联体序列
丁香园
如果要验证某一个基因是否有形成 G4 联体的可能性,首先需要在其序列上找到富含 G 序列的片段,而最有可能形成 G4 联体的区域包括启动子区、5' 非编码区,所以我们的查找范围就锁定在以上两个区域。找到所需序列之后再借助工具分析找到富含 G 序列的片段。
1
首先在 genecards 上搜索你需要的基因,这里以 MYC 基因为例。点击查找到的第一个基因。
2
点进去就是这个页面啦,找到基因的编码链序列,就是大家都知道的 NC 号了。
3
然后跳转到 NCBI 的页面,接下来就要去找我们需要的两段序列了,可以看到该基因的序列位于染色体上的位子 127735434-127741434。
4
首先找到 5' 非编码区,就是 mRNA 到 CDS 之间的这一段,位于第一个外显子里面,一般认为转录起始位点往前 2kb 左右是启动子区。(这里 MYC 基因的启动子跟 G4 联体所在的位置已经被证实,这里所说的 2kb 是针对启动子未知基因。)
接下来计算一下我们需要的片段位于染色体上的位子
127735434-(2000-636)-1 = 127734069
127735434+1161-1 = 127736594
所以我们需要的序列是从 127734069 到 127736594,将这两个数值填入,点击上面的 update view,再将 show reverse complement 的勾打上,点击 update view,显示的序列就是我们需要的模板链序列了(下拉,序列在页面下面)。
5
得到序列之后,我们需要用到一个在线预测平台,大名叫做 QGRS Mapper,只需要把序列贴进去,点击 analyze 就 ok 啦。
6
可以按照需求设置连续 G 的个数(Min G-group),连续 G 之间的间隔碱基数(loop size),我这里是按照经典模型 G3N(1-7)G3N(1-7)G3N(1-7)G3 设置的,结果一秒就出来了,非常之迅速,如下:
7
找到符合要求的序列有 3 段,这也是评分值最高的三段,加上重叠部分排列组合之后可以有 87 种可能。现在只是初步筛选出来可能形成 G4 联体的序列,至于到底能不能形成还需要实验验证。点击 sequence view 可以看到序列位置,分析结果自动填色加下划线。
可以在以上红框中找到下图中已证实的 MYC 基因的 G4 联体序列。
以上就是基因 G4 联体序列预测的全过程啦!
有同学可能会有疑问,怎么跟预测到的形成 G4 联体的序列不是完全一致呢?还有其他两段序列呢?因为这只是预测嘛,所以人家只是帮你找到可能性的序列,到底行不行还得有后续的实验证明才行的!
不知道做 G4 联体的朋友多不多,我也是这几天才接触的,经过几天的摸索总结出预测 G4 联体序列的方法,以后大家多多交流!