通过自身计算的比对确立CNS
互联网
2558
通过自身计算的比对确立
CNS
1.用户递交的所有序列
mVISTA
(主要VISTA)是用来可视化分析来源于不同物种的任意长度的比对。VISTA是特异设计用于展示多达100个物种的“orthologous genes/regulatory regions”的比对。序列不能粘贴,只能以.txt的格式保存为FASTA文本。除此以外,用户可以为参考序列提供一个注释的文件,确定外显子、UTR等的位置。提供的第一个序列的注释可以应用到第二个序列的同源区。输出结果除了PDF文本的VISTA作图外,还包含满足特殊标准的两个序列中保守区域和一对一的比对结果。
zPicture(LLL)是比对两个输入序列最方便的方法。它是基于Blastz比对程式上的动态比对和可视化工具,可以有几种输入方式,如复制/粘贴、{asta文本、NCBI序列号,或从UCSCGenomeBrowser中上载序列和基因注释。输出结果包括几个不同的格式和动态的可视化工具来展示保守区域,并允许用户自行确立参数。同时,有直接的连接来递交比对到rVISTA进行分析。
2.用户直接递交参照序列
Genome VISTA(LBL)让用户进行自己递交的序列与几个全基因组的比较,它将自动找到直系同源,用户可以将自身的比对和其他物种的计算比对的结果进行比较。由于输入仅需粘贴用户的序列和选择基本基因组,结果可以通过VISTA文本浏览器或图形VISTA浏览器来展示。Genome VISTA分析通常花费很长时间,因此在VISTA浏览器中通过预计算的比对来寻找相关的区域要快得多。
3.预测在CNS中的保守转录因子结合位点
rVISTA(调控Vista,http://rvista.dcode.org/)可以结合转录因子结合位点数据库进行查询与比较序列分析,可以直接使用或通过mVISTA、基因组VISTA或VISTA浏览器。如果用户有2个未比对的序列,在使用rVISTA之前则应先递交到一个比对的程式(mVISTA,MAVID,高级PipMaker)rVISTA显示保守的TFBS,用户可以选择单个TFBS来查看或选择“stringencyvalues"(核心和矩阵相似性)。这一点很关键,如果设置太严格了的话,将产生一长串潜在的TFBS或很短的TFBS。“stringencysettings"的缺省设置是相当松的(Core 0.75 Matrix 0.7)。还有一些"minimize false positives/negatives”等选择设置,但这些选项可能太严格。如果用户想得到确切的位置数值和序列,使用在输出底部的连接"Summary Of data"。
multiTF可以用来确定跨多物种的转录因子保守位点。在multiTF搜寻中有两个不同的开始方法,MULAN使用起来更方便,由MULAN产生的多序列比对结果能够自动地递交到multiTF。使用multiTF和其输出结果都与rVISTA很相似,如用户可以设置参数来查找TFBS,TFBS能沿着序列动态地显示。同样,可以列出和展示所有的TFBS或只有那些跨所有分析物种的TFBS,用户还可以突出序列比对中的单个TFBS的位置。总的来说,MULAN和multiTF一起可以用来分析多物种的保守TFBS,相当于mVISTA―rVISTA系统,而rVISTA是用于两个物种间的TF预测。
MULAN/multiTF能与ECR浏览器相连接来使用。ECR浏览器是一个功能很强的工具,用来展示几个物种之间同线性大的基因组区域,同时可提出单个DNA序列(这些序列可以用来作为MULAN的输入)。最终multiTF可展示跨所有物种的保守转录因子结合位点。
JASPAR是一个搜集转录因子结合位点实验证据的数据库。这个数据库中罗列了一些已知的转录因子结合位点信息以及这些信息的实验证据和文章。根据这些转录结合位点的信息建立了相关的保守位点的打分矩阵,用户可以利用这些打分矩阵结合相关计算系统来确定新的序列中可能存在的相关转录因子的结合位点。
越来越多的实验证据表明,在生命活动过程中,相关基因的调控具有时空特异性,即同一基因在不同的组织、不同的发育时期可能利用不同的启动子,受到不同的转录因子的调控。因此,研究基因的转录调控网络就必须了解在某一特异组织和发育时期基因所利用的特异启动子。随着FANTOM3研究计划的进一步深入,利用Cap克隆技术对小鼠的启动子作了较深入的研究,积累了大量的数据,这些数据被存储在DBTSS的数据库(http://dbtss.hgc,jp/)中。这个数据库中同时还存储了人类基因的启动子数据,包括同一基因在不同组织和条件下可能的不同的启动子,为研究基因的调控提供了丰富的信息。
总之,随着新的高通量的实验技术及研究方法在生命科学研究领域的不断采用,生物实验数据的不断增加,为我们全方位地了解生命活动的规律打下了很好的基础。生物信息学利用各种信息学的手段对这些数据进行整合、分析、综合,力求在系统和整体水平上揭示细胞内基因调控的原理及蛋白质相互作用的实质,加速人类对生命活动规律的进一步认识。同时,生物体生命活动的复杂性也要求我们在研究过程中从系统出发,将各方面的信息有机地整合,以便发现20世纪还原式方法还无法完全探索的生命活动的一些新的规律,各种数据库中数据的有效利用将推动这个过程。