蛋白质家族分析
互联网
4411
蛋白质家族分析
USCS Gene Sorter是一个很好的探索基因家族及其相关性的资源。这个工具以表格形式展示所选择的基因组中具有相关性的一些基因,可以进行几个不同层面的相关性分析,如蛋白质水平的同源性、基因表达谱
的相似性或邻近基因。这个浏览器支持以不同的词组和术语的查询,包括基因名称、Swiss―Prot、蛋白质名称、GenBank的序列号,以及基因描述中的词组或术语。基因家族的展示可以灵活配置,用户可以设置列的数目和顺序、行的数量以及展示的基因。用户可利用"sortbyproteinhomology"来展示所选择的物种的同源性基因;通过"Configure",用户还可以展示来源于一系列物种,如大鼠、斑马鱼、果蝇、线虫和酵母等中的基因直系同源系。这个程式可提供好几种不同的输出格式,展示的序列还可以下载。
Ensembl同样提供查询蛋白质家族的工具。首先,用户须拿到感兴趣的基因数据,这可以通过Text View或BLAST比对得到。在这个过程中,用户最好查询“All"索引,而不是“Family"的索引。在"Ensembl Gene Report"中,用户最有可能找到的是来自于其他物种的“通过交互BLAST分析所确定的预测的同源基因”。在"Transcript Summary"中,用户常常会看到与一个预测的"ProteinFamily"的连接,它具有特异的"ENSF"序列号。通过这些连接,用户可以得到一列多序列比对的蛋白质序列,并可以通过不同的选择(Clustal、
FASTA、MSF等)下载这些序列。
Pram是一个通过多序列比对和隐马可夫模型分析得来,包括很多个公共蛋白质功能域的数据库,是基于隐马可夫模型的蛋白质家族的集合体。Pram模型限制了模型之间没有重叠,主要是描述功能域而不是全长的蛋白质。对于在Pfam中的每一个家族,用户都可以查看多序列比对、蛋白质功能域的构架和检测功能域的分布,观察已知蛋白质的结构,通过连接浏览其他数据库。Pram由两部分组成:Pfam―A是Pram中经人工注释的功能域,目前一共有7 255蛋白质家族;而Pram―B是通过程式自动产生的,它包括大量的从PRODOM数据库来的而未与Pfaro―A重叠的小的功能域家族。当没有Pram―A家族信息时,Pram―B家族也可提供一定的帮助。有几种方法可以查询Pram,如通过蛋白质序列搜寻、DNA序列搜寻或关键词搜寻等,以此可以查询到一系列相关的Pfam―A和Pram―B。
超家族:是在超家族水平上对蛋白质序列提供结构分类的工具,它目前不区分超家族内的各个家族,但可以在超家族水平检测到更广更远距离的关系。一个超家族包含了结构证据来源于一个共同祖先的所有蛋白质。这个系统可以通过3种方式进入,即通过序列(搜寻库)、从超家族开始(从SCOP选择),或通过基因组。