蛋白质功能预测
丁香园论坛
10430
蛋白质功能预测
一、根据序列预测功能的一般过程
如果序列重叠群(contig)包含有蛋白质编码区,则接下来的分析任务是确定表达产物——蛋白质的功能。蛋白质的许多特性可直接从序列上分析获得,如疏水性,它可以用于预测序列是否跨膜螺旋(transmenbrane helix)或是前导序列(leader sequence)。但是,总的来说,我们根据序列预测蛋白质功能的唯一方法是通过数据库搜寻,比较该蛋白是否与已知功能的蛋白质相似。有2条主要途径可以进行上述的比较分析:
①比较未知蛋白序列与已知蛋白质序列的相似性;
②查找未知蛋白中是否包含与特定蛋白质家族或功能域有关的亚序列或保守区段。
图6.1给出了根据序列预测蛋白质功能的大致过程。由于涉及数条技术路线,所得出的分析结果并不会总是相一致。一般来说,数据库相似性搜索获得的结果最为可靠,而来自PROSITE的结果相对不可靠。
二、通过比对数据库相似序列确定功能
具有相似序列的蛋白质具有相似的功能。因此,最可靠的确定蛋白质功能的方法是进行数据库的相似性搜索。具体的搜索方法可参见第三章,但应记住,一个显著的匹配应至少有25%的相同序列和超过80个氨基酸的区段。
已有不少种类的数据库搜索工具,它们或者搜索速度慢,但灵敏;或者快速,但不灵敏。快速搜索工具(如BLASTP)很容易发现匹配良好的序列,所以没有必要再运行更花时的工具(如FASTA、BLITZ);只有在诸如BLASTP不能发现显著的匹配序列时,这些工具才被使用。所以,一般的策略是首先进行BLAST检索,如果不能提供相关结果,运行FASTA;如果FASTA也不能得到有关蛋白质功能的线索,最后可选用完全根据Smith-Waterman算法设计的搜索程序,例如BLITZ(www.ebi.ac.uk/searches/blitz.html)。BLITZ不做近似估计(BLAST和FASTA根据Smith-Waterman算法做近似估计),所以很花时,但非常灵敏。通常诸如BLITZ的程序能够发现超过几百个残基但序列相同比率低于20~25%的匹配,这些匹配可能达到显著,但会被那些应用近似估计的程序错过。
还应注意计分矩阵(scoring matrix)的重要性。选用不同的计分矩阵有不少重要原因:首先,选用的矩阵必须与匹配水平相一致,例如,PAM250应用于远距离匹配(<25%相同比率),PAM40应用于不很相近的蛋白质序列,而BLOSUM62是一个通用矩阵;第二,使用不同矩阵,可以发现始终出现的匹配序列,这是一条减少误差的办法。
预测蛋白质功能
整理所有肯定的结果并核对一致性
查对BLOCKS和PRINTS数据库
查对PROSITE数据库
未知序列是否包含保守序列模序是否未知蛋白质序列与已知功能的蛋白质相似确定跨膜螺旋、卷曲螺旋和前导序列
二、序列特性:疏水性、跨膜螺旋等
许多功能可直接从蛋白质序列预测出来。例如,疏水性信息可被用于跨膜螺旋的预测。还有不少小的模序(motif)是细胞用于特定细胞区室(cell compartment)蛋白质的定向。网上有大量数据资源帮助我们利用这些特性预测蛋白质功能。
疏水性信息可用ExPASy(http://expasy.hcuge.ch/egibin/protscal.pl)的ProtScale程序创建并演示。这是一个很有用的工具,它能计算超过50种蛋白质的特性。程序的输入即可通过输入框将序列粘贴进去,也可输入SWISS-PROT的记录号。仅一项需要额外设定的参数是输入框的宽度,该参数将指示系统每次运行计算和显示的残基数,其缺省值为9。如果想考虑跨膜螺旋特性,该参数设置应为20,因为一个跨膜螺旋通常有20个氨基酸长度。图6.2是ProtScal程序的一个典型结果显示格式。
有多种方法可以预测序列的跨膜螺旋。最简单的方法是通过查找包含有20个疏水残基的区段,一些更复杂、更准确的算法不仅可以预测跨膜螺旋的位置,还能确定其在膜上的方向。这些方法都依赖于一系列已知跨膜螺旋特性的研究结果。TMbase是一个自然发生的跨膜螺旋数据库(http://ulrec3.unil.ch/tmbase/TMBASE_doc.html)。相关的一些程序:TMPRED (http://ulrec3.unil.ch/software/TMPRED-form.html)、PHDhtm (www.embl_heidelberg.de/services/sander/predictprotein/predictprotein.html)、TMAP (http://www.embl-heidelberg.de/tmap/tmap/tmap_sin.html)和MEMSAT (ftp.biochem.ucl.ac.uk)。这些程序将使用了不同的统计模型,总体上,预测准确率在80~95%左右。跨膜螺旋是可以根据序列数据比较准确预测的蛋白质特性之一。
预测前导序列或特殊区室靶蛋白信号的程序:SignalP (http://www.cbs.dtu.dk/services/SignalP)和PSORT (http://psort.nibbac.jp/form.html)。另一个可从序列中确定的功能模序是卷曲(coil)螺旋。在这一结构中,二个螺旋由于疏水作用而缠绕在一起形成非常稳定的结构。相关的2个程序:COILS (http://ulrec3.unil.ch/software/COILS_form.html)和Paircoil (http://ostrich.lcs.mit.edu/cgi-bin/score)。
四、通过比对模序数据库等确定功能
经常会出现这样的情况:通过列线,未知蛋白质序列与数据库内已知功能的序列均相差较大,找不到可靠的匹配结果,相反,也许会发现与某一不知功能的序列相匹配。对于这一情况,仍然可以用生物信息学工具进行一些分析。
蛋白质不同区段的进化速率不同:蛋白质的一些部分必须保持一定的残基模式以保持蛋白质的功能,通过确定这些保守区域,有可能为蛋白质功能提供线索。例如,有许多短序列可以识别蛋白质活性位点或结合区域。整联蛋白(integrin)受体识别RGD或LDV配体模序(motif),如果未知序列中包含有RGD模序,则可推测未知序列的一个功能可能是结合整联蛋白。这样的推测并不是说该蛋白质序列
一定会结合整联蛋白(许多含有RGD的蛋白质并不结合整联蛋白),但它的确为我们提供了一个可供试验的假设。还有些例子是保守序列位于酶活性位点、转录后修饰位点、协作因子结合位点或蛋白质分类信号等,不少有关这些保守模式(pattern)的生物信息学资源已经建立起来,并已用于在序列的搜索比对。
主要有二种方法可用于序列模序的查找。一种方法是查找匹配的一致(consensus)序列或模序。该技术的优点是快捷,模序数据库庞大且不断被扩充;缺点是有时不灵敏,因为只有与一致序列或模序完全匹配才会被列出,而近乎匹配的都将被忽略。这将使你进行更复杂的分析时受到严重限制。这时,第二种方法,一种更精细的序列分布型(profile)方法将发生作用。原则上,分布型搜索的是保守序列(不只是一致序列),这样可以更灵敏地找出那些相关性较远的序列。但是分布型和分布型数据库的创建并非易事,它需要大量的计算和人力,因此,分布型数据库的记录数并没有模序数据库多。在实际分析时,应同时对这二种类型的数据库都进行搜索,其中在一个数据库中显著的匹配可能在另一个数据库中被完全错过,反之亦然。
最知名的模序数据库是PROSITE(http://expasy.hcuge.ch/sprot/prosite.html)。PROSITE记录的典型形式(以酪蛋白激酶Ⅱ磷酸化位点的一致序列为例):[ST]-x(2)-[DE],即一个丝氨酸(S)或酪氨酸(T)紧跟任意2个残基,然后再是一个D或E。另外记录中包含了位点其它一些重要信息,如位点的作用、在何处被发现等。
分布型(profile)数据库主要有BLOCKS (http://www.blocks.fhcrc.org/blocks/)、PRINTS (http://www.biochem.ucl.ac.uk/bsm/dbbrowers/PRINTS/)和ProDom (http://protein.toulouse.inra.fr/prodom/prodom.html)。正如其它生物信息学资源一样,这些数据库总是在规模和质量之间寻求平衡。对于分布型数据库的质量来说,还包括多序列列线产生的分布型。记录数最多的数据库是依赖于自动列线程序,得到的结果有时并非是最佳结果;而记录数少的数据库一般花很多时间用于分析,人工核对列线结果,力求产生高质量的结果。一般地,分析时应搜索所有的相关数据库,以保证没有任何的遗漏。BLOCKS数据库是利用PROSITE数据库模序经无空位多序列列线构建而成,PRINTS数据库(最小的数据库)的记录来自保守序列的多序列列线,而ProDom数据库(version33)数据则来自9600个蛋白功能区模序(domain motif)的列线结果。以上列出的数据库具体情况和输出结果(有时还挺复杂)等可参照各数据库的帮助说明。
From《生物信息学札记》樊龙江
一、根据序列预测功能的一般过程
如果序列重叠群(contig)包含有蛋白质编码区,则接下来的分析任务是确定表达产物——蛋白质的功能。蛋白质的许多特性可直接从序列上分析获得,如疏水性,它可以用于预测序列是否跨膜螺旋(transmenbrane helix)或是前导序列(leader sequence)。但是,总的来说,我们根据序列预测蛋白质功能的唯一方法是通过数据库搜寻,比较该蛋白是否与已知功能的蛋白质相似。有2条主要途径可以进行上述的比较分析:
①比较未知蛋白序列与已知蛋白质序列的相似性;
②查找未知蛋白中是否包含与特定蛋白质家族或功能域有关的亚序列或保守区段。
图6.1给出了根据序列预测蛋白质功能的大致过程。由于涉及数条技术路线,所得出的分析结果并不会总是相一致。一般来说,数据库相似性搜索获得的结果最为可靠,而来自PROSITE的结果相对不可靠。
二、通过比对数据库相似序列确定功能
具有相似序列的蛋白质具有相似的功能。因此,最可靠的确定蛋白质功能的方法是进行数据库的相似性搜索。具体的搜索方法可参见第三章,但应记住,一个显著的匹配应至少有25%的相同序列和超过80个氨基酸的区段。
已有不少种类的数据库搜索工具,它们或者搜索速度慢,但灵敏;或者快速,但不灵敏。快速搜索工具(如BLASTP)很容易发现匹配良好的序列,所以没有必要再运行更花时的工具(如FASTA、BLITZ);只有在诸如BLASTP不能发现显著的匹配序列时,这些工具才被使用。所以,一般的策略是首先进行BLAST检索,如果不能提供相关结果,运行FASTA;如果FASTA也不能得到有关蛋白质功能的线索,最后可选用完全根据Smith-Waterman算法设计的搜索程序,例如BLITZ(www.ebi.ac.uk/searches/blitz.html)。BLITZ不做近似估计(BLAST和FASTA根据Smith-Waterman算法做近似估计),所以很花时,但非常灵敏。通常诸如BLITZ的程序能够发现超过几百个残基但序列相同比率低于20~25%的匹配,这些匹配可能达到显著,但会被那些应用近似估计的程序错过。
还应注意计分矩阵(scoring matrix)的重要性。选用不同的计分矩阵有不少重要原因:首先,选用的矩阵必须与匹配水平相一致,例如,PAM250应用于远距离匹配(<25%相同比率),PAM40应用于不很相近的蛋白质序列,而BLOSUM62是一个通用矩阵;第二,使用不同矩阵,可以发现始终出现的匹配序列,这是一条减少误差的办法。
预测蛋白质功能
整理所有肯定的结果并核对一致性
查对BLOCKS和PRINTS数据库
查对PROSITE数据库
未知序列是否包含保守序列模序是否未知蛋白质序列与已知功能的蛋白质相似确定跨膜螺旋、卷曲螺旋和前导序列
二、序列特性:疏水性、跨膜螺旋等
许多功能可直接从蛋白质序列预测出来。例如,疏水性信息可被用于跨膜螺旋的预测。还有不少小的模序(motif)是细胞用于特定细胞区室(cell compartment)蛋白质的定向。网上有大量数据资源帮助我们利用这些特性预测蛋白质功能。
疏水性信息可用ExPASy(http://expasy.hcuge.ch/egibin/protscal.pl)的ProtScale程序创建并演示。这是一个很有用的工具,它能计算超过50种蛋白质的特性。程序的输入即可通过输入框将序列粘贴进去,也可输入SWISS-PROT的记录号。仅一项需要额外设定的参数是输入框的宽度,该参数将指示系统每次运行计算和显示的残基数,其缺省值为9。如果想考虑跨膜螺旋特性,该参数设置应为20,因为一个跨膜螺旋通常有20个氨基酸长度。图6.2是ProtScal程序的一个典型结果显示格式。
有多种方法可以预测序列的跨膜螺旋。最简单的方法是通过查找包含有20个疏水残基的区段,一些更复杂、更准确的算法不仅可以预测跨膜螺旋的位置,还能确定其在膜上的方向。这些方法都依赖于一系列已知跨膜螺旋特性的研究结果。TMbase是一个自然发生的跨膜螺旋数据库(http://ulrec3.unil.ch/tmbase/TMBASE_doc.html)。相关的一些程序:TMPRED (http://ulrec3.unil.ch/software/TMPRED-form.html)、PHDhtm (www.embl_heidelberg.de/services/sander/predictprotein/predictprotein.html)、TMAP (http://www.embl-heidelberg.de/tmap/tmap/tmap_sin.html)和MEMSAT (ftp.biochem.ucl.ac.uk)。这些程序将使用了不同的统计模型,总体上,预测准确率在80~95%左右。跨膜螺旋是可以根据序列数据比较准确预测的蛋白质特性之一。
预测前导序列或特殊区室靶蛋白信号的程序:SignalP (http://www.cbs.dtu.dk/services/SignalP)和PSORT (http://psort.nibbac.jp/form.html)。另一个可从序列中确定的功能模序是卷曲(coil)螺旋。在这一结构中,二个螺旋由于疏水作用而缠绕在一起形成非常稳定的结构。相关的2个程序:COILS (http://ulrec3.unil.ch/software/COILS_form.html)和Paircoil (http://ostrich.lcs.mit.edu/cgi-bin/score)。
四、通过比对模序数据库等确定功能
经常会出现这样的情况:通过列线,未知蛋白质序列与数据库内已知功能的序列均相差较大,找不到可靠的匹配结果,相反,也许会发现与某一不知功能的序列相匹配。对于这一情况,仍然可以用生物信息学工具进行一些分析。
蛋白质不同区段的进化速率不同:蛋白质的一些部分必须保持一定的残基模式以保持蛋白质的功能,通过确定这些保守区域,有可能为蛋白质功能提供线索。例如,有许多短序列可以识别蛋白质活性位点或结合区域。整联蛋白(integrin)受体识别RGD或LDV配体模序(motif),如果未知序列中包含有RGD模序,则可推测未知序列的一个功能可能是结合整联蛋白。这样的推测并不是说该蛋白质序列
一定会结合整联蛋白(许多含有RGD的蛋白质并不结合整联蛋白),但它的确为我们提供了一个可供试验的假设。还有些例子是保守序列位于酶活性位点、转录后修饰位点、协作因子结合位点或蛋白质分类信号等,不少有关这些保守模式(pattern)的生物信息学资源已经建立起来,并已用于在序列的搜索比对。
主要有二种方法可用于序列模序的查找。一种方法是查找匹配的一致(consensus)序列或模序。该技术的优点是快捷,模序数据库庞大且不断被扩充;缺点是有时不灵敏,因为只有与一致序列或模序完全匹配才会被列出,而近乎匹配的都将被忽略。这将使你进行更复杂的分析时受到严重限制。这时,第二种方法,一种更精细的序列分布型(profile)方法将发生作用。原则上,分布型搜索的是保守序列(不只是一致序列),这样可以更灵敏地找出那些相关性较远的序列。但是分布型和分布型数据库的创建并非易事,它需要大量的计算和人力,因此,分布型数据库的记录数并没有模序数据库多。在实际分析时,应同时对这二种类型的数据库都进行搜索,其中在一个数据库中显著的匹配可能在另一个数据库中被完全错过,反之亦然。
最知名的模序数据库是PROSITE(http://expasy.hcuge.ch/sprot/prosite.html)。PROSITE记录的典型形式(以酪蛋白激酶Ⅱ磷酸化位点的一致序列为例):[ST]-x(2)-[DE],即一个丝氨酸(S)或酪氨酸(T)紧跟任意2个残基,然后再是一个D或E。另外记录中包含了位点其它一些重要信息,如位点的作用、在何处被发现等。
分布型(profile)数据库主要有BLOCKS (http://www.blocks.fhcrc.org/blocks/)、PRINTS (http://www.biochem.ucl.ac.uk/bsm/dbbrowers/PRINTS/)和ProDom (http://protein.toulouse.inra.fr/prodom/prodom.html)。正如其它生物信息学资源一样,这些数据库总是在规模和质量之间寻求平衡。对于分布型数据库的质量来说,还包括多序列列线产生的分布型。记录数最多的数据库是依赖于自动列线程序,得到的结果有时并非是最佳结果;而记录数少的数据库一般花很多时间用于分析,人工核对列线结果,力求产生高质量的结果。一般地,分析时应搜索所有的相关数据库,以保证没有任何的遗漏。BLOCKS数据库是利用PROSITE数据库模序经无空位多序列列线构建而成,PRINTS数据库(最小的数据库)的记录来自保守序列的多序列列线,而ProDom数据库(version33)数据则来自9600个蛋白功能区模序(domain motif)的列线结果。以上列出的数据库具体情况和输出结果(有时还挺复杂)等可参照各数据库的帮助说明。
From《生物信息学札记》樊龙江