蛋白质预测的一些资料
丁香园论坛
1638
前两天在网上提问,有不少朋友回答,万分感谢,后来我的一位同学给我寄来了科学出版社的一本蛋白质预测的书的WORD版,放在这儿给需要的人看看。
涉及到的因特网资源
物理性质预测: Compute PI/MW http://expaxy.hcuge.ch/ch2d/pi-tool.html Peptidemass http://expaxy.hcuge.ch/sprot/peptide-mass.html TGREASE ftp://ftp.virginia.edu/pub/fasta/ SAPS http://ulrec3.unil.ch/software/SAPS_form.html基于组成的蛋白质识别预测 AACompIdent http://expaxy.hcuge.ch/ch2d/aacompi.html AACompSim http://expaxy.hcuge.ch/ch2d/aacsim.html PROPSEARCH http://www.embl-heidelberg.de/prs.html 二级结构和折叠类预测nnpredict http://www.cmpharm.ucsf.edu/~nomi/nnpredictPredictprotein http://www.embl-heidelberg.de/predictprotein/SOPMA http://www.ibcp.fr/predict.htmlSSPRED http://www.embl-heidelberg.de/sspred/ssprd_info.html特殊结构或结构预测COILS http://ulrec3.unil.ch/software/COILS_form.htmlMacStripe http://www.wi.mit.edu/matsudaira/macstripe.html
与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。
由NCBI检索蛋白质序列
可联网到:“http://www.ncbi.nlm.nih.gov:80/entrz/query.fcgi?db=protein”进行检索。
利用SRS系统从EMBL检索蛋白质序列
联网到:http://srs.ebi.ac.uk/”,可利用EMBL的SRS系统进行蛋白质序列的检索。
通过EMAIL进行序列检索
当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。
蛋白质基本性质分析
蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。
疏水性分析
位于ExPASy的ProtScale程序( http://www.expasy.org/cgi-bin/protscale.pl)可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性,并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小(n)该参数用于估计每种氨基酸残基的平均显示尺度。
进行蛋白质的亲/疏水性分析时,也可用一些windows下的软件如, bioedit,dnamana等。
跨膜区分析
有多种预测跨膜螺旋的方法,最简单的是直接,观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域,但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知跨膜螺旋的研究而得到的。自然存在的跨膜螺旋Tmbase 数据库,可通过匿名FTP获得(http://www.isrec.isb-sib.ch/ftp-server/tmbase),参见表一
资源名称 网址 说明
TMPRED http://www.ch.embnet.org/software/TMPRED_form.html 基于对tmpred数据库的统计分析PHDhtm http://www.embl-heidelberg.de/services/sander/predictprotein/predictprotein.htmlMEMSAT ftp://ftp.biochem.ucl.ac.uk 微机版本
,蛋白质序列含有跨膜区提示它可能作为膜受体起作用,也可能是定位于膜的锚定蛋白或者离子通道蛋白等,从而,含有跨膜区的蛋白质往往和细胞的功能状态密切相关。http://genome.cbs.dtu.dk/sevices/TMHMM-2.0“或“http://www.ch.embnet.org/software/TMPRED_form.html”
前导肽与蛋白质定位
在生物内,蛋白质的合成场所与功能场所常被一层或多层细胞膜所隔开,这样就涉及到蛋白质的转运。合成的蛋白质只有准确地定向运行才能保证生命活动的正常进行。一般来说,蛋白质的定位的信息存在于该蛋白质自身结构中,并通过与膜上特殊的受体相互作用而得以表达。在起始密码子之后,有一段编码疏水性氨基酸序列的RNA片段,这个氨基酸序列就这个氨基酸序列就是信号肽序列。含有信号肽的蛋白质一般都是分泌到细胞外,可能作为重要的细胞因子起作用,从而具有潜在的应用价值。
http://genome.cbs.dtu.dk/sevices/signalP-2.0
卷曲螺旋分析
另一个能够直接从序列中预测的功能motif是α-螺旋的卷曲排列方式。在这种结构中,两种螺旋通过其疏水性界面相互缠在一起形成一个十分稳定的结构。
蛋白质卷曲的相关资源
资源 网址
coiled-coil http://www.york.ac.uk/depts/biol/units/coils/coilcoil.htmlCOILS http://www.ch.embnet.org/software/COILS_form.htmlEpitopeInfo http://epitope-informatics.com/Links.htm
蛋白质功能预测
基于序列同源性分析的蛋白质功能预测
到少有80个氨基酸长度范围内具有25%以上序列一致性才提示可能的显著性意义。最快的工具如BlastP能很容易地发现显著性片段,而无需使用十分耗时的BLITZ软件。
基于NCBI/BLAST软件的蛋白序列同源性分析
类似于核酸序列同源性分析,用户直接将待分析的蛋白质序列输入NCBI/BLAST(www.ncbi.nlm.gov/blast),选择程序BLASTP就可网上分析。
基于WU/BLAST2软件进行分析
华盛顿大学的BLAST软件(dove.embl-heidelberg.dl/blast2)也可进行蛋白质序列的同源性分析。
基于motif、结构位点、结构功能域数据库的蛋白质功能预测
蛋白质的磷酸化与糖基化对蛋白质的功能影响很大,所以对其的分析也是生物信息学的一个部分。
同时,分子进化方面的研究表明,蛋白质的不同区域具有不同的进化速率,一些氨基酸必须在进化过程中足够保守以实现蛋白质的功能。在序列模式的鉴定方面有两类技术,第一类是依赖于和一致性序列(consensus sequence)或基序各残基的匹配模式,该技术可用于十分容易并快速搜索motif数据库。
Motif数据库-PROSITE
最好的是PROSITE(www.expasy.org/prosite)
蛋白质序列的(profile)分析
www.isrec.isb-sib.ch/software/PFSCAN_form.html
InterProScan综合分析网站
InterProScan是EBI 开发的一个集成了蛋白质结构域和功能位点的数据库,其中把SWISS-PROT,TrEMBL.PROTSITE.PRINTS.PFAM.ProDom等数据库提供的蛋白质序列中的各种局域模式,如结构域,motif等信息统一起来,提供了一个较为全央的分析工具。
www.ebi.ac.uk/interpro/scan.html
蛋白质的结构功能域分析
简单模块构架搜索工具(simple modular architecture research tool,SMART)一个较好的蛋白质结构功能域的数据,可用于蛋白质结构功能域的分析,所得到的结构域同时提供相关的资源的链接http://smart.embl-heidelberg.de/
蛋白质结构预测
PDB数据库
蛋白质基本立体结构数据库(PDB, www.rcsb.org)其中有大量工具用于查看PDB数据库中的结构,如rasmol,可用于显于出蛋白质的空间结构,下载地址:www.umass.edu/microbio/rasmol)
PDBFinder 数据库是在PDB、DSSP、HSSP基础上建立的二级库,它包含PDB序列,作者,R因子,分辨率、二级结构等,这些些信息随着PDB库每次发布新版,PDBFinder在EBI自动生成,网址为“www.sander.embl-heideberg.de/pdbfinder/ ftp://swift.embl-heidelberg.de/pdbfinder.
NRL-3D数据库
是所有已知结构蛋白质的数据库,可用于查询蛋白序列时行相似性分析以确定其结构,www.gdb.org/Dan/protein/nrl3d.html
ISSD数据库
蛋白质序列数据库,其每个条目包含一个基因的编码序列,同相应的氨基酸序列对比,并给出相应的多肽链结构数据。www.protein.bio.msu.su/issd
HSSP数据库
是根据同源性导出的蛋白质二级结构数据库,每一条PDB项目都有一个对应的HSSP文件,www.sander.embl-heidelberg.de/hssp
蛋白质结构分类数据库
对已知蛋白质三维结构进行手工分类得到的数据库,位于剑桥的站点也提供BLAST检索服务 http://scop.mrc-lmb.cam.ac.uk/scop/
MMDB蛋白质分子模型数据库
是ENTREZ检索工具所使用的三维结构数据库,以ASN格式反蚋的PDB中的结构和序列数据。NCBI同时提供一个配套的三维结构显示程序的Cn3D,www.ncbi.nlm.nih.gov/Structure/
Dali/FSSP数据库
基于PDB数据库中现有的蛋白质三维结构,用自动结构对比程序Dali比较而形成的折叠单元和家庭分类库。www.embl-ebi.ac.uk/dali
蛋白质二级结构预测
基于序列进行蛋白质二级结构方面已有了大量文献描述,本质上,这些研究可被分为两大类:基于单一序列的分析和基于多重序列对齐的分析。
文献报道PHD程序是目前此方面的最好程序,提供了从二级结构到折叠方面分析的多种资源。其网址为www.embl-heidel-berg.de/predictprotein/predictprotein.html,也可通过email:predictprotein@embl-heidelberg.de进行数据分析。
蛋白质三级结构预测
蛋白质同源家庭的分析对于确立物种之间的亲缘关系和预测新蛋白质序列的功能 有重要意义,同源蛋白质(homolog)进一步划分为直系同源(ortholog)和旁系同源(paralog),
前者指不同物种中具有相同功能和共同起源的基因,后者则指在同一物种内具有不同功能,但也有共同起源的基因,例如同是起源于珠蛋白的α珠蛋白、β珠蛋白和肌红蛋白。
蛋白质分类数据库(ProtoMap)
是对SWISS-PROT数据库中的全部蛋白质由计算机自动时行层次分类,把相关者聚集分极所得到的数据库。www.proteinmap.cs.huji.ac.il
蛋白质序列多重对齐分析及进化分析
如果发现一个未知蛋白质序列和较多不同和种属或同一种属的蛋白质序列具有较高的同源性(大于30%)那么提示待分析的蛋白质序列可能是相应家族的成员,从而可从分子时化的角度对蛋白质序列进行综合分析。
涉及到的因特网资源
物理性质预测: Compute PI/MW http://expaxy.hcuge.ch/ch2d/pi-tool.html Peptidemass http://expaxy.hcuge.ch/sprot/peptide-mass.html TGREASE ftp://ftp.virginia.edu/pub/fasta/ SAPS http://ulrec3.unil.ch/software/SAPS_form.html基于组成的蛋白质识别预测 AACompIdent http://expaxy.hcuge.ch/ch2d/aacompi.html AACompSim http://expaxy.hcuge.ch/ch2d/aacsim.html PROPSEARCH http://www.embl-heidelberg.de/prs.html 二级结构和折叠类预测nnpredict http://www.cmpharm.ucsf.edu/~nomi/nnpredictPredictprotein http://www.embl-heidelberg.de/predictprotein/SOPMA http://www.ibcp.fr/predict.htmlSSPRED http://www.embl-heidelberg.de/sspred/ssprd_info.html特殊结构或结构预测COILS http://ulrec3.unil.ch/software/COILS_form.htmlMacStripe http://www.wi.mit.edu/matsudaira/macstripe.html
与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。
由NCBI检索蛋白质序列
可联网到:“http://www.ncbi.nlm.nih.gov:80/entrz/query.fcgi?db=protein”进行检索。
利用SRS系统从EMBL检索蛋白质序列
联网到:http://srs.ebi.ac.uk/”,可利用EMBL的SRS系统进行蛋白质序列的检索。
通过EMAIL进行序列检索
当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。
蛋白质基本性质分析
蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。
疏水性分析
位于ExPASy的ProtScale程序( http://www.expasy.org/cgi-bin/protscale.pl)可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性,并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小(n)该参数用于估计每种氨基酸残基的平均显示尺度。
进行蛋白质的亲/疏水性分析时,也可用一些windows下的软件如, bioedit,dnamana等。
跨膜区分析
有多种预测跨膜螺旋的方法,最简单的是直接,观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域,但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知跨膜螺旋的研究而得到的。自然存在的跨膜螺旋Tmbase 数据库,可通过匿名FTP获得(http://www.isrec.isb-sib.ch/ftp-server/tmbase),参见表一
资源名称 网址 说明
TMPRED http://www.ch.embnet.org/software/TMPRED_form.html 基于对tmpred数据库的统计分析PHDhtm http://www.embl-heidelberg.de/services/sander/predictprotein/predictprotein.htmlMEMSAT ftp://ftp.biochem.ucl.ac.uk 微机版本
,蛋白质序列含有跨膜区提示它可能作为膜受体起作用,也可能是定位于膜的锚定蛋白或者离子通道蛋白等,从而,含有跨膜区的蛋白质往往和细胞的功能状态密切相关。http://genome.cbs.dtu.dk/sevices/TMHMM-2.0“或“http://www.ch.embnet.org/software/TMPRED_form.html”
前导肽与蛋白质定位
在生物内,蛋白质的合成场所与功能场所常被一层或多层细胞膜所隔开,这样就涉及到蛋白质的转运。合成的蛋白质只有准确地定向运行才能保证生命活动的正常进行。一般来说,蛋白质的定位的信息存在于该蛋白质自身结构中,并通过与膜上特殊的受体相互作用而得以表达。在起始密码子之后,有一段编码疏水性氨基酸序列的RNA片段,这个氨基酸序列就这个氨基酸序列就是信号肽序列。含有信号肽的蛋白质一般都是分泌到细胞外,可能作为重要的细胞因子起作用,从而具有潜在的应用价值。
http://genome.cbs.dtu.dk/sevices/signalP-2.0
卷曲螺旋分析
另一个能够直接从序列中预测的功能motif是α-螺旋的卷曲排列方式。在这种结构中,两种螺旋通过其疏水性界面相互缠在一起形成一个十分稳定的结构。
蛋白质卷曲的相关资源
资源 网址
coiled-coil http://www.york.ac.uk/depts/biol/units/coils/coilcoil.htmlCOILS http://www.ch.embnet.org/software/COILS_form.htmlEpitopeInfo http://epitope-informatics.com/Links.htm
蛋白质功能预测
基于序列同源性分析的蛋白质功能预测
到少有80个氨基酸长度范围内具有25%以上序列一致性才提示可能的显著性意义。最快的工具如BlastP能很容易地发现显著性片段,而无需使用十分耗时的BLITZ软件。
基于NCBI/BLAST软件的蛋白序列同源性分析
类似于核酸序列同源性分析,用户直接将待分析的蛋白质序列输入NCBI/BLAST(www.ncbi.nlm.gov/blast),选择程序BLASTP就可网上分析。
基于WU/BLAST2软件进行分析
华盛顿大学的BLAST软件(dove.embl-heidelberg.dl/blast2)也可进行蛋白质序列的同源性分析。
基于motif、结构位点、结构功能域数据库的蛋白质功能预测
蛋白质的磷酸化与糖基化对蛋白质的功能影响很大,所以对其的分析也是生物信息学的一个部分。
同时,分子进化方面的研究表明,蛋白质的不同区域具有不同的进化速率,一些氨基酸必须在进化过程中足够保守以实现蛋白质的功能。在序列模式的鉴定方面有两类技术,第一类是依赖于和一致性序列(consensus sequence)或基序各残基的匹配模式,该技术可用于十分容易并快速搜索motif数据库。
Motif数据库-PROSITE
最好的是PROSITE(www.expasy.org/prosite)
蛋白质序列的(profile)分析
www.isrec.isb-sib.ch/software/PFSCAN_form.html
InterProScan综合分析网站
InterProScan是EBI 开发的一个集成了蛋白质结构域和功能位点的数据库,其中把SWISS-PROT,TrEMBL.PROTSITE.PRINTS.PFAM.ProDom等数据库提供的蛋白质序列中的各种局域模式,如结构域,motif等信息统一起来,提供了一个较为全央的分析工具。
www.ebi.ac.uk/interpro/scan.html
蛋白质的结构功能域分析
简单模块构架搜索工具(simple modular architecture research tool,SMART)一个较好的蛋白质结构功能域的数据,可用于蛋白质结构功能域的分析,所得到的结构域同时提供相关的资源的链接http://smart.embl-heidelberg.de/
蛋白质结构预测
PDB数据库
蛋白质基本立体结构数据库(PDB, www.rcsb.org)其中有大量工具用于查看PDB数据库中的结构,如rasmol,可用于显于出蛋白质的空间结构,下载地址:www.umass.edu/microbio/rasmol)
PDBFinder 数据库是在PDB、DSSP、HSSP基础上建立的二级库,它包含PDB序列,作者,R因子,分辨率、二级结构等,这些些信息随着PDB库每次发布新版,PDBFinder在EBI自动生成,网址为“www.sander.embl-heideberg.de/pdbfinder/ ftp://swift.embl-heidelberg.de/pdbfinder.
NRL-3D数据库
是所有已知结构蛋白质的数据库,可用于查询蛋白序列时行相似性分析以确定其结构,www.gdb.org/Dan/protein/nrl3d.html
ISSD数据库
蛋白质序列数据库,其每个条目包含一个基因的编码序列,同相应的氨基酸序列对比,并给出相应的多肽链结构数据。www.protein.bio.msu.su/issd
HSSP数据库
是根据同源性导出的蛋白质二级结构数据库,每一条PDB项目都有一个对应的HSSP文件,www.sander.embl-heidelberg.de/hssp
蛋白质结构分类数据库
对已知蛋白质三维结构进行手工分类得到的数据库,位于剑桥的站点也提供BLAST检索服务 http://scop.mrc-lmb.cam.ac.uk/scop/
MMDB蛋白质分子模型数据库
是ENTREZ检索工具所使用的三维结构数据库,以ASN格式反蚋的PDB中的结构和序列数据。NCBI同时提供一个配套的三维结构显示程序的Cn3D,www.ncbi.nlm.nih.gov/Structure/
Dali/FSSP数据库
基于PDB数据库中现有的蛋白质三维结构,用自动结构对比程序Dali比较而形成的折叠单元和家庭分类库。www.embl-ebi.ac.uk/dali
蛋白质二级结构预测
基于序列进行蛋白质二级结构方面已有了大量文献描述,本质上,这些研究可被分为两大类:基于单一序列的分析和基于多重序列对齐的分析。
文献报道PHD程序是目前此方面的最好程序,提供了从二级结构到折叠方面分析的多种资源。其网址为www.embl-heidel-berg.de/predictprotein/predictprotein.html,也可通过email:predictprotein@embl-heidelberg.de进行数据分析。
蛋白质三级结构预测
蛋白质同源家庭的分析对于确立物种之间的亲缘关系和预测新蛋白质序列的功能 有重要意义,同源蛋白质(homolog)进一步划分为直系同源(ortholog)和旁系同源(paralog),
前者指不同物种中具有相同功能和共同起源的基因,后者则指在同一物种内具有不同功能,但也有共同起源的基因,例如同是起源于珠蛋白的α珠蛋白、β珠蛋白和肌红蛋白。
蛋白质分类数据库(ProtoMap)
是对SWISS-PROT数据库中的全部蛋白质由计算机自动时行层次分类,把相关者聚集分极所得到的数据库。www.proteinmap.cs.huji.ac.il
蛋白质序列多重对齐分析及进化分析
如果发现一个未知蛋白质序列和较多不同和种属或同一种属的蛋白质序列具有较高的同源性(大于30%)那么提示待分析的蛋白质序列可能是相应家族的成员,从而可从分子时化的角度对蛋白质序列进行综合分析。