丁香实验_LOGO
登录
提问
提问
我要登录
|免费注册
丁香通
点赞
收藏
wx-share
分享

STRING 玩转功能蛋白质组研究,高级又简单

丁香园

5977

蛋白质不是孤立存在与生物体中的,它们之间的相互作用往往发挥着重要的生物学功能,因此,功能蛋白质相互作用研究已经越来越受到研究者的重视。STRING 是集研究蛋白质相互作用组研究、基因组研究和蛋白质组研究于一体的非常强大的软件。现在我分析数据已经越来越离不开他了。我们可以进行在线数据分析。


图 1


可以通过输入蛋白质名称,多个蛋白名称,氨基酸序列等搜索 STRING。当我们不清楚物种是什么时也不用担心,因为网站有自动生成器,物种能够被自动识别出来。这里以分析大肠杆菌中的 77 个蛋白为例。步骤如下:


图 2


1. 选择「Multiple proteins」;

2. 在蛋白名处输入所有蛋白名或基因号;

3. 在「Organism」处输入「Escherichia coli」;

4. 点击 SEARCH。


图 3


5. 下一页是确认物种页面,可以从中选择需要的物种。或者如果不确定物种时,可以选择匹配到蛋白数目最多的。点击「CONTINUE」。


图 4


6. 下一页是确认蛋白页面,对于我们输入的每一个蛋白,网站自动进行匹配,将最有可能的蛋白排在第一位并打勾,并对于每一个蛋白进行简单的标注。这时我们就可以检查这些匹配的蛋白是不是我们所关心的蛋白。当确认了所有蛋白后就可以「CONTINUE」了。


图 5


7. 这时,就会出现所有蛋白的预测相互关系网络图了。


下面我会详细介绍这张蛋白网络图和下面每一个选项的作用:


STRING 使用弹簧模型来生成网络图像。节点被模拟为弹簧的质量和连线;通过最小化系统的「能量」来计算图像中节点的最终位置。首先,图中连线的两个节点间的物理距离没有意义。其次,虽然算法是确定的,但是新的节点添加到网络会导致新图像中节点位置完全改变。最后,虽然输入节点是抽象意义上的网络的「中心」,但它可能并不位于网络图像的中心位置。


图 6


网络节点是蛋白质。大节点表示此蛋白的 3D 结构已知或已被预测,小节点表示 3D 结构未知。蛋白间的连线表示预测的功能关联。连线有 7 个不同颜色:


红线—基因融合

绿线—基因相近

蓝线—基因共同产生

紫线—实验证明

黄线—文本挖掘证据

浅蓝线—辅助数据库证据

黑线—基因共同表达。


线的厚度表示相互作用的置信预测度。点击节点和连线会给出蛋白质详情和证据详情。


图 7


③ Data Settings


「active interaction sources」:可以选择哪种类型的证据将有助于预测分数。


「minimum required interaction score」:将置信度得分设置为阈值,使得只有大于该分的关系才包括在蛋白网络中。较低的分数意味着更多的互动,更多的假阳性。


图 8


④View Settings


「meaning of network edges」:1)证据:其中颜色表示交互证据的类型;2)置信线厚度表示数据支持的强度;3)分子作用线形状表示预测的作用模式。


「network display mode」:1)静态图像:图像是一个简单位图图像;2)交互式 svg:图像是一个可扩展的矢量图形;3)交互式闪存:蛋白网络显示在 Flash 程序中,可实现更多功能(如,聚类)。


图 9


⑤Tables/Exports


可以将蛋白网络导出为以下格式:


  • 位图:PNG 文件格式的网络图像。

  • 高分辨率位图:PNG 格式的图像,分辨率为 400 dpi。

  • 矢量图形:可以在 Illustrator,CorelDraw,Dia 等中打开和编辑的 SVG 格式图像。

  • 表格文本: TSV 格式的数据。可以在 Excel 中打开。

  • XML 摘要:结构化 XML 格式的数据。

  • 网络坐标:描述网络中节点坐标和颜色的平面文件格式。

  • 蛋白质序列 - MFA:多基因格式,含有网络中的氨基酸序列。

  • 蛋白质注释:制表符分隔的文件,描述网络蛋白质的名称,结构域和功能。


图 10


⑥Evidence


「Neighborhood」:基因组中邻近发生的基因。

「Co-occurrence」:物种间存在或不存在交联蛋白。蛋白质列在页面顶部,具有物种名称的系统发育树在左侧。在后面的网格中,物种中蛋白质用红色正方形标记。

「Fusion」:物种中的基因融合。发生融合的物种列在左边。根据页面底部的表进行着色。

「Co-expression」:在相同或不同物种中共表达的基因。红色方块表示共表达,深的颜色表示更多关联。

「Experiments」:从其他蛋白 - 蛋白相互作用数据库收集的蛋白相互作用组的列表

「Databases」:从辅助数据库收集的蛋白相互作用组的列表。

「Text mining」:从文献中提取的蛋白相互作用组的列表。


图 11


⑦Analysis


给出了蛋白网络的简要统计,如节点数和边数。平均节点度是蛋白质在网络中平均有多少相互作用。聚类系数是网络节点连接的度量。


图 12


8. 最后,我们也可以对这些相互作用蛋白进行通路分析。在交互式闪存模式下,选择「enrichment」选项下我们可以进行 GO、KEGG、PFAM 等蛋白分析。选择「Clusters」,我们则可以对蛋白进行聚类分析。


<link />
提问
扫一扫
丁香实验小程序二维码
实验小助手
丁香实验公众号二维码
关注公众号
反馈
TOP
打开小程序