2-DE 蛋白质组学的 PROTICdb 数据库
丁香园
1988
1. 前言
聚丙烯酰胺双向电泳 [1] 和质谱分析是分离一个组织中的蛋白质(2D 电泳图谱)以及鉴定差异蛋白表达的有用工具。
一个典型的蛋白质组实验会得到几张双向电泳胶板和相应的几百甚至几千个蛋白质点的图形、定位和定量数据及其质谱信息。最后数据必须综合、比对转化成生物学假设,这项工作并不轻松,因为它包括了许多不相干的技术和方法以及大量的数据。
开发 PROTICdb 数据库是为了处理植物蛋白质组学中从 2D 聚丙烯酰胺电泳和质谱分析得到的所有数据 [5] 。该数据库可以自动建立与外部序列数据库的链接,并用基因本体(GO) 术语注释蛋白质,为用户提供一个链接公共功能信息的接口。那些对学者或数据分析有价值的,来自生物学家的,与蛋白质点相关的发现和结论可被存储在 PROTICdb 的知识库中。我们已经可以在两个蛋白质点之间建立二元关系,如匹配度、等位性和翻译后修饰。通过分析这些关系,PROTICdb 数据库能推断出新的关联,建立蛋白质点的网络,将鉴定数据从一个点扩展到相同蛋白质点网络中的其他成员,所以,当一个新的关联加入到数据库后,或许能完成之前实验得到的蛋白质点的注释。
http: //cms. moulon. inra.fr /content/view/14/44/ 网站免费提供 PROTICdb (仅限于工具),而且还在继续更新。本章介绍的是 1.0. 7. 版本,未来的版本将包括一个先进的查询工具,使用者可用此查询工具进行反复查询,操作每一个新的步骤,用户都可以根据需要进行更加精确的查询。
2. 材料
PROTICdb 用户端/服务器的应用包括数据库管理系统(DBMS) ,网络伺服器(服务器端的应用)和一个通常是网络浏览器(也称为用户端)的用户界面。
2.1 软件要求
1. 服务器端
一台安装了 Apache( 1. 3. 33 或更高版本, http://www. apach & org/)、 PHP(4. 3. 4 或更高版本, http://www. php . net ) 和 Perl ( 5 . 8. 4 或更高版本,http://www. perl, org ) 的 Unix/Linux 服务器。 PROTICdb 数据库可设在本地服务器或一台远程服务器上。可用 QmCle8i 或 Postgresql ( 7. 4. 7 或更高版本,http://www. postgresql. org/) DBMS 运行 PROTICdb。
2. 用户端
终端用户可以使用任何兼容 CSS 以及开启 JavaScript 的新近开发的网络浏览器 ( InternetExplorer 5 或更高版本, Mozilla/Firefox 版本 1.0 版或更高版本, http://www. mozillundefined org ) 或 Konqueror (3. 3. 2 或更高版本, http : / / w w w . konqueror. org/)。XHTML 1.0 的网络标准 ( http: / / www. w3. org/) 支持 PROTICdb。
浏览凝胶需要在用户端计算机上安装 Javal. 4 版本或更高版本 ( http://j ava > smx com/ )。
2.2 服务器安装
下载最新的存档(http: //cms. moulon.inra.fr /content/view/14/44/ ) 。解压缩,并仔细阅读安装向导(Protic/doc/install/pdf/install. pdf ) 。安装结尾时,应运行 PROTICdb “ 诊断页” (protic/home/ diagnose, php) 。这个工具将帮助用户修复与 Perl,PHP 和 Apache 相关的配置错误。在 proticdb- support@ moulon. inra. fr 网页可以找到 PROTICdb 技术支持,包括安装问题或错误报告。
4. 注释
( 1 ) 在软件处理字符串时,尽量避免拼写错误和微小的偏差,所有单词用于 PROTICdb 存储时均为大写字母( 方法名称、可控词汇、项目关键词等)。注意,这不适用于物种名称,物种名称必须完全符合 NCBI 分类格式,并区分大小写。
( 2 ) 我们鼓励用户仔细检查列表以免创建同义词汇。如果在这一步发现错误拼写,可以通过点击更新按钮更正。再次提醒注意:更新会被用于整个数据库。数据库的第一个用户必须创建新的条款。
( 3 ) 工作区顶部的先前被记录过的植物可以被选定更新。每一个其他数据提交表格中都有这个数据 “ 更新”工具。
( 4 ) 在一个 PROTICdb 实验中,植物名称必须是唯一的。举例说明,在一个项目中可能有两个叫“ plant 1” 的植物,这两个植物一定不属于相同的实验。一个 PROTICdb 实验可被视为是一群独有植物的名称。
( 5 ) 在一个项目中建立的方法可以被用于所有其他的数据库项目。在主菜单“ methods”链接中的方法可被创建、济览和更新。每个方法包含一个名称、一个描述(必须有的)和一个注释。公开或非公开区域将在 PROTICdb 未来的版本中应用,但现在应该将其考虑。
( 6 ) 如果一个必填项未填写,或者没有按照规定格式输入数据,表格将被拒绝。根据建议更正表格,重新提交。
( 7 ) 另外,你可将混合样品看成一个单独的样品( 在 “ Protein sample” 窗口按这种方式输入)。在这种情况下,尽管是一个共迁移实验,也只填写一个蛋白质样品。
( 8 ) 如果初始文件不是 jpeg 格式,必须进行转换。凝胶成像文件必须与在检测软件中使用的原始文件的分辨率( 像素的宽度、髙度)一致:图像点坐标必须以像素表示。使用图像处理软件将图像文件从 tiff 格式转换到 jpeg 格式。XnView (http: //www. xnview. com/ ) 或 The GIMP (http: //www. gimp.org/ ) 可获得免费的软件。压缩到 60% 的 jpeg 文件还可在凝胶浏览器上看到图像。
( 9 ) 打开 Melanie ( 或 Image Master 5.0 ) 软件菜单中的 “ Reports” 主菜单→“ Spot Report” →Choose columns→Save as text ( . txt ) ,就可以产生一个点报告文件,或参照 Melanie 说明书。
( 10 ) 当向 PROTICdb 提交数据(植物图像、检测结果、鉴定结果等)时,有几个检查步骤来保证数据的一致性。根据数据量的大小,可能需要消耗较长的时间(数秒到数分钟)。在 PROTICdb 处理数据的时候不要中断操作;出现问题将通过电子邮件通知你 ,或者从你的浏览器上了解。如果发生错误,更正你的文件然后再次全部提交,直到 PROTICdb 发出一个成功的邮件信息。
( 11 ) 用来提交植物图像数据或微孔板图的 Excel 模板文件必须是微软 Excel 模板格式,不过,你可以使用其他任何软件打开,比如 OpenOffice.org,StarOffice,ClarisWorks 等。在把你的表格提交到 PROTICdb 之前将其保存为 “制表符分隔的文本” 格式文件。
( 12 ) 要使用 Sequest tool (Xcalibur 1.3 ) 这个工具处理文件,选择 “sequence setup” “new” →“file” →“import sequence。”
( 13 ) 从 Sequest ( Bioworks 3 . 1 ) 软件中:显示鉴定结果(蛋白和肽的列表),点击鼠标右键,选择 “ export” →Excel。应用 Excel,保存表格为 “制表符分隔的文本” 格式文件。
( 14 ) PROTICdb 数据库管理员有权利建新账号。按照下列顺序操作创建新账户:“main menu” → “administration” → “new database user,” 填写表格,然后提交。在 “new protic member” (弹出菜单)中为新用户指派一个 PROTICdb 角色(访客,管理员或用户)。
( 15 ) —个凝胶图像的最低设置必须确保其正确显示、数据一致性,以及避免加载不完整的图像信息。所需的资料包括关于实验流程,从植物样品到二维双向电泳实验和图像数字化处理 (JPE 格式)。凝胶浏览器提供显示那些相应的项目中的“ 未分析凝胶” 的凝胶图像。
( 16 ) 正如在凝胶图像可视化的讨论中所说的,必须要凝胶浏览器这样一个设备外连到演示 PostgreSQL 数据库(host : moulon.in r a .f rport : 5432) 。你的个人或外部防火墙可能阻止这样的连接。检查一下是否连接失败。未来版本 PROTICdb 将不会被防火墙阻止,而且会尽量降低网络带宽资源的消耗。凝胶浏览器是一个 Java 小程序,要求 1.4 以上 Java 版本。
( 17 ) 编号系统是一套将凝胶匹配到同一个主凝胶上的名称(在 pdquest 软件中叫做 matchset) 。检索凝胶的名称,可以快速鉴别具有相同编号系统的凝胶。
( 18 ) 由于内存不足可能会造成下载第四个凝胶图像失败。JAVA 配置的默认内存为 64 Mo ( 最大值)。按照以下步骤操作可增加这个参数(Windows 系统的计算机):控制面板→JAVA 插件控制面板→JAVA 选项卡→Java Applet 运行时间设置→view→双击 JAVA 运行时间参数的空白项,输入 “- Xm sl28m - Xm xl28m” ( 不键入引号)。点击 OK, Apply,关闭 JAVA 和 Windows 控制面板。然后关闭凝胶浏览器,重启凝胶浏览器 。这可提高 JAVA 的内存容量到 128 Mo。不要输入超过你系统的总物理内存量。有关更多的关于 Java 内存的优化问题,请参考 http://java . sun_ com/docs/hotspot/index. html。
( 19 ) 要耐心,根据服务器和互联网的情况,下载可能最多需要 10 min。因此推荐使用当地数据库(载入时间通常下降到不足 1 min ) 。
( 20 ) 如果 DV02041611 凝胶窗口未被激活,可能需要两次左键点击,第一次左键点击激活这个窗口,第二次点击启动蛋白点的信息框。
( 21 ) 弹出窗口拦截工具可能会干扰链接过程,所以对 PROTICdb 网站停止使用这类工具。
( 22 ) 取决于所安装的 Java 版本,可能需要使用两次同步命令来取得正确的结果。
参考文献
1. Gorg, A., Weiss, and D u n n M . J. (2004) Current two-dimensional electrophoresistechnology for proteomics. Proteomics 4 , 3665— 4036.
2. Canovas, F. M., Dumas-Gaudot, E., Recorbet, G., Jorrin, J. , M o c k H. P., andRossignol M . (2004) Plant proteome analysis. Proteomics 4 , 285-298.
3. Zhu, H., Bilgin, M., and Snyder M . (2003) Proteomics. Annu. Rev. Biochem. 72,783-812.
4. Pandey, A. and Ma n n , M . (2000) proteomics to study genes and genomes. Nature40 5, 837-846.
5. Ferry-Dumazet H., Houel G., Montalent P., et al. (2005) P R O T I C d b : a web-basedapplication to store, track, query and compare plant proteome data Proteomics 5,2069-2081.
6. Harris M . A., Clark J., Ireland A., et al. (2004) T h e G e n e Ontology ( G O ) databaseand informatics resource. Nucleic Acids Res. 13 2 , D 2 5 8 - D 2 6 1.
聚丙烯酰胺双向电泳 [1] 和质谱分析是分离一个组织中的蛋白质(2D 电泳图谱)以及鉴定差异蛋白表达的有用工具。
一个典型的蛋白质组实验会得到几张双向电泳胶板和相应的几百甚至几千个蛋白质点的图形、定位和定量数据及其质谱信息。最后数据必须综合、比对转化成生物学假设,这项工作并不轻松,因为它包括了许多不相干的技术和方法以及大量的数据。
开发 PROTICdb 数据库是为了处理植物蛋白质组学中从 2D 聚丙烯酰胺电泳和质谱分析得到的所有数据 [5] 。该数据库可以自动建立与外部序列数据库的链接,并用基因本体(GO) 术语注释蛋白质,为用户提供一个链接公共功能信息的接口。那些对学者或数据分析有价值的,来自生物学家的,与蛋白质点相关的发现和结论可被存储在 PROTICdb 的知识库中。我们已经可以在两个蛋白质点之间建立二元关系,如匹配度、等位性和翻译后修饰。通过分析这些关系,PROTICdb 数据库能推断出新的关联,建立蛋白质点的网络,将鉴定数据从一个点扩展到相同蛋白质点网络中的其他成员,所以,当一个新的关联加入到数据库后,或许能完成之前实验得到的蛋白质点的注释。
http: //cms. moulon. inra.fr /content/view/14/44/ 网站免费提供 PROTICdb (仅限于工具),而且还在继续更新。本章介绍的是 1.0. 7. 版本,未来的版本将包括一个先进的查询工具,使用者可用此查询工具进行反复查询,操作每一个新的步骤,用户都可以根据需要进行更加精确的查询。
2. 材料
PROTICdb 用户端/服务器的应用包括数据库管理系统(DBMS) ,网络伺服器(服务器端的应用)和一个通常是网络浏览器(也称为用户端)的用户界面。
2.1 软件要求
1. 服务器端
一台安装了 Apache( 1. 3. 33 或更高版本, http://www. apach & org/)、 PHP(4. 3. 4 或更高版本, http://www. php . net ) 和 Perl ( 5 . 8. 4 或更高版本,http://www. perl, org ) 的 Unix/Linux 服务器。 PROTICdb 数据库可设在本地服务器或一台远程服务器上。可用 QmCle8i 或 Postgresql ( 7. 4. 7 或更高版本,http://www. postgresql. org/) DBMS 运行 PROTICdb。
2. 用户端
终端用户可以使用任何兼容 CSS 以及开启 JavaScript 的新近开发的网络浏览器 ( InternetExplorer 5 或更高版本, Mozilla/Firefox 版本 1.0 版或更高版本, http://www. mozillundefined org ) 或 Konqueror (3. 3. 2 或更高版本, http : / / w w w . konqueror. org/)。XHTML 1.0 的网络标准 ( http: / / www. w3. org/) 支持 PROTICdb。
浏览凝胶需要在用户端计算机上安装 Javal. 4 版本或更高版本 ( http://j ava > smx com/ )。
2.2 服务器安装
下载最新的存档(http: //cms. moulon.inra.fr /content/view/14/44/ ) 。解压缩,并仔细阅读安装向导(Protic/doc/install/pdf/install. pdf ) 。安装结尾时,应运行 PROTICdb “ 诊断页” (protic/home/ diagnose, php) 。这个工具将帮助用户修复与 Perl,PHP 和 Apache 相关的配置错误。在 proticdb- support@ moulon. inra. fr 网页可以找到 PROTICdb 技术支持,包括安装问题或错误报告。
4. 注释
( 1 ) 在软件处理字符串时,尽量避免拼写错误和微小的偏差,所有单词用于 PROTICdb 存储时均为大写字母( 方法名称、可控词汇、项目关键词等)。注意,这不适用于物种名称,物种名称必须完全符合 NCBI 分类格式,并区分大小写。
( 2 ) 我们鼓励用户仔细检查列表以免创建同义词汇。如果在这一步发现错误拼写,可以通过点击更新按钮更正。再次提醒注意:更新会被用于整个数据库。数据库的第一个用户必须创建新的条款。
( 3 ) 工作区顶部的先前被记录过的植物可以被选定更新。每一个其他数据提交表格中都有这个数据 “ 更新”工具。
( 4 ) 在一个 PROTICdb 实验中,植物名称必须是唯一的。举例说明,在一个项目中可能有两个叫“ plant 1” 的植物,这两个植物一定不属于相同的实验。一个 PROTICdb 实验可被视为是一群独有植物的名称。
( 5 ) 在一个项目中建立的方法可以被用于所有其他的数据库项目。在主菜单“ methods”链接中的方法可被创建、济览和更新。每个方法包含一个名称、一个描述(必须有的)和一个注释。公开或非公开区域将在 PROTICdb 未来的版本中应用,但现在应该将其考虑。
( 6 ) 如果一个必填项未填写,或者没有按照规定格式输入数据,表格将被拒绝。根据建议更正表格,重新提交。
( 7 ) 另外,你可将混合样品看成一个单独的样品( 在 “ Protein sample” 窗口按这种方式输入)。在这种情况下,尽管是一个共迁移实验,也只填写一个蛋白质样品。
( 8 ) 如果初始文件不是 jpeg 格式,必须进行转换。凝胶成像文件必须与在检测软件中使用的原始文件的分辨率( 像素的宽度、髙度)一致:图像点坐标必须以像素表示。使用图像处理软件将图像文件从 tiff 格式转换到 jpeg 格式。XnView (http: //www. xnview. com/ ) 或 The GIMP (http: //www. gimp.org/ ) 可获得免费的软件。压缩到 60% 的 jpeg 文件还可在凝胶浏览器上看到图像。
( 9 ) 打开 Melanie ( 或 Image Master 5.0 ) 软件菜单中的 “ Reports” 主菜单→“ Spot Report” →Choose columns→Save as text ( . txt ) ,就可以产生一个点报告文件,或参照 Melanie 说明书。
( 10 ) 当向 PROTICdb 提交数据(植物图像、检测结果、鉴定结果等)时,有几个检查步骤来保证数据的一致性。根据数据量的大小,可能需要消耗较长的时间(数秒到数分钟)。在 PROTICdb 处理数据的时候不要中断操作;出现问题将通过电子邮件通知你 ,或者从你的浏览器上了解。如果发生错误,更正你的文件然后再次全部提交,直到 PROTICdb 发出一个成功的邮件信息。
( 11 ) 用来提交植物图像数据或微孔板图的 Excel 模板文件必须是微软 Excel 模板格式,不过,你可以使用其他任何软件打开,比如 OpenOffice.org,StarOffice,ClarisWorks 等。在把你的表格提交到 PROTICdb 之前将其保存为 “制表符分隔的文本” 格式文件。
( 12 ) 要使用 Sequest tool (Xcalibur 1.3 ) 这个工具处理文件,选择 “sequence setup” “new” →“file” →“import sequence。”
( 13 ) 从 Sequest ( Bioworks 3 . 1 ) 软件中:显示鉴定结果(蛋白和肽的列表),点击鼠标右键,选择 “ export” →Excel。应用 Excel,保存表格为 “制表符分隔的文本” 格式文件。
( 14 ) PROTICdb 数据库管理员有权利建新账号。按照下列顺序操作创建新账户:“main menu” → “administration” → “new database user,” 填写表格,然后提交。在 “new protic member” (弹出菜单)中为新用户指派一个 PROTICdb 角色(访客,管理员或用户)。
( 15 ) —个凝胶图像的最低设置必须确保其正确显示、数据一致性,以及避免加载不完整的图像信息。所需的资料包括关于实验流程,从植物样品到二维双向电泳实验和图像数字化处理 (JPE 格式)。凝胶浏览器提供显示那些相应的项目中的“ 未分析凝胶” 的凝胶图像。
( 16 ) 正如在凝胶图像可视化的讨论中所说的,必须要凝胶浏览器这样一个设备外连到演示 PostgreSQL 数据库(host : moulon.in r a .f rport : 5432) 。你的个人或外部防火墙可能阻止这样的连接。检查一下是否连接失败。未来版本 PROTICdb 将不会被防火墙阻止,而且会尽量降低网络带宽资源的消耗。凝胶浏览器是一个 Java 小程序,要求 1.4 以上 Java 版本。
( 17 ) 编号系统是一套将凝胶匹配到同一个主凝胶上的名称(在 pdquest 软件中叫做 matchset) 。检索凝胶的名称,可以快速鉴别具有相同编号系统的凝胶。
( 18 ) 由于内存不足可能会造成下载第四个凝胶图像失败。JAVA 配置的默认内存为 64 Mo ( 最大值)。按照以下步骤操作可增加这个参数(Windows 系统的计算机):控制面板→JAVA 插件控制面板→JAVA 选项卡→Java Applet 运行时间设置→view→双击 JAVA 运行时间参数的空白项,输入 “- Xm sl28m - Xm xl28m” ( 不键入引号)。点击 OK, Apply,关闭 JAVA 和 Windows 控制面板。然后关闭凝胶浏览器,重启凝胶浏览器 。这可提高 JAVA 的内存容量到 128 Mo。不要输入超过你系统的总物理内存量。有关更多的关于 Java 内存的优化问题,请参考 http://java . sun_ com/docs/hotspot/index. html。
( 19 ) 要耐心,根据服务器和互联网的情况,下载可能最多需要 10 min。因此推荐使用当地数据库(载入时间通常下降到不足 1 min ) 。
( 20 ) 如果 DV02041611 凝胶窗口未被激活,可能需要两次左键点击,第一次左键点击激活这个窗口,第二次点击启动蛋白点的信息框。
( 21 ) 弹出窗口拦截工具可能会干扰链接过程,所以对 PROTICdb 网站停止使用这类工具。
( 22 ) 取决于所安装的 Java 版本,可能需要使用两次同步命令来取得正确的结果。
参考文献
1. Gorg, A., Weiss, and D u n n M . J. (2004) Current two-dimensional electrophoresistechnology for proteomics. Proteomics 4 , 3665— 4036.
2. Canovas, F. M., Dumas-Gaudot, E., Recorbet, G., Jorrin, J. , M o c k H. P., andRossignol M . (2004) Plant proteome analysis. Proteomics 4 , 285-298.
3. Zhu, H., Bilgin, M., and Snyder M . (2003) Proteomics. Annu. Rev. Biochem. 72,783-812.
4. Pandey, A. and Ma n n , M . (2000) proteomics to study genes and genomes. Nature40 5, 837-846.
5. Ferry-Dumazet H., Houel G., Montalent P., et al. (2005) P R O T I C d b : a web-basedapplication to store, track, query and compare plant proteome data Proteomics 5,2069-2081.
6. Harris M . A., Clark J., Ireland A., et al. (2004) T h e G e n e Ontology ( G O ) databaseand informatics resource. Nucleic Acids Res. 13 2 , D 2 5 8 - D 2 6 1.