二维凝胶的定量分析
丁香园
1962
1. 前言
揭示在不同生理、发育或遗传法则背景下发挥不同生物功能的蛋白质量的变化是比较蛋白质组学研究的重要内容。大多数研究基于对蛋白考马斯亮蓝或银染二维凝胶电泳的比较。尽管人类双眼对凝胶上的点有很强的分辨能力,大部分预期蛋白质的变化可以定量,但这种用于定量评估的方法仍显得相对粗糙。不能顾及到超过二或三倍强度的种类 ,甚至若没有可以揭示多个凝胶中有统计意义上差异的软件帮助,连简单的实验设计也不可能。目前已经开发出了用于检测、定量和匹配相应蛋白质点的几个软件。本章的主要目的不是对比不同软件产品,而是将注意力集中在不同蛋白点的图像采集和实验设计上,因为获得髙质量的数据和设计出不同程序进行初步数据分析,才是我们需要关心的。尽管多数二维凝胶专用软件提供有统计分析工具,但比平常的统计软件包有更多的限制,在此不作详细解释。事实上,一旦蛋白质点已正确量化和匹配,对它们可以像分析任何其他变量一样进行分析,并且有必要用像 SAS 或 R 统计软件包提供的多重功能进行分析。
2. 材料
SAS 语言编写的程序(SAS 研究所,美国北卡罗来纳州)是可用于蛋白质点变化统计分析的程序,SAS 有不同的操作系统版本。所有程序都是免费的开放源代码软件 R ( http://www.r-project.org/ ) 编程,由 Progenesis ( 非线性动力学,英国)制作。数据输出产生 CSV 文件,从中提取 SPOT 数据,只需稍微修改就可适用于其他软件诸如 ImageMaster (Amersham Biosciences) 或 PDQuest ( Bio- Rad)。
免费的开放源代码软件 ImageJ ( http://rsb.info. nih.gov/ij/ ) 可用于观察动态图像 。Cluster 和 TreeView 是高级分类程序,在 http://rana.lbl.gov/eisensoftware.htm 网站上可下载。
4. 注释
( 1 ) 当使用迷你胶时,分辨率必须增加,因为上面的点一般比大凝胶的要小。
( 2 ) 在点编辑互动式的步骤中,一般可能会删掉点。应该注意到,有些均一化的方法是基于点的总量;因此要避免删去太多的点,还有对所有凝胶处理时,一定要采用同样的方式。
( 3 ) 聚类和 PCA 方法是不接受数据缺失的。数据缺失必须更换;否则即使包含一个数据缺失整个观察值将被从数据库中删除。取代缺失数据的方法之一是以 0 替代它们。不过,这并不一定是最保守的做法。举例来说,如果有很多零(即许多质的变化),它们将代表大部分的变化,其风险是这些质的变化最终将掩盖其他点的定量变化。其他的统计工具,如相关性分析 [4] ,适用于全局性的定性分析。在主成分分析中,为审慎起见应以点的均值替换缺失的数据。在 SAS 程序中使用的「标准」程序将很容易实现此操作。
( 4 ) 必须指出,方差分析不会顾及点的缺失。例如,如果在处理 A 中一个点缺失,但存在于处理组 B 和 C 中,如果其在处理组 B 和 C 之间是不变量,方差分析不会得出该点是显著性变化,定性变量必须用定性分析进行独立检验。将缺失值用 0 取代,不是一个好的办法,因为这将改变残差的计算,使比较结果不可信。
( 5 ) 试图控制比率的相对增加或减少来选择点,不是一个好的想法,原因如下所述:① 这种方法选定的一些点,将不会产生有实际意义的统计学结果,因为这种选择方法没有考虑到残差的变异程度;同样的原因,也可能没有选中一些有实际意义的点。② 选择有时是任意或随意的,一些点的选出与否不依赖于选择。③ 此方法倾向于减少点,因为对照组和控制组通过因素 0.5 减少的点之间的差异比它们通过因素 2 增加的点之间的差异小 2 倍。但是,一旦根据适当的测试方法,有统计意义的点被选定,就可以选择显示其中最大变异的点。
( 6 ) 点的平均值与其变量之间往往存在着某种关系,小点比大点的标准偏差小,这就不适合作方差分析。这个问题可通过用点体积的对数代替它本身的体积来克服 [1] 。
以下的注意事项,请参阅图 16-2。
( 7 ) SAS 表单将被存储在定义为「 dir2d」的目录中。
( 8 )「/ _」和 「 _~H_」分别代表注释的开始和结束。因此,可以复制整个代码,其中包括注释。
( 9 ) 美元符号必须在字母变量之后出现。Match 是数字,但在这个例程中,它作为一个字符串声明更容易些,因为它在随后的程序中会被用来作为变量名称。
( 10 ) 数据缺失,即未被发现的点,在 CSV 文件中必须用句点来代表。绝不能用 0 代表。用 0 来代替句点,将使定量和定性的变化的计算发生错误。
( 11 ) 如果 < condition>:条件为真,那么只保留观察值。
( 12 ) firstgel 表每一点包含一行,而表 sumfstgel 只包含一行。我们需要合并两个表 ,因为点的容量是在 firstgel 表,而 sumgel 存在于 sumfstgl 表。通过一个变量名为「 a」进行表合并,无论 firstgel 表中的所有行还是 sumfstgel 表中的单一行,都将被赋予相同的值,sumfstgel 表中的单一行将被 firstgel 表中的每一行所复制。
( 13 ) 用户可以改变常数,这不会影响统计测试结果(当然,同一常数值必须用于所有凝胶)。
( 14 ) 以字母字符开始的匹配号码转换成字符串的时候,这种方式下仍然允许数字排序。
参考文献
1. Burstin J., Zivy, M., de Vienne, D., and Damerval, C. (1993) Analysis of scalingmethods to minimize the experimental variations in two-dimensional electrophoresis quantitative data. Application to the comparison of maize inbred lines.Electrophoresis 1 4 , 1067-1073.
2. David J. L., Zivy, M., Cardin, M. L., and Brabant, P. (1997) Protein evolution indynamically managed populations of wheat: adaptative responses to macro-environmental conditions. Theor. Appl. Genet. 9 5, 932-941.
3. Benjamini, Y. and Hochberg, Y. (1995) Controlling the false discovery rate:a practical and powerful approach to multiple testing. J. R. Statist. Soc. B, 57,289-300.
4. Marques, K., Sarazin, B., Chane-Favre, L., Zivy, M., and Thiellement, H. (2001)Comparative proteomics to establish genetic relationships in the Brassicaceaefamily. Proteomics1, 1457-1462.
揭示在不同生理、发育或遗传法则背景下发挥不同生物功能的蛋白质量的变化是比较蛋白质组学研究的重要内容。大多数研究基于对蛋白考马斯亮蓝或银染二维凝胶电泳的比较。尽管人类双眼对凝胶上的点有很强的分辨能力,大部分预期蛋白质的变化可以定量,但这种用于定量评估的方法仍显得相对粗糙。不能顾及到超过二或三倍强度的种类 ,甚至若没有可以揭示多个凝胶中有统计意义上差异的软件帮助,连简单的实验设计也不可能。目前已经开发出了用于检测、定量和匹配相应蛋白质点的几个软件。本章的主要目的不是对比不同软件产品,而是将注意力集中在不同蛋白点的图像采集和实验设计上,因为获得髙质量的数据和设计出不同程序进行初步数据分析,才是我们需要关心的。尽管多数二维凝胶专用软件提供有统计分析工具,但比平常的统计软件包有更多的限制,在此不作详细解释。事实上,一旦蛋白质点已正确量化和匹配,对它们可以像分析任何其他变量一样进行分析,并且有必要用像 SAS 或 R 统计软件包提供的多重功能进行分析。
2. 材料
SAS 语言编写的程序(SAS 研究所,美国北卡罗来纳州)是可用于蛋白质点变化统计分析的程序,SAS 有不同的操作系统版本。所有程序都是免费的开放源代码软件 R ( http://www.r-project.org/ ) 编程,由 Progenesis ( 非线性动力学,英国)制作。数据输出产生 CSV 文件,从中提取 SPOT 数据,只需稍微修改就可适用于其他软件诸如 ImageMaster (Amersham Biosciences) 或 PDQuest ( Bio- Rad)。
免费的开放源代码软件 ImageJ ( http://rsb.info. nih.gov/ij/ ) 可用于观察动态图像 。Cluster 和 TreeView 是高级分类程序,在 http://rana.lbl.gov/eisensoftware.htm 网站上可下载。
4. 注释
( 1 ) 当使用迷你胶时,分辨率必须增加,因为上面的点一般比大凝胶的要小。
( 2 ) 在点编辑互动式的步骤中,一般可能会删掉点。应该注意到,有些均一化的方法是基于点的总量;因此要避免删去太多的点,还有对所有凝胶处理时,一定要采用同样的方式。
( 3 ) 聚类和 PCA 方法是不接受数据缺失的。数据缺失必须更换;否则即使包含一个数据缺失整个观察值将被从数据库中删除。取代缺失数据的方法之一是以 0 替代它们。不过,这并不一定是最保守的做法。举例来说,如果有很多零(即许多质的变化),它们将代表大部分的变化,其风险是这些质的变化最终将掩盖其他点的定量变化。其他的统计工具,如相关性分析 [4] ,适用于全局性的定性分析。在主成分分析中,为审慎起见应以点的均值替换缺失的数据。在 SAS 程序中使用的「标准」程序将很容易实现此操作。
( 4 ) 必须指出,方差分析不会顾及点的缺失。例如,如果在处理 A 中一个点缺失,但存在于处理组 B 和 C 中,如果其在处理组 B 和 C 之间是不变量,方差分析不会得出该点是显著性变化,定性变量必须用定性分析进行独立检验。将缺失值用 0 取代,不是一个好的办法,因为这将改变残差的计算,使比较结果不可信。
( 5 ) 试图控制比率的相对增加或减少来选择点,不是一个好的想法,原因如下所述:① 这种方法选定的一些点,将不会产生有实际意义的统计学结果,因为这种选择方法没有考虑到残差的变异程度;同样的原因,也可能没有选中一些有实际意义的点。② 选择有时是任意或随意的,一些点的选出与否不依赖于选择。③ 此方法倾向于减少点,因为对照组和控制组通过因素 0.5 减少的点之间的差异比它们通过因素 2 增加的点之间的差异小 2 倍。但是,一旦根据适当的测试方法,有统计意义的点被选定,就可以选择显示其中最大变异的点。
( 6 ) 点的平均值与其变量之间往往存在着某种关系,小点比大点的标准偏差小,这就不适合作方差分析。这个问题可通过用点体积的对数代替它本身的体积来克服 [1] 。
以下的注意事项,请参阅图 16-2。
( 7 ) SAS 表单将被存储在定义为「 dir2d」的目录中。
( 8 )「/ _」和 「 _~H_」分别代表注释的开始和结束。因此,可以复制整个代码,其中包括注释。
( 9 ) 美元符号必须在字母变量之后出现。Match 是数字,但在这个例程中,它作为一个字符串声明更容易些,因为它在随后的程序中会被用来作为变量名称。
( 10 ) 数据缺失,即未被发现的点,在 CSV 文件中必须用句点来代表。绝不能用 0 代表。用 0 来代替句点,将使定量和定性的变化的计算发生错误。
( 11 ) 如果 < condition>:条件为真,那么只保留观察值。
( 12 ) firstgel 表每一点包含一行,而表 sumfstgel 只包含一行。我们需要合并两个表 ,因为点的容量是在 firstgel 表,而 sumgel 存在于 sumfstgl 表。通过一个变量名为「 a」进行表合并,无论 firstgel 表中的所有行还是 sumfstgel 表中的单一行,都将被赋予相同的值,sumfstgel 表中的单一行将被 firstgel 表中的每一行所复制。
( 13 ) 用户可以改变常数,这不会影响统计测试结果(当然,同一常数值必须用于所有凝胶)。
( 14 ) 以字母字符开始的匹配号码转换成字符串的时候,这种方式下仍然允许数字排序。
参考文献
1. Burstin J., Zivy, M., de Vienne, D., and Damerval, C. (1993) Analysis of scalingmethods to minimize the experimental variations in two-dimensional electrophoresis quantitative data. Application to the comparison of maize inbred lines.Electrophoresis 1 4 , 1067-1073.
2. David J. L., Zivy, M., Cardin, M. L., and Brabant, P. (1997) Protein evolution indynamically managed populations of wheat: adaptative responses to macro-environmental conditions. Theor. Appl. Genet. 9 5, 932-941.
3. Benjamini, Y. and Hochberg, Y. (1995) Controlling the false discovery rate:a practical and powerful approach to multiple testing. J. R. Statist. Soc. B, 57,289-300.
4. Marques, K., Sarazin, B., Chane-Favre, L., Zivy, M., and Thiellement, H. (2001)Comparative proteomics to establish genetic relationships in the Brassicaceaefamily. Proteomics1, 1457-1462.