蛋白质组数据的多元分析
丁香园
3156
1. 前言
很明显,在实验中能提供大量信息的某项技术如双相电泳,是不适合用常规的统计学方法来分析的。如果一定要用常规的统计学方法,通常含有大量蛋白质点的一些 2D 凝胶就没有足够的自由度来分析。只有在研究蛋白质的上调或下调和有足够的样品时,才可以运用常规的统计学方法来分析。在正常情况下(有限的 2D 凝胶和大量的蛋白质点),想要快速找到感兴趣的蛋白质点,一般采用多元分析方法 [ 1,4] 。因此我们提出了一个新的涉及工作流程的多元分析方法,即产生假设的(hypothesis generating ) 而不是假设驱使的(hypothesis driven ) 。这样,我们就能灵活自由地开发数据而不产生偏差,而且最终能运用生物学知识建立相关的假设。
产生假设的分析是多元分析背后的整个概念的一个自然结果。传统的统计学分析往往是先建立一个假设,然后用实验来证明或推翻这个假设,也即是我们所谓的演绎分析。相对于传统的统计学方法,多元分析是一种归纳分析。因此假设是在一系列的计算实验之后建立的。
多元分析以统计学和数学方法为基础,包括一些可视变量的数据分析及一些具有许多重要变化形式的体系研究 [ 5 ] 。
在这里我们介绍主成分分析(principal component analysis,PCA ) 及偏小二乘回归(partial least squares regression, PLSR ) 。PCA 用以获得数据总貌以及数据之间的联系。PCA 分析可以用来找出数据库里的隐藏结构。PCA 提供了低维的数据方案,即将多维导向低维。在此过程中,有可能找出外在的观察结果、相似观察结果的归类及其他数据结构的分析。
这项技术是以主要成分及直角坐标轴的数学技术为基础的。一个主要成分往往是指一个潜在的变量。这个变量不能直接测出但是可以通过和一套输入变量线性组合分析出来 [5] 。数据矩阵 X 可以分成结构和误差两部分。结构部分包含得分矩阵 T 和转置加载矩阵 PT,误差部分记为 E。主成分分析方法的数学方程式如下:
X= T ·PT + E
PCA 可以将大量的可能有关联的变量转化为少量没有关联的变量或主要成分。与初始变量线性组合的主成分坐标轴可以替换初始坐标轴。
数据的结构是用横坐标代表样品,纵坐标代表变量。在本文中,横坐标代表凝胶,纵坐标代表蛋白点(点的强度)。主成分与样品间的关系称为分值,与变量间的关系称为负载。第一主成分包含数据库中尽可能多的变量,接下来的主成分包含尽可能多的剩余变量。
PLS 用来关联校准数据的 y 矩阵(响应数据,response data) 和定义仪器输出的 x 矩阵(描述性数据, descriptor data) 。在本文中,y 代表实验样品,x 代表蛋白点。
可以通过回归模型(regression modeling) 将两套数据进行关联加以校准。
用多元数据分析 2D 凝胶的主要步骤如下所述。
( 1 ) 确定研究方案后建立蛋白的 2D 凝胶。
( 2 ) 用具备透射模式扫描的扫描仪使凝胶数字化。
( 3 ) 用数据分析软件分析数字化的 2D 凝胶。
( 4 ) 产生一张蛋白点列表。
( 5 ) 将表格数据输入到多元分析软件进行分析。
( 6 ) 做出关于蛋白点数据的 PCA 图。
( 7 ) 阐述分值及下载策略。
( 8 ) 返回到生物学问题。
( 9 ) 用 PLSR 分析样品蛋白响应变量。
2. 材料
( 1 ) 具备透射扫描功能的扫描仪。
( 2 ) 图像分析软件。
( 3 ) Excel 程序。
( 4 ) 多元数据分析的软件。
2.1 多元数据分析软件
界面友好和结果图形化、易于解释清楚的独立软件有:
( 1 ) Camo 的矫正器(可以下载试用版本)(http://www.camo.com) 。
( 2 ) Umetrics 的 SIMCA-P ( 可以下载样本)(http://www.umetrics.com) ,软件在 MATLAB 计算环境下运行。
( 3 ) Eigenvector 的 PLS 工具箱(http: //eigenvector.com ),该软件可以运行 PCA。
( 4 ) Provalis Research 的 MVSP ( 可以下载样本)(http://www.simstat.com ) 。
( 5 ) Addinsoft 的 XLSTAT ( 加入了 Excel) ( http://www. xlstat. com) 。
( 6 ) MINITAB Inc. 的 MINITAB ( http://www. minitab.com) 。
( 7 ) Infom etrix 的 Pirouette (http://www. infometrix.com ) 。
( 8 ) Applied Chemometrics 的 Chemometrics 工具箱(在 MATLAB 环境下工作)( http : //www.chemometrics. com ) 。
( 9 ) UmBio 的 Evince (http ://www. umbio. com) 。
( 10 ) Extract Information 的 Extract (http://www. extractinformation. com ) 。
2.2 2D 凝胶电泳图像分析软件
( 1 ) Amersham Biosciences ImageMaster ( http : //www. amershambiosciences.com)。
( 2 ) Bio-Rad Laboratories 的 PDQuest (http ://www. bio-rad.com ) 。
( 3 ) Compugen 的 Z3 (http ://www.2dgels.com ) 。
( 4 ) Nonlinear Dynamics 的 Phoretix 2D 及 Progenesis ( http ://www.nonlinear.com)。
4. 注释
( 1 ) 如果要依据蛋白质点的大小来分析凝胶,最好选择考马斯亮蓝(CBB) 和银染的方法进行染色,这两种方法可以确保蛋白质点的大小和蛋白质的量为线性关系。
( 2 ) 在做好 2D 凝胶后,就要将其数字化。为了确保图像分析软件能够较为精确地划分相连的蛋白质点,尽可能用高色深数字化凝胶。因此最好用 16 位灰度色深和 250~300 的分辨率。
( 3 ) 确保 2D 凝胶的图片保存格式和分析软件兼容。
( 4 ) 通过建立一个二元蛋白质点列表来分析量的变化,这个列表包括 1 和 0。1 和 0 分别代表蛋白质点的有和无,正常大小的蛋白质点才用来做二元蛋白质点列表,可以用 Excel 里的 IF 程序来做这个列表。
( 5 ) 很重要的一点是,为了确保匹配的蛋白质点具有相同的称号,在做蛋白质点列表前要同时指定蛋白质点。在 Progenesis 里可通过选择 Edit 菜单里的 Synchronize SpotNumbers 完成。
( 6 ) 重要的是要确保在 Excel 里按序号来阐述蛋白质点列表值。否则,多元数据分析软件要正确输入蛋白质点列表时就会出现问题。有必要用句点作为小数点分隔符。
( 7 ) 用 Excel 的 Edit 菜单的 Replace 选项,将缺失值用 0 取代。
( 8 ) 经验告诉我们,通过把单元格命名为数据,指定蛋白质点和胶的名字,将使数据矩阵从 Excel 输入到 The Unscrambler 更容易一些。这是因为在输入后,这些名字会再出现在 The Unscrambler 中。在 Excel 里,选好要命名的单元格,选择公式栏左侧的 Name,就可以命名单元格;还可以通过 Define Name 的对话框来命名单元格,通过选择 Insert 菜单中的 Name 子菜单下的 Define 来完成。
( 9 ) 在 The Unscrambler 里,有一个可变选项 Uncertainty Test ( 刀切法,jackknife) ,可以用来选择感兴趣的选项。
参考文献
1. Gottlieb, D. M., Schultz, J., Bruun, S. W., Jacobsen, S., and S0ndergaard, I. (2004)Multivariate approaches in plant science. Phytochemistry65, 1531-1548.
2. lessen, F., Lametsch, R., Bendixen, E., Kjaersgard, I. V. H., and J0rgensen, B. M.(2002) Extracting information from two-dimensional electrophoresis gels by partial least squares regression. Proteomics 2, 32-35.
3. Radzikowski, L., Nesic, L., Hansen, H. B., Jacobsen, S., and S0ndergaard, I.(2002) Comparison of ethanol-soluble proteins from different rye (Secale cereale)varieties by two-dimensional electrophoresis. Electrophoresis 23, 4157-4166.
4. Schultz, J., Gottlieb, D. M., Petersen, M., Nesic, L., Jacobsen, S., andS0ndergaard, I. (2004) Explorative data analysis of 2-D electrophoresis gels. Electrophoresis 25, 502—511.
5. Martens, H. and Martens, M. (2001) Multivariate Analysis of Quality. An Introduction.John Wiley & Sons, New York.
6. Esbensen K. H. (2000) Multivariate Data Analysis~In Practice. Camo, Oslo,Norway.
很明显,在实验中能提供大量信息的某项技术如双相电泳,是不适合用常规的统计学方法来分析的。如果一定要用常规的统计学方法,通常含有大量蛋白质点的一些 2D 凝胶就没有足够的自由度来分析。只有在研究蛋白质的上调或下调和有足够的样品时,才可以运用常规的统计学方法来分析。在正常情况下(有限的 2D 凝胶和大量的蛋白质点),想要快速找到感兴趣的蛋白质点,一般采用多元分析方法 [ 1,4] 。因此我们提出了一个新的涉及工作流程的多元分析方法,即产生假设的(hypothesis generating ) 而不是假设驱使的(hypothesis driven ) 。这样,我们就能灵活自由地开发数据而不产生偏差,而且最终能运用生物学知识建立相关的假设。
产生假设的分析是多元分析背后的整个概念的一个自然结果。传统的统计学分析往往是先建立一个假设,然后用实验来证明或推翻这个假设,也即是我们所谓的演绎分析。相对于传统的统计学方法,多元分析是一种归纳分析。因此假设是在一系列的计算实验之后建立的。
多元分析以统计学和数学方法为基础,包括一些可视变量的数据分析及一些具有许多重要变化形式的体系研究 [ 5 ] 。
在这里我们介绍主成分分析(principal component analysis,PCA ) 及偏小二乘回归(partial least squares regression, PLSR ) 。PCA 用以获得数据总貌以及数据之间的联系。PCA 分析可以用来找出数据库里的隐藏结构。PCA 提供了低维的数据方案,即将多维导向低维。在此过程中,有可能找出外在的观察结果、相似观察结果的归类及其他数据结构的分析。
这项技术是以主要成分及直角坐标轴的数学技术为基础的。一个主要成分往往是指一个潜在的变量。这个变量不能直接测出但是可以通过和一套输入变量线性组合分析出来 [5] 。数据矩阵 X 可以分成结构和误差两部分。结构部分包含得分矩阵 T 和转置加载矩阵 PT,误差部分记为 E。主成分分析方法的数学方程式如下:
X= T ·PT + E
PCA 可以将大量的可能有关联的变量转化为少量没有关联的变量或主要成分。与初始变量线性组合的主成分坐标轴可以替换初始坐标轴。
数据的结构是用横坐标代表样品,纵坐标代表变量。在本文中,横坐标代表凝胶,纵坐标代表蛋白点(点的强度)。主成分与样品间的关系称为分值,与变量间的关系称为负载。第一主成分包含数据库中尽可能多的变量,接下来的主成分包含尽可能多的剩余变量。
PLS 用来关联校准数据的 y 矩阵(响应数据,response data) 和定义仪器输出的 x 矩阵(描述性数据, descriptor data) 。在本文中,y 代表实验样品,x 代表蛋白点。
可以通过回归模型(regression modeling) 将两套数据进行关联加以校准。
用多元数据分析 2D 凝胶的主要步骤如下所述。
( 1 ) 确定研究方案后建立蛋白的 2D 凝胶。
( 2 ) 用具备透射模式扫描的扫描仪使凝胶数字化。
( 3 ) 用数据分析软件分析数字化的 2D 凝胶。
( 4 ) 产生一张蛋白点列表。
( 5 ) 将表格数据输入到多元分析软件进行分析。
( 6 ) 做出关于蛋白点数据的 PCA 图。
( 7 ) 阐述分值及下载策略。
( 8 ) 返回到生物学问题。
( 9 ) 用 PLSR 分析样品蛋白响应变量。
2. 材料
( 1 ) 具备透射扫描功能的扫描仪。
( 2 ) 图像分析软件。
( 3 ) Excel 程序。
( 4 ) 多元数据分析的软件。
2.1 多元数据分析软件
界面友好和结果图形化、易于解释清楚的独立软件有:
( 1 ) Camo 的矫正器(可以下载试用版本)(http://www.camo.com) 。
( 2 ) Umetrics 的 SIMCA-P ( 可以下载样本)(http://www.umetrics.com) ,软件在 MATLAB 计算环境下运行。
( 3 ) Eigenvector 的 PLS 工具箱(http: //eigenvector.com ),该软件可以运行 PCA。
( 4 ) Provalis Research 的 MVSP ( 可以下载样本)(http://www.simstat.com ) 。
( 5 ) Addinsoft 的 XLSTAT ( 加入了 Excel) ( http://www. xlstat. com) 。
( 6 ) MINITAB Inc. 的 MINITAB ( http://www. minitab.com) 。
( 7 ) Infom etrix 的 Pirouette (http://www. infometrix.com ) 。
( 8 ) Applied Chemometrics 的 Chemometrics 工具箱(在 MATLAB 环境下工作)( http : //www.chemometrics. com ) 。
( 9 ) UmBio 的 Evince (http ://www. umbio. com) 。
( 10 ) Extract Information 的 Extract (http://www. extractinformation. com ) 。
2.2 2D 凝胶电泳图像分析软件
( 1 ) Amersham Biosciences ImageMaster ( http : //www. amershambiosciences.com)。
( 2 ) Bio-Rad Laboratories 的 PDQuest (http ://www. bio-rad.com ) 。
( 3 ) Compugen 的 Z3 (http ://www.2dgels.com ) 。
( 4 ) Nonlinear Dynamics 的 Phoretix 2D 及 Progenesis ( http ://www.nonlinear.com)。
4. 注释
( 1 ) 如果要依据蛋白质点的大小来分析凝胶,最好选择考马斯亮蓝(CBB) 和银染的方法进行染色,这两种方法可以确保蛋白质点的大小和蛋白质的量为线性关系。
( 2 ) 在做好 2D 凝胶后,就要将其数字化。为了确保图像分析软件能够较为精确地划分相连的蛋白质点,尽可能用高色深数字化凝胶。因此最好用 16 位灰度色深和 250~300 的分辨率。
( 3 ) 确保 2D 凝胶的图片保存格式和分析软件兼容。
( 4 ) 通过建立一个二元蛋白质点列表来分析量的变化,这个列表包括 1 和 0。1 和 0 分别代表蛋白质点的有和无,正常大小的蛋白质点才用来做二元蛋白质点列表,可以用 Excel 里的 IF 程序来做这个列表。
( 5 ) 很重要的一点是,为了确保匹配的蛋白质点具有相同的称号,在做蛋白质点列表前要同时指定蛋白质点。在 Progenesis 里可通过选择 Edit 菜单里的 Synchronize SpotNumbers 完成。
( 6 ) 重要的是要确保在 Excel 里按序号来阐述蛋白质点列表值。否则,多元数据分析软件要正确输入蛋白质点列表时就会出现问题。有必要用句点作为小数点分隔符。
( 7 ) 用 Excel 的 Edit 菜单的 Replace 选项,将缺失值用 0 取代。
( 8 ) 经验告诉我们,通过把单元格命名为数据,指定蛋白质点和胶的名字,将使数据矩阵从 Excel 输入到 The Unscrambler 更容易一些。这是因为在输入后,这些名字会再出现在 The Unscrambler 中。在 Excel 里,选好要命名的单元格,选择公式栏左侧的 Name,就可以命名单元格;还可以通过 Define Name 的对话框来命名单元格,通过选择 Insert 菜单中的 Name 子菜单下的 Define 来完成。
( 9 ) 在 The Unscrambler 里,有一个可变选项 Uncertainty Test ( 刀切法,jackknife) ,可以用来选择感兴趣的选项。
参考文献
1. Gottlieb, D. M., Schultz, J., Bruun, S. W., Jacobsen, S., and S0ndergaard, I. (2004)Multivariate approaches in plant science. Phytochemistry65, 1531-1548.
2. lessen, F., Lametsch, R., Bendixen, E., Kjaersgard, I. V. H., and J0rgensen, B. M.(2002) Extracting information from two-dimensional electrophoresis gels by partial least squares regression. Proteomics 2, 32-35.
3. Radzikowski, L., Nesic, L., Hansen, H. B., Jacobsen, S., and S0ndergaard, I.(2002) Comparison of ethanol-soluble proteins from different rye (Secale cereale)varieties by two-dimensional electrophoresis. Electrophoresis 23, 4157-4166.
4. Schultz, J., Gottlieb, D. M., Petersen, M., Nesic, L., Jacobsen, S., andS0ndergaard, I. (2004) Explorative data analysis of 2-D electrophoresis gels. Electrophoresis 25, 502—511.
5. Martens, H. and Martens, M. (2001) Multivariate Analysis of Quality. An Introduction.John Wiley & Sons, New York.
6. Esbensen K. H. (2000) Multivariate Data Analysis~In Practice. Camo, Oslo,Norway.