蛋白质组数据的多元分析

最新修订时间：2024-05-13

材料与仪器

仪器、耗材	Excel 程序图像分析软件多元数据分析的软件扫描仪

步骤

用 Progenesis、Excel 和 The Unscrambler 对 2D 凝胶进行多元分析。

3.1 确定研究方案后建立蛋白的 2D 凝胶

在本章节中不再阐述，但要确定染色方法以便进行凝胶的定量分析（见注释 1 )。

3.2 用具备透射模式扫描的扫描仪使凝胶数字化在本节中不再阐述，但要确保用高色素、高分辨率扫描图片（见注释 2 ) 并且在图像处理软件中用正确的格式保存图片（见注释 3) 。

3.3 用数据分析软件分析数字化的 2D 凝胶 2D 凝胶数字化后（图 17-1)，用图像分析软件 Progenesis 确认蛋白质点，和参考凝胶上的蛋白质点进行匹配分析。可以自动选择参考凝胶，也可选择一个特异 2D 凝胶作为参考凝胶，不能匹配的蛋白质点可归到参考凝胶中。

3.4 生成蛋白质点列表

蛋白质点检测后，可以生成相匹配的蛋白质数值列表，通常这是体积数据。这个列表可以在 Progenesis 软件的比较窗口（Comparison Window ) 找到。这个列表 ( 表 17-1) 还可以通过 Edit 菜单中的 Copy to Excel 输出到 Excel 中。标记为 1 时表示蛋白质点存在，标记为 0 时表示蛋白质点不存在。这个二元列表在某些情况下非常有用 ( 见注释 4) 。另一个非常重要的一点就是要同时对这些蛋白质点进行标记（见注释 5) ，否则数据录入到 Excel 中，将会产生这样或那样的问题（见注释 6)。

3.5 将表格数据输入到多元分析软件进行分析

1. 验证方法

接下来是验证方法的选择，选择的依据主要是样品的数量和建立另一套数据的可能性。如果这套数据包括很多凝胶，首选的验证方法是测试集（test set) 法，其次是交叉验证（cross- validation) 方法。

( 1 ) 测试集验证基于两套不同的数据，一个用来 PCA 的校准（校准集）和创建模型，另一个是用来测试 PCA 校准的计算模型（测试集/验证集）。

测试集需要几个条件。首先，和校准集一样，所有的样品必须是来自同一个群体，取样条件必须和校准集的取样条件一样。此外，这两个数据集必须具有代表性。由于两个数据集有可能很相似，因此不能简单地将一个大的数据集划分为两个数据集。只有两个数据集的不同部分才可以作为取样方差，即来源于同一目标群体的独立的样品的方差[6] 。校准集必须足够大以便校准一个模型，测试集也必须足够大以便测试这个模型。通常我们没有足够的样品来做测试集检验，因此就必须做杠杆验证或交叉验证。

( 2 ) 当样品少但又都很重要时可以进行杠杆验证（leverage validation) 。由于杠杆验证是检验整个数据集，之后也用来验证测试正确的数据集，因此杠杆验证通常得出很好的结果。但我们不推荐使用杠杆验证。

( 3 ) 交叉验证用于中到大的数据集。数据集进行划分，每个区域省去，子模型（不包含区域的数据集）用来进行校准，划分的区域用来检测模型。每个区域都必须这样操作。区域大小和结构（随机的、系统的、手工的）将因数据集类型的不同而不同。每个区域占总的数据集的 25%，也就意味着有 4 个子模型要进行计算和测试。对于小一点的数据集，经常使用仅一个样品的区域，这就叫做全交叉验证也就意味着在校准时省去一个样品，省去的样品用来检测。全交叉验证是有多少样品就需要构建多少个子模型。因为每一次只能省去一个样品，每一次省去的样品用来测试型，当全交叉验证检验一个平衡的数据集时往往能得到一个很好的验证结果 [6] 。

( 4 ) 在 Unscrambler 中，可以选择可变选项（见注释 9)。

图 17-2 示例 PCA 分析。

3.7 分值阐述及分值图

( 1 ) 主成分（PC ) 和原始的变量为线性关系，包含了数据结构信息。第一主成分涵盖了绝大部分的信息，越高级位的主成分涵盖的信息越少，PC 也被叫做潜在变量或得分向量。

( 2 ) 分值图（score plot) 是两个或三个主成分的样品位置的图，因此样品越相似，得分越接近。一开始人们用簇来阐释 Score Plot，即具有共同特征的样品为一个簇，从而我们可以得到样品及区别于样品的变量的信息。此外，还可以发现离群样品，即一些和绝大部分样品不同的样品。由于离群样品可能是我们感兴趣的样品，可能还可以帮助我们发现分析时的错误或者数据收集的错误（即可以剔除的数据），所以我们还是有必要分析离群样品的。

( 3 ) Score Plot 应该和同样主成分的 Loading Plot 中的信息一起分析，这可以帮助我们确定变量，这些变量即是样品的不同点，这个可以在 Score Plot 中观察到。Loading Plot ( 图 17-3) 从不同的角度描绘数据。每个变量有一个 PC 值，这个不仅反映了由多少个变量贡献这个 PC，还反映了这个 PC 多大程度上考虑到变量的变化。

( 4 ) 阐述 Loading Plot 从高分值的变量开始，这可以帮助分析一个特别的 PC 的意义（图 17-4)。同样分值越高的两个变量相关性越高。由于 Loading 是变量和 PC 的角度的余弦值，因此这个数值是在 [ -1：+ 1 ] 之间的任意数值。高分值的变量，相同方面正相关，相反方面负相关。为了帮助分析，可以做双标图，它是 Scores 和 Loadings 的散点图（图 17-5)。

3.8 回归生物学分析

一旦用 Score 图阐明了样品分布，用 Loading 图阐明了变量（导致样品分布），就要回到样品的生物学或生物化学问题上了。在 2D 凝胶电泳中，蛋白点是变量，也即意味着通过这种分析可以指出哪些蛋白质点负责该 2D 凝胶的一些分布（图 17-6)。研究者由此可以提出一个假设来解释这种分布。这也叫做探索性数据分析（ exploratary dataanalysis) ，这是一种非常有效的蛋白质组学分析方法。

3.9 用偏小二乘回归分析和蛋白样品相关联的相应变量

偏小二乘回归（PLSR ) 通过回归方法将两套数据矩阵（X 和 Y ) 相关联，是一种监管方法（supervised method)。PLSR 的原理和 PCA 相似，通过多维空间的数据点找到能够解释大多数变化的最直接线性关系。PLSR 的目标是为了预测另一个数据表的理想特征，需用一个数据表建立一个线性模型。因此，PCA 是为了找到一个数据表（X 矩阵）中的隐含信息。PLSR 是用来检测两个数据表（X 矩阵和 Y 矩阵）的关系。X 矩阵为（N X K），Y 矩阵为（N X J ) ， N 为样品，K 、J 、X 、Y 分别为变量 [ 5 ]。

PLS-R 是通过操作 PCA 的 X 矩阵和 Y 矩阵起作用的，这两个矩阵相互依存。

类似 PCA [ 5 ] ，X-变量是根据 X -装载 P 和 X -余值 E 通过有关模型与 X-分值 T 进行关联的 [5]：