二维凝胶的定量分析

最新修订时间：2024-05-13

材料与仪器

开放源代码软件

步骤

3.1 实验设计

1. 平行设计

不同凝胶之间部分蛋白质点的量变是不可控的。重复样品之间或从蛋白质样品制备到二维凝胶染色的任何步骤的生物学差异，都是这些不可控变化的原因。已经表明，批次效应（即不同系列同时运行电泳和染色的二维凝胶的变化）对二维电泳的结果影响很大，因此在实验设计中考虑这些影响很重要。多个批次时须将胶分组，只不同于分析因素，举例来说，在同一电泳槽中比较 12 个处理（每处理重复 3 次），其中 12 块凝胶可以同时运行，3 个二维系列应随后运行，每个处理应在一块凝胶的一个系列上表示。因此，一旦不受控制的变化影响到 3 个系列中的一个 ( 如一银染比在其他稍暗），它们会以同样的方式影响到所有的处理。与此相反，如果 3 个重复中的 4 个处理在同一个电泳槽上运作，将无法解释这些处理的批次效应和真正的生物学效应之间的关系。在现实中，并不总是能够建立完全平行的设计，因为失败的二维凝胶必须进行第二次实验。不过，可以用补充批次的办法来尽可能平衡实验。

值得注意的是，批次效应的放大可以通过事后运行主成分分析（将凝胶作为观察值和将点作为变量）实现可视化。

2. 技术和生物学重复

重复对检查定量变化极为重要。它们考虑到那些不可控制的变量，而这些不可控制的变化对于评价被研究因素的效果必不可少。

当使用生物学重复时（来源于不同的植物样本），重复之间的差异是由于生物学和实验上的差异造成的。当然，当使用实验重复时（如来源于同样的蛋白质样本的不同凝胶）时，只考虑实验中的变量。因而实验重复产生的差异一定比生物学重复中产生的要小，在统计测试中从而更加显著。不过，从实验得出的结论可能只适用于该研究样本，因为不好确定差异来源：它可以由单植物的不同造成（如环境和发育的变化），或由在制备样本过程中技术的变化，以及所测试的因素所引起。相反，当运用生物学重复时，研究的因素是唯一可能产生显著差异的原因，因为只有它在对比组和鉴定组之间产生差异；因此，当所研究的处理是一个定性变量时（如干旱与对照）就必须使用生物学重复。

当研究的因素是一个连续变量（如同样试剂的不同剂量，或相同处理不同时间）时，完全没有必要为所有测试值（剂量或时间点）进行重复：统计检验（如线性回归）将根据观测值和该预测值之间的差值计算剩余变量。不过，重复只有在以下两种情况下可以省略：① 有充足的数据点（一条回归线只有 3 点是不充分的）；② 蛋白质量和剂量或时间之间的关系是线性的（线性回归），或预期的线性图形是已经知道的（非线性回归)。

在某些情况下有可能使用连续数据之间的同质性（如 3 个时间点）来解释没有生物学重复的实验结果：在连续时间点的响应，它的连贯性或连续性支持变量与处理相关的假设。相反，打破连续性反应的值将被视为可能由个体差异造成。因此，连续的值实际被用来作为生物学重复。不过实际上在所研究处理的分析中，这样做将导致分辨率的丢失。

为了减小个体差异而考虑生物学变异的最好方法是在生物学重复中多取几株植物。

3. 参考凝胶

即使在定量分析时参考凝胶也不一定使用，但它一般是有用的。在大多数的二维软件包中，点匹配是基于建立一个包含所有匹配点的虚拟参考凝胶。建立这样一个参考凝胶是一个限制步骤，最好是一开始就建立一个已经包含几乎所有点的真正凝胶。可以通过运行共电泳的方法来实现，在电泳中不同的处理由等量的蛋白质代表。

3.2 图像采集

1. 数字化

图像数字化是定量分析的第一步。凝胶可用激光密度仪，平板扫描仪（如 Pharmacia) 或 CCD 相机（如 ProXpress) 扫描。

无论何种系统必须先获取传输值，也就是说，探测器接收从凝胶反射的光。传输值是探测器在凝胶存在的情况下接收信号的强度和在没有凝胶存在情况下接收信号强度之间的比率（I/I₀）。当然，当使用一个平板扫描仪时，任何使对比度增强的功能（如伽马校正）都不应被激活，因为它们会扭曲真正的传输值。传输值（范围从 0 到 1) 一般编码成 16 比特位，也就是说，I/I₀ 的比率转化成 0~65735 不等的值。因此，产生的图像是一个介于 0~65735 数值（像素）的矩阵。普遍采用灰度模式的 TIF 格式，不使用像素失真如 JPEG 格式压缩的。

2. 图像分辨率

分辨率（每长度单位多少像素）越高，小点将被检测和量化得越好。不过分辨率在检测有重叠点的群体中也是一个制约因素。

如果强度峰值之间没有“ 波谷” ，多数二维软件包是不能探测同一组中的多个点的。因此，点检测的准确性取决于能否发现这些“ 波谷”，而这又取决于代表两点之间强度变量像素的数量。约 24 cm X 20 cm 的凝胶，一般用每像素 100 μm 的分辨率，近似于 300 dpi ( 每像素 84.7 μm) 。这个值实际上是一种折衷的选择，因为两个因素限制了图像分辨率：① 图像采集速度：当众多的凝胶必须同一天扫描时，扫描凝胶所花时间成为限制因素；② 图像文件的大小：用分辨率为 100 μm/ 像素和 16 位数字化对约 24 cm X 20 cm 凝胶扫描，产生的文件为 10~14 Mb。图像文件越大，二维套装软件检测、量化并匹配点所需要的时间越长（见注释 1)。

3. 动态图像

在图像采集过程中，应尽可能充分使用 65736 灰度级。视扫描仪的类型，可调整曝光时间、光圈大小、使用过滤镜与否。凝胶图像不应含有白色表面（100% 传输）：如果背景未检出，背景水平面上的小点也可能将不会被检出。

图像也不应该包含黑区域（0% 传输），因为比阈值更黑的所有点将被编码成相同的值。

免费软件 ImageJ 可以用来寻找这些饱和值的可能区域。它还能检查动态图像，即图像上最小和最大值之间的差值。图像动态应最大化：当然精确的量化取决于图像采集中使用的灰度水平。如果用几百灰度水平处理 65000 以上的图片无疑是不恰当的。

当使用相机时，光可以产生光晕：即边缘区域的图像比中央区域要黑。有的图像采集系统（如 ProXpress、Perkin) 设计时本身已顾及光晕。当然，这种现象也可以通过背景消除法消除。

4. 传输数据转化为光密度

传输的数据必须转换成光密度（当然荧光染色不能做这种转换）。在大多数的二维数据包中不需要用到这个。蛋白质浓度与光密度呈线性相关，而非传输值。光密度 (OD) 和传输值之间的关系如下：OD= - log (I/I₀) 。

由于这种关系不是直线，一个给定的传输增加值与不同的 OD 增加量相对应，这依赖于传输数值的原始值。只要使转换的光密度与点量和蛋白质量成线性关系。如果某一特定蛋白质分别来源于 A 和 B 两个不同的样本，且 B = A + X，那么 OD_B = OD_(A+X) =OD_A+ OD_X，其结果 OD 是相加关系，这对于传输值是不正确的，在背景减除之前必须先做这种转换（图 16-1)。

一般地，可以通过扫描柯达条带（ Kodak strip) 转换成 OD。二维软件数据包含有一种工具来记录与传输数据相应的已知 OD 和计算调整曲线。值得注意的是，转换必须顾及 OD 和传输值之间的自然对数的关系，否则线性回归是没有用的。

3.3 点量的均一化

正如在 1. 中已经讨论过的，大部分的变化点是与凝胶效应相关的：在蛋白质上样过程中，在二维电泳中可能的蛋白质沉淀和在染色过程中的不可控变化都有可能影响凝胶整体强度。这种变化或多或少会影响某一特定凝胶上所有的点，所以均一化的目的是纠正这些普遍的差异。因此，均一化应该在蛋白点转化为 OD 值和背景消除以后进行( 见注释 2) 。

1. 蛋白点均一化的定义

进行点检测的区域由用户决定。一般情况下蛋白点的均一化要在同一个区域中进行。在所有凝胶中确定一个相同的区域很重要，因为这种广泛的均一化模式是基于这个区域中所有蛋白质点的总量。由于凝胶-凝胶变化（不完整的凝胶，因各种原因难以定义的区域），并不总是能够确定所有的凝胶中蛋白点检测的相同区域。那么，这时最好定义另一个区域作点的均一化。其实，即使感兴趣的同一区域被限定作点检测，而为了计算均一化界定更小的区域将更加实用，凝胶上大多数可变区可拋弃。蛋白点体积的均一化是依照用户自定义区域中点的总量而定的，可以用二维软件包简单程序化。从二维软件包中输出的数据包括 X、Y、非均一化的量、在每个凝胶上的每个检测点优化的匹配数目（即参考数)。这些数据很容易在一般的二维软件包输出（如通过从 Progenesis 的测量窗口输出数据)。

“ firstgel. csv” 是一个文本文件，其中第一行包含列标题，下面的行包含点的数目、匹配点的数目、X、Y 和在第一向凝胶上所有检测点的非均一化的量。图 16-2 显示的是用 SAS 语言编写的程序，根据用户自定义区域所有点的总量使其归一化，并产生一个单独的固定表格，其中每个点是一个变量（一列），每一个凝胶是一行（一个观察值）。虽然图 16-2 没有表示，但这种方法容易与另一个方法配合使用。举例来说，点的总量计算可以限制在所有凝胶上出现的点（见 16.3.5 节）。计算也可以只限于特异的一系列点。但是，最终选定作归一化的点数不应该太少：数目越少，归一化越不稳定。

如图 16-2 程序所示，由于有许多的注释，所以看起来非常复杂，其实他们是相对明确而简单的。正如分析定性和定量的变化有不同的方法，归一化也有不同的方法。可以用最普通的统计数据包进行编辑，方法上比二维数据包自带的有限统计工具更加便捷和先进。

2. 其他点的归一化方法

另一种点的归一化方法是基于在参考凝胶与所研究凝胶同一区域上点的体积比：vol_rcf /vol_gel，要计算参考凝胶和研究凝胶上所有的匹配点。均一化是由凝胶上的所有点的体积与相应比值的平均值（或中值）乘积组成。由于没有将全部点计算，该方法的准确性并不取决于均一化区域的精确界定。当然即使它的重复性不是很好，我们仍然可以使用感兴趣的经典区域。因为它是基于在两块凝胶上匹配的点（即在均一化的凝胶和在参考凝胶上），均一化涉及的点数多于在所有凝胶上出现的点数，因为随着实验中凝胶数量的增加，凝胶上点的数量会明显下降。

这种方法在理论上也优于同一区域上相对应的所有点的归一化方法，因为它对于一个处理的特异性点没有偏差。它可以通过计算在一个特定的范围内点的体积比来提高其准确性。事实上，可以不考虑很微弱的点，因为小体积的变化可以引起大比率的变化，而且非常大的点也应排除在外，因为这些大点的近饱和值缺少线性关系。

在此方法中未匹配的点是没有用的，只有包含所有凝胶上所有匹配点的原始量和匹配数目的一个表将被输出。程序如图 16-3 所示，从 CSV 文件中提取的数据来源于 Progenesis 软件的 “比较窗口” 。第一列包含匹配的名字，接下来的列包含不同凝胶上点的非归一化量值。值得注意的是，如果对由二维软件所提出的归一化方法满意的话，这种定量数据输出的方式也是最方便的。同时输出的文件还可以用于可重复性点和定性变化点的选取 ( 见 16. 3. 5 ) 。

Burstin 等 [1] 建立了另一种点均一化方法。它是基于主成分分析法，适用于当所研究的参数变量相对于残差较小时，或者是这种变异只涉及少数点时。这里不作进一步介绍。

3.4 相对强度和相对量的线性关系

分析蛋白质（丰度）含量与测量点的体积间的关系是十分有趣的。一种做法是，比较载有相同样本的一系列蛋白质含量的凝胶。不过，在真正的比较中，由于点的量是归一化的，这并不能给出一个正确的量化估计。实际上，人们不能从载有相同样本不同含量的凝胶上归一化点的量，这是由于归一化将消除整体凝胶效应，而这种效应是由蛋白质上样差异所造成的。

更好的方法是使用两种包含特定点的不同样本（如感兴趣的样本和另一来自不同的物种或器官的样本），并且准备不同比例的混合物，如从 1 : 9 到 9 : 1，但总蛋白质的量不变。从这些不同混合物和两个纯样本获得的二维凝胶可以像通常情况一样实现均一化，能够计算出对于感兴趣样本的特异点的回归，正如在混合样本中各样品的已知比例一样。Avid 等使用这种方法，对在正常的实验中相同条件下点的量与蛋白浓度的线性关系进行研究。如果反应是线性的，即可对不十分显著的差异蛋白浓度进行测定。

3.5 质变

质变，即点变量的存在与缺失，这比定量变量更容易确定。然而，有时它的界定也会比较困难，至少在处理大规模实验时，会有一定量的数据缺失。

重复点不能在所有的凝胶都出现，因为根据定义是不可能检测到重复的质变点。因此，最好用一致性来处理，同时考虑到这样一个事实，即蛋白质点可以持续性地出现或缺失。最严格的一致性标准是认为一个蛋白质点必须在某一给定组中所有重复中都存在（处理组、基因型等) ，并在另一个 “缺失” 组中的所有重复中都缺失。但是，这个标准对于许多凝胶过于严格，因为实验中存在可能的意外（如凝胶染色比其他的浅、凝胶的破损等)。

3.6 量变

定量蛋白质组学分析的目标差异可能很大，从全局分析，其兴趣在于确定蛋白质变化的主要根源，确定与特殊处理相应的为数不多的蛋白质点。

定量变化可以用来分析蛋白质之间的关系，如确定核调控蛋白质的种类。一般情况，等级分类用在以下这种情况：在不同的实验条件根据蛋白质总量将它们聚类并可视化。通过“cluster”程序可以做到聚类的可视化。

主成分分析（PCA )，以点作为变量，以样本作为观察值，它能根据变量所代表蛋白质点的主要变异量使不同样本的分布可视化（见第 17 章）。PCA 也可以自动侦测异常凝胶，如所研究凝胶上的点却散落在其他凝胶上（见注释 3)。

定量变化的另一种做法是寻找与实验（如处理、基因型）可控因素或实验期间的其他因素（如激素剂量）明显相关的功能蛋白质。像 PCA 这样的全局性分析中，并不希望专门侦测到显著变化点，因为它们不一定需要很多，而其变化相对于大多数点的变化有髙度特异性。当检测点存在单一或多因素显著变异时，一般选择方差分析的方法。当两个以上的处理进行对比，这时最好使用方差分析，而不是直接运行 t-检验，因为它能更好地计算剩余方差估计式（见注释 4) 。

经过方差分析后，根据具体的生物学问题可以使用不同的比较方法。如 Dunnet 测试适用于同一控制条件下不同的处理方法进行对比，Duncan 或 Student-Newman-Keuls 测试适用于所有处理间的比较（见注释 5) 。线性回归适用于计算点与连续变量（如激素的剂量）之间的关系。图 16-5显示了选择所有点的 SAS 编程程序，这些点显示了在两因素方差分析中显著的变化及因素间的相互作用（见注释 6)。

一般情况下，0.05 或 0.01 是统计检验中常用的显著性水平。即当数据中的变化有 5% 或 1% 的概率时，这变化被认为是显著性变化。换言之，显著性水平是一个假阳性检测的概率。因此，如果 0.01 显著性水平用于 1000 个点时，可以肯定的是它们中约有 10 个是假阳性。方法之一，考虑用比较的数目分割显著性水平（ Bonferroni校正）。在目前情况下，这将导致 10^-5 的显著性水平。这样检测到的全部假阳性概率是 1000 点区域存在 0.01 个假阳性。这是一个保守的方法，但它降低了灵敏性，因为显著性水平为 10^-5 时，变异将非常大。使用此方法也可能丢失许多真的点。

在做多重比较时，Benjamini 和 Hochberg [3] 提出了错误发现率（FDR ) 的方法。这种方法的原理是要允许几个百分点（如 5% 或 1% ) 的检测变化是假阳性。而 Bonfenroni 校正的做法是保持 1/1000 个假阳性点的风险在 1%。而 FDR 方法是允许阳性检测的 1% 错误，这种方法不是很保守，但比 Bonferroni 校正更灵敏。这是一个处于完全没有校正（所有点测试在1% ) 和 “ 过度 ”校正（Bonfemmi 校正）之间的折衷方案。图 16-6 显示了依照 FDR 方法选择显著点的 SAS 程序。

来源：丁香实验