想要筛选差异蛋白，怎么选择合适的技术呀？

相关实验：质谱在蛋白质组学中的应用实验

dxy_gpte7c18

2022-03-25

5 个回答

丁香粉猪猪

2022-03-26

有帮助

可将经典学派的策略分为基于分布假设和基于传统非参数检验策略两类。

（1）基于分布假设的统计策略

基于分布假设策略的一般步骤可总结为：1）假设数据集服从某种特定的分布；2）建立统计模型、构造统计量；3）计算 p 值、确定阈值，比较得出结论。

研究某蛋白质在两种状态下表达水平差异的显著性，相当于检验两组数据的均值是否存在差异。而 t 检验是统计方法中发展较成熟的、用于分析两组样本间均值差异的方法，t 检验的前提是假设样本数据来自同一正态分布，且要求每种样本至少进行三次重复实验。但是，t 检验易受到样本量的限制。由于实验成本及时间等原因，小样本的情况不可避免，这就严重低估了总体方差，导致结果中假阳性比例显著增加(3)。

（2）基于传统的非参数统计检验策略

基于分布假设统计策略模型均有一个明显的不足：检验时需要假设数据服从某种分布形式。虽然基于质谱的蛋白质组学产出的是大规模数据，在理论上会趋近一些常用分布，但在实际应用中，总会有某种分布难以描述的情况存在。而非参数检验方法是直接对统计量的分布进行估计，不要求数据满足特殊分布，在这一点上优于上述策略，也能更好地分析蛋白质组学数据。比如，Fisher精确检验(4)、G检验(5)，较早提出的非参数检验方法适合分析实验重复次数有限的数据，这也恰好满足蛋白质组学研究中“少重复”的特点。目前用的比较多的非参检验是Fisher exact test以及rank sum test秩和检验。其中Fisher精确检验适用于离散数据，比如谱图计数值。Rank sum test则适用于连续值，比如蛋白的intensity定量值。当数据不满足正态性及方差齐性而无法做t-test时，可以选择非参检验比如rank sum test。