丁香粉猪猪
可将经典学派的策略分为基于分布假设和基于传统非参数检验策略两类。
(1)基于分布假设的统计策略
基于分布假设策略的一般步骤可总结为:1)假设数据集服从某种特定的分布;2)建立统计模型、构造统计量;3)计算 p 值、确定阈值,比较得出结论。
研究某蛋白质在两种状态下表达水平差异的显著性,相当于检验两组数据的均值是否存在差异。而 t 检验是统计方法中发展较成熟的、用于分析两组样本间均值差异的方法,t 检验的前提是假设样本数据来自同一正态分布,且要求每种样本至少进行三次重复实验。但是,t 检验易受到样本量的限制。由于实验成本及时间等原因,小样本的情况不可避免,这就严重低估了总体方差,导致结果中假阳性比例显著增加(3)。
(2)基于传统的非参数统计检验策略
基于分布假设统计策略模型均有一个明显的不足:检验时需要假设数据服从某种分布形式。虽然基于质谱的蛋白质组学产出的是大规模数据,在理论上会趋近一些常用分布,但在实际应用中,总会有某种分布难以描述的情况存在。而非参数检验方法是直接对统计量的分布进行估计,不要求数据满足特殊分布,在这一点上优于上述策略,也能更好地分析蛋白质组学数据。比如,Fisher精确检验(4)、G检验(5),较早提出的非参数检验方法适合分析实验重复次数有限的数据,这也恰好满足蛋白质组学研究中“少重复”的特点。目前用的比较多的非参检验是Fisher exact test以及rank sum test秩和检验。其中Fisher精确检验适用于离散数据,比如谱图计数值。Rank sum test则适用于连续值,比如蛋白的intensity定量值。当数据不满足正态性及方差齐性而无法做t-test时,可以选择非参检验比如rank sum test。
vae1476
一般用生物信息学筛选,可以从这几方面入手
1选择与研究相关的蛋白
做研究要“有意义”,发文章要“讲故事”。选择与研究相关的蛋白进行后续验证和分析是首要标准,这个“相关”就要我们各位小伙伴们根据前期的数据积累、文献调研和经验去判断了哦!
2选择GO/KEGG富集到的差异蛋白
如果没有特别感兴趣的蛋白,可以重点关注GO和KEGG富集到的相关条目/通路涉及的差异蛋白,这种蛋白可能对实验处理最敏感,最相关,分析起来也更有意义。
3选择有文献支持的蛋白
有文献报道的蛋白更容易讲故事展开讨论,如果发现文献中还有描述与筛选到的差异蛋白一致的表达趋势,那就赶紧把它加入到你的小本本里,因为这样的蛋白更可能是“真的”差异蛋白,被验证成功的概率也会很高!
Kimser
可以通过癌组织和癌旁组织相同蛋白表达水平以及GO,KEGG分析筛选差异蛋白,技术选择推荐非参数统计
bamboopiggy
直接送蛋白质组,最简单,但是筛选出的蛋白可能需要你进行验证,不一定筛出来的就是你要的。或者根据你的需要做个coip,然后送质谱也行。
天一湖医者
选择GO/KEGG富集到的差异蛋白。选择有文献支持的蛋白。选择唯一肽段数多的蛋白。选择平行较好的蛋白。选择差异倍数大p值较小的蛋白
相关产品推荐
相关问答