【专题讨论】itraq实验数据常用的数据分析
丁香园论坛
2510
给大家分享一下做了两次itraq实验和分析后的一些经验,有什么说的不对的,请各路大神指教
蛋白质组学中itraq数据一般来说做如下分析的比较多
1.差异蛋白筛选 2.层次聚类分析 3.差异蛋白GO分类 4.差异蛋白pathway分析 5.差异蛋白互作网络构建
我也只能简单介绍一下这些数据分析
1.差异蛋白筛选,一般用到的两个值是foldchange值和p值,其中前者是表达量的倍数值,后者是学氏-T检验值,一般都是运用这个两个值来筛选的,foldchange值大于2或者小于0.5,p小于0.05,都是显著差异。这个阈值也可以变动,可以根据参考文献,略作调整
2.层次聚类其实就是根据表达量差异做的一个热力图,第一点从样本重现性角度可以看同一组样本中,蛋白表达趋势是否相同,第二点,从蛋白角度看,可以看到哪些蛋白是拥有相同或相近的表达趋势,以便于通过已知蛋白的功能,推测未知蛋白的功能,用itraq检测出来的蛋白比较多,所有一般来说都是用差异蛋白来做的这个图,在文献里也经常可以看到这种类型的图
3.差异蛋白的GO分类,全名Gene Ontology,可分为分子功能(Molecular Function),生物过程(biological process)和细胞组成(cellular component)三个部分。蛋白质或者基因可以通过ID对应或者序列注释的方法找到与之对应的GO号,而GO号可对于到Term,即功能类别或者细胞定位。
功能富集分析: 功能富集需要有一个参考数据集,通过该项分析可以找出在统计上显著富集的GO Term。该功能或者定位有可能与研究的目前有关。
GO功能分类是在某一功能层次上统计蛋白或者基因的数目或组成,往往是在GO的第二层次。此外也有研究都挑选一些Term,而后统计直接对应到该Term的基因或蛋白数。结果一般以柱状图或者饼图表示。根据挑选出的差异蛋白,计算这些差异蛋白同GO 分类中某(几)个特定的分支的超几何分布关系,GO 分析会对每个有差异蛋白存在的GO 返回一个p-value,小的p 值表示差异蛋白在该GO 中出现了富集。
4.Pathway分析
根据挑选出的差异蛋白,计算这些差异蛋白同Pathway 的超几何分布关系,Pathway 分析会对每个有差异蛋白存在的pathway 返回一个p-value,小的p 值表示差异基蛋白在该pathway 中出现了富集,也可以使用KEGG数据库,将蛋白和代谢组学的数据进行一起分析,看看两者之间上下游的调控关系。
5.基因网络分析
根据文献,数据库和已知的pathway 寻找蛋白之间的相互关系(不超过1000 个蛋白),做出来的图可以用不同的线连接各种蛋白,线的种类可以表示其不同的关系,连接度高低可以看出蛋白的重要性,起到提示作用。进行验证的时候也可以选取其中连接度较高的一些蛋白,做wb之类。
这是个人的一些经验,其中第三条参考了一下别人的想法,有关于这方面可以讨论的站内联系,如果有更好的数据分析方法,也可以给我QQ留言:283203523,我也想学习一下
蛋白质组学中itraq数据一般来说做如下分析的比较多
1.差异蛋白筛选 2.层次聚类分析 3.差异蛋白GO分类 4.差异蛋白pathway分析 5.差异蛋白互作网络构建
我也只能简单介绍一下这些数据分析
1.差异蛋白筛选,一般用到的两个值是foldchange值和p值,其中前者是表达量的倍数值,后者是学氏-T检验值,一般都是运用这个两个值来筛选的,foldchange值大于2或者小于0.5,p小于0.05,都是显著差异。这个阈值也可以变动,可以根据参考文献,略作调整
2.层次聚类其实就是根据表达量差异做的一个热力图,第一点从样本重现性角度可以看同一组样本中,蛋白表达趋势是否相同,第二点,从蛋白角度看,可以看到哪些蛋白是拥有相同或相近的表达趋势,以便于通过已知蛋白的功能,推测未知蛋白的功能,用itraq检测出来的蛋白比较多,所有一般来说都是用差异蛋白来做的这个图,在文献里也经常可以看到这种类型的图
3.差异蛋白的GO分类,全名Gene Ontology,可分为分子功能(Molecular Function),生物过程(biological process)和细胞组成(cellular component)三个部分。蛋白质或者基因可以通过ID对应或者序列注释的方法找到与之对应的GO号,而GO号可对于到Term,即功能类别或者细胞定位。
功能富集分析: 功能富集需要有一个参考数据集,通过该项分析可以找出在统计上显著富集的GO Term。该功能或者定位有可能与研究的目前有关。
GO功能分类是在某一功能层次上统计蛋白或者基因的数目或组成,往往是在GO的第二层次。此外也有研究都挑选一些Term,而后统计直接对应到该Term的基因或蛋白数。结果一般以柱状图或者饼图表示。根据挑选出的差异蛋白,计算这些差异蛋白同GO 分类中某(几)个特定的分支的超几何分布关系,GO 分析会对每个有差异蛋白存在的GO 返回一个p-value,小的p 值表示差异蛋白在该GO 中出现了富集。
4.Pathway分析
根据挑选出的差异蛋白,计算这些差异蛋白同Pathway 的超几何分布关系,Pathway 分析会对每个有差异蛋白存在的pathway 返回一个p-value,小的p 值表示差异基蛋白在该pathway 中出现了富集,也可以使用KEGG数据库,将蛋白和代谢组学的数据进行一起分析,看看两者之间上下游的调控关系。
5.基因网络分析
根据文献,数据库和已知的pathway 寻找蛋白之间的相互关系(不超过1000 个蛋白),做出来的图可以用不同的线连接各种蛋白,线的种类可以表示其不同的关系,连接度高低可以看出蛋白的重要性,起到提示作用。进行验证的时候也可以选取其中连接度较高的一些蛋白,做wb之类。
这是个人的一些经验,其中第三条参考了一下别人的想法,有关于这方面可以讨论的站内联系,如果有更好的数据分析方法,也可以给我QQ留言:283203523,我也想学习一下