异乡人hyq
基因集富集分析(Gene Set Enrichment Analysis,GSEA):用一个预先定义的基因集中的基因来评估在与表型相关度排序的基因表中的分布趋势,从而判断其对表型的贡献。
基因集变异分析(Gene Set Variation Analysis,GSVA):是一种非参数的无监督分析方法,主要用来评估芯片和转录组的基因集富集结果。主要是通过将基因在不同样品间的表达量矩阵转化成基因集在样品间的表达量矩阵,从而来评估不同的代谢通路在不同样品间是否富集。
天一湖医者
富集分析,一个生物过程通常是由一组基因共同参与,而不是由单个基因独自完成。富集分析的基本前提假设是,如果一个生物学过程在已知的研究中发生异常,则共同发挥功能的基因极可能被选择出来作为一个与这一过程相关的基因集合。富集分析(Gene Set Enrichment Analysis, GSEA)通常是分析一组基因在某个功能节点上是否相比于随机水平过于出现(over-presentation)。富集分析原理可以由单个基因的简单注释扩展到多个基因集合的成组分析。
富集分析的作用。一组基因直接注释的结果是得到大量的功能节点,这些功能具有概念上的交叠现象,导致分析结果冗余,不利于进一步的精细分析,所以研究人员希望对得到的功能节点加以过滤和筛选,以便获得更有意义的功能信息。目前最常用的方法是基于GO和KEGG的富集分析。首先通过多种方法多的大量的感兴趣的基因,例如差异表达基因集、共表达基因模块、蛋白质复合物基因簇等,然后寻找这些感兴趣基因集显著富集的GO节点或者KEGG通路,这有助于进一步深入细致的实验研究。总而言之,富集分析是用来解读一组基因背后所代表的生物学知识,揭示其在细胞内或细胞外扮演了什么样的角色。
基因集变异分析,是一种非参数,无监督的算法。与GSEA不同,GSVA不需要预先对样本进行分组,可以计算每个样本中特定基因集的富集分数。换而言之,GSVA转化了基因表达数据,从单个基因作为特征的表达矩阵,转化为特定基因集作为特征的表达矩阵。GSVA对基因富集结果进行了量化,可以更方便地进行后续统计分析。如果用limma包做差异表达分析可以寻找样本间差异表达的基因,同样地,使用limma包对GSVA的结果(依然是一个矩阵)做同样的分析,则可以寻找样本间有显著差异的基因集。这些“差异表达”的基因集,相对于基因而言,更加具有生物学意义,更具有可解释性,可以进一步用于肿瘤subtype的分型等等与生物学意义结合密切的探究。
GSVA算法接受的输入为基因表达矩阵(经过log2标准化的芯片数据或者RNA-seq count数数据)以及特定基因集。步,算法会对表达数据进行核密度估计;第二部,基于步的结果对样本进行表达水平排序;第三步,对于每一个基因集进行类似K-S检验的秩统计量计算;第四步,获取GSVA富集分数。最终输出为以每个基因集对应每个样本的数据矩阵。
相关产品推荐
相关问答