丁香实验_LOGO
登录
提问
提问
我要登录
|免费注册
丁香通
点赞
收藏
wx-share
分享

WGCNA 的输入矩阵到底是什么格式?

1850

请问用 tcga 做 wgcna 分析,原始数据输入 tpm 和 fpkm 格式都行吗?

如果下的 raw_count 有 r 包转换吗?

首先,TCGA 目前的确是以 count 格式的矩阵下载为主

至于能不能找到 RPKM 这样的矩阵,肯定是可以的,但是我教大家的主要是 count 值,因为对 RNA-seq 数据的差异分析以这个 count 为 input。

然后问题就是,用 tcga 做 wgcna 分析,是不是原始数据输入一定要是 tpm 和 fpkm 格式?

(PS,类似的基因表达量的归一化还有很多,详细见:https://hbctraining.github.io/DGE_workshop/lessons/ 02_DGE_count_normalization.html)

那么问题就是,用 tcga 做 wgcna 分析,是不是原始数据输入一定要是 tpm 和 fpkm 格式?

其实呢,我最开始的教程,的确是 fpkm,所以大家会以为必须要这样的输入格式,详细教程见:一文看懂 WGCNA 分析 (2019 更新版)

实际上,WGCNA 首先会对全部基因的表达量计算两两之间的相关性,这个时候,只需要基因的表达量是适合计算相关性的即可,如果是 原始 counts 值,可以直接转为 log(cpm+ 1) 的格式 ,更为重要的其实是挑选多少个基因进入后续的 wgcna 流程。

以及我们的基因被 WGCNA 算法分成了不同模块后,哪些是有生物学意义的,跟表型相关性。

接着什么样的程序一定要 tpm 和 fpkm 格式呢?

类似 tpm 和 fpkm 的基因表达量的归一化还有很多,详细见:https://hbctraining.github.io/DGE_workshop/lessons/ 02_DGE_count_normalization.html

如果是需要对基因表达量进行排序,这个时候,基因长度就有影响,所以需要使用 tpm 和 fpkm,比如:http://xcell.ucsf.edu/。

最后如果下的 raw_count 有 r 包转换为 tpm 和 fpkm

其实我 GitHub 有代码的,而且我还提出了 3 种方法,全部代码如下:

上面的代码有点复杂,如果 R 语言水平不够,不建议去理解了。其它知识点代码是:https://github.com/jmzeng1314 /scRNA_smart_seq2

<link />
提问
扫一扫
丁香实验小程序二维码
实验小助手
丁香实验公众号二维码
关注公众号
反馈
TOP
打开小程序