WGCNA 的输入矩阵到底是什么格式？

2019-10-16

4734

请问用 tcga 做 wgcna 分析，原始数据输入 tpm 和 fpkm 格式都行吗？

如果下的 raw_count 有 r 包转换吗？

首先，TCGA 目前的确是以 count 格式的矩阵下载为主

至于能不能找到 RPKM 这样的矩阵，肯定是可以的，但是我教大家的主要是 count 值，因为对 RNA-seq 数据的差异分析以这个 count 为 input。

然后问题就是，用 tcga 做 wgcna 分析，是不是原始数据输入一定要是 tpm 和 fpkm 格式？

(PS，类似的基因表达量的归一化还有很多，详细见：https://hbctraining.github.io/DGE_workshop/lessons/ 02_DGE_count_normalization.html)

那么问题就是，用 tcga 做 wgcna 分析，是不是原始数据输入一定要是 tpm 和 fpkm 格式？

其实呢，我最开始的教程，的确是 fpkm，所以大家会以为必须要这样的输入格式，详细教程见：一文看懂 WGCNA 分析 (2019 更新版)

实际上，WGCNA 首先会对全部基因的表达量计算两两之间的相关性，这个时候，只需要基因的表达量是适合计算相关性的即可，如果是原始 counts 值，可以直接转为 log(cpm+ 1) 的格式，更为重要的其实是挑选多少个基因进入后续的 wgcna 流程。

以及我们的基因被 WGCNA 算法分成了不同模块后，哪些是有生物学意义的，跟表型相关性。

接着什么样的程序一定要 tpm 和 fpkm 格式呢？

类似 tpm 和 fpkm 的基因表达量的归一化还有很多，详细见：https://hbctraining.github.io/DGE_workshop/lessons/ 02_DGE_count_normalization.html 。

如果是需要对基因表达量进行排序，这个时候，基因长度就有影响，所以需要使用 tpm 和 fpkm，比如：http://xcell.ucsf.edu/。

最后如果下的 raw_count 有 r 包转换为 tpm 和 fpkm

其实我 GitHub 有代码的，而且我还提出了 3 种方法，全部代码如下:

上面的代码有点复杂，如果 R 语言水平不够，不建议去理解了。其它知识点代码是：https://github.com/jmzeng1314 /scRNA_smart_seq2。

无忧采购轻松科研

提问

扫一扫

实验小助手

扫码领资料

反馈

TOP

打开小程序