提问
提问
我要登录
|免费注册
点赞
收藏
wx-share
分享

如何使用 GSEA 进行数据分析?

丁香园

5021

在本篇文章中,将利用 GSEA 官网提供的数据集,介绍如何使用该软件进行分析数据。

一、打开软件,在软件左上角 Download Example datasets,或者直接去该网站进行下载。

http://www.gsea-msigdb.org/gsea/datasets.jsp

在这里,我们将使用 p53 的数据进行分析,将图中红框的三个文件都下载到本地,这三个文件为携带 p53 突变与野生型表达谱、表型文件。在下载数据的时候,首先需要先进行注册,注册只需要邮箱,很简单就能完成。

二、下载完成之后,再回到软件首页,在软件左上角,点击 load data,将刚才下载的三个文件上传。

注意:上传的数据在格式上是有要求的,这个在 GSEA 官网上有说明

点击 load data 之后,右边的界面会出现下图所示画面:

1. 通过浏览电脑本地文件夹上传文件;

2. 上传最近使用过的数据(第一次使用时不会用到这个方法上传数据);

3. 直接将数据直接拖过来;

4. 对上传的数据类型的具体格式有详细的要求,因此要按照软件要求格式上传数据;

我是直接将下载的数据直接拖进来,然后点击「Load these files!」,之后软件会对将要上传的数据进行检验,除非按照软件要求的格式,否则会报错。

上传成功之后,就会在该界面看到导入的数据:

三、数据准备好之后,下一步就是要进行分析本批次数据了。点击 Run GSEA,此时右边界面会有很多选项,然后根据你的实际情况进行填写就好了。

具体参数设置根据提示进行选择:

1. 表达数据集,在这里为之前下载的 p53_hgu95av2 dataset ;

2. 根据自己数据的情况,点击右边小红框,选择合适的数据集(网络或者本地),这里选择的是 Hallmark;

3. 第一次运行的时候,先用一个小的数,这里选用 5,等成功运行之后可以换成较大的数字;

4. 根据实际情况,点击右边小红框选择想要比较的表型,这里选择 MUT VS WT;

5. 如果上传的表达数据集基因 ID 为测序平台原始的 ID,这里就选择「true」;如果表达数据集为基因名称(gene symbols),那就不需要进行转换,此时选择「false」;

6. 在上传的数据集中,如果每组样本数较多(>= 8),此处选择「phenotype」;如果样本数较少,选择「gene_set」;

7. 如果上传的表达数据集基因 ID 为测序平台原始的 ID,如果第 5 项选择的「true」,那么在此处需要点击右边的小红框选择对应的 chip platform,使得原始 ID 转换为 gene symbols,后者为软件可识别的 ID。

在这些参数设置好之后就可以点击下方的「run」运行。

四、运行过程中,在软件的左下角会显示运行状态,屏幕中间显示完成程度:

五、运行成功之后,点击左下角状态一栏的「success」,然后进入结果分析页面。当出现「success」之后,说明运行成功,但是也会出现「Error」,此时,你就要根据自己数据特点检查各个参数选择是否正确。

六、联网状态下,点击 success 就会转到结果报告页面,在这里有详细的解读,其中 Snapshot 超链接是图形,点开之后就会看到想要的画面了,可以分别点开每一个图进行查看是否为预期中的结果。

结果报告页面的下半部分,还会看到 MUT 与 WT 两者 marker 的热图和基因列表:

到这里,GSEA 的基本分析就完成了,希望可以对你有所帮助!

<link />
提问
扫一扫
丁香实验小程序二维码
实验小助手
丁香实验公众号二维码
关注公众号
反馈
TOP
打开小程序