芯片表达简单差异分析
丁香园
最近实验室的小师妹要开题了……
师妹:课题还没有,预实验也没做,文献也没看,以前只顾玩了,肿么办?救命啊,师兄…… 呜呜……
师兄:我能怎么办?怪我咯,不听师兄言,吃亏何止一点点(我默默地在心底得瑟了 3 秒,为什么是 3 秒呢?)。
师兄:我的师妹啊,亲师妹啊!老板说的,你就跟着师兄吧。所以,师兄的内心是只可意会,不可言传……
师兄:有没有感兴趣的方向?或者老板怎么说?
师妹:呜呜…… 没有。老板说让我从头先做芯片表达差异分析。师兄有没有什么简单速成的可以应付开题?
师兄:有,必须有。那师兄就给你指点一下,应付开题绰绰有余(师妹雀跃中……)
切入正题(此帖特供菜鸟宝宝,大神谨防误伤,敬请避让)……
今天先给你拍个好用的板砖——GEO2R,能不能拍出玉就看天咯。
首先,从 NCBI 进入 GEO 主页,(对,你没看错)就是下面这样子。
这里呢,有两种方式:
第一,在贾顶部红框后面的检索框里输入芯片号,比如:GSEXXX 或者任何你感兴趣的关键词,乳腺癌,卵巢癌啥的,进去后再作筛选。
第二种方式,点击下面的 GEO2R 进去,再输入芯片号 GSEXXX,开始 set。
PS:其实这里呢,就看个人操作习惯啦,第一种更适用于未知的情况下设置筛选条件;第二种则在已知芯片的前提直接分析。
还有一种检索方法在这里(https://www.ncbi.nlm.nih.gov/geo/,)结合自己的方向,我就随便找个 breast cancer(GSE39870)的芯片了,谁叫它这么多呢?相关的芯片找到了,就着手分析吧。
进入到分析界面,大概就是下面这样,应该知道怎么做了吧?纳尼!?还是不会…… 好吧,师兄好人做到底,已经帮你把重点标注好了(红色箭头)。
左击 Define groups 对样本进行分组,点击左侧的黑色三角形可以展开(如下左图),输入 CON,回车;EXP,回车即分组完成(如下右图)。
但是,此时分组中是空的,并没有样本,还需要把样本添加进去,怎么添加呢?师兄第一次做的时候差点晕掉,太不按套路出牌了,是这样添加滴,先选中任一一条样本,再点击对应的分组名称,重复这个操作,直到把所有的样本都添加到分组中。分组成功后通过样本的背景颜色也可以再次确认是否有遗漏或错误,个人觉得妥妥的。
PS:如果样本数太多,这样操作出错是秒秒钟的事。这个时候我们可以简单地预处理一下,点击样本标题行后面的黑色小三角,马上就能自动排序,然后通过 shift 快捷操作一步完成样本分组。
到这里分析马上就要完成了,点击「top 250」,剩下的就是静静地等结果出来。出来的结果就是下面这一样一样的,有没有很简单粗暴?同样我们还可以看看样本的分布情况(value distribution),就像右下图这样;还能设置筛选条件(option),看脚本…… 最重要的是,结果是可以下载的!可以下载的!下载的!点击「save all results」,全选——复制——粘贴到 EXCEL,就 OK。
不过假如想重新自定义排序或筛选的话,一定要先分列哦,具体怎么操作,因为软件版本有点小差异,就自己问度妈吧,相信你们都比师兄天资聪慧。如果你觉得结果太多,也可以只复制粘贴前 250 个。
怎么样?会做差异分析了吧?接下来就是套路了,从里面挑几个基因,丢到 PUBMED 里去查查相关的文章啊,功能啊…… 运气好的话,刚好发现了一个类 P53 一样的潜在明星分子,然后就做出一篇又一篇 CNS……
师妹:嗯嗯,会了,谢谢师兄。可是…… 这个结果好像少了点,不够开题用的,而且感觉理论依据不够充分,得做好多实验去试……
师兄:不错!看来还是动脑筋了,师兄很欣慰,师兄的百宝箱可不止这么点货。今天天色已晚,先给你爆点料,下次再分解。
第一,根据差异结果可以直接生成热图,火山图(不要骂我懒,图是网上找的);
第二,做功能富集分析(GO 和 pathway);
第三,分析预测重要基因 / 蛋白质间的相互作用(PPI);
第四,做调控基因——靶基因——功能的调控网络关系……
然后,这些高大上的图都是可以放文章,放 PPT 中做结果滴!
不说多了,得动手!自己先做一遍熟悉一下。顺便再送你一个 NCBI 的差异分析工具(https://www.ncbi.nlm.nih.gov/sites/GDSbrowser)不要谢我,请叫我雷师兄,不是雷人的师兄,是雷 feng 的雷,雷 feng 的 feng。