芯片表达简单差异分析

丁香园2018-12-17

1588

最近实验室的小师妹要开题了……

师妹：课题还没有，预实验也没做，文献也没看，以前只顾玩了，肿么办？救命啊，师兄…… 呜呜……

师兄：我能怎么办？怪我咯，不听师兄言，吃亏何止一点点（我默默地在心底得瑟了 3 秒，为什么是 3 秒呢？）。

师兄：我的师妹啊，亲师妹啊！老板说的，你就跟着师兄吧。所以，师兄的内心是只可意会，不可言传……

师兄：有没有感兴趣的方向？或者老板怎么说？

师妹：呜呜…… 没有。老板说让我从头先做芯片表达差异分析。师兄有没有什么简单速成的可以应付开题？

师兄：有，必须有。那师兄就给你指点一下，应付开题绰绰有余（师妹雀跃中……）

切入正题（此帖特供菜鸟宝宝，大神谨防误伤，敬请避让）……

今天先给你拍个好用的板砖——GEO2R，能不能拍出玉就看天咯。

首先，从 NCBI 进入 GEO 主页，（对，你没看错）就是下面这样子。

这里呢，有两种方式：

第一，在贾顶部红框后面的检索框里输入芯片号，比如：GSEXXX 或者任何你感兴趣的关键词，乳腺癌，卵巢癌啥的，进去后再作筛选。

第二种方式，点击下面的 GEO2R 进去，再输入芯片号 GSEXXX，开始 set。

PS：其实这里呢，就看个人操作习惯啦，第一种更适用于未知的情况下设置筛选条件；第二种则在已知芯片的前提直接分析。

还有一种检索方法在这里（https://www.ncbi.nlm.nih.gov/geo/，）结合自己的方向，我就随便找个 breast cancer（GSE39870）的芯片了，谁叫它这么多呢？相关的芯片找到了，就着手分析吧。

进入到分析界面，大概就是下面这样，应该知道怎么做了吧？纳尼！？还是不会…… 好吧，师兄好人做到底，已经帮你把重点标注好了（红色箭头）。

左击 Define groups 对样本进行分组，点击左侧的黑色三角形可以展开（如下左图），输入 CON，回车；EXP，回车即分组完成（如下右图）。

但是，此时分组中是空的，并没有样本，还需要把样本添加进去，怎么添加呢？师兄第一次做的时候差点晕掉，太不按套路出牌了，是这样添加滴，先选中任一一条样本，再点击对应的分组名称，重复这个操作，直到把所有的样本都添加到分组中。分组成功后通过样本的背景颜色也可以再次确认是否有遗漏或错误，个人觉得妥妥的。

PS：如果样本数太多，这样操作出错是秒秒钟的事。这个时候我们可以简单地预处理一下，点击样本标题行后面的黑色小三角，马上就能自动排序，然后通过 shift 快捷操作一步完成样本分组。

到这里分析马上就要完成了，点击「top 250」，剩下的就是静静地等结果出来。出来的结果就是下面这一样一样的，有没有很简单粗暴？同样我们还可以看看样本的分布情况（value distribution），就像右下图这样；还能设置筛选条件（option），看脚本…… 最重要的是，结果是可以下载的！可以下载的！下载的！点击「save all results」，全选——复制——粘贴到 EXCEL，就 OK。

不过假如想重新自定义排序或筛选的话，一定要先分列哦，具体怎么操作，因为软件版本有点小差异，就自己问度妈吧，相信你们都比师兄天资聪慧。如果你觉得结果太多，也可以只复制粘贴前 250 个。

怎么样？会做差异分析了吧？接下来就是套路了，从里面挑几个基因，丢到 PUBMED 里去查查相关的文章啊，功能啊…… 运气好的话，刚好发现了一个类 P53 一样的潜在明星分子，然后就做出一篇又一篇 CNS……

师妹：嗯嗯，会了，谢谢师兄。可是…… 这个结果好像少了点，不够开题用的，而且感觉理论依据不够充分，得做好多实验去试……

师兄：不错！看来还是动脑筋了，师兄很欣慰，师兄的百宝箱可不止这么点货。今天天色已晚，先给你爆点料，下次再分解。

第一，根据差异结果可以直接生成热图，火山图（不要骂我懒，图是网上找的）；

第二，做功能富集分析（GO 和 pathway）；

第三，分析预测重要基因 / 蛋白质间的相互作用（PPI）；

第四，做调控基因——靶基因——功能的调控网络关系……

然后，这些高大上的图都是可以放文章，放 PPT 中做结果滴！

不说多了，得动手！自己先做一遍熟悉一下。顺便再送你一个 NCBI 的差异分析工具（https://www.ncbi.nlm.nih.gov/sites/GDSbrowser）不要谢我，请叫我雷师兄，不是雷人的师兄，是雷 feng 的雷，雷 feng 的 feng。