丁香实验_LOGO
登录
提问
我要登录
|免费注册
点赞
收藏
wx-share
分享

实例讲解基因芯片数据哪里来?

生物学霸

2836
上周的文章《课题不知道做哪个方向? 学会这个,妥妥的》中不少人提出,芯片数据哪里来?怎么找呢?那么今天就来给大家揭晓这个问题的答案。

这里要提到全国最大的两个基因芯片公共数据,一个是 NCBI 的 Gene Expression Omnibus,简称 GEO,一个是 EBI(欧洲生物信息研究所)的 Array Expression 数据库。今天重点介绍 GEO。

图一:GEO 数据库

图二:Array Express

GEO 使用流程

具体的流程是:确定关键词、限定类型、物种选择、检测类型选择、记录信息、不断选择关键词反复验证。具体如下图所示。

根据以上流程,最后共有 26 个数据集,需进入到项目中具体查看实验设计的内容进一步查询判别。如下图所示。


流程具体解析

1. 确定关键词

这里就以肝内胆管癌为关键词搜索,然后进入到项目中具体查看实验设计的内容,来人工寻找到肝内胆管癌(ICC),肝细胞肝癌(HCC)和混合型肝癌的原始芯片数据。当然也可以——intrahepatic cholangiocarcinoma and hepatocellular carcinoma 关键词搜索来缩小范围。因为数据量不多,本着宁可多搜不放过一个的原则,尽量放宽搜索条件。

2. 限定类型

这里选择 Series,表示按数据集显示。

3. 物种选择

这里选 Homo sapiens,表示选人,当然根据自己的实验设计可以选其他物种。

4. 检测类型选择

这里选 Expression profilingby array,表示选基因芯片表达数据,当然根据自己的实验设计可以选其他检测分子芯片。例如甲基化,测序,SNP 等。

5. 记录信息

进入到项目中具体查看实验设计的内容,记录基本信息,例如样本数,设计等和一些特殊的信息。例如下表。

6. 不断选择关键词反复验证

为了搜全,也可不断放松关键词例如以 cholangiocarcinoma 搜索。总之,不断查漏补缺,记录好信息。

这期就先到这里,下期将继续生物医学大数据解读和分析——找差异分子案例实践——数据库,解决如何看懂别人上传的数据集。

本期有几个思考问题:

为什么别人要上传自己的实验芯片数据?

为什么有些上传的数据集未见其对应的发表文章?

不怕自己的实验数据外泄吗?

内容来源:freescience,经其授权转载

配图来源:网络

提问
扫一扫
丁香实验小程序二维码
实验小助手
丁香实验公众号二维码
扫码领资料
反馈
TOP
打开小程序