实例讲解基因芯片数据哪里来?
生物学霸
2836
上周的文章《课题不知道做哪个方向? 学会这个,妥妥的》中不少人提出,芯片数据哪里来?怎么找呢?那么今天就来给大家揭晓这个问题的答案。
这里要提到全国最大的两个基因芯片公共数据,一个是 NCBI 的 Gene Expression Omnibus,简称 GEO,一个是 EBI(欧洲生物信息研究所)的 Array Expression 数据库。今天重点介绍 GEO。
图一:GEO 数据库
图二:Array Express
GEO 使用流程
具体的流程是:确定关键词、限定类型、物种选择、检测类型选择、记录信息、不断选择关键词反复验证。具体如下图所示。
根据以上流程,最后共有 26 个数据集,需进入到项目中具体查看实验设计的内容进一步查询判别。如下图所示。
流程具体解析
1. 确定关键词
这里就以肝内胆管癌为关键词搜索,然后进入到项目中具体查看实验设计的内容,来人工寻找到肝内胆管癌(ICC),肝细胞肝癌(HCC)和混合型肝癌的原始芯片数据。当然也可以——intrahepatic cholangiocarcinoma and hepatocellular carcinoma 关键词搜索来缩小范围。因为数据量不多,本着宁可多搜不放过一个的原则,尽量放宽搜索条件。
2. 限定类型
这里选择 Series,表示按数据集显示。
3. 物种选择
这里选 Homo sapiens,表示选人,当然根据自己的实验设计可以选其他物种。
4. 检测类型选择
这里选 Expression profilingby array,表示选基因芯片表达数据,当然根据自己的实验设计可以选其他检测分子芯片。例如甲基化,测序,SNP 等。
5. 记录信息
进入到项目中具体查看实验设计的内容,记录基本信息,例如样本数,设计等和一些特殊的信息。例如下表。
6. 不断选择关键词反复验证
为了搜全,也可不断放松关键词例如以 cholangiocarcinoma 搜索。总之,不断查漏补缺,记录好信息。
这期就先到这里,下期将继续生物医学大数据解读和分析——找差异分子案例实践——数据库,解决如何看懂别人上传的数据集。
本期有几个思考问题:
为什么别人要上传自己的实验芯片数据?
为什么有些上传的数据集未见其对应的发表文章?
不怕自己的实验数据外泄吗?
内容来源:freescience,经其授权转载
配图来源:网络