实例讲解基因芯片数据哪里来？

生物学霸2016-07-26

3062

上周的文章《课题不知道做哪个方向？学会这个，妥妥的》中不少人提出，芯片数据哪里来？怎么找呢？那么今天就来给大家揭晓这个问题的答案。

这里要提到全国最大的两个基因芯片公共数据，一个是 NCBI 的 Gene Expression Omnibus，简称 GEO，一个是 EBI（欧洲生物信息研究所）的 Array Expression 数据库。今天重点介绍 GEO。

图一：GEO 数据库

图二：Array Express

GEO 使用流程

具体的流程是：确定关键词、限定类型、物种选择、检测类型选择、记录信息、不断选择关键词反复验证。具体如下图所示。

根据以上流程，最后共有 26 个数据集，需进入到项目中具体查看实验设计的内容进一步查询判别。如下图所示。

流程具体解析

1. 确定关键词

这里就以肝内胆管癌为关键词搜索，然后进入到项目中具体查看实验设计的内容，来人工寻找到肝内胆管癌（ICC），肝细胞肝癌（HCC）和混合型肝癌的原始芯片数据。当然也可以——intrahepatic cholangiocarcinoma and hepatocellular carcinoma 关键词搜索来缩小范围。因为数据量不多，本着宁可多搜不放过一个的原则，尽量放宽搜索条件。

2. 限定类型

这里选择 Series，表示按数据集显示。

3. 物种选择

这里选 Homo sapiens，表示选人，当然根据自己的实验设计可以选其他物种。

4. 检测类型选择

这里选 Expression profilingby array，表示选基因芯片表达数据，当然根据自己的实验设计可以选其他检测分子芯片。例如甲基化，测序，SNP 等。

5. 记录信息

进入到项目中具体查看实验设计的内容，记录基本信息，例如样本数，设计等和一些特殊的信息。例如下表。