基因芯片数据的分析方法
金弗康
研究背景:
基因芯片可以通过探针和荧光标记对某个时间点生物体的全部基因表达量进行检测,探针代表的基因荧光强度通过仪器转换成基本数据。这些数据的背后隐藏着很多的生物学意义,这就需要我们通过生物信息学的方法去分析和挖掘。不同实验设计方案产生的海量芯片数据,其分析方法和思路都大同小异,这里分享一个多组实验设计的乳腺癌侵袭性研究芯片数据分析方法。
实验设计:
主要通过芯片数据筛选与乳腺癌侵袭性相关的基因和分子生物通路来研究乳腺癌侵袭性的分子机制。实验分为正常对照组 2a,非侵袭性乳腺癌组 2b,侵袭性乳腺癌组 2c。正常对照组 2a 有 2a_1 和 2a_2 两个样本,非侵袭性乳腺癌组 2b 有 2b_1、2b_2、2b_3 三个样本,侵袭性乳腺癌组 3c 有 3c_1、3c_2、3c_3 三个样本,其中每个样本都使用 Aglient 芯片进行检测,仪器输出的数据通过归一化后进行接下来的数据分析。
研究方法:
1.芯片数据质控
1.1 数据 PCA 分析
使用 OmicsBean 组学数据分析系统(www.omicsbean.com:88)将基因芯片的原始矩阵数据和分组文件进行上传,使用其 PCA 功能模块进行分析得到各组表达量数据的分布图。
1.2 Clustering 分析
使用 OmicsBean 的 Clustering 功能模块对基因芯片的原始矩阵数据进行 Clusering 分析,得到各组数据的簇分析分布图。
1.3 HeatMap 分析
使用 OmicsBean 的 HeatMap 功能模块对基因芯片的原始数据进行 HeatMap 分析得到各组基因表达量数据的 HeatMap 分布图,从图中可以看到每个基因在不同分组中的表达量差异分布。针对分组和基因在热图的基础上又进行了簇分析。
2.差异基因筛选
使用 OmicsBean 分析系统将基因芯片的原始矩阵数据和分组文件进行上传,使用 T-test 方法和 FoldChange 进行差异数据的计算。FoldChange 设置参数为 2,T-test 设置参数 P-value 为 0.05,同时在分组矩阵中选择进行差异比较的两个组进行分析。系统会根据参数设置和进行比较的分组进行差异基因筛选,这样会得到差异筛选的分布图和差异基因的列表。接下来还可以针对多个差异列表再进行分析。这里选择了非侵袭性乳腺癌与正常组比较,侵袭性乳腺癌与正常组比较,非侵袭性乳腺癌与侵袭性乳腺癌比较。图中横坐标为 Log2(FoldChange),纵坐标为-Log10(P-Value),图中越靠近左下角和右下角的数据 P-value 值越小,FoldChange 值越大,差异越显著。
3.利用 Venn 分析构建模型
使用 OmicsBean 分析系统将非侵袭性乳腺癌(相对于正常组)的差异表达基因与侵袭性乳腺癌(相对于正常组)的差异表达基因进行 Venn 分析,得到 Venn 分析结果图,从图中可以看出只在侵袭性乳腺癌中差异表达的基因有 722 个,只在非侵袭性乳腺癌中差异表达的基因 942 个,同时在侵袭性乳腺癌和非侵袭性乳腺癌中差异表达的基因共 281 个,而在这 281 个差异基因中有 34 个基因在侵袭性和非侵袭性两个组中又存在差异表达,这 34 个基因是用来研究乳腺癌的侵袭性分子机制的关键基因,这些基因参与的生物通路和生物过程也将进一步阐明乳腺癌侵袭性分子机制。
为了更深入的研究乳腺癌侵袭性分子机制使用 OmicsBean 分析系统将只在侵袭性乳腺癌中表达的 722 个差异基因与 34 个关键基因进行合并构建出了乳腺癌侵袭性分子模型。该模型共 756 个基因。
4.功能富集分析
使用 OmicsBean 分析系统将乳腺癌侵袭性分子模型中的 756 个基因进行功能富集分析,其中包括 GO 富集分析与 Pathway 富集分析,其中 GO 富集包括 Biological Process(生物过程),Cell Component(细胞组成),Molecular Function(分子功能)。 Pathway 富集分析主要指 KEGG 富集分析。
4.1 GO 富集分析
使用 OmicsBean 分析系统将乳腺癌侵袭性分子模型中的 756 个基因进行 GO 富集分析。 富集到的比较显著的生物过程包括 multicellular organismal process,single-multicellular organism process,single-organism process,single-organism cellular process,developmental process,single-organism developmental process,anatomical structure development,system development,cell communication,multicellular organismal development 等, 这些生物过程都与细胞的生长相关,这些生物过程与侵袭性癌细胞向周围组织扩张性生长的特性是一致的。其中生物过程 Positive regulation of cell adhesion,regulation of cell communication 更能说明侵袭性乳腺癌细胞通过分泌一些特殊物质或降解正常组织的防御屏障使得与周围细胞粘附,破坏正常的组织。
4.2 生物过程 HeatMap 分析
使用 OmicsBean 分析系统将参与 cell communication 这个重要生物过程的差异基因进行 HeatMap 分析,可以看到在这个过程中不同基因的差异分布。从这个分布中可以快速的找到一些相对比较关键的基因。
4.3Pathway 富集分析
使用 OmicsBean 分析系统将乳腺癌侵袭性分子模型中的 1820 个基因进行 KEGG 富集分析。富集到的比较显著的生物通路包括 Neuroactive ligand-receptor interaction,ABC transporters,Nitrogen metabolism,Type II diabetes mellitus,ErbB signaling pathway,Proximal tubule bicarbonate reclamation,Dorso-ventral axis formation,Arginine and proline metabolism,ECM-receptor interaction,Thyroid cancer 等。其中生物通路 Insulin secretion,Protein digestion and absorption,EMC-receptor interaction 与侵袭性癌细胞可以伸出伪足插入到周围的组织间隙,或通过分泌特殊物质等方式入侵周围的组织相一致
4.4 生物通路 HeatMap 分析
使用 OmicsBean 分析系统将参与 EMC-receptor interaction 这个重要生物通路的差异基因进行 HeatMap 分析,可以看到在这个通路中不同基因的差异分布。从这个分布中可以快速的找到一些相对比较关键的基因。
5.网络调控模型构建
使用 OmicsBean 分析系统进行 PPI 模型构建,系统通过 String 数据库建立基因相互作用关联,在根据选择的生物通路进行模型构建。在这里选择 cell communication 和 EMC-receptor interaction 这两个重要的生物通路构建网络调控模型。
研究结论:
通过 PCA 分析,Cluster 分析,HeatMap 分析对芯片数据进行质量控制,了解不同组之间的数据分布和差异,然后使用 T-test 和 FoldChange 对矩阵数据进行了差异筛选,根据差异筛选的基因进行 Venn 分析构建了乳腺癌侵袭性模型,对模型中的基因进行功能富集找到了重要的生物通路 cell communication 和 EMC-receptor interaction,针对通路进行 PPI 网络调控模型的构建找到了重要的基因 VWF,CD44,SPP1,ITGB6,SDC4,ITGB3。