生物信息分析数据挖掘
互联网
826
生物信息分析数据挖掘
DNA芯片技术能够在基因组水平分析基因表达,检测许多基因的转录水平及在不同条件下的基因转录变化,显示反映特征组织类型、发育阶段、环境条件应答、遗传改变的基因谱。基因芯片产生了海量的数据,仅仅进行差异表达分析还远远不够,如何管理分析这些数据、从中挖掘信息已经成为利用这一技术的新的难点。芯片数据大量出现,新的问题随之而来。如果将所有获得的数据集中起来,我们能否将未知功能的新基因归类到已知功能分类中?能否将基因表达与基因功能联系起来?能否发现新类型的共调控基因?能否从芯片表达数据中得出完整的基因调控网络?
为了解决这些问题,聚类分析这种统计方法在生物芯片数据研究方面得到广泛应用。一旦通过实验确定了表达水平,接下来的聚类分析主要是找到那些有相似表达模式的基因(共表达基因)。因为许多功能相关的基因具有相似的表达模式,例如编码蛋白质复合物的基因很可能有相似的表达模式,通过这些共表达基因的寻找可以对一些未知基因的功能研究给予提示。另外,共表达基因与共调控基因也可能相关,例如受控于同一个调节过程中的两个基因很可能是共表达的,通过共表达基因的研究可以对基因调节途径的研究给予启发。