常用的芯片数据分析方法

互联网2008-07-05

5934

DNA芯片能够同时分析大量的信息，包括单核苷酸变异多态性（Singe Nuleotide Polymorphisms,SNP）已表达序列标志（Experessed Sequence Tage，EST）和基因克隆等。

用基因芯片测定细胞生长不同时期的基因表达、测定正常组织与肿瘤组织的DNA变化，测定用药前后DNA发生的变化、测定基因突变等，就可能发现新药、进行疾病的基因诊断、疾病的预报、弄清人类生物学的奥秘。因此芯片的数据分析显得尤为重要。芯片数据分析主要是通过芯片各点数据的分析比较和芯片间的数据比较来实现的。目前常用的芯片数据分析手段有数据归一化分析、直观视图分析、统计学分析和生物学分析。

芯片的数据归一化

在芯片实验中，各个芯片的绝对光密度值是不一样的，直接比较多个芯片表达的结果显然慧导致错误的结论，因此在比较多个芯片实验时，必须减少或消除各个实验之间的差异。最常用的方法便是芯片数据的归一化处理。

归一化的方法可以用特定的对照基因或者叫做“看家基因（Housekeeping Genes）”法，或将各点光密度值或比值除以所有点的平均值法，或附带一些参数如平均值等以作为该芯片的内部对照。但至今为止仍无真正意义的理想的归一化方法，特别时对于不同实验室间的芯片数据的比较。

“看家基因”法时比较常用的方法，该法是选择一个通用基因或DNA片断作为对照基因固定在芯片上，杂交时将一定量的与之互补的荧光标记探针混合到杂交液中。这样可以将对照点信号与各样点信号比较，其比值便可消除各实验室的差异，从而达到归一化的目的。理想的对照基因应能在所有的实验中均能得到可靠的信号，且重视性好，稳定性好，易于得到推广。然而，目前还尚未找到这样的理想对照基因。

除了上述归一化方法外，为比较多个芯片表达的数据，还应严格控制每次实验的条件，如：目标DNA标记的程度、荧光激发和发射的效率、测定的条件等。使实验在相同的环境和条件下进行。

芯片数据的视图分析

视图分析使最简单、最直接、最直观的分析方法。通常用散点图（二维和三维）、直方图和饼图直观地显示芯片表达的结果，对于结果较为明显的数据，可以直接作出判断。

芯片数据的统计学分析

从芯片测定结果的大量数据中获取有用的生物学信息，统计学的处理分析是必不可少的。统计学分析已广泛用于大规模基因表达的分析。统计分析可以帮助生物学家发现新的基因、DNA序列、基因的突变位点等。目前应用于基因芯片表达数据统计分析的主要方法是聚类分析（Cluster Analysis）。

聚类分析是研究事物分类的一种方法，是在事物分类面貌尚不清楚的情况下研究事物的分类。其方法是直接比较样本中各指标之间的性质，将性质相近的归为一类，性质差别较大的归在另一类。聚类分析根据其聚类指标或计算方法分成许多种。

在基因芯片表达数据分析中，应用最为广泛的是系统聚类分析（hierarchical clustering）,此外还有Bayesian聚类分析，逐步聚类分析（k-means clustering）,自组图分析（self-organizing maps,SOMs），二向聚类分析（two－way clustering），神经网络聚类分析（neural network clustering），组成分分析（principal component analysis），多维标度分析（multidimensional scaling analysis），affinity grouping,market basket analysis,link analysis,decision trees, rule induction,genetic algorithms等统计分析手段。

系统聚类分析法是将芯片表达的数据点分配进入有严格等级的层层嵌套的子集。最相接近的数据点分成一组，并用一个新点来替换，该新点的值为此两点的平均值，其他点同样处理，然后用同样的方法进行下级处理，直至最终成为一个点，这样数据点就形成一个家谱的树状结构，树枝的长度表示两组数据的相似程度。系统聚类分析适合于具有真正等级下传的数据结构，不适合于基因表达谱可能相似的复杂数据集。

聚类分析将基因与最相关的表达谱放在一起，分析的基础是总基因组的线性相关。生物系统的有序性质可以保证聚类分析方法会揭示出生物行为的有趣特征。Bayesian聚类分析是高度结构化的方法，适合于事先能够分配的数据集。逐步聚类分析法是完全没有结构化的方法，完全在局部范围内处理数据，产生一个无组织的簇（Cluser），比较难以理解。自组图分析允许将部分结构强加于簇中，结果直观易于理解，适合于复杂的数据。二向聚类分析适合于高度组织化的基因表达数据。标度分析可以显示两维欧氏（Euclidean）距离，即实验样品间的大概相关程度。主成分分析可以去定数据变化较大的点和变化的范围。

理想情况下每个簇对应于一个基因，但由于大量或低丰度的基因，可以存在一些非重叠的簇，簇的数量可能超过序列已经导出的独立基因的数量。加上软件中图象重叠对齐的误差，可能产生伪簇。对于没有明显重叠的数据，各种聚类分析产生相同的簇，但如果数据分散及相互交叉，不同的聚类分析可能产生不同结果，此时应根据生物学分析来作出推断。

生物芯片表达数据分析的软件的开发已越来越受到科学家和开发商的重视，不断有新统计方法软件推出。BioDiscovery公司开发的基因芯片表达数据分析软件GeneSightTM中和了数据库管理、系统聚类分析。神经网络聚类分析、主成分分析和时间系列分析（Time Series Analysis）等分析手段，还有直观的视图分析方法。这类软件还有Imaging Research Inc.的Array VisionTM基因芯片表达分析软件。Stanford大学还在Internet网上提供自由下载的芯片数据聚类分析软件Cluster。适合于多种芯片表达的数据分析。

芯片的生物学分析

生物学分析是根据视图分析的结果，结合生物学知识作出相关判断。时间过程分析（time－course analysis）是用较多的一种方法，可以用于分析细胞生长不同时期的基因表达、正常组织与肿瘤组织的DNA变化、测定用药前后DNA发生的变化、基因突变等。

生物芯片的数据处理目前仍在发展之中，并不断有新的技术或方法被应用，随着生物芯片的广泛应用，芯片的数据处理将日臻完善。