生物芯片实验信号检测及数据处理
互联网
1495
生物芯片实验信号检测及数据处理
芯片 实验完成后,芯片就可以放人商品化的生物芯片扫描仪中进行扫描、识别、提取和分析(扫描仪的操作根据商家提供的具体操作执行)。扫描仪得到图像后,必须对数据进行提取,才能进行后续的数据分析。图像处理和数据分析是基因芯片研究的核心技术之一。对于SNP实验结果分析较简单,而对于基因表达谱研究、CGH分析及高通量甲基化研究,还必须对结果进行数据挖掘。本节以表达谱芯片为例,介绍生物信息学的相关内容,这些方法也适用于CGH分析及高通量甲基化研究。
基因芯片实验结果与克隆质量、芯片制作质量、样本质量以及实验条件(杂交、清洗、标记、扫描等条件)等因素相关,生物信息分析不仅需要得出芯片实验的最终结论,还需要对上述影响因素进行评价。基因芯片生物学的最终目的是为了得到有关基因功能以及基因与基因之间相互关系的有效信息,为进一步的基因芯片研究指明方向。基因芯片数据处理包括芯片图像识别、数据提取、数据入库及标准化等环节。
1。图像识别和数据提取
(1)图像识别:杂交好的芯片通过洗片和扫描仪处理,可以获得两张Tiff格式的黑白灰度图,分别代表两种荧光信号强度。有些软件为了区别Cy5和Cy3图,给灰度图加上伪彩,用黑―蓝―绿―黄―红―白代表信号的强度由低到高。有些软件则只给图加两种颜色,红和绿。Cy5一般用红色表示,Cy3一般用绿色表示。两张图重合后成为叠加图,黑―蓝―绿―黄―红―白代表了信号的强度由弱到强的变化,绿―黄―红则代表了比值的变化。绿色代表Cy3的信号强于Cy5的信号,基因表达下调,红色则表示上调,黄色表示两个样本间的基因表达量基本相当。叠加图给我们直观显示了芯片数据,可以很容易判断哪些基因上调(红色)、哪些基因下调(绿色)、哪些基因不表达(黑色)、哪些基因丰度高(白色)。叠加图也很方便我们判断芯片背景的情况,可以知道背景是否均匀、有否划痕、灰尘等等。
图像处理的目的是将芯片上的基因点阵杂交信号转换成为数据矩阵。提取出来的数据矩阵可以直接导人数据库存储,也可以输出成文本文件的格式供其他分析软件处理。图像识别的工具是芯片扫描仪,扫描仪的激发光通常用绿色波长532nm和红色波长635nm的激光。扫描仪所采用的光电耦合器件主要有光电倍增管(PMT)和电荷耦合器件(CCD)。
(2)数据提取:从这样的扫描图像中将各个点的扫描灰度信息提取出来,以数据库的形式保存的操作叫做数据提取。常用的图像处理软件有Axon、Biodiscovery和Medianetics公司的专业软件包PixPro、Imagene、Arraypro等。数据提取的难易程度和所提取数据的准确性主要决定于图像的性质。
数据提取包括背景确定和样品斑点识别两个步骤。对于背景比较均匀的基因芯片图像,可以将除样品点之外的所有区域的信号统计平均作为共同的背景予以扣除。对于背景不够均匀的图像则需要每一个点样点各自计算背景。样品斑点的识别有3种方式:手工识别、半自动识别和全自动识别。手工识别的工作量比较大,适合于点样点较少而且对数据处理精度要求不高的实验。半自动识别和全自动识别都需要人工界定一些参数,如亚矩阵数目、亚矩阵行列数、样斑最大最小半径等等。半自动和全自动识别主要应用于点样点较多而且对数据处理精度要求较高的场合。确定背景和样斑之后就可以进行数据提取。基因芯片点阵提取的数据种类有光密度积分值、光密度平均值以及光密度中位值等。将相应的背景扣除之后就得到了点样点的信号值。
大部分图像处理软件都将提取的数据以TXT文本文件格式存储,以供其他分析处理软件调用,同时还可以将数据直接存人特定的数据库。这些数据库可以统一对这些基因表达数据进行管理、查询、比较,以及提供与互联网生物信息资源的相关信息联系起来进行分析。
2.数据均一化(normalizataion)
在进行下一步的数据处理之前,特别是在进行对多种荧光染料标记的几组数据进行比较之前,需要对不同荧光染料标记所得的基因表达数据进行标准化。通常有3种标准化方法可供选择:①用两种荧光信号的总量校正,即全基因组法;②外参照方法,即在两种RNA中加入等量的不同来源的单一基因的mRNA;③内参照的方法,选择一个或多个管家基因,计算其平均的比值,从而进行校正。其中第一种最为常用。
3.差异基因的筛选
校正后的数据就可以进行数据分析了。表达谱数据可以进行两方面的数据分析:一是差异基因的筛选,二是进行数据挖掘,如聚类分析等。
大多数芯片实验是基于表达谱来研究相关生物样本间的关系,也是最简便寻找差异表达基因的一种方法。表达比率值可以直观地看出表达水平的变化。