丁香实验_LOGO
登录
提问
我要登录
|免费注册
点赞
收藏
wx-share
分享

芯片数据的标准化输出

互联网

3275

基因芯片所产生的信息量非常大,其利用价值也远远超过单个实验本身,它也可以用于不同实验之间的比较。另外科研人员在用基因芯片来研究基因表达信息的时候往往也要和别人所做的实验结果进行比较,这样才能充分挖掘实验数据中所包含的生物信息。

如研究酵母基因表达的科研人员可以将自己所得到的数据与别人的试验结果相对照,并进行比较分析,同时他也可以与别人共享他的芯片数据,以供别人研究。而要实现芯片数据的共享就必须有公用的数据库来储存这些微阵列数据并为数据的存储制定一个共同的标准。

然而,芯片数据的存储是一个非常复杂的过程,芯片数据的分析和实验的条件密切相关,因而在存储数据的同时也要保存实验的相关条件,如采取了哪一种转录方法,样品和处理的详细信息以及其它可能影响实验结果的因素(包括实验者,实验的时间及方法)。

另外作者在公布实验数据之前还要对其进行处理,如先获取实验数据,将其存储在本地数据库中,对其进行注释,然后再传输到公共数据库中。

即便如此,科研人员往往不能直接使用数据库中存储的微阵列数据,因为不同数据库间使用的标准不一样,因而在使用之前往往还要进行格式的转换。

微阵列基因表达数据(Microarray Gene Expression Data ;MGED)协会是个由生物学家,计算机科学家和数据分析专家组成的国际性组织,其目的是为微阵列数据的注释和交换建立标准,帮助建立微阵列数据库以及开发相关软件,提高数据共享的质量。

MGED协会有4个工作组,它们分别是:

1.MIAME(Minimum Information About a Microarray Experiment)工作组,其目的是为减少微阵列数据报道的信息量制定标准并开发相关软件;

2.MAGE(MicroArray and Gene Expression)工作组,其目的是为微阵列数据能在不同的数据系统中能进行交换制定标准,目前他们已经建立了数据交换模型(Microarray Gene Expression - Object Model;MAGE-OM)和数据交换格式(Microarray Gene Expression - Markup Language ;MAGE-ML)。

其中MAGE-OM使用的是同一模型语言(Unified Modelling Language ;UML),而MAGE-ML用的是扩展标记语言(eXtensible Markup Language;XML),MAGE工具软件包(MAGE Software Toolkit; MAGEstk)可以实现这两种语言间的相互转换。

3.Ontology工作组,其目的是为微阵列实验的描述和说明制定限制性字段。4.数据转换和标准化工作组,其目的是解决怎样精确的描述微阵列实验以及怎样评价微阵列数据的质量等问题。

目前网上已经有几个大型的数据库专门用来存放基因芯片数据,如欧洲生物信息所(European Bioinformatics Institute EBI)的ArrayExpress,日本的CIBEX(来源于日本的DNA数据库)以及NCBI的基因表达综合数据库。

有些期刊甚至将向这些数据库提交微阵列数据当作文章发表的必须条件。但是这些数据库往往采用不同的数据存储标准。如对于一个双色杂交的微阵列,SMD记录的项目有10个,RAD有20个,而ArrayExpress则只用1个条目来描述整个实验。

提问
扫一扫
丁香实验小程序二维码
实验小助手
丁香实验公众号二维码
扫码领资料
反馈
TOP
打开小程序