GigaScience是全球数据共享工作的一部分:新标准允许不同的数据集进行集成
由牛津大学的研究人员领导的一组全球30多个科学组织,已经产生一个共同的标准,将可能的巨大的和完全不同的数据库的一致的描述编译领域从基因到干细胞科学、环境研究。在这个项目中起作用的贡献者之一是GigaScience,因为我们认为它可能非常有助于处理我们的范围所涵盖的各种数据类型。
新标准允许现代技术驱动的科学产生的海量数据在幕后进行组合,从而为广泛不同领域的科学家提供了一种方式来协调彼此的发现。
2012年1月27日,《自然-遗传学》杂志发表了一篇评论(并在社论中强调了这一点),描述了这种符合标准的数据共享努力及其在线存在,ISA Commons。
牛津大学电子研究中心(Oxford e-Research Centre)项目组长、生物共享网络(BioSharing Network)创始人苏珊娜-阿苏塔•桑松(Susanna-Assunta Sansone)表示:“我们现在正共同努力,提供管理大量本来不兼容的数据的手段,从生物医学到环境。
哈佛大学公共卫生学院(Harvard School of Public Health)生物信息学教授温斯顿•希德(Winston Hide)表示:“哈佛干细胞研究所(Harvard Stem Cell Institute)的一个例子是,我们现在可以找到鱼类正常血液干细胞实验与儿童癌症之间的关系。”
这篇评论的作者说,有必要建立共同的数据标准,因为数据和技术的海啸正在冲刷着科学。“现在有数百种新技术出现,但也有许多方式来描述产生的信息,”Sansone说,并指出“我们可以用不同科学的拼图,现在把这些碎片拼在一起,形成一个完整的画面。”
“我发现这项努力最令人鼓舞的一点是,现在小型研究小组可以开始使用这个框架来存储实验室数据,遵守社区标准,而无需自己专门的生物信息支持。这有点像facebook,允许每个人创建自己的网页——突然之间,你不需要成为计算方面的专家,就可以把你的数据发布到世界其他地方,”剑桥大学的Jules Griffin博士说。
欧洲生物信息学研究所的克里斯托夫•斯坦贝克博士说:“我们喜欢它的地方在于它在不同生物科学领域和机构之间的统一性。”
“它也有潜力为大型中心工作,”BGI和GigaScience的Scott Edmunds说。由于GigaScience的目标是获取尽可能多的“大数据”类型,所以必须处理尽可能多的格式,而由ISA-commons支持的大量数据类型和创建新配置的能力可能会解决这个非常重要的问题。这导致GigaScience成为第一个杂志提供作者选择以ISA-commons格式提交数据,和这些资源也可用了华大基因研究院(世界上最大的基因组研究所)释放他们的巨大数量的数据更快更广泛的研究社区通过相关GigaDB数据库。