提问
提问
我要登录
|免费注册
点赞
收藏
wx-share
分享

注释基因和遗传变异的工具

458

想象一下,你正试图维护一座桥,它由两种木材制成,必须从两个不同的木材厂采购,并用在油漆店混合的定制颜色涂漆。

你可以参观每一个木材厂和油漆店,以获得你需要的材料,每次你的桥梁需要修理,或者你可以库存木材和油漆堆,直到它是需要的。如果你每次需要新的补给品都去商店,你就不必在木材和油漆上浪费空间。

然而,总是要访问这些来源是一件麻烦的事。如果你储存木材和油漆,你不必每次都开车到每个货源,但随着时间的推移,由于油漆干燥或木材翘曲,你的油漆和木材可能无法使用。

在一个新的硬件超级商店开放之前,您需要努力解决这两个问题来维护网桥。这家超市提供两种类型的木材,可以为您混合正确的油漆颜色,而且可以免费送货。突然之间,维护这座桥变得更容易,这样你就可以把时间花在做别的事情上了。

维护信息管道

现在想象一下,不是来自三个不同位置的三个物理组件,而是来自七到十五个数据源的成百上千个虚拟组件,每个数据源以稍微不同的方式提供组件,而不是物理桥,而是维护信息管道。

欢迎来到基因与变异信息的大数据景观!大量的基因和变异注释信息分布在许多不同的资源中,这使得研究人员很难将最新的信息集成到他们的生物信息学管道中。

研究人员通常通过数据仓库或数据联合来应对这一挑战。通过从不同资源(数据仓库)下载和存储数据,研究人员可以确保快速访问他们感兴趣的数据;但是,必须将精力花在撰写论文和保持数据的最新上。

相反,通过在需要时直接从资源访问数据(数据联合),研究人员确保他们从这些资源获得最新的可用信息,但由于服务器和网络的限制,他们的查询可能会很耗时。

另一种解决办法

在我们最近发表在《基因组生物学》上的论文中,Jiwen Xin等人。描述从多个资源获取最新基因和变体注释数据的替代解决方案:注释即服务。

与bridge示例中的硬件超级商店一样,MyGene.info和MyVariant.info是一站式商店(即集中存储库),它们通过基于云的web服务端点从关键资源中提供最新的注释数据。

MyGene.info存储来自NCBI Entrez、Ensembl、Uniprot、NetAffy、PharmGKB、UCSC和CPDB的最新数据。

除了处理来自多个数据源的数据格式转换之外,研究人员或生物信息学家还可以利用MyGene.info的任何客户端(Python,R)或基于浏览器的API以单一机器可读格式(json)访问最新的基因注释数据,而不是处理数据仓库或数据联合问题。

例如,MyGene.info可以很容易地用于批量转换基因id或获取相关的基因本体信息,这两项任务是研究人员常用并引用DAVID的话。提供对基因注释信息(如基因id和基因本体论)的简单访问是非常有价值的,因此即使DAVID已经很久没有更新了,研究人员仍然继续使用DAVID来实现这一目的!

宝贵的资源和解决办法

“MyGene.info拥有超过50种不同的注释类型,覆盖了15000个物种的1300多万个基因,已经累积了超过1.6亿个请求,平均每月服务350万个请求!斯克里普斯研究所负责开发这些服务的副教授吴春雷博士透露。

在阐述MyVariant.info的开发过程时,他补充道:“在确认研究人员会发现这个资源很有价值,并且看到我们每月收到的大量请求之后,我们希望找到一个类似的解决方案来处理基因变异注释数据。这就是MyVariant.info背后的想法。”

MyVariant.info目前包含来自14个有价值资源的最新变体注释数据,这些资源包括:dbNSFP、dbSNP、ClinVar、EVS、CADD、MutDB、GWAS Catalog、COSMIC、DOCM、SNPedia、EMVClass、Scripps Wellderly、EXAC和grass。

作为一项主要针对生物信息学家和生物信息学工具或资源开发人员的服务,MyGene.info已经被整合到诸如BioGPS、君主倡议和CIViC等公共资源中。BioGPS为MyGene.info提供了大约40%的流量,而60%的流量来自5000多个独特的IP地址。

<link />
提问
扫一扫
丁香实验小程序二维码
实验小助手
丁香实验公众号二维码
关注公众号
反馈
TOP
打开小程序