丁香实验_LOGO
登录
提问
我要登录
|免费注册
点赞
收藏
wx-share
分享

Companion:一个新的工具,用以产生和可视化注释的寄生虫基因组

772

在过去的十年里,基因组测序和组装技术有了巨大的进步,现在研究人员已经能够在短时间内以相对较低的成本获得细菌和小型真核生物的近乎完美的基因组序列。即使是小型的研究实验室,也能以低廉的成本制造出好的装配体,这使得测序的民主化成为可能,并产生了许多新的草案基因组,包括各种新的寄生虫基因组。这一趋势反映在越来越多的可用的序列装配工具。

然而,为这些生物生成高质量的标准化注释,即基因的位置和功能以及其他相关特征的问题仍然存在。提供详细和完整的注释是使随后的跨物种比较分析能够确定个别物种或品系之间的差异的关键。

这种差异的例子可能是失去或获得共同和/或物种特有的基因和功能。在细菌的世界里,有可以快速注释基因组的软件工具,但到目前为止,还没有针对寄生虫的类似工具。

介绍一种新的软件工具

为了满足这一需求,我们开发了“Companion”,这是一种新的软件工具和web服务器,利用我们已知的相关物种的信息,在很短的时间内生成寄生虫基因组的全面注释。

Companion”的独特功能包括装配质量的可视化,基因内容与参考基因组的比较,以及传递文件,这些文件可以很容易地提交到公共数据库,如欧洲核苷酸档案(ENA)。

赋予数据科学意义

但是,即使有一个可用的程序集草案,如果没有注释,它仍然是一串无法理解的数据,没有科学意义。要利用它,我们需要知道蛋白质编码基因和非编码基因的位置,以及它们的功能。

虽然发现这些是一个古老的挑战,有特定的工具可用,但基因的发现仍然是一个开放的问题。不完善的注释,即缺失、错误或只部分描述了基因模型以及错误的功能关联,可能会严重影响任何类型的下游分析。

然而,现实表明,最好的结果只能通过使用多个工具并行,然后手动管理。

最后,虽然发布是必需的,但是向ENA这样的数据库提交注释文件通常是一个挑战,因为必须遵循特定的命名法。

如何使用Companion?

为了帮助寄生虫社区克服这些问题,我们开发了Companion(综合寄生虫注释)软件,作为一种免费资源供公众使用。虽然主要作为web服务器可用,但也可以在本地安装它来注释无法在线运行的基因组。

对于寄生虫学家的主要目标受众,我们提供了以前无与伦比的简单注释:只需上传组装,从我们的62个寄生虫基因组中选择一个相关的参考物种,然后按下按钮。

4-6小时后(取决于装配质量和参考尺寸),会发送一封电子邮件,将用户导向他们标注的基因组。同伴提供基本统计信息,如数量的基因,基因密度,比例每个T、C、G和一个基地在DNA等,但也更有趣的是,第一个比较结果如系谱树,说明了新注释物种与其他物种或基因内容相对于参考。此外,装配的质量,以及大规模的重新安排,很容易在自动生成的圆形图中观察到。如果用户对结果满意,现在可以轻松地将其上传到ENA,这是过去的另一项重大工作。当然,由Companion生成的注释也可以作为后续手工管理的良好起点。

推向市场

第一个主要用例是使用Companion来注释各种新的着丝粒体基因组,包括12个利什曼原虫和锥虫,以及Crithidia和Endotrypanum基因组,其中大部分可以从TriTrypDB获得。

自2016年初《Companion》公开发行以来,我们已经统计了超过120条来自世界各地的注释,并且越来越受欢迎。在这一点上,我们要感谢维康信托基金会桑格研究所基础设施系统团队维护服务器。伴侣已经被证明是万能的:尽管伴侣的主要目的是注释整个基因组,但用户报告说,他们有时只将它用于伪染色体接近组件,这一功能在web应用程序中也很少见。

它使用最先进的技术实现:Nextflow工作流管理系统来编排管道,GenomeTools用于低级脚本的基因组分析工具包,以及用于web服务器的Rails开发生态系统。所有代码都可以在免费的开源许可下获得。

总之,companion正在生成一个高质量的注释草案,它可以很容易地提交到数据库,使社区能够从那些已排序的寄生虫中学习。它还提供了各种输出,允许用户最终将新注释的基因组与参考进行比较,这可能是进一步研究的第一个方向。

更多信息可以在GitHub上找到。相关论文最近被核酸研究的web服务器问题(PMID: 27105845)接受。目前该软件的改进将集中于将其应用于真菌基因组。

提问
扫一扫
丁香实验小程序二维码
实验小助手
丁香实验公众号二维码
扫码领资料
反馈
TOP
打开小程序