丁香实验_LOGO
登录
提问
我要登录
|免费注册
点赞
收藏
wx-share
分享

简介摘要:咖啡休息期间读取映射结果的优化

772

读取映射是将短序列(也称为“读取”)与参考基因组或从头组装对齐的过程。它几乎是下一代测序(NGS)相关实验(单核苷酸多态性(SNP)调用、RNA序列、芯片序列等)中的一个重要分析步骤,每天都有成千上万的研究人员在进行。

确定正确的区域

作图的主要问题是确定基因组上最有可能产生某一特定阅读的区域。在我攻读博士学位之初,我认为这是一个看似直截了当的问题。然而,考虑到所有可能的基因组变异,以及PCR或测序人工制品,解决重复区域等问题是具有挑战性的。

目前这方面的研究主要集中在加速或减少内存需求上,已经发布了大约100个映射器(对齐读取的程序)。

为了从这个长长的列表中为一个给定的研究选择一个映射器,其他人和我经常依赖口碑推荐、引用次数或一些基准论文。然而,这并不是一个严格的过程,一项研究中使用的绘图器可能不是另一项研究的最佳选择,甚至不是一个好的选择。

此外,选择最佳参数设置比使用最常优化速度的默认设置更有利。如果没有这种优化,重要的snp可能会丢失,基因表达可能会被错误评估,或者可能引入任何其他可能的人工制品。

每次读取都很重要,即使没有映射0.1%的读取也可能导致不准确的结果。然而,通常甚至映射器的开发人员都无法预测给定数据集的最佳参数集。

引子

在我们最近的《基因组生物学》一文中,我介绍了一个新的网站和命令行程序Teaser,它通过自动对标映射程序及其参数设置来解决这些问题。

我的主要动机是快速而简单地评估不同映射程序在数据集上的表现。例如,在咖啡休息时间(大约15分钟)内,可以对人类基因组上的六个不同的映射程序进行基准测试。

在您返回时,将为您提供交互式绘图,根据正确映射的读取百分比及其吞吐量(每秒读取数),可视化每个映射器的执行情况。

此外,Teaser应该易于运行,但仍然可以为每个人调整和定制。这包括实验的生物学条件,如特定的基因组序列和杂合率,以及实验条件,如读取长度或错误率。

列出这些条件后,Teaser可以自动运行任意数量的候选映射器和感兴趣的参数设置。这包括尝试一组参数,例如尝试不同的种子长度,同时更改两个附加参数以增加对齐读取的尝试。

现在,有可能在20分钟内(一杯咖啡加一块饼干)在果蝇黑胃数据集上自动运行34个测试。手工操作会占用学生将近一个月的时间。

上图显示了结果。您可以从四个区域中选择映射器/参数设置以运行默认参数,例如,Bowtie2:左下(N-)是比默认值差的结果,左上(N+-)是映射率较高但运行时间较长的结果,右下角(N-+)是映射率较低且运行时较低的结果,(N++)是映射率较高且运行时较低的结果。我个人总是根据研究的目标从N+或N++中选择设置。

总而言之,Teaser可以帮助您选择数据的最佳映射器和参数设置。这对每一位投资数千美元来获得测序库的生物学家来说都很重要,现在他们希望尽可能多地利用这些读数。

此外,Teaser可以证明在研究中使用mapper和参数设置是正确的,特别是在分析新的基因组或尝试新的read类型时。此外,Teaser对像我这样的开发人员也很有帮助,因为它简化了新映射程序的基准测试。

提问
扫一扫
丁香实验小程序二维码
实验小助手
丁香实验公众号二维码
扫码领资料
反馈
TOP
打开小程序