用新工具解决基因组数据损坏问题

2020-04-27

727

数据转换和格式设置默认值可能会导致对科学数据进行不必要的转换。最近发表在BMC基因组学上的一篇文章展示了解决基因组学中数据损坏问题的一种可能的方法。

随着科学研究越来越依赖已发布的数据集和在线资源，数据损坏的影响日益受到关注。在基因组学领域尤其如此，研究人员经常使用在线存储库和出版的补充资料进行分析。

当通过格式化程序（如Microsoft Excel）中的默认值来更改数据时，可能会出现问题。当基因名转换为日期时，这给基因组学研究人员带来了一个问题。例如，当程序自动将该基因名格式化为日期时，输入的基因名（如“SEPT2”）可以转换为2016/09/02。

Ziemann等人在最近发表在《基因组生物学》上的一篇文章中强调了这个问题的巨大规模。研究人员扫描了主要的基因组学期刊，发现五分之一包含补充基因列表的论文都存在这些错误。在704份出版物的987份补充文件中发现了基因名称的改变。有趣的是，研究发现影响因子最高的期刊更有可能包含被破坏的数据。

在已发表的材料中发现如此高的数据损坏率，令基因组学界感到不安，他们大量使用这些数据源。这个错误可能很难逆转，而且很少有已知的解决方案来纠正它。

为了解决这个令人不安的问题，来自德国健康研究所的一个团队在西班牙开发了一个名为Truke的新软件工具，以帮助保持基因组数据的完整性。最近发表在《BMC基因组学》上的一篇文章描述了这一新软件，它通过库引用和逆向工程等方法，将被破坏的符号恢复到它们原来的基因名。

通过从国家生物技术信息中心（NCBI）数据库中获取数据，整理了一个易出错基因符号库，并预测了相应的“日期”。当系统扫描用户的数据集时，会识别出错误的日期，并将其转换回原始的基因名。保障措施到位，以避免系统出现错误。例如，在假日期可能对应于多个基因名的情况下，例如SEPT1或SEPT-1，将此差异标记给用户以便采取行动。

如本文所示，我们提出了一个潜在的解决方案，这个问题可以被科学家和出版商共同忽略。虽然每年发布的数据越来越多，但也许借助软件解决方案可以减少这些对数据完整性的威胁。