整理海量文献数据？有这款 PDF 神器就够了

丁香园2019-01-25

1039

最近小编煞费脑筋，给大家搜罗了不少实用的开源小工具，今天和往常一样，小编给大家带来了一个 PDF 数据获取神器，大家要不要了解一下？

还记得小编本科时候，有一次老板丢了一个满满是数据表格的 PDF，让小编去整理成 Excel 表格，真的是输了小编三四天数据，现在回想起来还记忆犹新。

众所周知，将数据从 PDF 表格中提取出来是一件很烦人的任务，比如将下图的表格粘贴到 Excel 中，就会是这样！

在 PDF 中很是工整。但是！一旦，复制，然后再粘贴到 Excel 中，就变了模样，真的认不出。这种时候，很多同学想必就是无奈地手动输入了。真的是惨啊，如果数据量少还好，一多简直是要命啊！

但是，这些问题都难不倒机智的小编！

是不是很 nice 啊。接下来就让小编给打家介绍中这款工具，及其使用。

这款小工具叫做 Tabula，是一个免费的开源小工具，对的，没有看错，是免费的哦。它除了免费，还有一个优点，就是多平台！

除了 PC 用户，还支持 Mac，真的是 Mac 党的福音啊。接下来小编会给大家详细介绍如何使用。

首先就是下载啦，小编已经为大家准备了安装包，大家在后台回复【0323】即可下载。如果满意，就帮小编点赞和转发哦。解压后，打开软件，会自动打开浏览器。

打开后界面是这样的，这个时候，剩下的几乎都傻瓜操作。

我们可以参照这个步骤来操作。

▲ 上传包含数据表的 PDF 文件。

▲ 通过单击表格的左上角并将鼠标拖到右下角来选择表格，直到所有数据都包含在阴影选择区域中。

这里有几个注意点，一定要切记！

第 1：不要将标题圈进阴影区域，不然会打乱格式！

第 2：如果表格的表头包含合并单元格，不要圈进阴影区域，可以后续提取完数据再做处理！

▲ 随后，点击绿色按钮。

▲ 随后会出现一个包含您的数据的窗口。检查数据以确保它看起来正确。如果数据丢失，我们可能需要稍微扩展我们的选择。

▲ 选择我们需要的格式，点击下载按钮。

打开文件，我们就可以将数据作为文本文件或电子表格，而不是 PDF 来进行处理！

但是小编发现一个问题，就是有时一些符号在 CSV 中会出现乱码，但是不知道是不是因为 Mac 的 Excel 兼容性不是特别好，但是这问题很好解决。

只要选择 Excel 的替换功能，然后将乱码字符统一替换就好！

就会得到想要的结果啦。具体的一些操作和小诀窍，还需要大家使用以后来告诉小编呦。