Summer 大讲堂第 2 期:如何高效的从图中提取文字?
生物学霸
878
某天,Boss 说:某某,把这份文件打成 Word。然后,有的同学可能会拿起纸质稿打开 Word 开始「啪啪」打字......
那么,是否有更快捷的方法呢?答案是有的。这时候,我们需要利用 OCR(光学字符识别),具体的方法有很多,此处介绍三种。
假设我们需要将以下图片转成文字:
然后,我们逐一介绍这三种方法:
1、Office 工具
对于安装了 Office 2003 的同学们,可以使用其中的 Microsoft Office Document Imaging 功能。
第一步,我们使用 Microsoft Office Picture Manager 打开图片:
第二步,文件→打印→选择虚拟打印机 Microsoft Office Document Image Writer,如下:
然后,点击下一步→下一步→保存→完成,系统会自动调用 Microsoft Office Document Imaging,如下:
接着,我们选择「工具」→「使用 OCR 识别文本」,完成后,选择下方的「将文本发送到 Word」,系统会自动调用 Word,就可以获得图像中的文字了:
内容稍作修改即可。
而在 Office 2010 中呢,木有 Microsoft Office Document Imaging 功能,我们需要借助于 OneNote 图片,将图片插入 OneNote,如下:
然后选中图片,右键→复制图片中的文本:
OK,就这么简单,软件已经完成了识别工作,我们新建 Word,粘贴即可:
此外,值得一提的是,不知大家有没有注意刚才 OneNote 中右键菜单的最后一项「使图像中的文本可搜索」,我们选中它,会发现在右上角搜索栏键入一个搜索词后,图片中的文字变成可搜索的了:
OK,Office 就讲这么多,下面介绍使用 Adobe Acrobat X 进行 OCR 。
2、Acrobat 工具
开始前,确保安装了 Acrobat。如果原文件是 PDF,那么我们可以直接打开 PDF;如果是图片,我们首先需要将图片转换成 PDF,方法很简单,选中图片→右键→转换为 Adobe PDF:
Acrobat 会自动打开生成的 PDF 文件,如下:
我们点击右侧「工具」→识别文本→在本文件中,会发现图片已经转换为文本,可进行复制了:
直接复制到 Word 即可。
3、ABBYY FineReader 工具
FineReader 图片是一个专业的 OCR 软件,此处特别推荐第 11 版,Look:
它功能强劲,还可以选择文档语言,并进行组合,有兴趣的话大家可以自己去摸索,此处只做简要演示。
我们选择第二个选项「文件(PDF/图像)至 Microsoft Word,打开图片,软件即可自动完成识别:
最后软件会把结果发送至 Word:
OK,将图片转化成文字就先简单介绍到这,我们下周见。
文章编辑:大师兄
图片来源:Summer