在 Linux 上使用 gImageReader 从图像和 PDF 中提取文本
创始人
2024-03-02 07:01:02
0

gImageReader 是一个 GUI 工具,用于在 Linux 中利用 Tesseract OCR 引擎从图像和 PDF 文件中提取文本。

gImageReaderTesseract 开源 OCR 引擎的一个前端。Tesseract 最初是由 HP 公司开发的,然后在 2006 年开源。

基本上,OCR(光学字符识别)引擎可以让你从图片或文件(PDF)中扫描文本。默认情况下,它可以检测几种语言,还支持通过 Unicode 字符扫描。

然而,Tesseract 本身是一个没有任何 GUI 的命令行工具。因此,gImageReader 就来解决这点,它可以让任何用户使用它从图像和文件中提取文本。

让我重点介绍一些有关它的内容,同时说下我在测试期间的使用经验。

gImageReader:一个跨平台的 Tesseract OCR 前端

为了简化事情,gImageReader 在从 PDF 文件或包含任何类型文本的图像中提取文本时非常方便。

无论你是需要它来进行拼写检查还是翻译,它都应该对特定的用户群体有用。

以列表总结下功能,这里是你可以用它做的事情:

  • 从磁盘、扫描设备、剪贴板和截图中添加 PDF 文档和图像
  • 能够旋转图像
  • 常用的图像控制,用于调整亮度、对比度和分辨率。
  • 直接通过应用扫描图像
  • 能够一次性处理多个图像或文件
  • 手动或自动识别区域定义
  • 识别纯文本或 hOCR 文档
  • 编辑器显示识别的文本
  • 可对对提取的文本进行拼写检查
  • 从 hOCR 文件转换/导出为 PDF 文件
  • 将提取的文本导出为 .txt 文件
  • 跨平台(Windows)

在 Linux 上安装 gImageReader

注意:你需要安装 Tesseract 语言包,才能从软件管理器中的图像/文件中进行检测。

你可以在一些 Linux 发行版如 Fedora 和 Debian 的默认仓库中找到 gImageReader。

对于 Ubuntu,你需要添加一个 PPA,然后安装它。要做到这点,下面是你需要在终端中输入的内容:

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt update
sudo apt install gimagereader

你也可以从 openSUSE 的构建服务中找到它,Arch Linux 用户可在 AUR 中找到。

所有的仓库和包的链接都可以在他们的 GitHub 页面中找到。

gImageReader 使用经验

当你需要从图像中提取文本时,gImageReader 是一个相当有用的工具。当你尝试从 PDF 文件中提取文本时,它的效果非常好。

对于从智能手机拍摄的图片中提取,检测很接近,但有点不准确。也许当你进行扫描时,从文件中识别字符可能会更好。

所以,你需要亲自尝试一下,看看它是否对你而言工作良好。我在 Linux Mint 20.1(基于 Ubuntu 20.04)上试过。

我只遇到了一个从设置中管理语言的问题,我没有得到一个快速的解决方案。如果你遇到此问题,那么可能需要对其进行故障排除,并进一步了解如何解决该问题。

除此之外,它工作良好。

试试吧,让我知道它是如何为你服务的!如果你知道类似的东西(和更好的),请在下面的评论中告诉我。


via: https://itsfoss.com/gimagereader-ocr/

作者:Ankush Das 选题:lujun9972 译者:geekpi 校对:wxy

本文由 LCTT 原创编译,Linux中国 荣誉推出

OCR

相关内容

不允许复制内容的PDF文件...
要解决无法对不允许复制内容的PDF文件进行OCR处理的问题,可以使...
2025-01-11 11:00:46
不使用read_pdf函数...
要检查OCR表是否存在,可以使用以下代码示例:import pan...
2024-12-29 06:31:49
不是pbm、pgm或ppm...
要判断一个文件是否为pbm、pgm或ppm文件,可以使用文件的魔数...
2024-12-28 05:31:46
不进行OCR的情况下提取结...
在不进行OCR的情况下提取结构化数据的PDF,可以使用Python...
2024-12-25 22:02:07
BitmapFactory...
这个错误通常发生在输入流中的数据不是有效的图片格式时。检查一下输入...
2024-12-19 18:30:29
Bindatetime.d...
要按日期对象创建分组,我们可以使用pandas中的cut函数。此外...
2024-12-18 01:01:07

热门资讯

使用 KRAWL 扫描 Kub... 用 KRAWL 脚本来识别 Kubernetes Pod 和容器中的错误。当你使用 Kubernet...
Helix:高级 Linux ... 说到 基于终端的文本编辑器,通常 Vim、Emacs 和 Nano 受到了关注。这并不意味着没有其他...
通过 SaltStack 管理... 我在搜索Puppet的替代品时,偶然间碰到了Salt。我喜欢puppet,但是我又爱上Salt了:)...
Epic 游戏商店现在可在 S... 现在可以在 Steam Deck 上运行 Epic 游戏商店了,几乎无懈可击! 但是,它是非官方的。...
如何在 Github 上创建一... 学习如何复刻一个仓库,进行更改,并要求维护人员审查并合并它。你知道如何使用 git 了,你有一个 G...
2024 开年,LLUG 和你... Hi,Linuxer,2024 新年伊始,不知道你是否已经准备好迎接新的一年~ 2024 年,Lin...
什么是 KDE Connect... 什么是 KDE Connect?它的主要特性是什么?它应该如何安装?本文提供了基本的使用指南。科技日...
JStock:Linux 上不... 如果你在股票市场做投资,那么你可能非常清楚投资组合管理计划有多重要。管理投资组合的目标是依据你能承受...
Opera 浏览器内置的 VP... 昨天我们报道过 Opera 浏览器内置了 VPN 服务,用户打开它可以防止他们的在线活动被窥视。不过...
Bazzite:专为 Stea... 为 Linux 桌面或者 Steam Deck 做好游戏准备,听起来都很刺激!对于一个专为 Linu...