gImageReader, una aplicación para PDF con capacidad de OCR
En el siguiente artículo vamos a echar un vistazo a gImageReader. Esta es una aplicación front-end para el motor Tesseract OCR. Para los que no conozcan Tesseract, decir que es un motor óptico de reconocimiento de caracteres (OCR) que utiliza inteligencia artificial para buscar y reconocer texto impreso en imágenes. Es una biblioteca de código abierto y uno de los motores de OCR más populares del mercado. Simplifica todo el proceso de extracción de texto impreso de imágenes permitiendo a los usuarios trabajar con archivos, imágenes escaneadas, PDF, elementos del portapapeles pegados, etc.
Hoy en día todos los usuarios, ya sea en oficinas, hogares, etc., nos podemos encontrar ante una situación en la que necesitemos extraer texto de una imagen. Podría ser un documento escaneado en formato de imagen, un trozo de papel o un trabajo de investigación antiguo. La opción que muchos usuarios tomarían sería la de escribir todo el texto utilizando un editor, pero este proceso puede llevar mucho tiempo. Para evitarnos este trabajo, podemos optar también por la opción de utilizar un OCR para extraer el texto de forma automática.
gImageReader nos va a ofrece muchas funciones y herramientas. Esta aplicación es una buena herramienta para utilizar después de importar un PDF o el documento escaneado y su posterior procesamiento.
Características generales de gImageReader
- Vamos a poder importar documentos PDF e imágenes desde el disco, dispositivos de escaneo, portapapeles y capturas de pantalla. gImageReader admite muchos tipos de archivos. Simplemente tendremos que importar nuestros archivos a la herramienta y extraer el texto con un solo clic.
- Tendremos la posibilidad de generar documentos PDF a partir de documentos hOCR. gImageReader admite tres formatos de texto extraído, texto sin formato, PDF y formato hOCR.
- La herramienta nos va a dar la posibilidad de definir un área de reconocimiento manual o automático para seleccionar el texto a extraer.
- El texto reconocido que se muestra directamente al lado de la imagen. Como se puede ver en la anterior captura de pantalla.
- Después de extraer en texto plano, gImageReader realiza acciones posteriores al proceso, como la corrección ortográfica. Dependiendo del idioma que elijamos (el valor predeterminado es All English), subrayará las palabras que tienen errores gramaticales. Además, gImageReader permite seleccionar el modo de segmentación de página que deseamos usar para el texto extraído.
- A diferencia de otras herramientas de OCR en las que podemos trabajar con un archivo a la vez, gImageReader admite la importación de numerosos archivos y su procesamiento por lotes.
Sobre este programa podremos obtener más información o cualquier actualización nueva en su página oficial de GitHub.
Instalación en Ubuntu
Esta es una aplicación multiplataforma y funciona tanto en Gnu/Linux como en Windows. En las siguiente líneas veremos el proceso de instalación de gImageReader en Ubuntu 18.04 como se indica en la página de GitHub del proyecto.
Agregar el PPA
Para disponer de este software vamos a necesitar agregar el repositorio PPA a nuestro sistema. Esto lo haremos abriendo una terminal (Ctrl+Alt+T) y escribiendo el siguiente comando:
sudo add-apt-repository ppa:sandromani/gimagereader
Instalar gImageReader
Terminada la actualización de software disponible, ya podemos proceder a instalar la aplicación escribiendo en la misma terminal:
sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng
Con todo lo anterior, gImageReader debería instalarse en tu Ubuntu. Ahora ya deberíamos poder iniciar el programa en nuestro equipo.
Desinstalar
En caso de que queramos desinstalar gImageReader, en una terminal (Ctrl+Alt+T) no tendremos más que utilizar el siguiente comando:
sudo apt-get remove gimagereader -y
Para terminar de eliminar el programa nos queda ejecutar también:
sudo apt-get autoremove
El PPA que utilizamos para la instalación podemos eliminarlo de nuestro sistema escribiendo en la misma terminal:
sudo add-apt-repository -r ppa:sandromani/gimagereader
gImageReader es un simple front-end Gtk / Qt para tesseract-ocr que viene viene simplificando todo el proceso de extracción de texto impreso de imágenes. Nos va a permitir trabajar con archivos, imágenes escaneadas, PDF, elementos del portapapeles pegados, etc. Esto lo convierte en una buena opción sacar el texto de nuestras imágenes de forma sencilla y rápida.