TextSnatcher, copia el texto de imágenes al portapapeles

febrero 14, 2022 , 0 Comments

about textsnatcher

En el siguiente artículo vamos a echar un vistazo a TextSnatcher. Si eres de los usuarios que trabajan habitualmente con OCR, posiblemente te gustará ver una aplicación simple creada sobre una aplicación excelente y compleja como es Tesseract. Si buscas una manera fácil y sin complicaciones de copiar el texto de imágenes en Gnu/Linux, puedes echar un vistazo a TextSnatcher, pues es posible que  adapte a lo que buscas.

La posibilidad de extraer texto de imágenes, archivos PDF o cosas similares, no es ninguna novedad. Hoy en día podemos encontrar muchas y diferentes herramientas para realizar este trabajo, pero por el momento ninguna lo hace de forma tan fácil como puede hacerlo TextSnatcher.

Esta herramienta realiza el reconocimiento óptico de caracteres (OCR) en segundos, lo que va a permitir a los usuarios copiar rápidamente texto de cualquier cosa visible en la pantalla al portapapeles del sistema, dejándolo listo para pegarlo en otro lugar. El reconocimiento de caracteres, conocido con frecuencia como OCR (del inglés Optical Character Recognition), es un proceso dirigido a la digitalización de textos, los cuales identifican automáticamente a partir de una imagen, símbolos o caracteres que pertenecen a un determinado alfabeto, para después almacenarlos en forma de datos. Así podremos interactuar con estos mediante un programa de edición de texto.

interfaz textsnatcher

En cuanto a la interfaz de esta aplicación, no podría ser más fácil de usar. Tan solo tendremos que iniciarla, hacer clic en el botón ‘Snatch Now!’. Después veremos aparecer la herramienta de captura de pantalla predeterminada para tomar una captura de pantalla completa, una captura de la ventana actual o seleccionar una zona que capturar (recomendado) enfocándose solo en el texto que nos interese copiar.

Características generales de TextSnatcher

  • Este programa nos va a permitir copiar el texto de imágenes con facilidad, podremos realizar operaciones de OCR en segundos, con bastante buenos resultados.

idiomas TextSnatcher

  • Cuenta con soporte de múltiples idiomas. Estos se pueden seleccionar en el botón del lado izquierdo, en la parte superior de la ventana.
  • Nos va a permitir copiar el texto de las imágenes haciendo una selección de la zona.

opciones de textsnatcher

  • Se trata de un programa rápido y fácil de usar.
  • Se pueden ver algunos vídeos de este programa funcionando en su repositorio de GitHub.
  • Esta aplicación utiliza Tesseract OCR 4.x para el reconocimiento de caracteres. Si te interesa saber más, puedes leer sobre Tesseract y Star Tesseract-Project.

Instalar TextSnatcher en Ubuntu

Este programa lo podemos encontrar disponible como paquete Flatpak en Flathub. Si utilizas Ubuntu 20.04 y todavía no cuentas con esta tecnología habilitada en tu sistema, puedes seguir la guía que escribió un compañero en este blog hace un tiempo.

Para instalar este programa en Ubuntu, tan solo tendremos que abrir una terminal (Ctrl+Alt+T) y ejecutar en ella el comando:

instalar textsnatcher

flatpak install flathub com.github.rajsolai.textsnatcher

Cuando finalice la instalación del programa, tan solo tendremos que buscar el lanzador en nuestro equipo, o ejecutar en la terminal para iniciar el programa:

lanzador de la aplicación

flatpak run com.github.rajsolai.textsnatcher

Si tras iniciar este software, este no funciona correctamente o directamente no arranca, es posible que necesites instalar gnome-screenshot. Si este es el caso, tan solo tendrás que escribir en una terminal (Ctrl+Alt+T):

sudo apt install gnome-screenshot

Desinstalar

En caso de que quieras eliminar el programa de tu sistema, tan solo será necesario abrir una terminal (Ctrl+Alt+T) y lanzar en ella el comando:

desinstalar textsnatcher

flatpak uninstall com.github.rajsolai.textsnatcher

Esta herramienta está diseñada para diferentes sistemas operativos. Aun que para escribir este artículo, solo lo probé en Ubuntu 20.04/21.10, con buenos resultados en ambos casos. El motor Tesseract OCR impulsa esta herramienta y funciona muy bien cuando el área seleccionada es de alta resolución, o el texto para copiar es grande y claro.

En bloques de ‘texto’ de baja resolución o muy pequeños, a veces se copian algunos caracteres a mayores. Además si la selección cuenta con mucha decoración, puede dar lugar a algunos resultados incomprensibles, ya que la herramienta intenta asignar caracteres de texto a partes de bordes, imágenes, etc.


Some say he’s half man half fish, others say he’s more of a seventy/thirty split. Either way he’s a fishy bastard.