sábado, 11 de enero de 2014

Capture2Text: Reconocimiento de palabras directamente desde la pantalla


¿Habéis necesitado alguna vez traducir un texto que aparece en una aplicación?
En estos casos no podemos seleccionar el texto y copiarlo para después pegarlo en un traductor online.
Con alfabetos latinos no hay problema porque basta con teclear la frase en cuestión en un traductor y ya está. Pero qué ocurre cuando nos enfrentamos a idiomas como el árabe, el chino o el japonés? Nuestros teclados no están preparado para introducir sus símbolos por lo que se requieren herramientas capaces de reconocer los caracteres de forma automática. A estos programas se les denomina OCR o de Reconocimiento Óptico de Caracteres.

Una solución gratuita y online es NewOCR del cual hice un review aquí: http://imahgin.blogspot.com.es/2013/10/traductor-online-de-imagenes-con-texto.html. Tiene la ventaja de que es gratuito y no necesitamos instalar nada. Por el contrario, debemos subir una imagen con el texto a traducir y después seleccionar manualmente el texto. Esto nos obliga a tener que crear una imagen lo que supone un considerable tiempo si lo que queremos es traducir frases ubicadas en diferentes pantallas.

Otro planteamiento es es utilizar un programa de reconocimiento OCR en local mediante el cual podamos captura directamente la porción de pantalla que contenga el texto a traducir y nos lo convierta a texto.


INTRODUCCION

En este último planteamiento entra Capture2Text que como su nombre indica convierte una porción capturada de la pantalla en texto.

Este programa tiene la ventaja de que:

  • Es gratuito
  • Es portable (no requiere instalación)
  • Soporta diferentes idiomas
  • Uso sencillo
  • Añade la función de reconocimiento de voz.
INSTALACIÓN

Aplicación principal

Lo primero que debemos hacer es visitar su página, acceder a la zona de descargas y nos bajamos la última opción disponible:



El archivo es un ZIP el cual podemos descomprimir en cualquier lugar sin necesidad de instalar nada (aplicación portable).

Nota: en equipos como Windows 7 u 8 es recomendable no hacerlo en Archivos de programa pues esa carpeta tiene accesos restringidos

Instalación de idiomas


Por defecto tenemos preinstalados los siguientes idiomas: Inglés, Francés, Alemán Español, Chino y Japonés

pero podemos añadir facilmente cualquiera de los aquí indicados:

Afrikaans Frankish Maltese Albanian French Norwegian Ancient Greek Galician Polish Arabic German Portuguese Azerbaijani Greek Romanian Basque Hebrew Russian Belarusian Hindi Serbian Bengali Hungarian Slovakian Bulgarian Icelandic Slovenian Catalan Indonesian Spanish Cherokee Italian Swahili
Chinese Japanese Swedish Croatian Kannada Tagalog Czech Korean Tamil Danish Latvian Telugu Dutch Lithuanian Thai English Macedonian Turkish Esperanto Malay Ukrainian Estonian Malayalam Vietnamese
Finnish Maltese

Para instalar otro idioma visitamos esta página: https://code.google.com/p/tesseract-ocr/downloads/list y seleccionamos el idioma deseado.



Se trata nuevamente de un archivo comprimido en formato tar.gz el cual podemos abrir por ejemplo con 7zip. Una vez hecho esto, navegamos por las carpetas del archivo hasta llegar al archivo con extensión traineddata


Finalmente lo extraemos en la carpeta donde descomprimos Capture2Text en la subcarpeta \Utils\tesseract\tessdata



Nota: si teníamos la aplicación Capture2Text abierta, deberemos cerrarla y volverla a abrir para que el nuevo idioma sea detectado.

FUNCIONAMIENTO

Inicio de la aplicación

Para ejecutar la aplicación basta con abrir el archivo Capture2Text.exe ubicado en la carpeta donde hemos descomprimido la aplicación.

La primera vez nos mostrará un mensaje como este:


El programa queda ejecutándose en segundo plano y tenemos acceso a sus funciones en la barra de inicio:


La aplicación está lista para ser usada. Para invocar sus funciones deberemos pulsar las diferentes combinaciones de teclas habilitadas, estando todas ellas descritas y pudiéndose modificar en el apartado de preferencias.

Preferencias

Teclas de acceso dierecto

Lo primero que deberemos hacer es ver y configurar las teclas de acceso a las funciones para el reconocimiento de caracteres. Para ello nos vamos a Preferences y se nos abrirá una pantalla como esta:


La primera pestaña contiene las combinaciones de tecla Hotkeys que inician las diferentes opciones del programa.
Si nuestro sistema operativo es Windosw 8 conviene cambiar la combinación de teclas asignada al inicio de captura (Start or end capture) ya que las teclas Windows + Q despliegan el panel de aplicaciones de Windows.
Gracias a las teclas comodín, podemos configurar el funcionamiento a nuestro antojo de forma que evitemos combinaciones que ya tienen una función preestablecida en Windows o utilizadas por otros programas que estemos ejecutando.
Así por ejemplo, si queremos iniciar la captura pulsando Windows + Shift + P, deberemos consignar en la casilla Start or end capture la combinación #+P

Reconocimiento de caracteres

En la segunda pestaña tenemos las preferencias de idioma y entre otras cosas, podremos determinar cuál es el idioma que se utilizará para interpretar la captura. Los idiomas mostrados aquí dependerán de los que tengamos instalados.


Podemos asociar hasta 3 idiomas a teclas directas para cambiar fácilmente de uno a otro e incluso previsualizar la captura (Preview Box).

En caso de utilizar idiomas como el Japonés o el Chino simplificado/tradicional, por defecto la orientación es vertical por lo que deberemos cambiar esta opción según tengamos el texto a traducir. Esa opción la tenemos en Text Direction (no afecta a los idiomas NHocr). Si tenemos seleccionado orientación vertical y el texto es horizontal, el resultado que obtendremos es como si hubiéramos leído de derecha a izquierda.


Reconocimiento de voz

En la tercera pestaña tenemos las opciones de reconocimiento de voz


Resultado

Y finalmente en la última pestaña Output podemos configurar qué hacer con el resultado:


Por defecto lo guarda en el portapapeles pero tenemos algunas opciones añadidas como puede apreciarse
Inicio de la captura

Para iniciar la captura primero posicionamos el ratón en la esquina superior del texto a capturar e invocamos las teclas de acceso que inician la captura (por defecto Windows + Q). Si ahora desplazamos el cursor hacia abajo a la izquierda, debería aparecer una caja en azul que indica el área que está siendo analizada.
Si esto no ocurriera, deberemos pulsar una vez el botón derecho del ratón.

A medida que vayamos ampliando la selección al texto a traducir, veremos una ventana en la esquina superior izquierda con el resultado. Una vez tengamos capturado lo que queramos pulsamos el botón izquierdo del ratón y el texto capturado se copiará al portapapeles (opción por defecto).

Ahora simplemente debemos abrir un editor de texto y pegar el contenido del portapapeles y por tanto, de la captura realizada.

CONCLUSIÓN

No he probado la función de reconocimiento de voz pero la de caracteres resulta bastante acertada.
En el caso concreto del Chino existen ciertas dificultades y hay que jugar mucho con la resolución del texto a capturar y de la porción o área a explorar. Aún así, para un uso no profesional resulta muy interesante.
Comentarios
0 comentarios
Para Comentar Elige el Sistema de Comentario de tu Agrado:
Comentarios Comentarios Comentarios