CONSEJOS PARA EL USO DE OCR ONLINE

 In Blog

OCR es una tecnología de reconocimiento óptico de caracteres. Se utiliza para la lectura y la conversión de PDF. Algunos de los archivos PDF, especialmente aquellos que se crean a partir de un escáner, son de hecho imágenes. No hay información de texto dentro del archivo, no son más que imágenes.

1) Cuando se intenta utilizar un convertidor OCR de un servicio OCR en línea puede obtener resultados de calidad baja si no tiene en cuenta algunos consejos.

La tecnología OCR es altamente sensible a la dirección del documento escaneado. Cuando utilice un servicio en línea OCR debe asegurarse que el servicio puede girar el archivo en la orientación correcta, generalmente vertical. Si el servicio no gira el archivo tenga en cuenta la opción de utilizar otra herramienta.

Orientar el pdf escaneado en la dirección correcta puede resultar en un mejor rendimiento de forma espectacular.

2) Otra área de preocupación cuando se utiliza servicios en línea de OCR es el tipo de documento. No todos los lectores OCR y convertidores de OCR están optimizados para las mismas tareas. En general, el software OCR está optimizado para:

a) Extracción de formularios

b) Extracción de texto

c) Extracción de datos

d) Extracción de escritura a mano

Se puede conseguir mas de una opción, pero en general cada servicio en línea OCR tendrá una especialidad. Por ejemplo Tabex se centra en la extracción de datos de documentos verticales.

3) Finalmente, una consideración importante se dirige hacia el lenguaje. Cada lengua puede tener diferentes caracteres y puntuacion. Esto es particularmente evidente cuando se intenta convertir el árabe, chino y otros idiomas que están lejos de Inglés. Por favor, tómese un momento para poner a prueba algunos párrafos simples en su idioma y en Inglés para comparar cómo el OCR trabaja en realidad.

La precisión del OCR se puede aumentar si la salida está limitada por un léxico -una lista de palabras que están autorizados a incluirse en un documento. Esto podría ser, por ejemplo, todas las palabras en el idioma Inglés, o un léxico más técnico para un campo específico. Esta técnica puede ser problemática si el documento contiene palabras que no constan en el léxico, como nombres propios.

El flujo de salida puede ser una secuencia de texto sin formato o un archivo de caracteres, pero los sistemas de OCR más sofisticados puede conservar el diseño original de la página y producir, por ejemplo, un PDF con anotaciones que incluye tanto la imagen original de la página como una representación textual de búsqueda.

El conocimiento de la gramática de la lengua que está siendo escaneada también puede ayudar a determinar si una palabra es probable que sea un verbo o un sustantivo, por ejemplo, lo que permite una mayor precisión.

This post is also available in: Inglés Portugués, Brasil

Recommended Posts

Leave a Comment