Configuración avanzada para conversión en línea de PDF a Excel

 In Blog

La práctica de la extracción de datos de archivos PDF en línea es muy popular entre los profesionales de datos, pequeñas empresas y varias otras industrias verticales. Por lo general las personas tienen necesidades variadas en la extracción de datos PDF. La gama va de PDF a Excel, PDF a XML y varios otros, incluyendo PDF a CSV, PDF a HTML, PDF a texto y PDF a JPG. En particular, cuando se considera la conversión de PDF a Excel en línea descubrimos que la mayoría de los servicios en línea limitan la libertad del usuario para decidir sobre los detalles de la conversión.

En este breve artículo se describe cómo funciona la configuración del servicio avanzado Tabex de PDF a Excel en línea y cómo se puede aprovechar como usuarios para mejorar sus resultados en la extracción de datos y ahorrar tiempo en el proceso.

En Tabex ya sea para subir un archivo o más, al usuario se le ofrece la zona de carga de archivos. Para acceder a esa zona el ususario no necesita identificarse. Colocando el cursor sobre cada tarjeta de archivo individual se muestra un botón de “option” (opcción) en la parte superior de cada tarjeta de archivo. Es necesario hacer clic en este archivo si desea tener acceso a los controles de configuración avanzada Tabex PDF a Excel y Conversor PDF a XML.

Después de hacer clic en la tarjeta de archivo aparecerá una nueva barra con una serie de comandos a través de botones de acción superpuestos en la parte superior de página (consulte la siguiente imagen). La barra de configuración avanzada siempre se aplica al archivo del grupo de archivos seleccionados en un momento dado.

 

Configuración avanzada PDF a Excel

El usuario puede configurar qué intervalo de página del documento debe ser procesada y cuáles no. Para ello eche un vistazo a la imagen de abajo. Seleccione “Seleccionar” e introduzca el intervalo de página, páginas o página en que está interesado. Esta configuración se aplica a todos los formatos de salida de datos, tales como PDF a Excel, PDF a XML, PDF a csv, pdf a html y pdf a texto. El valor predeterminado se establece siempre en “todas las páginas”.

elegir páginas PDF a Excel

La configuración de idioma en realidad sólo se aplica a los archivos que requiere el procesamiento de OCR y no es relevante en la función básica de PDF a Excel.
PDF_conversion_to_Excel_online_advanced_settings-select-OCR-Language

Una flexibilidad muy importante en la creación de la información de salida de archivos XLSx o XLS es cuál debería ser el formato de salida. Tabex PDF a Excel en línea ofrecen la posibilidad de extraer tablas con o sin bordes de datos de PDF y exportarlos a Excel en dos formas diferentes. La salida puede ser condensada en una sola hoja de cálculo MS Excel o cada tabla individual extraída se puede añadir a un hoja de cálculo Excel individual. La configuración por defecto es exportar todos los datos extraídos en un archivo de una sola hoja de Excel. Esta configuración determinada se aplica sólo a la conversión en línea de PDF a Excel y no a PDF a XML u otros tipos de conversiones.

 

PDF_conversion_to_Excel_online_advanced_settings-select-single-or-multiple-sheets

La configuración del OCR en los servicios de inteligencia de datos en la nube Tabex no son algo obvio. La configuración de OCR permite que el usuario decida qué algoritmo va utilizar para procesar archivos con una gran cantidad de páginas. Típicamente los archivos de gran tamaño tienen una combinación de páginas que se han escaneado y páginas que se han generado digitalmente. La API de procesamiento Tabex debe decidir si debe o no enviar un archivo a un OCR. El procesamiento de OCR suele generar un alto consumo de recursos en la tarea y si desea reducir al mínimo el tiempo de OCR puede analizar los archivos que no necesitan entrar en el OCR. En este caso se ofrecen tres opciones: el primero significa que elegimos qué el sistema trabaje a través de una determinación automatizada de qué archivos requieren OCR y cuales no; la “opción nunca” simplemente significa que su proyecto siempre pasará por alto el OCR. Por último, el enfoque “para cada página” es muy bueno para asegurarse de que ninguna página que necesite OCR pasa sin detectar.

PDF_conversion_to_Excel_online_advanced_settings-select-OCR-Settings

El separador decimal de Estados Unidos es típicamente un punto, mientras que en los miles es normalmente una coma. La convención es exactamente opuesta en Europa. Tabex PDF a Excel ofrece en su conversión en línea la capacidad de fijar bien la convención de Estados Unidos para el número de miles o el punto.

PDF_conversion_to_Excel_online_advanced_settings-select-Number-decimal-separator

 

Finalmente Tabex PDF a Excel en línea ofrece la posibilidad de restablecer todos los ajustes y borrar archivos, esto se ilustra en la imagen siguiente.

PDF_conversion_to_Excel_online_advanced_settings-select-Reset-settings-or-remove-file

This post is also available in: Inglés Italiano

Recommended Posts

Leave a Comment