HERRAMIENTA DE EXTRACCIÓN DE DATOS WEB EN PDF

 In Blog

Como ya hemos comentado en nuestro artículo anterior sobre la importancia de la extracción de información y la minería de datos de los archivos PDF, la cantidad total de documentos publicados en la red en formato PDF ha seguido aumentando en la última década. El formato PDF representa todavía la inmensa mayoría de documentos web publicados hasta la fecha. Como resultado, cuando usted está tratando de extraer datos de documentos PDF, tratar de recoger datos desde archivos PDF publicados en línea resulta fundamental para el análisis. De hecho, la disponibilidad de esta función reduce el tiempo para localizar y descargar archivos PDF desde la web a alguna forma de almacenamiento.

Además la capacidad de aprovechar la recopilación de datos tabulares a partir de archivos PDF a XML o de PDF a un archivo CSV es especialmente útil cuando el usuario ha seleccionado ya varias publicaciones PDF en la web desde las cuales realizar la minería de datos. En este artículo se describe cómo la herramienta Tabex de extracción de datos PDF en web se puede utilizar en el conversor Tabex PDF y extractor de PDF en línea.

Al llegar el usuario al sitio web se ofrece la interfaz Tabex que se ve en la ilustración. Es importante que el usuario active la herramienta de extracción de datos web en PDF haciendo clic en el icono indicado con el número 3 en la imagen siguiente. Una vez que esta operación se lleva a cabo, la interfaz de usuario ofrecerá una ranura en la que copiar y pegar la URL del archivo PDF a partir del cual desea extraer datos. Una vez que haya terminado, haga clic en el botón “continuar” que se indica con el número 3. Si cambia de opinión y desea cargar un archivo desde una fuente de almacenamiento haga clic en el icono indicado con el número 2 en su lugar.

 

extraccion datos web pdf

Al hacer clic en el botón “Proceed” (indicado con un “1”) tendrá acceso a la sección de archivo subido. En esta sección se puede optar para extraer realmente los datos del PDF y convertirlos de PDF a XML, PDF a Excel, PDF a CSV o PDF a HTML. Si su intención es sin embargo extraer los fragmentos de texto por partes, también puede seleccionar la opción de convertir PDF a TXT.

 

Pdf-web-scraping-tool-second_page_upload1

Pdf-web-scraping-tool-second_page_upload2

La sección de carga de archivos ofrece la posibilidad de añadir archivos adicionales. Esto es a lo que nos referimos como carga corcurrente de archivos múltiples, un tema que comentamos anteriormente en nuestro blog. La misma opción de cargar el archivo adicional se ofrece también durante el uso de la herramienta de extracción web PDF Tabex. como se muestra en la imagen de arriba de estas líneas. Todo lo que necesita hacer es copiar y pegar el enlace (URL) publicado en la Web del archivo PDF y hacer clic en “Proceed”. El archivo se añadirá a la lista de archivos que se estáb procesando.

Pdf-web-scraping-tool-second_page_exported-file-preview

Una vez el usuario selecciona el formato para extraer las páginas PDF, se le presentará la sección de vista previa. La sección de vista previa es compartida tanto por la herramienta de extracción web pdf como por la carga de archivos más tradicional. En esta sección, usted (el usuario) puede inspeccionar el convertidor de archivos y decidir si desea mantener el archivo en el lote o descartar uno o mas archivos específicos del lote que está descargando.

This post is also available in: Inglés Italiano

Recommended Posts

Leave a Comment