Lo scraping tool

 In Blog

Come abbiamo accennato nel nostro precedente articolo l’importanza di ottenere le informazioni da dati e data mining da file PDF è aumentata negli ultimi dieci anni. Il formato PDF rappresenta ancora la stragrande maggioranza dei documenti sul web pubblicati fino ad oggi. Di conseguenza, l’estrazione di dati dai documenti PDF, web scraping e la capacità di raccogliere dati da file pdf pubblicati online sono molto importanti per gli analisti. Infatti la disponibilità di questa funzione molto utile riduce il tempo di localizzazione e download di file pdf dal web a una qualche forma di archiviazione.

Inoltre la possibilità di sfruttare una rete PDF ottenendo dati tabulari da file PDF a XML o da PDF in un file CSV è particolarmente utile quando l’utente ha selezionato già più pubblicazioni pdf  dal web con l’utilizzo del data mining. In questo articolo viene descritto il modo in cui Tabex può essere utilizzato per ottenere dati dal web.

È molto importante per l’utente attivare lo strumento web scraping pdf cliccando sull’icona indicata con il numero 3 nella foto qui sotto. Una volta che questa operazione viene eseguita, l’interfaccia utente offrirà uno slot su cui copiare e incollare l’URL del file pdf da cui si desidera ottenere dati. Una volta fatto ciò, cliccate sul pulsante “proseguire” indicata con il numero 3. Se si cambia idea e si desidera caricare un file da una fonte di archiviazione fare clic sull’icona indicata con il numero 2.

extracción datos web en pdf

Quando si fa clic sul pulsante “procedere” (indicato con un “1”) si avrà accesso alla sezione del file caricato. In questa sezione si può optare per ottenere i dati dal pdf ed estrarli da PDF in XML, PDF i  Excel, pdf in formato CSV o pdf in html. Se la vostra intenzione è invece di estrarre le informazioni direttamente in formato testo è anche possibile selezionare l’opzione per convertire pdf in txt.

Pdf-web-scraping-tool-second_page_upload1

Pdf-web-scraping-tool-second_page_upload2

La sezione upload del file offre la possibilità di aggiungere altri file. Questo è ciò che noi chiamiamo multi-caricamento di file, un argomento di cui si è discusso precedentemente nel nostro blog. La stessa possibilità di caricare un file aggiuntivo è offerto anche durante l’utilizzo dello strumento web scraping Tabex. Come mostrato nella figura qui sopra. Tutto quello che devi fare è copiare e incollare il seguente link del file pdf e clicca su “procedere”. Il file verrà aggiunto alla lista dei file in fase di elaborazione.

Pdf-web-scraping-tool-second_page_exported-file-preview
Una volta che gli utenti hanno selezionato il formato per estrarre le pagine web in formato pdf o altri, vi apparirà la sezione anteprima. La sezione Anteprima è condivisa sia dallo strumento web scraping e sia dallo strumento di caricamento file standard. In questa sezione, l’utente può ispezionare il convertitore di file e decidere se mantenere il file in batch o respingere uno o più specifici file dal lotto che si sta convertendo e dal download. Quest’ultimo consente di risparmiare sui crediti nel caso in cui non sarà possibile scaricare tutti i file convertiti.

This post is also available in: Inglese Spagnolo

Recommended Posts

Leave a Comment