Suggerimenti per l’uso dell’OCR ONLINE

 In Blog

OCR è acronimo di riconoscimento ottico dei caratteri. Questa è una tecnologia utilizzata per la lettura e la conversione di OCR e PDF. Alcuni dei file PDF in particolare quelli che vengono grazie ad uno scanner sono delle vere e proprie immagini. Non ci sono informazioni testuali all’interno del file, ma solo immagini.

1) Quando si tenta di utilizzare un convertitore di OCR da un sito OCR è possibile che si ottenga una qualità più bassa, se non si prendono in considerazione alcuni accorgimenti.

La tecnologia OCR è molto sensibile riguardo il documento scansionato. Quando si utilizza un servizio online OCR è meglio assicurarvi che il servizio sia in grado ruotare il file. Se il servizio non ruota il file, dovrete farlo con un altro programma.

Orientare il file scansionato nella giusta direzione può farvi ottenere una maggiore chiarezza del documento di arrivo.

2) Un’altra causa di preoccupazione, quando si utilizza un servizio OCR online è il tipo di documento. Non tutti i lettori OCR e convertitori di OCR sono ottimizzati per gli stessi compiti. Generalmente i software OCR sono ottimizzati per:

a) le forme di estrazione

b) estrazione del testo

c) estrazione dei dati

d) estrazione di scrittura a mano

È generalmente possibile ottenere più di un servizio, ma ogni OCR online avrà una specialità. Per esempio Tabex è focalizzata sull’estrazione dei dati dai documenti formato ritratto .

3) Infine una considerazione a parte va fatta per la lingua. Ogni lingua può avere caratteri e segni di punteggiatura diversi. Ciò è particolarmente evidente quando si tenta di convertire Arabo, Cinese ed altre lingue che sono molto diverse dalla nostra. Si prega di fermarsi un istante per testare un paio di paragrafi semplici nella vostra lingua e in inglese per fare un confronto e capire il meccanismo dell’OCR.

La precisione dell’OCR può essere migliorata se l’uscita è vincolata da un lessico – un elenco di parole cui è consentito di figurare nel documento. Che potrebbero essere, per esempio, tutte le parole in lingua inglese, o un lessico più tecnico che riguarda un campo specifico. Questo tecnica può essere problematica se il documento contiene parole che non appartengono al lessico, come nomi propri. Il flusso di output può essere un flusso di solo testo o un file di caratteri, ma più sistemi OCR sofisticati possono mantenere il layout originale della pagina e produrre, per esempio, un PDF annotato che include sia l’immagine originale della pagina sia una rappresentazione testuale ricercabile.

La conoscenza della grammatica della lingua che viene scansionata può anche aiutare a determinare se una parola è probabile che sia un verbo o un sostantivo, per esempio, consentendo una maggiore precisione.

Recent Posts

Leave a Comment