Dicas para utilizar o OCR online

 In Blog

OCR significa reconhecimento óptico de caracteres. Esta é uma tecnologia usada para a leitura e conversão de OCR online para PDF. Alguns arquivos PDF, especialmente aqueles que são criados a partir de um scanner são realmente imagens e não há informações textuais dentro do arquivo.

1) Quando você tenta utilizar um conversor OCR online você pode obter resultados de qualidade inferior, se não considerar algumas dicas.

A tecnologia de OCR online é altamente sensível à orientação do documento digitalizado. Quando você utilizar um serviço de OCR online, tenha certeza que o aplicativo pode rotacionar o arquivo na orientação correta, normalmente denominada de “retrato”. Se o aplicativo não rotacionar o arquivo, você deve considerar a possibilidade de fazer isso utilizando outra ferramenta.

Orientar o arquivo PDF digitalizado na direção correta pode ajudar na obtenção de melhores resultados no OCR online.

2) Outra área de preocupação ao utilizar um serviço de OCR online é o tipo de documento. Nem todos os leitores de OCR e conversores de OCR são otimizados para as mesmas tarefas. Geralmente os softwares de OCR online que são otimizados para:

a) Extração de formulários

b) Extração de texto

c) Extração de dados

d) Extração de manuscritos

Geralmente, você pode encontrar softwares de OCR online com mais de uma característica, mas cada serviço de OCR online terá um uma especialidade. Por exemplo, o software da Tabex está focado na extração de dados a partir de documentos que estejam orientados na posição “retrato”.

3) Finalmente, algo importante a se consider é o idioma. Cada idioma possui diferentes caracteres e pontuação. Isto é particularmente evidente quando você tenta converter Árabe, Chines e outras línguas que não são semelhantes ao Inglês. É necessário testar alguns parágrafos simples em sua língua e em Inglês para comparar o que o serviço de OCR online realmente faz.

A precisão do OCR online pode ser aumentada se a saída é limitada por um léxico, que é uma lista de palavras que podem ocorrem em um documento. Isso pode ser, por exemplo, todas as palavras no idioma Inglês, ou um léxico mais técnico para uma área específica. Esta técnica pode ser problemática se o documento contiver palavras que não estão no léxico, como nomes próprios.

O fluxo de saída pode ser um fluxo de texto simples ou um arquivo de caracteres, mas os sistemas de OCR online mais sofisticados podem preservar o layout original da página e produzir, por exemplo, um arquivo PDF que inclui tanto a imagem original da página como uma representação textual pesquisável.

O conhecimento da gramática da língua que está sendo digitalizado também pode ajudar a determinar se uma palavra é provavelmente um verbo ou um substantivo, permitindo uma maior precisão na conversão para texto.

This post is also available in: Inglês Espanhol

Recent Posts

Leave a Comment