Converter tabelas PDF em EXCEL

 In Blog

Tabelas PDF são encontrados em uma série de documentos, incluindo faturas, listas, relatórios financeiros, certificados de origem, artigos científicos e muitos outros.

Embora contra-intuitivo, o problema de identificar e extrair dados de tabelas PDF é mais complexo do que apenas converter PDF em EXCEL.

Converter PDF em EXCEL e PDF para XML é necessário a cada vez que você desejar extrair informações de arquivos PDF e convertê-los em um formato editável ou legível por máquina. No entanto, na maioria das vezes, os dados que queremos realmente extrair de um arquivo PDF são as tabelas.

Identificar tabelas PDF e tabelas em geral é um problema complexo na ciência da computação. A razão é que o que é visível para o olho humano não o é para um computador. Em um algoritmo de software, cada elemento da cognição humana precisa ser decodificado em passos lógicos e implementado no âmbito de um processo repetitivo.

Os maiores desafios ao converter PDF em EXCEL são as tabelas que estão presentes no documento e podem ser categorizados em três itens:

  • Identificar onde a tabela está dentro do documento.
  • Identificar o contorno documento.
  • Identificar corretamente os elementos da tabela PDF:
    • Significado da “,” (vírgula) em um número.
    • Todos os elementos de um número.
    • A separação entre as unidades e os numerais.
    • A separação entre os numerais e os símbolos, como por exemplo o “$” (cifrão).

Os cientistas da computação têm abordado estes múltiplos problemas de várias perspectivas e estão utilizando três abordagens gerais:  

  • A abordagem de visão computacional que visa identificar padrões diferentes na cor de texto com o propósito de identificar variações regulares típicos de uma tabela PDF.
  • A abordagem Eurística que busca construir estruturas retangulares de tamanhos diferentes em um documento PDF  e em seguida, minimizar o erro associado a uma certa distância.
  • A abordagem de aprendizagem de máquina que busca identificar a presença regular de caracteres e bordas dentro dos subconjuntos do documento e em seguida, utilizar as regras de classificação para reconstruir a tabela.

O fato é que nada disso se aproxima de atingir 100% de precisão, porque o tipo e as posições das tabelas em um arquivo PDF podem ser diferentes e podem variar consideravelmente de um documento para outro.

Na verdade, a detecção de tabelas PDF com a subsequente conversão de PDF para EXCEL ainda é objeto de pesquisa acadêmica nos dias atuais. Por este motivo, os desenvolvedores interessados ​em incorporar uma biblioteca PDF capaz de converter precisamente PDF para Excel depende de uma API PDF para EXCEL especializada.

Algoritmos de terceiros para a detecção de tabelas PDF são muitas vezes uma combinação de várias abordagens e podem ser um recurso poderoso para aqueles que buscam automação ao converter PDF em EXCEL ou PDF para XML.

This post is also available in: Inglês Espanhol

Recent Posts

Leave a Comment