Tablas PDF y la conversión de PDF a Excel

 In Blog

Se pueden encontrar tablas PDF en una serie de documentos tales como facturas, listados, informes financieros, conocimiento de embarque, certificado de origen, artículos científicos y muchos otros.

Aunque parezca contraintuitivo, el problema para identificar y extraer datos de las tablas de PDF es más complejo que la conversión de PDF a Excel.

La conversión de PDF a Excel y PDF a XML es necesaria cada vez que queremos extraer información de archivos PDF en un formato legible por máquina o editable. Sin embargo, con más frecuencia los datos que queremos en realidad extraer de un archivo PDF a Excel son nada menos que las tablas de PDF.

La identificación de las tablas y las tablas de PDF en general es un problema complejo de la informática. La razón es que lo que es evidente para el ojo humano no es para un ordenador. En un algoritmo de software todos y cada uno de los elementos de la cognición humana necesitan ser descompuestos en pasos lógicos y puestos en práctica en el marco de procesos repetibles.

Los retos en la conversión de PDF a Excel cuando las tablas pdf están presentes en el documento se pueden clasificar en tres partes:

  • Identificando dónde está la tabla dentro del documento
  • Identificar el contorno del documento
  • La identificación correcta de los elementos de la tabla pdf
    • Significado de “,” en un número
    • Todos los elementos de un número
    • La separación entre las unidades y el número
    • La separación entre los números y las etiquetas por ejemplo $. UE…

Los científicos de la computación han abordado estos problemas múltiples desde diferentes perspectivas y en particular tomadas tres enfoques generales:  

  • El enfoque de la visión por ordenador que busca identificar diferentes patrones de color en el texto con el fin de identificar las variaciones periódicas típicas de una tabla pdf.
  • El enfoque eurístico que busca construir estructuras rectangulares en un documento PDF de diferentes tamaños y luego se reduce al mínimo el error asociado a una cierta distancia.
  • El enfoque de aprendizaje automático que busca identificar la presencia regular de caracteres y bordes dentro de subconjuntos de documentos y luego aprovecha reglas de clasificación para reconstruir la tabla.

El hecho es que nada de esto se acerca a lograr el 100% de precisión debido a que el tipo y la posición de las tablas pdf dentro de un documento PDF puede variar y varían considerablemente de un documento a otro.

De hecho, la detección de las tablas PDF y la posterior conversión de PDF a Excel sigue siendo objeto de investigación académica en la actualidad. Por estas razones los desarrolladores interesados en incorporar una biblioteca pdf capaz de convertir con precisión pdf a excel se basan en SDK o APIs especializadas.

Los algoritmos de detección de tablas PDF son a menudo una combinación de diversos enfoques y pueden ser un poderoso recurso para aquellos en busca de la automatización en la conversión de PDF a Excel o XML.

This post is also available in: Inglés Portugués, Brasil

Recent Posts

Leave a Comment