Lo Furòl

... de l'ouverture (en occitan)

Vous êtes ici : Accueil / Logiciels Libres / Extraire les données d'un formulaire pdf avec PDFtk

Extraire les données d'un formulaire pdf avec PDFtk

Lorsqu'on crée des formulaires pdf (avec LibreOffice Writer par exemple), il est intéressant de pouvoir récupérer les valeurs saisies par les utilisateur⋅rice⋅s dans un tableur par exemple. Malheureusement, je n'ai pas trouvé d'outil libre "clé en main" permettant cette manipulation sous Ubuntu... Heureusement il existe un outil en ligne de commande qui permet cela : il s'agit de PDFtk.

I- Installation de PDFtk sous Ubuntu 18.04

Malheureusement sous Ubuntu 18.04, PDFtk n'est plus dans les dépôts et il faut passer par Snap pour l'avoir. L'inconvénient de cette installation, c'est que PDFtk ne fonctionne que pour des fichiers se trouvant dans /home aussi il faut taper cette ligne de commande pour corriger cela :

sudo ln -fs /snap/pdftk/current/usr/bin/pdftk /usr/bin/pdftk

Autre solution pour avoir pdftk sous Ubuntu 18.04 : https://askubuntu.com/a/1046476

 

II- Lignes de commandes simples pour récupérer les données du formulaire pdf

Pour extraire les données d'un fichier pdf (créé sous LibreOffice Writer) dans le terminal, il faut taper la ligne de commande suivante :

pdftk fichier.pdf dump_data_fields_utf8

Pour extraire dans un fichier texte :

pdftk fichier.pdf dump_data_fields_utf8 output fichier.txt

Maintenant lorsqu'on a beaucoup de fichiers pdf, il serait intéressant de réaliser un script pour faire cette extraction à la chaîne et rassembler toutes les données en un seul fichier.

 

III- Script pour récupérer les données de plusieurs formulaires pdf dans un fichier .csv

Source : https://forum.openoffice.org/en/forum/viewtopic.php?f=21&t=91588

En m'appuyant sur la source ci-dessus, voir ci-dessous en téléchargement le fichier LibreOffice Calc permettant à partir d'un répertoire contenant plusieurs formulaires pdf d'obtenir un fichier .csv avec toutes les données. Il est nécessaire d'activer les macros.
Une fois les données récupérées, il sera peut-être nécessaire de les retravailler avec des macros pour les optimiser (utile pour des cases à cocher par exemple).

 

Remarques :

  • PDFtk existe aussi sous Windows mais il s'agit de la version PDFtk-server (https://www.pdflabs.com/tools/pdftk-server/)
  • Mon classeur LibreOffice Calc devrait fonctionner aussi sous Windows car les macros sont en BASIC (je n'ai pas testé).
  • Adobe Reader propose cette fonctionnalité mais le format des formulaires est propriétaire et il faut la version payante.

 

Pièce(s) jointe(s):
Télécharger ce fichier (Récupération_Data_PDF_Formulaire.ods)Récupération_Data_PDF_Formulaire.ods[ ]15 Ko
Vous êtes ici : Accueil / Logiciels Libres / Extraire les données d'un formulaire pdf avec PDFtk