Qualité RAG : 2 couches PDF
Le traitement des documents PDF pour les systèmes RAG nécessite une architecture de parsing en plusieurs couches. Contrairement à une simple extraction de texte, un analyseur efficace doit distinguer les signaux au niveau du document des données au niveau de la page, puis enrichir le tout d’un contexte sémantique. Cette approche transforme un fichier brut en une ressource structurée et interrogeable. La première couche repose sur les métadonnées intégrées au PDF. En lisant les champs Creator et Producer, le système identifie le logiciel d’origine, qu’il s’agisse d’un traitement de texte, d’un outil de publication ou d’un numériseur. Cette classification détermine la stratégie d’extraction : extraction directe pour les documents natifs, passage par reconnaissance optique de caractères pour les scans. Le document fournit également sa table des matières native et des propriétés comme le chiffrement, utiles pour le routage et l’audit. La seconde couche examine chaque page individuellement. Le texte natif se distingue du texte issu d’un OCR par le mode d’affichage, un indicateur technique qui révèle si les caractères sont invisibles et superposés à une image. L’analyse détecte également les images, les tableaux vectoriels et la mise en page, notamment la présence de plusieurs colonnes. En cartographiant la position horizontale des lignes, le système évite les erreurs de lecture causées par les colonnes. Chaque page est ensuite classifiée selon son contenu dominant : texte natif, scan, contenu mixte ou page vide. Ces signaux déterministes sont complétés par une couche sémantique générée par un modèle de langage. Une seule requête, exécutée au moment de l’ingestion, produit un résumé court indiquant le type de document, le sujet principal et les champs typiques présents. Cette information est conservée en cache et intégrée directement dans l’invite système de l’analyseur de questions. Elle permet au système d’identifier immédiatement le contexte, sans attendre la requête utilisateur. Cette méthode de parsing en plusieurs couches améliore considérablement la précision des pipelines RAG. En remplaçant un flux texte brut par des ensembles de données relationnelles, elle permet un routage adaptatif : saut de l’OCR pour les pages natives, extraction structurée pour les tableaux, et ordre de lecture corrigé pour les mises en page complexes. Les résultats s’alignent sur les architectures modernes d’intelligence documentaire, intégrant des principes éprouvés de détection de mise en page et de reconnaissance de structures. En transformant les PDF en données interrogeables et dotées d’un contexte immédiat, cette approche réduit les erreurs de raisonnement des modèles et optimise la qualité des réponses générées.
