LLMs visuels lisent les PDF
L'intégration de grands modèles de vision comme analyseurs PDF représente une avancée notable pour les systèmes de génération augmentée par récupération en entreprise. Contrairement aux parseurs textuels traditionnels, qui se limitent à extraire les mots et les structures de mise en page, les modèles de vision interprètent les pages comme des images. Cette capacité leur permet de lire et de décrire en langage naturel les graphiques, les diagrammes et les illustrations que les outils de reconnaissance optique caractères laissent généralement vides. Dans le cadre des architectures documentaires modernes, cette approche étend les méthodes d'extraction classiques. Lorsqu'un système RAG reçoit une page riche en éléments visuels, l'analyseur visuel génère non seulement le texte et les tableaux existants, mais aussi une description structurée de chaque figure. Ce texte supplémentaire devient indexable, transformant un graphique auparavant invisible en une ressource interrogeable par mots-clés. Des solutions commerciales comme Mistral Document AI confirment que cette stratégie de lecture visuelle s'impose progressivement pour gérer les documents hybrides. Cette méthode comporte néanmoins des compromis techniques et financiers importants. Le traitement par vision est plus lent et plus onéreux par page que les analyseurs textuels, car il repose sur un appel de modèle unique au lieu de multiples étapes d'extraction locales. La précision numérique reste approximative : les valeurs lues sur des courbes doivent être considérées comme indicatives. De plus, la qualité du résultat dépend fortement du modèle utilisé. Des tests comparatifs montrent que GPT-4.1 identifie et transcrit l'intégralité des éléments visuels, tandis que des versions plus légères comme GPT-4o-mini peuvent en omettre une partie significative. Contrairement aux parseurs déterministes, l'approche visuelle souffre parfois de silences sélectifs sur des données complexes. Techniquement, le processus fonctionne en rendant chaque page PDF en image haute résolution, puis en l'envoyant au modèle via une interface à sortie structurée. Le modèle retourne le contenu textuel en format Markdown, ainsi qu'une liste de figures accompagnées d'une catégorie, d'une description sémantique et d'une transcription partielle. Cette architecture s'intègre naturellement dans un pipeline de lecture adaptative, où un mécanisme de routage sélectionne automatiquement l'analyseur le plus adapté au contenu de chaque page. Les parseurs textuels traitent les pages classiques pour leur faible coût et leur exactitude, tandis que l'analyseur visuel n'est activé que lorsque les méthodes traditionnelles retournent un contenu insuffisant. Pour les architectes de systèmes d'information, cette complémentarité redéfinit la gestion des bases documentaires. Bien qu'elle ne remplace pas les outils d'extraction structurée, la vision LLM comble un vide fonctionnel critique : rendre le contenu visuel exploitable par le référencement sémantique. À mesure que les modèles multimodaux améliorent leur précision et réduisent leurs coûts de calcul, cette approche devrait devenir un standard pour les entreprises utilisant des rapports riches en infographies et schémas techniques.
