Proxy-Pointer RAG pour des réponses multimodales
Les chatbots d'entreprise peinent encore à intégrer des images pertinentes dans leurs réponses, se limitant souvent à fournir des liens vers des documents source. Ce problème persiste car les approches traditionnelles, telles que l'ajout de légendes d'images aux textes ou l'utilisation d'embeddings multimodaux, échouent à aligner la récupération de données avec la structure sémantique réelle des documents. Ces méthodes entraînent souvent une fragmentation du contexte ou une ambiguïté sur l'origine visuelle des éléments, poussant les systèmes à privilégier la sécurité en omettant les images plutôt que de risquer une inexactitude. Une nouvelle solution open-source, le Pipeline RAG Multimodal Proxy-Pointer, propose une architecture radicale pour surmonter ces limites. Au lieu de découper les documents en fragments de texte aléatoires ou de convertir les images en texte, cette méthode traite chaque document comme un arbre hiérarchique de blocs sémantiques. Les images sont extraites en tant que fichiers distincts et leurs chemins de référence sont ancrés dans la structure du texte correspondant. Ainsi, le système récupère des sections entières et cohérentes plutôt que des bribes, permettant à un modèle de langage (LLM) de juger de la pertinence d'une image en se basant sur le contexte complet de la section sans avoir besoin de visualiser l'image elle-même pour effectuer la sélection initiale. Pour valider cette approche, une chaîne de démonstration a été construite à partir de cinq articles de recherche sur l'intelligence artificielle (CLIP, Nemobot, GaLore, VectorFusion et VectorPainter). Ces documents, contenant plus de 270 figures et tableaux, ont été traités via l'API d'extraction Adobe PDF pour générer du texte en Markdown et des fichiers d'images séparés. Le système utilise un modèle d'embedding textuel (gemini-embedding-001) couplé à un LLM (gemini-3.1-flash-lite-preview) pour le filtrage et la synthèse. Contrairement aux méthodes multimodales classiques, aucun modèle d'embedding visuel n'est employé pour la recherche. Le processus de récupération fonctionne en plusieurs étapes stratégiques. D'abord, une recherche large identifie les candidats via des similarités textuelles, en dédupliquant par section pour obtenir une liste restreinte. Ensuite, un réclassage guidé par la structure enrichit chaque candidat avec son chemin hiérarchique complet et un extrait sémantique pour désambiguïser les sections aux titres génériques. Enfin, le synthesizer LLM évalue les sections finales pour générer la réponse textuelle et sélectionner automatiquement jusqu'à six images dont les chemins sont déjà connus, en attribuant des libellés précis même en l'absence de légendes originales. Une étape optionnelle de filtre visuel peut être activée pour une validation supplémentaire par le LLM, bien que cela ajoute une latence. Les tests sur un benchmark de 20 questions ont révélé une précision de 95 % pour la récupération d'images. Les résultats montrent 17 récupérations parfaites, une absence de résultat visuel, et deux récupérations partielles. Le point crucial est l'absence totale d'images incorrectes ou hors contexte dans les réponses, renforçant ainsi la confiance des utilisateurs. Les cas non résolus sont principalement attribués aux variations non déterministes des LLM ou à des problèmes de profondeur hiérarchique où les figures se trouvent dans des nœuds enfants non inclus dans la fenêtre de contexte. Cette architecture démontre que des réponses multimodales fiables peuvent être obtenues sans les coûts et complexités des embeddings multimodaux. En s'appuyant sur la structure logique des documents et en traitant les chemins d'images comme des pointeurs, le système permet aux chatbots de fournir des preuves visuelles ancrées avec précision. Le code est ouvert sous licence MIT et disponible sur GitHub, offrant une voie vers une nouvelle génération de systèmes RAG capables de montrer des preuves concrètes plutôt que de se contenter de les décrire.
