il y a 17 jours

Vision-Guided Chunking Is All You Need : Amélioration de RAG avec la Compréhension Multimodale des Documents

Tripathi, Vishesh ; Odapally, Tanmay ; Das, Indraneel ; Allu, Uday ; Ahmed, Biddwan

Résumé

Les systèmes de génération augmentée par la recherche (Retrieval-Augmented Generation, RAG) ont révolutionné la récupération d'informations et les réponses aux questions, mais les méthodes traditionnelles de segmentation textuelle peinent à gérer des structures de documents complexes, des tableaux sur plusieurs pages, des figures intégrées et des dépendances contextuelles entre les pages. Nous présentons une nouvelle approche de segmentation multimodale de documents qui utilise des grands modèles multimodaux (Large Multimodal Models, LMMs) pour traiter des documents PDF par lots tout en maintenant la cohérence sémantique et l'intégrité structurale. Notre méthode traite les documents par lots de pages configurables avec une préservation du contexte inter-lots, permettant un traitement précis des tableaux sur plusieurs pages, des éléments visuels intégrés et du contenu procédural. Nous évaluons notre approche sur un ensemble de données soigneusement sélectionné de documents PDF accompagnés de requêtes élaborées manuellement, montrant des améliorations dans la qualité des segments et les performances downstream de RAG. Notre approche guidée par la vision atteint une meilleure précision comparée aux systèmes RAG traditionnels, avec une analyse qualitative démontrant une préservation supérieure de la structure du document et de la cohérence sémantique.