HyperAIHyperAI

Command Palette

Search for a command to run...

Vision-Guided Chunking Is All You Need : Amélioration de RAG avec la Compréhension Multimodale des Documents

Tripathi Vishesh Odapally Tanmay Das Indraneel Allu Uday Ahmed Biddwan

Résumé

Les systèmes de génération augmentée par la recherche (Retrieval-Augmented Generation, RAG) ont révolutionné la récupération d'informations et les réponses aux questions, mais les méthodes traditionnelles de segmentation textuelle peinent à gérer des structures de documents complexes, des tableaux sur plusieurs pages, des figures intégrées et des dépendances contextuelles entre les pages. Nous présentons une nouvelle approche de segmentation multimodale de documents qui utilise des grands modèles multimodaux (Large Multimodal Models, LMMs) pour traiter des documents PDF par lots tout en maintenant la cohérence sémantique et l'intégrité structurale. Notre méthode traite les documents par lots de pages configurables avec une préservation du contexte inter-lots, permettant un traitement précis des tableaux sur plusieurs pages, des éléments visuels intégrés et du contenu procédural. Nous évaluons notre approche sur un ensemble de données soigneusement sélectionné de documents PDF accompagnés de requêtes élaborées manuellement, montrant des améliorations dans la qualité des segments et les performances downstream de RAG. Notre approche guidée par la vision atteint une meilleure précision comparée aux systèmes RAG traditionnels, avec une analyse qualitative démontrant une préservation supérieure de la structure du document et de la cohérence sémantique.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Vision-Guided Chunking Is All You Need : Amélioration de RAG avec la Compréhension Multimodale des Documents | Articles | HyperAI