HyperAI
vor 17 Tagen

Vision-Guided Chunking ist alles, was Sie benötigen: Verbesserung von RAG durch multimodales Dokumentverstehen

Tripathi, Vishesh ; Odapally, Tanmay ; Das, Indraneel ; Allu, Uday ; Ahmed, Biddwan
Vision-Guided Chunking ist alles, was Sie benötigen: Verbesserung von RAG durch multimodales Dokumentverstehen
Abstract

Retrieval-Augmented Generation (RAG)-Systeme haben die Informationsabrufung und die Fragebeantwortung revolutioniert, aber traditionelle textbasierte Chunking-Methoden haben Schwierigkeiten mit komplexen Dokumentstrukturen, mehrseitigen Tabellen, eingebetteten Abbildungen und kontextuellen Abhängigkeiten über Seitengrenzen hinweg. Wir präsentieren einen neuen multimodalen Chunking-Ansatz, der große multimodale Modelle (LMMs) nutzt, um PDF-Dokumente in Batches zu verarbeiten, während er semantische Kohärenz und strukturelle Integrität gewährleistet. Unsere Methode verarbeitet Dokumente in konfigurierbaren Seitensets mit Erhaltung des Kontextes zwischen den Batches, was eine genaue Behandlung von Tabellen auf mehreren Seiten, eingebetteten visuellen Elementen und prozeduralen Inhalten ermöglicht. Wir evaluieren unseren Ansatz anhand eines küratierten Datensatzes von PDF-Dokumenten mit manuell erstellten Anfragen und zeigen Verbesserungen in der Chunk-Qualität sowie der nachgeschalteten RAG-Leistung. Unser visionär geführter Ansatz erreicht eine höhere Genauigkeit im Vergleich zu traditionellen vanilla-RAG-Systemen, wobei eine qualitative Analyse eine überlegene Erhaltung der Dokumentstruktur und semantischen Kohärenz zeigt.