HyperAIHyperAI

Command Palette

Search for a command to run...

Proxy-Pointer RAG für multimodale Antworten

Unternehmen streben zunehmend nach Chatbots, die nicht nur Text, sondern auch relevante Bilder aus ihren Dokumenten bereitstellen. Bisher ist dies jedoch schwierig umzusetzen, da herkömmliche RAG-Systeme (Retrieval-Augmented Generation) Dokumente oft in unzusammenhängende Textschnipsel zerlegen. Diese fragmentierte Herangehensweise führt dazu, dass Bilder entweder nicht gefunden oder falsch zugeordnet werden, da der semantische Kontext fehlt. Traditionelle Ansätze, wie das Erstellen von Bildunterschriften oder die Nutzung multimodaler Embeddings, sind fehleranfällig, da sie visuelle Ähnlichkeiten mit inhaltlicher Relevanz verwechseln können. Ein neuer Ansatz namens Proxy-Pointer RAG löst dieses Problem, indem er Dokumente als hierarchische Bäume aus semantischen Blöcken statt als reine Textmengen betrachtet. Anstatt nach Zeichenzahlen zu chunken, werden Abschnitte nach strukturellen Grenzen geteilt. Dies ermöglicht es dem System, komplette logische Einheiten abzurufen, in denen Bilder und Text nahtlos verbunden sind. In einem Protokoll mit fünf Forschungsarbeiten, darunter CLIP und GaLore, demonstrierte ein Entwickler ein multimodales System, das nur textbasierte Embeddings verwendet, um Bilder gezielt abzurufen. Das System nutzt eine spezielle Indexierung, bei der Bilder als verlinkte Artefakte in einem Markdown-Strukturbaum gespeichert werden. Der Prozess beginnt mit der Extraktion von Text und Bildern aus PDFs, wobei die Bilder als separate Dateien neben dem Text gespeichert und im Dokument durch relative Pfade referenziert werden. Während der Abrufphase werden zunächst Kandidaten durch Einbettungssuche identifiziert, anschließend aber durch einen strukturierten Neuklassifizierungsprozess gefiltert. Dabei erhält der LLM nicht nur den Suchbegriff, sondern auch den vollständigen Pfad des Dokumentabschnitts. Dies ist entscheidend, da viele wissenschaftliche Artikel eher generische Überschriften verwenden. Der LLM kann nun basierend auf dem Kontext des gesamten Abschnitts entscheiden, welche der enthaltenen Bilder für die Antwort relevant sind. In Tests auf einem Benchmark von zwanzig Fragen erreichte das System eine Genauigkeit von 95 Prozent bei der Bildwiedergabe. Das bedeutet, dass in fast allen Fällen die korrekten Diagramme oder Tabellen angezeigt wurden, ohne dass irrelevante Bilder verunreinigten die Ergebnisse. Optional kann ein weiterer Schritt hinzugefügt werden, bei dem das Sprachmodell die tatsächlich ausgewählten Bilder visuell prüft, um die Präzision weiter zu steigern, was jedoch mit geringfügig höherer Latenz verbunden ist. Der Ansatz verzichtet bewusst auf teure und komplexe multimodale Embeddings. Stattdessen nutzt er die Fähigkeit von Large Language Models, den Kontext eines Abschnitts zu verstehen, um logisch zu entscheiden, welche visuellen Elemente angezeigt werden sollten. Dies entspricht eher der menschlichen Leseweise, bei der der Kontext die Relevanz von Abbildungen bestimmt. Das Projekt ist vollständig als Open-Source unter der MIT-Lizenz verfügbar und bietet eine einfache Einrichtungsmöglichkeit für Entwickler, die multimodale Antworten in ihren eigenen Dokumentenbibliotheken integrieren möchten. Dieser Fortschritt macht RAG-Systeme präziser und vertrauenswürdiger, indem sie visuelles Beweismaterial direkt aus dem relevanten Kontext liefern.

Verwandte Links