Command Palette
Search for a command to run...
Zu einer mixed-modalen Abfrage für universelle abfragende generative Systeme
Chenghao Zhang Guanting Dong Xinyu Yang Zhicheng Dou

Abstract
Retrieval-Augmented Generation (RAG) hat sich als leistungsfähiges Paradigma zur Verbesserung großer Sprachmodelle (LLMs) etabliert, indem relevante Dokumente aus einer externen Korpus abgerufen werden. Allerdings konzentrieren sich bestehende RAG-Systeme hauptsächlich auf einmodale Textdokumente und erweisen sich in realen Anwendungsszenarien oft als unzureichend, in denen sowohl Anfragen als auch Dokumente aus einer Mischung mehrerer Modalitäten (z. B. Text und Bilder) bestehen können. In diesem Artikel greifen wir die Herausforderung des Universal Retrieval-Augmented Generation (URAG) auf, das die Abfrage und Verarbeitung gemischter Modalitäten beinhaltet, um die Generierung von visueller und sprachlicher Information zu verbessern. Dazu stellen wir Nyx vor, einen einheitlichen, auf gemischte Modalitäten abgestimmten Rechercheur, der speziell für URAG-Szenarien konzipiert ist. Um die Knappheit an realistischen gemischt-modalen Datensätzen zu kompensieren, führen wir eine vierstufige automatisierte Generierungs- und Filterungspipeline ein, die Webdokumente nutzt, um NyxQA zu erstellen – eine Datensammlung mit vielfältigen gemischt-modalen Fragen und Antworten, die die realen Informationsbedürfnisse besser widerspiegeln. Aufbauend auf dieser hochwertigen Datensammlung implementieren wir ein zweistufiges Trainingsframework für Nyx: Zunächst führen wir eine Vortrainingsphase auf NyxQA durch, ergänzt um eine Vielzahl offener, quelloffener Recherchedatensätze, gefolgt von einer überwachten Feinabstimmung mithilfe von Rückmeldungen von nachgeschalteten visuell-sprachlichen Modellen (VLMs), um die Rechercheergebnisse an die generativen Präferenzen anzupassen. Experimentelle Ergebnisse zeigen, dass Nyx nicht nur auf herkömmlichen, rein textbasierten RAG-Benchmarks wettbewerbsfähig abschneidet, sondern auch in allgemeineren und realistischeren URAG-Szenarien hervorragt und die Qualität der Generierung in visuell-sprachlichen Aufgaben signifikant verbessert.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.