vor 4 Monaten

MMSearch-R1: Anreize für LMMs zur Suche

Details der Forschungsarbeit anzeigen Code anzeigen

Jinming Wu Zihao Deng Wei Li Yiding Liu Bo You Bo Li Zejun Ma Ziwei Liu

Abstract

Robustes Bereitstellen großer multimodaler Modelle (LMMs) in realen Szenarien erfordert den Zugriff auf externe Wissensquellen, bedingt durch die Komplexität und Dynamik der realweltlichen Informationen. Bestehende Ansätze wie retrieval-augmentierte Generierung (RAG) und prompt-gesteuerte Suchagenten basieren auf starr strukturierten Pipelines, die oft zu ineffizientem oder übermäßigem Suchverhalten führen. Wir stellen MMSearch-R1 vor, das erste end-to-end Verstärkungslernframework, das es LMMs ermöglicht, nach Bedarf und in mehreren Schritten in realen Internetumgebungen zu suchen. Unser Framework integriert sowohl Bild- als auch Textsuchwerkzeuge, wodurch das Modell gelenkt wird, wann und wie diese Werkzeuge eingesetzt werden sollen, gesteuert durch eine aus Ergebnissen abgeleitete Belohnung mit einer Suchstrafe. Um das Training zu unterstützen, sammeln wir einen multimodalen Such-VQA-Datensatz durch ein halbautomatisiertes Pipeline-Verfahren, der verschiedene visuelle und textuelle Wissensbedürfnisse abdeckt. Wir erstellen zudem eine suchbalancierte Teilmenge mit sowohl suchpflichtigen als auch suchfreien Beispielen, was sich als entscheidend für die Formung effizienten und nach Bedarf erfolgenden Suchverhaltens herausstellt. Ausführliche Experimente an wissensintensiven und informationsorientierten VQA-Aufgaben zeigen nicht nur, dass unser Modell RAG-basierte Baseline-Modelle gleicher Größe übertrifft, sondern auch die Leistung eines größeren RAG-basieren Modells erreicht, während es die Anzahl der Suchaufrufe um über 30% reduziert. Wir analysieren zentrale empirische Befunde im Detail und bieten praktische Erkenntnisse für die Weiterentwicklung der Forschung im Bereich multimodale Suche.

Code-Repositories

evolvinglmms-lab/multimodal-search-r1

Offiziell

pytorch

In GitHub erwähnt

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp