Command Palette
Search for a command to run...
MMSearch-R1: Anreize für LMMs zur Suche
Jinming Wu Zihao Deng Wei Li Yiding Liu Bo You Bo Li Zejun Ma Ziwei Liu

Abstract
Robustes Bereitstellen großer multimodaler Modelle (LMMs) in realen Szenarien erfordert den Zugriff auf externe Wissensquellen, bedingt durch die Komplexität und Dynamik der realweltlichen Informationen. Bestehende Ansätze wie retrieval-augmentierte Generierung (RAG) und prompt-gesteuerte Suchagenten basieren auf starr strukturierten Pipelines, die oft zu ineffizientem oder übermäßigem Suchverhalten führen. Wir stellen MMSearch-R1 vor, das erste end-to-end Verstärkungslernframework, das es LMMs ermöglicht, nach Bedarf und in mehreren Schritten in realen Internetumgebungen zu suchen. Unser Framework integriert sowohl Bild- als auch Textsuchwerkzeuge, wodurch das Modell gelenkt wird, wann und wie diese Werkzeuge eingesetzt werden sollen, gesteuert durch eine aus Ergebnissen abgeleitete Belohnung mit einer Suchstrafe. Um das Training zu unterstützen, sammeln wir einen multimodalen Such-VQA-Datensatz durch ein halbautomatisiertes Pipeline-Verfahren, der verschiedene visuelle und textuelle Wissensbedürfnisse abdeckt. Wir erstellen zudem eine suchbalancierte Teilmenge mit sowohl suchpflichtigen als auch suchfreien Beispielen, was sich als entscheidend für die Formung effizienten und nach Bedarf erfolgenden Suchverhaltens herausstellt. Ausführliche Experimente an wissensintensiven und informationsorientierten VQA-Aufgaben zeigen nicht nur, dass unser Modell RAG-basierte Baseline-Modelle gleicher Größe übertrifft, sondern auch die Leistung eines größeren RAG-basieren Modells erreicht, während es die Anzahl der Suchaufrufe um über 30% reduziert. Wir analysieren zentrale empirische Befunde im Detail und bieten praktische Erkenntnisse für die Weiterentwicklung der Forschung im Bereich multimodale Suche.
Code-Repositories
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.