Command Palette
Search for a command to run...
DeepMMSearch-R1: Multimodale LLMs in der multimodalen Web-Suche stärken
Kartik Narayan Yang Xu Tian Cao Kavya Nerella Vishal M. Patel et al

Abstract
Multimodale große Sprachmodelle (MLLMs) in realen Anwendungen erfordern Zugriff auf externe Wissensquellen und müssen auf die dynamischen, ständig sich verändernden Informationen der realen Welt reagieren können, um informationsbedürftige und wissensintensive Benutzeranfragen zu bearbeiten. Bestehende Ansätze wie Retrieval-Augmented-Generation-(RAG)-Methoden, Suchagenten und mit Suchfunktionen ausgestattete MLLMs leiden oft unter starren Datenflüssen, übermäßigen Suchaufrufen und schlecht formulierten Suchanfragen, was zu Ineffizienzen und suboptimalen Ergebnissen führt. Um diese Einschränkungen zu überwinden, stellen wir DeepMMSearch-R1 vor – das erste multimodale Großsprachmodell, das on-demand, mehrfach geführte Web-Suchen durchführen und dabei dynamisch Suchanfragen sowohl für Bild- als auch für Textsuchwerkzeuge erstellen kann. Insbesondere kann DeepMMSearch-R1 Web-Suchen basierend auf relevanten Ausschnitten des Eingabebildes initiieren, wodurch die Bildsuche effektiver wird, und kann Textsuchanfragen iterativ anhand der abgerufenen Informationen anpassen, was eine Selbstreflexion und Selbstkorrektur ermöglicht. Unser Ansatz basiert auf einem zweistufigen Trainingspipeline: einer initialen überwachten Feinabstimmung (Cold-Start) gefolgt von einer Online-Verstärkungslernoptimierung. Zur Datenerzeugung führen wir DeepMMSearchVQA ein – eine neuartige multimodale VQA-Datenbank, die durch einen automatisierten Prozess unter Einbeziehung von Echtzeitinformationen aus Web-Suchwerkzeugen erstellt wurde. Diese Datenbank enthält vielfältige, mehrschrittige Anfragen, die textuelle und visuelle Informationen integrieren, und lehrt das Modell, wann gesucht werden soll, was gesucht werden soll, welches Suchwerkzeug verwendet werden soll und wie mit den abgerufenen Informationen argumentiert werden kann. Wir führen umfangreiche Experimente an einer Vielzahl von wissensintensiven Benchmark-Aufgaben durch, um die Überlegenheit unseres Ansatzes zu belegen. Schließlich analysieren wir die Ergebnisse und geben Erkenntnisse weiter, die zur Weiterentwicklung multimodaler Web-Suchsysteme von Nutzen sind.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.