DeepEyesV2: Ein Schritt hin zu einem agierenden multimodalen Modell
Jack Hong Chenxiao Zhao ChengLin Zhu Weiheng Lu Guohai Xu Xing Yu

Abstract
Agente multimodale Modelle sollten nicht nur Text und Bilder verstehen, sondern auch aktiv externe Werkzeuge wie Code-Ausführungs-Umgebungen oder Web-Suchmaschinen aufrufen und diese Operationen in ihren Schlussfolgerungsprozess integrieren. In dieser Arbeit stellen wir DeepEyesV2 vor und untersuchen, wie man ein agentes multimodales Modell aus Sicht der Datenerstellung, Trainingsmethoden und Modellbewertung aufbaut. Wir beobachten, dass eine direkte Verstärkungslernmethode allein nicht ausreicht, um robustes Werkzeugnutzungsverhalten zu erzeugen. Dieser Befund motiviert einen zweistufigen Trainingsansatz: eine Cold-Start-Phase zur Etablierung von Werkzeugnutzungsmustern, gefolgt von einer Phase des Verstärkungslernens zur weiteren Feinabstimmung der Werkzeugaufrufe. Wir erstellen eine vielfältige, mittlerweile anspruchsvolle Trainingsdatenbank, die speziell Beispiele enthält, bei denen die Werkzeugnutzung vorteilhaft ist. Darüber hinaus führen wir RealX-Bench ein, eine umfassende Benchmark, die darauf abzielt, die multimodale Schlussfolgerung in realen Anwendungsszenarien zu bewerten – eine Aufgabe, die inhärent die Integration mehrerer Fähigkeiten erfordert, darunter Wahrnehmung, Suche und logisches Schließen. Wir evaluieren DeepEyesV2 anhand von RealX-Bench und weiterer repräsentativer Benchmarks und zeigen dessen Wirksamkeit bei der Verarbeitung realweltbezogener Aufgaben, mathematischer Schlussfolgerungen sowie aufgabenintensiver Suchprozesse. Zudem zeigt DeepEyesV2 eine auf die Aufgabe abgestimmte Werkzeugnutzung: Bei Wahrnehmungsaufgaben neigt es zur Nutzung von Bildoperationen, bei Schlussfolgerungsaufgaben hingegen zu numerischen Berechnungen. Durch Verstärkungslernen wird zudem die Fähigkeit komplexer Werkzeugkombinationen ermöglicht, wodurch das Modell in der Lage ist, Werkzeuge kontextabhängig selektiv aufzurufen. Wir hoffen, dass unsere Studie der Forschungsgemeinschaft Anregungen für die Entwicklung agenter multimodaler Modelle liefert.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.