HyperAIHyperAI

Command Palette

Search for a command to run...

vor 16 Tagen

DeepEyesV2: Ein Schritt hin zu einem agierenden multimodalen Modell

Jack Hong Chenxiao Zhao ChengLin Zhu Weiheng Lu Guohai Xu Xing Yu

DeepEyesV2: Ein Schritt hin zu einem agierenden multimodalen Modell

Abstract

Agente multimodale Modelle sollten nicht nur Text und Bilder verstehen, sondern auch aktiv externe Werkzeuge wie Code-Ausführungs-Umgebungen oder Web-Suchmaschinen aufrufen und diese Operationen in ihren Schlussfolgerungsprozess integrieren. In dieser Arbeit stellen wir DeepEyesV2 vor und untersuchen, wie man ein agentes multimodales Modell aus Sicht der Datenerstellung, Trainingsmethoden und Modellbewertung aufbaut. Wir beobachten, dass eine direkte Verstärkungslernmethode allein nicht ausreicht, um robustes Werkzeugnutzungsverhalten zu erzeugen. Dieser Befund motiviert einen zweistufigen Trainingsansatz: eine Cold-Start-Phase zur Etablierung von Werkzeugnutzungsmustern, gefolgt von einer Phase des Verstärkungslernens zur weiteren Feinabstimmung der Werkzeugaufrufe. Wir erstellen eine vielfältige, mittlerweile anspruchsvolle Trainingsdatenbank, die speziell Beispiele enthält, bei denen die Werkzeugnutzung vorteilhaft ist. Darüber hinaus führen wir RealX-Bench ein, eine umfassende Benchmark, die darauf abzielt, die multimodale Schlussfolgerung in realen Anwendungsszenarien zu bewerten – eine Aufgabe, die inhärent die Integration mehrerer Fähigkeiten erfordert, darunter Wahrnehmung, Suche und logisches Schließen. Wir evaluieren DeepEyesV2 anhand von RealX-Bench und weiterer repräsentativer Benchmarks und zeigen dessen Wirksamkeit bei der Verarbeitung realweltbezogener Aufgaben, mathematischer Schlussfolgerungen sowie aufgabenintensiver Suchprozesse. Zudem zeigt DeepEyesV2 eine auf die Aufgabe abgestimmte Werkzeugnutzung: Bei Wahrnehmungsaufgaben neigt es zur Nutzung von Bildoperationen, bei Schlussfolgerungsaufgaben hingegen zu numerischen Berechnungen. Durch Verstärkungslernen wird zudem die Fähigkeit komplexer Werkzeugkombinationen ermöglicht, wodurch das Modell in der Lage ist, Werkzeuge kontextabhängig selektiv aufzurufen. Wir hoffen, dass unsere Studie der Forschungsgemeinschaft Anregungen für die Entwicklung agenter multimodaler Modelle liefert.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DeepEyesV2: Ein Schritt hin zu einem agierenden multimodalen Modell | Forschungsarbeiten | HyperAI