vor 5 Monaten

Zetong Zhou Dongping Chen Zixian Ma Zhihan Hu Mingyang Fu Sinan Wang Yao Wan Zhou Zhao Ranjay Krishna

Zusammenfassung

Visuelle Schlussfolgerung, ein Kernstück menschlicher Intelligenz, umfasst komplexe wahrnehmungs- und logikbasierte Prozesse, die für die Lösung vielfältiger visueller Aufgaben unerlässlich sind. Obwohl Fortschritte in der Computer Vision leistungsstarke Modelle für verschiedene wahrnehmungsbezogene Aufgaben hervorgebracht haben, bleibt die Nutzung dieser Modelle für allgemeine visuelle Schlussfolgerungen herausfordernd. Vorangegangene Arbeiten zeigen, dass die Erweiterung von großen Sprachmodellen (LLMs) durch visuelle Modelle mittels überwachtem Feintuning die Leistung verbessert, jedoch gravierende Einschränkungen aufweist, wie kostspielige Datengenerierung, Abhängigkeit von sorgfältiger Datenauswahl und schlechte Generalisierbarkeit. Um diese Probleme zu überwinden, stellen wir ReVPT vor, ein Ansatz zur Verbesserung der Fähigkeit multimodaler LLMs, visuelle Werkzeuge zu verstehen und einzusetzen, durch Verstärkungslernen (Reinforcement Learning, RL). Wir entwickeln einen neuartigen RL-Algorithmus basierend auf GRPO, der darauf abzielt, Modelle zu trainieren, um mit einer Reihe von vier visuellen Werkzeugen zu schlussfolgern. In umfangreichen Experimenten zeigen wir, dass unsere Methode auf mehreren datenintensiven Benchmarks, darunter SAT, CV-Bench, BLINK und MMStar, eine state-of-the-art-Leistung erzielt und die überwachten sowie textbasierten RL-Feintuning-Baselines erheblich übertrifft. Insbesondere erreichen unsere Modelle ReVPT-3B und ReVPT-7B auf CV-Bench eine Leistungssteigerung gegenüber den Instruct-Modellen um 9,03 % bzw. 9,44 %. Schließlich liefern wir der Forschungsgemeinschaft neue Erkenntnisse zum RL-basierten Einsatz visueller Werkzeuge aufgrund umfassender Ablationsstudien. Unser Code ist unter https://github.com/ls-kelvin/REVPT verfügbar.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 5 Monaten

LLM

Reasoning

Multimodale Darstellung

Ansatz/Rahmenwerk

Multimodal

Aufgabe

Zetong Zhou Dongping Chen Zixian Ma Zhihan Hu Mingyang Fu Sinan Wang Yao Wan Zhou Zhao Ranjay Krishna

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 5 Monaten

LLM

Reasoning

Multimodale Darstellung

Ansatz/Rahmenwerk

Multimodal

Aufgabe

Zetong Zhou Dongping Chen Zixian Ma Zhihan Hu Mingyang Fu Sinan Wang Yao Wan Zhou Zhao Ranjay Krishna

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Verstärkte visuelle Wahrnehmung durch Werkzeuge

Zetong Zhou Dongping Chen Zixian Ma Zhihan Hu Mingyang Fu Sinan Wang Yao Wan Zhou Zhao Ranjay Krishna

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Verstärkte visuelle Wahrnehmung durch Werkzeuge

Zetong Zhou Dongping Chen Zixian Ma Zhihan Hu Mingyang Fu Sinan Wang Yao Wan Zhou Zhao Ranjay Krishna

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Verstärkte visuelle Wahrnehmung durch Werkzeuge

Zetong Zhou Dongping Chen Zixian Ma Zhihan Hu Mingyang Fu Sinan Wang Yao Wan Zhou Zhao Ranjay Krishna

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters