HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

Verstärkte visuelle Wahrnehmung durch Werkzeuge

Zetong Zhou Dongping Chen Zixian Ma Zhihan Hu Mingyang Fu Sinan Wang Yao Wan Zhou Zhao Ranjay Krishna

Verstärkte visuelle Wahrnehmung durch Werkzeuge

Abstract

Visuelle Schlussfolgerung, ein Kernstück menschlicher Intelligenz, umfasst komplexe wahrnehmungs- und logikbasierte Prozesse, die für die Lösung vielfältiger visueller Aufgaben unerlässlich sind. Obwohl Fortschritte in der Computer Vision leistungsstarke Modelle für verschiedene wahrnehmungsbezogene Aufgaben hervorgebracht haben, bleibt die Nutzung dieser Modelle für allgemeine visuelle Schlussfolgerungen herausfordernd. Vorangegangene Arbeiten zeigen, dass die Erweiterung von großen Sprachmodellen (LLMs) durch visuelle Modelle mittels überwachtem Feintuning die Leistung verbessert, jedoch gravierende Einschränkungen aufweist, wie kostspielige Datengenerierung, Abhängigkeit von sorgfältiger Datenauswahl und schlechte Generalisierbarkeit. Um diese Probleme zu überwinden, stellen wir ReVPT vor, ein Ansatz zur Verbesserung der Fähigkeit multimodaler LLMs, visuelle Werkzeuge zu verstehen und einzusetzen, durch Verstärkungslernen (Reinforcement Learning, RL). Wir entwickeln einen neuartigen RL-Algorithmus basierend auf GRPO, der darauf abzielt, Modelle zu trainieren, um mit einer Reihe von vier visuellen Werkzeugen zu schlussfolgern. In umfangreichen Experimenten zeigen wir, dass unsere Methode auf mehreren datenintensiven Benchmarks, darunter SAT, CV-Bench, BLINK und MMStar, eine state-of-the-art-Leistung erzielt und die überwachten sowie textbasierten RL-Feintuning-Baselines erheblich übertrifft. Insbesondere erreichen unsere Modelle ReVPT-3B und ReVPT-7B auf CV-Bench eine Leistungssteigerung gegenüber den Instruct-Modellen um 9,03 % bzw. 9,44 %. Schließlich liefern wir der Forschungsgemeinschaft neue Erkenntnisse zum RL-basierten Einsatz visueller Werkzeuge aufgrund umfassender Ablationsstudien. Unser Code ist unter https://github.com/ls-kelvin/REVPT verfügbar.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Verstärkte visuelle Wahrnehmung durch Werkzeuge | Forschungsarbeiten | HyperAI