HyperAIHyperAI

Command Palette

Search for a command to run...

VisionThink: Intelligente und effiziente visuelle Sprachmodelle durch Reinforcement Learning

Senqiao Yang Junyi Li Xin Lai Bei Yu Hengshuang Zhao Jiaya Jia

Zusammenfassung

Neuere Fortschritte bei visuellen Sprachmodellen (VLMs) haben die Leistung durch eine Erhöhung der Anzahl der visuellen Token verbessert, die oft erheblich länger als Texttoken sind. Allerdings beobachten wir, dass die meisten realen Szenarien nicht so viele visuelle Token benötigen. Obwohl die Leistung in einer kleinen Teilmenge von OCR-bezogenen Aufgaben deutlich abnimmt, führen Modelle mit nur einem Viertel der Auflösung in den meisten anderen allgemeinen VQA-Aufgaben immer noch genaue Ergebnisse. Daher schlagen wir vor, verschiedene Proben dynamisch mit unterschiedlichen Auflösungen zu verarbeiten und stellen ein neues Paradigma für die Kompression von visuellen Token vor, nämlich VisionThink. Dieses Verfahren beginnt mit einem unterabgetasteten Bild und entscheidet intelligent, ob es ausreicht, um das Problem zu lösen. Falls nicht, kann das Modell ein spezielles Token ausgeben, um ein hochauflösendes Bild anzufordern. Im Vergleich zu bestehenden effizienten VLM-Methoden, die Token durch feste Pruning-Verhältnisse oder -Schwellwerte komprimieren, entscheidet VisionThink autonom Fall für Fall, ob Token komprimiert werden sollen. Dadurch zeigt es eine starke feingranulare visuelle Verständnisfähigkeit bei OCR-bezogenen Aufgaben und spart gleichzeitig erhebliche visuelle Token bei einfachen Aufgaben ein. Wir verwenden Reinforcement Learning und schlagen die Strategie "LLM-as-Judge" vor, um RL erfolgreich auf allgemeine VQA-Aufgaben anzuwenden. Darüber hinaus entwerfen wir sorgfältig eine Belohnungsfunktion und einen Strafmechanismus, um einen stabilen und angemessenen Aufrufverhältnis für das Bildvergrößerung zu erreichen. Umfangreiche Experimente belegen die Überlegenheit, Effizienz und Wirksamkeit unserer Methode. Unser Code ist unter https://github.com/dvlab-research/VisionThink verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VisionThink: Intelligente und effiziente visuelle Sprachmodelle durch Reinforcement Learning | Paper | HyperAI