HyperAI
vor 12 Tagen

VisionThink: Intelligente und effiziente visuelle Sprachmodelle durch Reinforcement Learning

Senqiao Yang, Junyi Li, Xin Lai, Bei Yu, Hengshuang Zhao, Jiaya Jia
VisionThink: Intelligente und effiziente visuelle Sprachmodelle durch Reinforcement Learning
Abstract

Neuere Fortschritte bei visuellen Sprachmodellen (VLMs) haben die Leistung durch eine Erhöhung der Anzahl der visuellen Token verbessert, die oft erheblich länger als Texttoken sind. Allerdings beobachten wir, dass die meisten realen Szenarien nicht so viele visuelle Token benötigen. Obwohl die Leistung in einer kleinen Teilmenge von OCR-bezogenen Aufgaben deutlich abnimmt, führen Modelle mit nur einem Viertel der Auflösung in den meisten anderen allgemeinen VQA-Aufgaben immer noch genaue Ergebnisse. Daher schlagen wir vor, verschiedene Proben dynamisch mit unterschiedlichen Auflösungen zu verarbeiten und stellen ein neues Paradigma für die Kompression von visuellen Token vor, nämlich VisionThink. Dieses Verfahren beginnt mit einem unterabgetasteten Bild und entscheidet intelligent, ob es ausreicht, um das Problem zu lösen. Falls nicht, kann das Modell ein spezielles Token ausgeben, um ein hochauflösendes Bild anzufordern. Im Vergleich zu bestehenden effizienten VLM-Methoden, die Token durch feste Pruning-Verhältnisse oder -Schwellwerte komprimieren, entscheidet VisionThink autonom Fall für Fall, ob Token komprimiert werden sollen. Dadurch zeigt es eine starke feingranulare visuelle Verständnisfähigkeit bei OCR-bezogenen Aufgaben und spart gleichzeitig erhebliche visuelle Token bei einfachen Aufgaben ein. Wir verwenden Reinforcement Learning und schlagen die Strategie "LLM-as-Judge" vor, um RL erfolgreich auf allgemeine VQA-Aufgaben anzuwenden. Darüber hinaus entwerfen wir sorgfältig eine Belohnungsfunktion und einen Strafmechanismus, um einen stabilen und angemessenen Aufrufverhältnis für das Bildvergrößerung zu erreichen. Umfangreiche Experimente belegen die Überlegenheit, Effizienz und Wirksamkeit unserer Methode. Unser Code ist unter https://github.com/dvlab-research/VisionThink verfügbar.