HyperAIHyperAI

Command Palette

Search for a command to run...

Semi-off-Policy Verstärkendes Lernen für Vision-Language Langsamdenken Reasoning

Junhao Shen Haiteng Zhao Yuzhe Gu Songyang Gao Kuikun Liu Haian Huang Jianfei Gao Dahua Lin Wenwei Zhang Kai Chen

Zusammenfassung

Die Verbesserung großer Vision-Language-Modelle (LVLMs) durch visuelles langsam denkendes Reasoning ist entscheidend für die Lösung komplexer multimodaler Aufgaben. Allerdings ist es aufgrund der hauptsächlich durch Vision-Language-Alignment trainierten LVLMs schwierig, on-policy Reinforcement Learning (RL) einzusetzen, um die Fähigkeit zum langsam denkenden Reasoning zu entwickeln, da der Rollout-Raum durch die ursprünglichen Fähigkeiten des Modells eingeschränkt ist. Off-policy RL bietet eine Möglichkeit, über die aktuelle Policy hinauszugehen, jedoch kann das direkte Distillieren von Trajektorien aus externen Modellen zu visuellen Halluzinationen führen, da die visuelle Wahrnehmungsfähigkeiten zwischen Modellen unterschiedlich sind. Um diese Probleme zu lösen, schlägt diese Arbeit SOPHIA vor – ein einfakes und skalierbares Semi-Off-Policy RL für visuelles langsam denkendes Reasoning. SOPHIA erstellt ein semi-off-policy Verhaltensmodell, indem es on-policy visuelle Verständnisfähigkeit aus einem trainierbaren LVLM mit off-policy langsam denkendem Reasoning aus einem Sprachmodell kombiniert, weist dem Reasoning outcome-basierte Belohnungen zu und propagiert visuelle Belohnungen rückwärts. Anschließend lernt das LVLM die Fähigkeit zum langsam denkenden Reasoning anhand der erhaltenen Reasoning-Trajektorien durch off-policy RL-Algorithmen mit propagierten Belohnungen. Ausführliche Experimente mit InternVL2.5 und InternVL3.0 mit 8B und 38B Parametern zeigen die Effektivität von SOPHIA. Insbesondere verbessert SOPHIA InternVL3.0-38B um 8,50 % im Durchschnitt und erreicht die führende Leistung unter offenen Quell-LVLMs auf mehreren multimodalen Reasoning-Benchmarks. Zudem übertrifft SOPHIA sogar einige geschlossene Quell-Modelle (z. B. GPT-4.1) auf anspruchsvollen Benchmarks wie MathVision und OlympiadBench, mit einer Pass@1-Genauigkeit von jeweils 49,08 % und 49,95 %. Die Analyse zeigt, dass SOPHIA sowohl über überwachtes Fine-Tuning als auch über direkte on-policy RL-Methoden hinausragende Ergebnisse erzielt und eine bessere Policy-Initialisierung für weitere on-policy Trainings bietet.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Semi-off-Policy Verstärkendes Lernen für Vision-Language Langsamdenken Reasoning | Paper | HyperAI