Semi-off-Policy Verstärkendes Lernen für Vision-Language Langsamdenken Reasoning

Die Verbesserung großer Vision-Language-Modelle (LVLMs) durch visuelles langsam denkendes Reasoning ist entscheidend für die Lösung komplexer multimodaler Aufgaben. Allerdings ist es aufgrund der hauptsächlich durch Vision-Language-Alignment trainierten LVLMs schwierig, on-policy Reinforcement Learning (RL) einzusetzen, um die Fähigkeit zum langsam denkenden Reasoning zu entwickeln, da der Rollout-Raum durch die ursprünglichen Fähigkeiten des Modells eingeschränkt ist. Off-policy RL bietet eine Möglichkeit, über die aktuelle Policy hinauszugehen, jedoch kann das direkte Distillieren von Trajektorien aus externen Modellen zu visuellen Halluzinationen führen, da die visuelle Wahrnehmungsfähigkeiten zwischen Modellen unterschiedlich sind. Um diese Probleme zu lösen, schlägt diese Arbeit SOPHIA vor – ein einfakes und skalierbares Semi-Off-Policy RL für visuelles langsam denkendes Reasoning. SOPHIA erstellt ein semi-off-policy Verhaltensmodell, indem es on-policy visuelle Verständnisfähigkeit aus einem trainierbaren LVLM mit off-policy langsam denkendem Reasoning aus einem Sprachmodell kombiniert, weist dem Reasoning outcome-basierte Belohnungen zu und propagiert visuelle Belohnungen rückwärts. Anschließend lernt das LVLM die Fähigkeit zum langsam denkenden Reasoning anhand der erhaltenen Reasoning-Trajektorien durch off-policy RL-Algorithmen mit propagierten Belohnungen. Ausführliche Experimente mit InternVL2.5 und InternVL3.0 mit 8B und 38B Parametern zeigen die Effektivität von SOPHIA. Insbesondere verbessert SOPHIA InternVL3.0-38B um 8,50 % im Durchschnitt und erreicht die führende Leistung unter offenen Quell-LVLMs auf mehreren multimodalen Reasoning-Benchmarks. Zudem übertrifft SOPHIA sogar einige geschlossene Quell-Modelle (z. B. GPT-4.1) auf anspruchsvollen Benchmarks wie MathVision und OlympiadBench, mit einer Pass@1-Genauigkeit von jeweils 49,08 % und 49,95 %. Die Analyse zeigt, dass SOPHIA sowohl über überwachtes Fine-Tuning als auch über direkte on-policy RL-Methoden hinausragende Ergebnisse erzielt und eine bessere Policy-Initialisierung für weitere on-policy Trainings bietet.