HyperAI
vor 17 Tagen

Listener-Rewarded Denken in VLMs für Bildpräferenzen

Alexander Gambashidze, Li Pengyi, Matvey Skripkin, Andrey Galichin, Anton Gusarov, Konstantin Sobolev, Andrey Kuznetsov, Ivan Oseledets
Listener-Rewarded Denken in VLMs für Bildpräferenzen
Abstract

Das Training robust und generalisierbarer Belohnungsmodelle für menschliche visuelle Präferenzen ist entscheidend, um text-zu-bild- und text-zu-video-generative Modelle mit der menschlichen Absicht auszurichten. Aktuelle Belohnungsmodelle scheitern jedoch oft an der Generalisierung, und überwachtes Feinjustieren führt zu Memorierung, was komplexe Annotation-Pipelines erfordert. Obwohl Reinforcement Learning (RL), insbesondere Group Relative Policy Optimization (GRPO), die Generalisierung verbessert, haben wir einen wichtigen Schwachpunkt entdeckt: Es tritt eine signifikante Abnahme der Argumentationsgenauigkeit auf, wenn die Argumentationsspuren eines Modells im Widerspruch zu denen eines unabhängigen, gefrorenen Vision-Language-Modells ("Hörer"), das dieselbe Ausgabe bewertet, stehen. Um dies zu beheben, führen wir ein listener-augmentiertes GRPO-Framework ein. Hierbei bewertet der "Hörer" die Gedankenkette des Argumentators neu und liefert einen dichten, kalibrierten Vertrauensscore, der das RL-Belohnungssignal formt. Dies ermutigt den Argumentator nicht nur, korrekt zu antworten, sondern auch Erklärungen zu liefern, die für ein unabhängiges Modell überzeugend sind. Unser listener-gestalteter Belohnungsansatz erreicht die beste Genauigkeit auf dem ImageReward-Benchmark (67,4 %), verbessert die außerhalb der Verteilung liegende (OOD) Leistung auf einem groß angelegten Datensatz menschlicher Präferenzen (1,2 Mio. Stimmen) um bis zu +6 % im Vergleich zum naiven Argumentator und reduziert die Anzahl von Argumentationswidersprüchen im Vergleich zu starken GRPO- und SFT-Baselines. Diese Ergebnisse zeigen, dass listener-basierte Belohnungen einen skalierbaren und dateneffizienten Weg bieten, um Vision-Language-Modelle mit feinsinnigen menschlichen Präferenzen auszurichten. Wir werden unser Argumentsmodell hier veröffentlichen:https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.