Command Palette
Search for a command to run...
Listener-Rewarded Denken in VLMs für Bildpräferenzen
Listener-Rewarded Denken in VLMs für Bildpräferenzen
Alexander Gambashidze Li Pengyi Matvey Skripkin Andrey Galichin Anton Gusarov Konstantin Sobolev Andrey Kuznetsov Ivan Oseledets
Zusammenfassung
Das Training robust und generalisierbarer Belohnungsmodelle für menschliche visuelle Präferenzen ist entscheidend, um text-zu-bild- und text-zu-video-generative Modelle mit der menschlichen Absicht auszurichten. Aktuelle Belohnungsmodelle scheitern jedoch oft an der Generalisierung, und überwachtes Feinjustieren führt zu Memorierung, was komplexe Annotation-Pipelines erfordert. Obwohl Reinforcement Learning (RL), insbesondere Group Relative Policy Optimization (GRPO), die Generalisierung verbessert, haben wir einen wichtigen Schwachpunkt entdeckt: Es tritt eine signifikante Abnahme der Argumentationsgenauigkeit auf, wenn die Argumentationsspuren eines Modells im Widerspruch zu denen eines unabhängigen, gefrorenen Vision-Language-Modells ("Hörer"), das dieselbe Ausgabe bewertet, stehen. Um dies zu beheben, führen wir ein listener-augmentiertes GRPO-Framework ein. Hierbei bewertet der "Hörer" die Gedankenkette des Argumentators neu und liefert einen dichten, kalibrierten Vertrauensscore, der das RL-Belohnungssignal formt. Dies ermutigt den Argumentator nicht nur, korrekt zu antworten, sondern auch Erklärungen zu liefern, die für ein unabhängiges Modell überzeugend sind. Unser listener-gestalteter Belohnungsansatz erreicht die beste Genauigkeit auf dem ImageReward-Benchmark (67,4 %), verbessert die außerhalb der Verteilung liegende (OOD) Leistung auf einem groß angelegten Datensatz menschlicher Präferenzen (1,2 Mio. Stimmen) um bis zu +6 % im Vergleich zum naiven Argumentator und reduziert die Anzahl von Argumentationswidersprüchen im Vergleich zu starken GRPO- und SFT-Baselines. Diese Ergebnisse zeigen, dass listener-basierte Belohnungen einen skalierbaren und dateneffizienten Weg bieten, um Vision-Language-Modelle mit feinsinnigen menschlichen Präferenzen auszurichten. Wir werden unser Argumentsmodell hier veröffentlichen:https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.