HyperAIHyperAI

Command Palette

Search for a command to run...

Listener-Rewarded Denken in VLMs für Bildpräferenzen

Alexander Gambashidze Li Pengyi Matvey Skripkin Andrey Galichin Anton Gusarov Konstantin Sobolev Andrey Kuznetsov Ivan Oseledets

Zusammenfassung

Das Training robust und generalisierbarer Belohnungsmodelle für menschliche visuelle Präferenzen ist entscheidend, um text-zu-bild- und text-zu-video-generative Modelle mit der menschlichen Absicht auszurichten. Aktuelle Belohnungsmodelle scheitern jedoch oft an der Generalisierung, und überwachtes Feinjustieren führt zu Memorierung, was komplexe Annotation-Pipelines erfordert. Obwohl Reinforcement Learning (RL), insbesondere Group Relative Policy Optimization (GRPO), die Generalisierung verbessert, haben wir einen wichtigen Schwachpunkt entdeckt: Es tritt eine signifikante Abnahme der Argumentationsgenauigkeit auf, wenn die Argumentationsspuren eines Modells im Widerspruch zu denen eines unabhängigen, gefrorenen Vision-Language-Modells ("Hörer"), das dieselbe Ausgabe bewertet, stehen. Um dies zu beheben, führen wir ein listener-augmentiertes GRPO-Framework ein. Hierbei bewertet der "Hörer" die Gedankenkette des Argumentators neu und liefert einen dichten, kalibrierten Vertrauensscore, der das RL-Belohnungssignal formt. Dies ermutigt den Argumentator nicht nur, korrekt zu antworten, sondern auch Erklärungen zu liefern, die für ein unabhängiges Modell überzeugend sind. Unser listener-gestalteter Belohnungsansatz erreicht die beste Genauigkeit auf dem ImageReward-Benchmark (67,4 %), verbessert die außerhalb der Verteilung liegende (OOD) Leistung auf einem groß angelegten Datensatz menschlicher Präferenzen (1,2 Mio. Stimmen) um bis zu +6 % im Vergleich zum naiven Argumentator und reduziert die Anzahl von Argumentationswidersprüchen im Vergleich zu starken GRPO- und SFT-Baselines. Diese Ergebnisse zeigen, dass listener-basierte Belohnungen einen skalierbaren und dateneffizienten Weg bieten, um Vision-Language-Modelle mit feinsinnigen menschlichen Präferenzen auszurichten. Wir werden unser Argumentsmodell hier veröffentlichen:https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Listener-Rewarded Denken in VLMs für Bildpräferenzen | Paper | HyperAI