Command Palette
Search for a command to run...
RewardDance: Belohnungsskalierung in der visuellen Generierung

Abstract
Belohnungsmodelle (Reward Models, RMs) sind entscheidend für die Verbesserung von Generativmodellen mittels Verstärkendem Lernen (Reinforcement Learning, RL), doch das Skalierungsparadigma für RMs in der visuellen Generierung bleibt weitgehend unerforscht. Dies liegt hauptsächlich an grundlegenden Einschränkungen bestehender Ansätze: CLIP-basierte RMs leiden unter architektonischen und modalen Eingabebeschränkungen, während verbreitete Bradley-Terry-Verlustfunktionen grundsätzlich mit dem Next-Token-Vorhersagemechanismus von Vision-Language-Modellen (VLMs) unvereinbar sind, was eine effektive Skalierung erschwert. Noch kritischer ist das Problem des Reward Hacking im RLHF-Optimierungsprozess, bei dem Modelle Schwächen im Belohnungssignal ausnutzen, ohne die eigentliche Qualität zu verbessern. Um diese Herausforderungen zu bewältigen, stellen wir RewardDance vor – einen skalierbaren Rahmen für Belohnungsmodellierung, der diese Barrieren durch ein neuartiges generatives Belohnungskonzept überwindet. Indem wir die Belohnungsskala als die Wahrscheinlichkeit des Modells interpretieren, einen „Ja“-Token vorherzusagen, der darauf hinweist, dass das generierte Bild gemäß bestimmten Kriterien ein Referenzbild übertrifft, stellt RewardDance die Belohnungsziele intrinsisch mit der Architektur von VLMs in Einklang. Diese Ausrichtung ermöglicht eine Skalierung auf zwei Ebenen: (1) Modell-Skalierung: Systematische Skalierung von RMs bis zu 26 Milliarden Parametern; (2) Kontext-Skalierung: Integration von aufgabenbezogenen Anweisungen, Referenzbeispielen und Ketten-des-Denkens (Chain-of-Thought, CoT)-Schlussfolgerungen. Umfangreiche Experimente zeigen, dass RewardDance state-of-the-art-Methoden in der Text-zu-Bild-, Text-zu-Video- und Bild-zu-Video-Generierung deutlich übertrifft. Entscheidend ist, dass wir die anhaltende Herausforderung des „Reward Hacking“ lösen: Unsere großskaligen RMs zeigen und bewahren während der RL-Feinabstimmung eine hohe Belohnungsdifferenzierung, was ihre Robustheit gegenüber Hacking und ihre Fähigkeit zur Erzeugung vielfältiger, hochwertiger Ausgaben belegt. Dies wirkt der Mode-Collapse-Problematik, die kleinere Modelle belastet, erheblich entgegen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.