vor 2 Monaten

RewardDance: Belohnungsskalierung in der visuellen Generierung

Jie Wu Yu Gao Zilyu Ye Ming Li Liang Li Hanzhong Guo Jie Liu Zeyue Xue Xiaoxia Hou Wei Liu

Abstract

Belohnungsmodelle (Reward Models, RMs) sind entscheidend für die Verbesserung von Generativmodellen mittels Verstärkendem Lernen (Reinforcement Learning, RL), doch das Skalierungsparadigma für RMs in der visuellen Generierung bleibt weitgehend unerforscht. Dies liegt hauptsächlich an grundlegenden Einschränkungen bestehender Ansätze: CLIP-basierte RMs leiden unter architektonischen und modalen Eingabebeschränkungen, während verbreitete Bradley-Terry-Verlustfunktionen grundsätzlich mit dem Next-Token-Vorhersagemechanismus von Vision-Language-Modellen (VLMs) unvereinbar sind, was eine effektive Skalierung erschwert. Noch kritischer ist das Problem des Reward Hacking im RLHF-Optimierungsprozess, bei dem Modelle Schwächen im Belohnungssignal ausnutzen, ohne die eigentliche Qualität zu verbessern. Um diese Herausforderungen zu bewältigen, stellen wir RewardDance vor – einen skalierbaren Rahmen für Belohnungsmodellierung, der diese Barrieren durch ein neuartiges generatives Belohnungskonzept überwindet. Indem wir die Belohnungsskala als die Wahrscheinlichkeit des Modells interpretieren, einen „Ja“-Token vorherzusagen, der darauf hinweist, dass das generierte Bild gemäß bestimmten Kriterien ein Referenzbild übertrifft, stellt RewardDance die Belohnungsziele intrinsisch mit der Architektur von VLMs in Einklang. Diese Ausrichtung ermöglicht eine Skalierung auf zwei Ebenen: (1) Modell-Skalierung: Systematische Skalierung von RMs bis zu 26 Milliarden Parametern; (2) Kontext-Skalierung: Integration von aufgabenbezogenen Anweisungen, Referenzbeispielen und Ketten-des-Denkens (Chain-of-Thought, CoT)-Schlussfolgerungen. Umfangreiche Experimente zeigen, dass RewardDance state-of-the-art-Methoden in der Text-zu-Bild-, Text-zu-Video- und Bild-zu-Video-Generierung deutlich übertrifft. Entscheidend ist, dass wir die anhaltende Herausforderung des „Reward Hacking“ lösen: Unsere großskaligen RMs zeigen und bewahren während der RL-Feinabstimmung eine hohe Belohnungsdifferenzierung, was ihre Robustheit gegenüber Hacking und ihre Fähigkeit zur Erzeugung vielfältiger, hochwertiger Ausgaben belegt. Dies wirkt der Mode-Collapse-Problematik, die kleinere Modelle belastet, erheblich entgegen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

RewardDance: Belohnungsskalierung in der visuellen Generierung

Jie Wu Yu Gao Zilyu Ye Ming Li Liang Li Hanzhong Guo Jie Liu Zeyue Xue Xiaoxia Hou Wei Liu2 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Jie Wu Yu Gao Zilyu Ye Ming Li Liang Li Hanzhong Guo Jie Liu Zeyue Xue Xiaoxia Hou Wei Liu