Command Palette
Search for a command to run...
Pref-GRPO: Paarweiser Präferenz-Reward-basierter GRPO für stabiles Text-zu-Bild-Reinforcement-Learning
Yibin Wang Zhimin Li Yuhang Zang Yujie Zhou Jiazi Bu Chunyu Wang Qinglin Lu Cheng Jin Jiaqi Wang

Abstract
Neuere Fortschritte unterstreichen die Bedeutung von GRPO-basierten Verstärkungslernmethoden und -Benchmarking zur Verbesserung der Text-zu-Bild-(T2I)-Generierung. Derzeitige Ansätze, die punktweise Belohnungsmodelle (Reward Models, RM) zur Bewertung generierter Bilder verwenden, sind jedoch anfällig für Belohnungshacking. Wir zeigen auf, dass dies geschieht, wenn geringfügige Unterschiede in den Scores zwischen Bildern nach der Normalisierung verstärkt werden, wodurch illusorische Vorteile entstehen, die das Modell dazu verleiten, sich übermäßig auf minimale Gewinne zu optimieren und letztlich den Bildgenerierungsprozess destabilisieren. Um dieses Problem zu lösen, schlagen wir Pref-GRPO vor, eine paareweise Präferenz-Belohnung basierende GRPO-Methode, die das Optimierungsziel von der Score-Maximierung auf die Anpassung an Präferenzen verlegt und somit eine stabilere Trainingsdynamik gewährleistet. In Pref-GRPO werden Bilder innerhalb jeder Gruppe pauschal miteinander verglichen, wobei ein Präferenz-RM verwendet wird, und der Siegquotient dient als Belohnungssignal. Umfangreiche Experimente zeigen, dass Pref-GRPO subtile Unterschiede in der Bildqualität unterscheiden kann, stabilere Vorteile liefert und Belohnungshacking wirksam reduziert. Zudem sind bestehende T2I-Benchmarks durch grobe Bewertungskriterien eingeschränkt, was eine umfassende Modellbewertung erschwert. Um dies zu beheben, führen wir UniGenBench ein, einen einheitlichen T2I-Benchmark, der 600 Prompts über fünf Hauptthemen und zwanzig Untermotive umfasst. Er bewertet die semantische Konsistenz anhand von zehn primären und 27 sekundären Kriterien und nutzt multimodale große Sprachmodelle (MLLM) für die Erstellung und Bewertung des Benchmarks. Unsere Benchmarks offenbaren Stärken und Schwächen sowohl offener als auch geschlossener T2I-Modelle und bestätigen die Wirksamkeit von Pref-GRPO.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.