PaCo-RL: Fortschritt im Verstärkungslernen für konsistente Bildgenerierung mittels Paarweiser Belohnungsmodellierung
PaCo-RL: Fortschritt im Verstärkungslernen für konsistente Bildgenerierung mittels Paarweiser Belohnungsmodellierung
Bowen Ping Chengyou Jia Minnan Luo Changliang Xia Xin Shen Zhuohang Dang Hangwei Qian

Abstract
Konsistente Bildgenerierung erfordert die treue Erhaltung von Identitäten, Stilen und logischer Kohärenz über mehrere Bilder hinweg, was für Anwendungen wie Geschichtenerzählen und Charaktergestaltung von entscheidender Bedeutung ist. Supervisierte Trainingsansätze stoßen bei dieser Aufgabe auf Schwierigkeiten, da große, datenbasierte Datensätze fehlen, die visuelle Konsistenz erfassen, und die Modellierung menschlicher Wahrnehmungsvorlieben außerordentlich komplex ist. In diesem Paper argumentieren wir, dass Verstärkendes Lernen (Reinforcement Learning, RL) eine vielversprechende Alternative darstellt, da es Modellen ermöglicht, komplexe und subjektive visuelle Kriterien datenfrei zu erlernen. Um dies zu erreichen, führen wir PaCo-RL ein, einen umfassenden Rahmen, der ein spezialisiertes Konsistenz-Belohnungsmodell mit einem effizienten RL-Algorithmus kombiniert. Der erste Bestandteil, PaCo-Reward, ist ein Paarweiser Konsistenz-Evaluator, der auf einem großskaligen Datensatz trainiert wurde, der durch automatisierte Untergliederung von Abbildungen generiert wurde. Er bewertet die Konsistenz mittels eines generativen, autoregressiven Bewertungsmechanismus, der durch aufgabeorientierte Anweisungen und Chain-of-Thought- (CoT-)Begründungen verbessert wird. Der zweite Bestandteil, PaCo-GRPO, nutzt eine neuartige, Auflösungs-dekupelte Optimierungsstrategie, um die Kosten des RL erheblich zu senken, sowie einen log-tampten Multi-Belohnungs-Aggregationsmechanismus, der eine ausgewogene und stabile Belohnungsoptimierung gewährleistet. Umfangreiche Experimente an zwei repräsentativen Teilproblemen zeigen, dass PaCo-Reward die Übereinstimmung mit menschlichen Wahrnehmungen visueller Konsistenz erheblich verbessert, während PaCo-GRPO eine state-of-the-art-Leistung in Bezug auf Konsistenz erzielt, verbunden mit verbesserter Trainingseffizienz und Stabilität. Zusammen unterstreichen diese Ergebnisse das Potenzial von PaCo-RL als praktikable und skalierbare Lösung für konsistente Bildgenerierung. Die Projektseite ist unter https://x-gengroup.github.io/HomePage_PaCo-RL/ verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.