HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor 5 Tagen

PaCo-RL: Fortschritt im Verstärkungslernen für konsistente Bildgenerierung mittels Paarweiser Belohnungsmodellierung

Bowen Ping Chengyou Jia Minnan Luo Changliang Xia Xin Shen Zhuohang Dang Hangwei Qian

PaCo-RL: Fortschritt im Verstärkungslernen für konsistente Bildgenerierung mittels Paarweiser Belohnungsmodellierung

Abstract

Konsistente Bildgenerierung erfordert die treue Erhaltung von Identitäten, Stilen und logischer Kohärenz über mehrere Bilder hinweg, was für Anwendungen wie Geschichtenerzählen und Charaktergestaltung von entscheidender Bedeutung ist. Supervisierte Trainingsansätze stoßen bei dieser Aufgabe auf Schwierigkeiten, da große, datenbasierte Datensätze fehlen, die visuelle Konsistenz erfassen, und die Modellierung menschlicher Wahrnehmungsvorlieben außerordentlich komplex ist. In diesem Paper argumentieren wir, dass Verstärkendes Lernen (Reinforcement Learning, RL) eine vielversprechende Alternative darstellt, da es Modellen ermöglicht, komplexe und subjektive visuelle Kriterien datenfrei zu erlernen. Um dies zu erreichen, führen wir PaCo-RL ein, einen umfassenden Rahmen, der ein spezialisiertes Konsistenz-Belohnungsmodell mit einem effizienten RL-Algorithmus kombiniert. Der erste Bestandteil, PaCo-Reward, ist ein Paarweiser Konsistenz-Evaluator, der auf einem großskaligen Datensatz trainiert wurde, der durch automatisierte Untergliederung von Abbildungen generiert wurde. Er bewertet die Konsistenz mittels eines generativen, autoregressiven Bewertungsmechanismus, der durch aufgabeorientierte Anweisungen und Chain-of-Thought- (CoT-)Begründungen verbessert wird. Der zweite Bestandteil, PaCo-GRPO, nutzt eine neuartige, Auflösungs-dekupelte Optimierungsstrategie, um die Kosten des RL erheblich zu senken, sowie einen log-tampten Multi-Belohnungs-Aggregationsmechanismus, der eine ausgewogene und stabile Belohnungsoptimierung gewährleistet. Umfangreiche Experimente an zwei repräsentativen Teilproblemen zeigen, dass PaCo-Reward die Übereinstimmung mit menschlichen Wahrnehmungen visueller Konsistenz erheblich verbessert, während PaCo-GRPO eine state-of-the-art-Leistung in Bezug auf Konsistenz erzielt, verbunden mit verbesserter Trainingseffizienz und Stabilität. Zusammen unterstreichen diese Ergebnisse das Potenzial von PaCo-RL als praktikable und skalierbare Lösung für konsistente Bildgenerierung. Die Projektseite ist unter https://x-gengroup.github.io/HomePage_PaCo-RL/ verfügbar.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
PaCo-RL: Fortschritt im Verstärkungslernen für konsistente Bildgenerierung mittels Paarweiser Belohnungsmodellierung | Forschungsarbeiten | HyperAI