Command Palette
Search for a command to run...
Schritt für Schritt proben, chunkweise optimieren: Chunk-orientiertes GRPO für die Text-zu-Bild-Generierung
Yifu Luo Penghui Du Bo Li Sinan Du Tiantian Zhang Yongzhe Chang Kai Wu Kun Gai Xueqian Wang

Abstract
Group Relative Policy Optimization (GRPO) hat ein hohes Potenzial für flussbasierte Text-zu-Bild-(T2I)-Generierung gezeigt, steht jedoch vor zwei zentralen Herausforderungen: einer ungenauen Vorteilszuweisung und der Vernachlässigung der zeitlichen Dynamik der Generierung. In dieser Arbeit argumentieren wir, dass die Verschiebung des Optimierungsparadigmas von der Schritt- auf die Chunk-Ebene diese Probleme effektiv lindern kann. Auf dieser Grundlage stellen wir Chunk-GRPO vor, die erste auf Chunk-Ebene basierende GRPO-Methode für T2I-Generierung. Der zentrale Ansatz besteht darin, aufeinanderfolgende Schritte zu kohärenten „Chunks“ zu gruppieren, die die inhärente zeitliche Dynamik des Fluss-Matching erfassen, und die Politik auf Chunk-Ebene zu optimieren. Zudem führen wir eine optionale gewichtete Stichprobenstrategie ein, um die Leistung weiter zu steigern. Umfassende Experimente zeigen, dass Chunk-GRPO sowohl in Bezug auf die Präferenzanpassung als auch auf die Bildqualität überlegene Ergebnisse erzielt und damit das Potenzial einer Chunk-ebenen Optimierung für GRPO-basierte Methoden unterstreicht.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.