Command Palette
Search for a command to run...
DiffusionNFT: Online-Diffusionsverstärkung mit Vorwärtsprozess
Kaiwen Zheng Huayu Chen Haotian Ye Haoxiang Wang Qinsheng Zhang Kai Jiang Hang Su Stefano Ermon Jun Zhu Ming-Yu Liu

Abstract
Online-Verstärkungslernen (Online RL) spielt eine zentrale Rolle bei der Nachjustierung sprachbasierter Modelle, doch dessen Anwendung auf Diffusionsmodelle bleibt aufgrund unzugänglicher Likelihood-Funktionen herausfordernd. Kürzlich vorgestellte Ansätze diskretisieren den Rückwärts-Sampling-Prozess, um ein GRPO-ähnliches Training zu ermöglichen, weisen jedoch grundlegende Nachteile auf, darunter Einschränkungen des Lösers, Inkonsistenzen zwischen Vorwärts- und Rückwärtsprozess sowie eine komplizierte Integration mit classifier-free Guidance (CFG). Wir stellen Diffusion Negative-aware FineTuning (DiffusionNFT) vor, ein neuartiges Paradigma des Online-RL, das Diffusionsmodelle direkt am Vorwärtsprozess über Flow-Matching optimiert. DiffusionNFT vergleicht positive und negative Generierungen, um eine implizite Richtung für die Politikverbesserung zu definieren, und integriert somit die Verstärkungssignale nahtlos in das überwachte Lernziel. Diese Formulierung ermöglicht die Verwendung beliebiger black-box-Löser, entfällt die Notwendigkeit einer Likelihood-Schätzung und erfordert lediglich saubere Bilder statt Sampling-Pfade zur Politikoptimierung. In direkten Vergleichen ist DiffusionNFT bis zu 25-mal effizienter als FlowGRPO und arbeitet ohne CFG. Beispielsweise steigert DiffusionNFT die GenEval-Score von 0,24 auf 0,98 innerhalb von nur 1.000 Schritten, während FlowGRPO mit über 5.000 Schritten und zusätzlicher Verwendung von CFG lediglich 0,95 erreicht. Durch die Nutzung mehrerer Belohnungsmodelle steigert DiffusionNFT die Leistung von SD3.5-Medium signifikant in allen getesteten Benchmarks.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.