Command Palette
Search for a command to run...
Direkte Ausrichtung der vollständigen Diffusionsbahn mit feinkörnigen menschlichen Präferenzen
Xiangwei Shen Zhimin Li Zhantao Yang Shiyi Zhang et al

Abstract
Neuere Studien haben die Wirksamkeit der direkten Ausrichtung von Diffusionsmodellen an menschliche Präferenzen mittels differenzierbarer Belohnungen gezeigt. Allerdings weisen sie zwei zentrale Herausforderungen auf: (1) Sie beruhen auf mehrstufigem Entrauschen mit Gradientenberechnung zur Belohnungsbewertung, was rechenintensiv ist und die Optimierung auf lediglich wenige Diffusions-Schritte beschränkt; (2) Sie erfordern oft eine kontinuierliche Offline-Anpassung der Belohnungsmodelle, um die gewünschte ästhetische Qualität – beispielsweise Fotorealismus oder präzise Lichteffekte – zu erreichen. Um die Beschränkung des mehrstufigen Entrauschens zu überwinden, stellen wir Direct-Align vor, eine Methode, die eine vorgegebene Rauschvorverteilung nutzt, um ursprüngliche Bilder effizient aus beliebigen Zeitpunkten über Interpolation wiederherzustellen. Dabei nutzt sie die Eigenschaft, dass Diffusionszustände Interpolationen zwischen Rauschen und Zielbildern darstellen, wodurch eine Überoptimierung in späten Zeitpunkten effektiv vermieden wird. Darüber hinaus führen wir die Semantic Relative Preference Optimization (SRPO) ein, bei der Belohnungen als textbedingte Signale formuliert werden. Dieser Ansatz ermöglicht eine Online-Anpassung der Belohnungen in Reaktion auf positive und negative Prompt-Verstärkung und reduziert somit die Abhängigkeit von Offline-Feinabstimmung der Belohnungsmodelle. Durch die Feinabstimmung des FLUX-Modells unter Verwendung optimierter Entrauschung und Online-Belohnungsanpassung verbessern wir seine menschlich bewertete Realitätsnähe und ästhetische Qualität um mehr als das Dreifache.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.