vor einem Monat

Direkte Ausrichtung der vollständigen Diffusionsbahn mit feinkörnigen menschlichen Präferenzen

Xiangwei Shen Zhimin Li Zhantao Yang Shiyi Zhang et al

Abstract

Neuere Studien haben die Wirksamkeit der direkten Ausrichtung von Diffusionsmodellen an menschliche Präferenzen mittels differenzierbarer Belohnungen gezeigt. Allerdings weisen sie zwei zentrale Herausforderungen auf: (1) Sie beruhen auf mehrstufigem Entrauschen mit Gradientenberechnung zur Belohnungsbewertung, was rechenintensiv ist und die Optimierung auf lediglich wenige Diffusions-Schritte beschränkt; (2) Sie erfordern oft eine kontinuierliche Offline-Anpassung der Belohnungsmodelle, um die gewünschte ästhetische Qualität – beispielsweise Fotorealismus oder präzise Lichteffekte – zu erreichen. Um die Beschränkung des mehrstufigen Entrauschens zu überwinden, stellen wir Direct-Align vor, eine Methode, die eine vorgegebene Rauschvorverteilung nutzt, um ursprüngliche Bilder effizient aus beliebigen Zeitpunkten über Interpolation wiederherzustellen. Dabei nutzt sie die Eigenschaft, dass Diffusionszustände Interpolationen zwischen Rauschen und Zielbildern darstellen, wodurch eine Überoptimierung in späten Zeitpunkten effektiv vermieden wird. Darüber hinaus führen wir die Semantic Relative Preference Optimization (SRPO) ein, bei der Belohnungen als textbedingte Signale formuliert werden. Dieser Ansatz ermöglicht eine Online-Anpassung der Belohnungen in Reaktion auf positive und negative Prompt-Verstärkung und reduziert somit die Abhängigkeit von Offline-Feinabstimmung der Belohnungsmodelle. Durch die Feinabstimmung des FLUX-Modells unter Verwendung optimierter Entrauschung und Online-Belohnungsanpassung verbessern wir seine menschlich bewertete Realitätsnähe und ästhetische Qualität um mehr als das Dreifache.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Direkte Ausrichtung der vollständigen Diffusionsbahn mit feinkörnigen menschlichen Präferenzen

Xiangwei Shen Zhimin Li Zhantao Yang Shiyi Zhang et al

Abstract

KI mit KI entwickeln

Hyper Newsletters