HyperAIHyperAI

Command Palette

Search for a command to run...

FLUX, das Musik spielt

Zhengcong Fei Mingyuan Fan Changqian Yu Junshi Huang

Zusammenfassung

Dieses Papier untersucht eine einfache Erweiterung des diffusionsbasierten rektifizierten Flusses (rectified flow) für die Text-zu-Musik-Generierung, welche als FluxMusic bezeichnet wird. Im Allgemeinen übertragen wir das fortgeschrittene Flux-Modell in einen latenten VAE-Raum des Mel-Spektrums. Dies umfasst zunächst die Anwendung einer Reihe unabhängiger Aufmerksamkeiten auf den doppelten Text-Musik-Stream, gefolgt von einem gestapelten einzelnen Musik-Stream zur Vorhersage entrauschter Patches. Wir verwenden mehrere vorab trainierte Textencoder, um die semantische Information der Bildunterschriften sowie die Inferenzflexibilität ausreichend zu erfassen. Dazwischen wird grobe textuelle Information zusammen mit Zeitstufen-Einbettungen in einem Modulationsmechanismus genutzt, während feingranulierte textuelle Details mit der Musik-Patch-Sequenz als Eingaben verkettet werden. Durch eine eingehende Studie zeigen wir, dass das rektifizierte Fluss-Training mit einer optimierten Architektur bei der Text-zu-Musik-Aufgabe erheblich besser abschneidet als etablierte Diffusionsmethoden, wie durch verschiedene automatische Metriken und menschliche Präferenzevaluierungen belegt. Unsere experimentellen Daten, Code und Modellgewichte sind öffentlich verfügbar unter: https://github.com/feizc/FluxMusic.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp