HyperAIHyperAI
vor 2 Monaten

TangoFlux: Super schnelle und zuverlässige Text-zu-Audio-Generierung durch Flow-Matching und Clap-rangbasierte Präferenzoptimierung

Chia-Yu Hung, Navonil Majumder, Zhifeng Kong, Ambuj Mehrish, Rafael Valle, Bryan Catanzaro, Soujanya Poria
TangoFlux: Super schnelle und zuverlässige Text-zu-Audio-Generierung durch Flow-Matching und Clap-rangbasierte Präferenzoptimierung
Abstract

Wir stellen TangoFlux vor, ein effizientes Text-to-Audio (TTA)-Generiermodell mit 515 Millionen Parametern, das in nur 3,7 Sekunden auf einem einzelnen A40-GPU bis zu 30 Sekunden Audio im Format von 44,1 kHz erzeugen kann. Eine wesentliche Herausforderung bei der Anpassung von TTA-Modellen besteht darin, Präferenzpaare zu erstellen, da TTA strukturierte Mechanismen wie verifizierbare Belohnungen oder Goldstandard-Antworten fehlen, die für Large Language Models (LLMs) verfügbar sind. Um dies anzugehen, schlagen wir CLAP-Ranked Preference Optimization (CRPO) vor, einen neuen Rahmen, der Präferenzdaten iterativ generiert und optimiert, um die Anpassung von TTA-Modellen zu verbessern. Wir zeigen, dass der mit CRPO erzeugte Audio-Präferenzdatensatz bestehende Alternativen übertrifft. Mit diesem Rahmen erreicht TangoFlux Spitzenleistungen sowohl in objektiven als auch in subjektiven Benchmarks. Wir veröffentlichen den gesamten Code und die Modelle unter einer Open-Source-Lizenz, um weitere Forschung im Bereich der TTA-Erzeugung zu fördern.