HyperAIHyperAI

Command Palette

Search for a command to run...

TangoFlux: Super schnelle und zuverlässige Text-zu-Audio-Generierung durch Flow-Matching und Clap-rangbasierte Präferenzoptimierung

Chia-Yu Hung Navonil Majumder Zhifeng Kong Ambuj Mehrish Rafael Valle Bryan Catanzaro Soujanya Poria

Zusammenfassung

Wir stellen TangoFlux vor, ein effizientes Text-to-Audio (TTA)-Generiermodell mit 515 Millionen Parametern, das in nur 3,7 Sekunden auf einem einzelnen A40-GPU bis zu 30 Sekunden Audio im Format von 44,1 kHz erzeugen kann. Eine wesentliche Herausforderung bei der Anpassung von TTA-Modellen besteht darin, Präferenzpaare zu erstellen, da TTA strukturierte Mechanismen wie verifizierbare Belohnungen oder Goldstandard-Antworten fehlen, die für Large Language Models (LLMs) verfügbar sind. Um dies anzugehen, schlagen wir CLAP-Ranked Preference Optimization (CRPO) vor, einen neuen Rahmen, der Präferenzdaten iterativ generiert und optimiert, um die Anpassung von TTA-Modellen zu verbessern. Wir zeigen, dass der mit CRPO erzeugte Audio-Präferenzdatensatz bestehende Alternativen übertrifft. Mit diesem Rahmen erreicht TangoFlux Spitzenleistungen sowohl in objektiven als auch in subjektiven Benchmarks. Wir veröffentlichen den gesamten Code und die Modelle unter einer Open-Source-Lizenz, um weitere Forschung im Bereich der TTA-Erzeugung zu fördern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
TangoFlux: Super schnelle und zuverlässige Text-zu-Audio-Generierung durch Flow-Matching und Clap-rangbasierte Präferenzoptimierung | Paper | HyperAI