HyperAIHyperAI

Command Palette

Search for a command to run...

ConsistencyTTA: Beschleunigung der diffusionbasierten Text-zu-Audio-Generierung durch Konsistenz-Distillation

Yatong Bai Trung Dang Dung Tran Kazuhito Koishida Somayeh Sojoudi

Zusammenfassung

Diffusionsmodelle sind entscheidend für die Text-zu-Audio-(TTA)-Generierung. Leider leiden sie aufgrund einer übermäßigen Anzahl an Abfragen an das zugrundeliegende Entrauschungsnetzwerk pro Generierung unter langsamer Inferenz. Um diesen Engpass zu überwinden, stellen wir ConsistencyTTA vor, einen Rahmen, der lediglich eine einzige nicht-autoregressive Netzwerkabfrage erfordert und die TTA-Generierung somit um das Hundertfache beschleunigt. Dies erreichen wir durch die Einführung eines „CFG-orientierten latenten Konsistenzmodells“, das die Konsistenzgenerierung in einen latente Raum überführt und die classifier-free Guidance (CFG) in den Trainingsprozess integriert. Zudem kann ConsistencyTTA, im Gegensatz zu Diffusionsmodellen, geschlossenen Schleifen mit audio- und textbewussten Metriken, wie beispielsweise dem CLAP-Score, feinabgestimmt werden, um die Qualität der Generierung weiter zu verbessern. Unsere objektiven und subjektiven Bewertungen auf dem AudioCaps-Datensatz zeigen, dass im Vergleich zu diffusionbasierten Ansätzen ConsistencyTTA die Inferenzrechenzeit um das 400-Fache reduziert, ohne dabei die Qualität und Vielfalt der Generierung zu beeinträchtigen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp