ConsistencyTTA: Beschleunigung der diffusionbasierten Text-zu-Audio-Generierung durch Konsistenz-Distillation

Diffusionsmodelle sind entscheidend für die Text-zu-Audio-(TTA)-Generierung. Leider leiden sie aufgrund einer übermäßigen Anzahl an Abfragen an das zugrundeliegende Entrauschungsnetzwerk pro Generierung unter langsamer Inferenz. Um diesen Engpass zu überwinden, stellen wir ConsistencyTTA vor, einen Rahmen, der lediglich eine einzige nicht-autoregressive Netzwerkabfrage erfordert und die TTA-Generierung somit um das Hundertfache beschleunigt. Dies erreichen wir durch die Einführung eines „CFG-orientierten latenten Konsistenzmodells“, das die Konsistenzgenerierung in einen latente Raum überführt und die classifier-free Guidance (CFG) in den Trainingsprozess integriert. Zudem kann ConsistencyTTA, im Gegensatz zu Diffusionsmodellen, geschlossenen Schleifen mit audio- und textbewussten Metriken, wie beispielsweise dem CLAP-Score, feinabgestimmt werden, um die Qualität der Generierung weiter zu verbessern. Unsere objektiven und subjektiven Bewertungen auf dem AudioCaps-Datensatz zeigen, dass im Vergleich zu diffusionbasierten Ansätzen ConsistencyTTA die Inferenzrechenzeit um das 400-Fache reduziert, ohne dabei die Qualität und Vielfalt der Generierung zu beeinträchtigen.