vor 12 Tagen

AudioLDM: Text-zu-Audio-Generierung mit Latent-Diffusions-Modellen

Haohe Liu, Zehua Chen, Yi Yuan, Xinhao Mei, Xubo Liu, Danilo Mandic, Wenwu Wang, Mark D. Plumbley

Abstract

Text-to-Audio-(TTA-)Systeme haben in letzter Zeit aufgrund ihrer Fähigkeit, allgemeine Audioinhalte basierend auf Textbeschreibungen zu synthetisieren, erhebliche Aufmerksamkeit erhalten. Bisherige Studien im Bereich TTA waren jedoch durch eine begrenzte Generationsqualität und hohe Rechenkosten gekennzeichnet. In dieser Arbeit stellen wir AudioLDM vor, ein TTA-System, das auf einem latente Raum basiert und kontinuierliche Audio-Repräsentationen aus den Latenten des kontrastiven Sprache-Audio-Vortrainings (CLAP) lernt. Die vortrainierten CLAP-Modelle ermöglichen es uns, latente Diffusionsmodelle (LDMs) mit Audio-Embeddings zu trainieren, während gleichzeitig Text-Embeddings als Bedingung während des Sampling verwendet werden. Durch die Lernung der latente Repräsentationen von Audiosignalen und deren Kompositionen ohne explizite Modellierung der multimodalen Beziehungen bietet AudioLDM Vorteile sowohl in Bezug auf die Generationsqualität als auch auf die rechnerische Effizienz. AudioLDM wurde mit einem einzigen GPU-System auf dem AudioCaps-Datensatz trainiert und erreicht sowohl objektive als auch subjektive Bewertungsmetriken (z. B. Fréchet Audio Distance) auf dem Stand der Technik. Darüber hinaus ist AudioLDM das erste TTA-System, das verschiedene textgesteuerte Audio-Manipulationen (z. B. Stiltransfer) in zero-shot-Weise ermöglicht. Unsere Implementierung und Demonstrationen sind unter https://audioldm.github.io verfügbar.