HyperAIHyperAI

Command Palette

Search for a command to run...

AudioLDM: Text-zu-Audio-Generierung mit Latent-Diffusions-Modellen

Haohe Liu Zehua Chen Yi Yuan Xinhao Mei Xubo Liu Danilo Mandic Wenwu Wang Mark D. Plumbley

Zusammenfassung

Text-to-Audio-(TTA-)Systeme haben in letzter Zeit aufgrund ihrer Fähigkeit, allgemeine Audioinhalte basierend auf Textbeschreibungen zu synthetisieren, erhebliche Aufmerksamkeit erhalten. Bisherige Studien im Bereich TTA waren jedoch durch eine begrenzte Generationsqualität und hohe Rechenkosten gekennzeichnet. In dieser Arbeit stellen wir AudioLDM vor, ein TTA-System, das auf einem latente Raum basiert und kontinuierliche Audio-Repräsentationen aus den Latenten des kontrastiven Sprache-Audio-Vortrainings (CLAP) lernt. Die vortrainierten CLAP-Modelle ermöglichen es uns, latente Diffusionsmodelle (LDMs) mit Audio-Embeddings zu trainieren, während gleichzeitig Text-Embeddings als Bedingung während des Sampling verwendet werden. Durch die Lernung der latente Repräsentationen von Audiosignalen und deren Kompositionen ohne explizite Modellierung der multimodalen Beziehungen bietet AudioLDM Vorteile sowohl in Bezug auf die Generationsqualität als auch auf die rechnerische Effizienz. AudioLDM wurde mit einem einzigen GPU-System auf dem AudioCaps-Datensatz trainiert und erreicht sowohl objektive als auch subjektive Bewertungsmetriken (z. B. Fréchet Audio Distance) auf dem Stand der Technik. Darüber hinaus ist AudioLDM das erste TTA-System, das verschiedene textgesteuerte Audio-Manipulationen (z. B. Stiltransfer) in zero-shot-Weise ermöglicht. Unsere Implementierung und Demonstrationen sind unter https://audioldm.github.io verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
AudioLDM: Text-zu-Audio-Generierung mit Latent-Diffusions-Modellen | Paper | HyperAI