il y a 16 jours

AudioLDM : Génération audio à partir de texte à l’aide de modèles de diffusion latente

Haohe Liu, Zehua Chen, Yi Yuan, Xinhao Mei, Xubo Liu, Danilo Mandic, Wenwu Wang, Mark D. Plumbley

Résumé

Le système de synthèse audio à partir de texte (Text-to-Audio, TTA) a récemment attiré une attention croissante en raison de sa capacité à générer des audio généraux à partir de descriptions textuelles. Toutefois, les études antérieures en TTA ont été limitées en qualité de génération tout en entraînant des coûts computationnels élevés. Dans cette étude, nous proposons AudioLDM, un système TTA basé sur un espace latent, conçu pour apprendre des représentations audio continues à partir des latents obtenus par pré-entraînement contrastif langage-audio (CLAP). Les modèles pré-entraînés CLAP nous permettent d’entraîner des modèles de diffusion latents (LDM) avec des embeddings audio, tout en fournissant des embeddings textuels comme condition lors de l’échantillonnage. En apprenant les représentations latentes des signaux audio et de leurs compositions sans modéliser explicitement les relations entre modalités, AudioLDM offre un avantage significatif tant en qualité de génération qu’en efficacité computationnelle. En étant entraîné sur AudioCaps avec une seule GPU, AudioLDM atteint des performances TTA de pointe, mesurées à la fois par des métriques objectives (comme la distance de Fréchet) et subjectives. En outre, AudioLDM est le premier système TTA à permettre diverses manipulations audio guidées par le texte (par exemple, transfert de style) de manière zéro-shot. Notre implémentation et des démonstrations sont disponibles à l’adresse suivante : https://audioldm.github.io.