HyperAIHyperAI

Command Palette

Search for a command to run...

AudioLDM : Génération audio à partir de texte à l’aide de modèles de diffusion latente

Haohe Liu Zehua Chen Yi Yuan Xinhao Mei Xubo Liu Danilo Mandic Wenwu Wang Mark D. Plumbley

Résumé

Le système de synthèse audio à partir de texte (Text-to-Audio, TTA) a récemment attiré une attention croissante en raison de sa capacité à générer des audio généraux à partir de descriptions textuelles. Toutefois, les études antérieures en TTA ont été limitées en qualité de génération tout en entraînant des coûts computationnels élevés. Dans cette étude, nous proposons AudioLDM, un système TTA basé sur un espace latent, conçu pour apprendre des représentations audio continues à partir des latents obtenus par pré-entraînement contrastif langage-audio (CLAP). Les modèles pré-entraînés CLAP nous permettent d’entraîner des modèles de diffusion latents (LDM) avec des embeddings audio, tout en fournissant des embeddings textuels comme condition lors de l’échantillonnage. En apprenant les représentations latentes des signaux audio et de leurs compositions sans modéliser explicitement les relations entre modalités, AudioLDM offre un avantage significatif tant en qualité de génération qu’en efficacité computationnelle. En étant entraîné sur AudioCaps avec une seule GPU, AudioLDM atteint des performances TTA de pointe, mesurées à la fois par des métriques objectives (comme la distance de Fréchet) et subjectives. En outre, AudioLDM est le premier système TTA à permettre diverses manipulations audio guidées par le texte (par exemple, transfert de style) de manière zéro-shot. Notre implémentation et des démonstrations sont disponibles à l’adresse suivante : https://audioldm.github.io.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp