HyperAIHyperAI

Command Palette

Search for a command to run...

AudioLDM 2 : Apprentissage de la génération audio holistique avec un préentraînement auto-supervisé

Haohe Liu Yi Yuan Xubo Liu Xinhao Mei Qiuqiang Kong Qiao Tian Yuping Wang Wenwu Wang Yuxuan Wang Mark D. Plumbley

Résumé

Bien que la génération audio partage des similitudes entre différents types d'audio, tels que la parole, la musique et les effets sonores, la conception de modèles pour chaque type nécessite une attention particulière aux objectifs spécifiques et aux biais qui peuvent différer considérablement de ceux des autres types. Pour nous rapprocher d'une perspective unifiée de la génération audio, cet article propose un cadre qui utilise la même méthode d'apprentissage pour la génération de parole, de musique et d'effets sonores. Notre cadre introduit une représentation générale de l'audio, appelée « langage de l'audio » (LOA). Toute forme d'audio peut être traduite en LOA à partir du modèle AudioMAE, un modèle d'apprentissage par représentation pré-entraîné de manière auto-supervisée. Dans le processus de génération, nous traduisons toute modalité en LOA en utilisant un modèle GPT-2, puis nous effectuons l'apprentissage de la génération audio auto-supervisée avec un modèle de diffusion latente conditionné par LOA. Le cadre proposé offre naturellement des avantages tels que les capacités d'apprentissage contextuel et la réutilisation des modèles pré-entraînés auto-supervisés AudioMAE et de diffusion latente. Les expériences menées sur les principaux bancs d'essai de texte vers audio, texte vers musique et texte vers parole montrent des performances au niveau de l'état de l'art ou compétitives par rapport aux approches précédentes. Notre code source, notre modèle pré-entraîné et notre démonstration sont disponibles à l'adresse suivante : https://audioldm.github.io/audioldm2.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
AudioLDM 2 : Apprentissage de la génération audio holistique avec un préentraînement auto-supervisé | Articles | HyperAI