HyperAIHyperAI
il y a 2 mois

AudioLDM 2 : Apprentissage de la génération audio holistique avec un préentraînement auto-supervisé

Liu, Haohe ; Yuan, Yi ; Liu, Xubo ; Mei, Xinhao ; Kong, Qiuqiang ; Tian, Qiao ; Wang, Yuping ; Wang, Wenwu ; Wang, Yuxuan ; Plumbley, Mark D.
AudioLDM 2 : Apprentissage de la génération audio holistique avec un préentraînement auto-supervisé
Résumé

Bien que la génération audio partage des similitudes entre différents types d'audio, tels que la parole, la musique et les effets sonores, la conception de modèles pour chaque type nécessite une attention particulière aux objectifs spécifiques et aux biais qui peuvent différer considérablement de ceux des autres types. Pour nous rapprocher d'une perspective unifiée de la génération audio, cet article propose un cadre qui utilise la même méthode d'apprentissage pour la génération de parole, de musique et d'effets sonores. Notre cadre introduit une représentation générale de l'audio, appelée « langage de l'audio » (LOA). Toute forme d'audio peut être traduite en LOA à partir du modèle AudioMAE, un modèle d'apprentissage par représentation pré-entraîné de manière auto-supervisée. Dans le processus de génération, nous traduisons toute modalité en LOA en utilisant un modèle GPT-2, puis nous effectuons l'apprentissage de la génération audio auto-supervisée avec un modèle de diffusion latente conditionné par LOA. Le cadre proposé offre naturellement des avantages tels que les capacités d'apprentissage contextuel et la réutilisation des modèles pré-entraînés auto-supervisés AudioMAE et de diffusion latente. Les expériences menées sur les principaux bancs d'essai de texte vers audio, texte vers musique et texte vers parole montrent des performances au niveau de l'état de l'art ou compétitives par rapport aux approches précédentes. Notre code source, notre modèle pré-entraîné et notre démonstration sont disponibles à l'adresse suivante : https://audioldm.github.io/audioldm2.

AudioLDM 2 : Apprentissage de la génération audio holistique avec un préentraînement auto-supervisé | Articles de recherche récents | HyperAI