HyperAIHyperAI
il y a 2 mois

Mustango : Vers une génération de texte à musique contrôlable

Melechovsky, Jan ; Guo, Zixun ; Ghosal, Deepanway ; Majumder, Navonil ; Herremans, Dorien ; Poria, Soujanya
Mustango : Vers une génération de texte à musique contrôlable
Résumé

La qualité des modèles de génération de musique à partir du texte a atteint de nouveaux sommets grâce aux récentes avancées dans les modèles de diffusion. Cependant, la contrôlabilité des différents aspects musicaux n'a que très peu été explorée. Dans cet article, nous proposons Mustango : un système de génération de musique à partir du texte inspiré par les connaissances du domaine musical et basé sur la diffusion. Mustango vise à contrôler la musique générée non seulement avec des légendes textuelles générales, mais aussi avec des légendes plus riches qui peuvent inclure des instructions spécifiques relatives aux accords, aux battements, au tempo et à la tonalité.Au cœur de Mustango se trouve MuNet, un module de guidage UNet informé par les connaissances du domaine musical qui oriente la musique générée pour inclure les conditions spécifiques à la musique, que nous prédisons à partir de l'invite textuelle, ainsi que l'embedding textuel général lors du processus de diffusion inverse. Pour surmonter la disponibilité limitée des ensembles de données ouverts contenant des légendes textuelles associées à la musique, nous proposons une nouvelle méthode d'augmentation de données qui comprend la modification des aspects harmoniques, rythmiques et dynamiques de l'audio musical et l'utilisation des méthodes les plus avancées en matière de recherche d'information musicale pour extraire les caractéristiques musicales qui seront ensuite ajoutées aux descriptions existantes sous forme textuelle.Nous mettons à disposition le jeu de données MusicBench résultant, qui contient plus de 52 000 instances et inclut des descriptions basées sur la théorie musicale dans le texte des légendes. À travers une série d'expériences approfondies, nous démontrons que la qualité de la musique générée par Mustango est d'avant-garde et que sa contrôlabilité via des invites textuelles spécifiques à la musique dépasse largement celle d'autres modèles tels que MusicGen et AudioLDM2.

Mustango : Vers une génération de texte à musique contrôlable | Articles de recherche récents | HyperAI