Compréhension Musicale LLaMA : Amélioration de la Génération Texte-Musique par le Biais du Questionnement et de la Légendage

La génération de musique à partir du texte (T2M-Gen) rencontre un obstacle majeur en raison de la rareté des grands ensembles de données musicales accessibles au public et accompagnés de légendes en langage naturel. Pour remédier à cette situation, nous proposons le modèle Music Understanding LLaMA (MU-LLaMA), capable de répondre à des questions liées à la musique et de générer des légendes pour les fichiers musicaux. Notre modèle utilise les représentations audio d'un modèle MERT préentraîné pour extraire les caractéristiques musicales. Cependant, l'obtention d'un ensemble de données approprié pour l'entraînement du modèle MU-LLaMA reste un défi, car les ensembles de données actuellement accessibles au public pour le questionnement audio manquent de profondeur nécessaire pour répondre à des questions ouvertes sur la musique. Afin de combler cette lacune, nous présentons une méthodologie permettant de générer des paires question-réponse à partir des ensembles de données existants sur la légendage audio et introduisons le MusicQA Dataset conçu spécifiquement pour répondre aux questions ouvertes liées à la musique. Les expériences montrent que le modèle MU-LLaMA proposé, entraîné sur notre ensemble de données MusicQA, obtient d'excellents résultats dans les domaines de la réponse aux questions musicales et de la génération de légendes musicales selon diverses métriques, surpassant les modèles actuels d'état de l'art (SOTA) dans ces deux domaines et offrant une avancée prometteuse dans le champ de recherche T2M-Gen.