HyperAIHyperAI

Command Palette

Search for a command to run...

Compréhension Musicale LLaMA : Amélioration de la Génération Texte-Musique par le Biais du Questionnement et de la Légendage

Shansong Liu Atin Sakkeer Hussain Chenshuo Sun Ying Shan

Résumé

La génération de musique à partir du texte (T2M-Gen) rencontre un obstacle majeur en raison de la rareté des grands ensembles de données musicales accessibles au public et accompagnés de légendes en langage naturel. Pour remédier à cette situation, nous proposons le modèle Music Understanding LLaMA (MU-LLaMA), capable de répondre à des questions liées à la musique et de générer des légendes pour les fichiers musicaux. Notre modèle utilise les représentations audio d'un modèle MERT préentraîné pour extraire les caractéristiques musicales. Cependant, l'obtention d'un ensemble de données approprié pour l'entraînement du modèle MU-LLaMA reste un défi, car les ensembles de données actuellement accessibles au public pour le questionnement audio manquent de profondeur nécessaire pour répondre à des questions ouvertes sur la musique. Afin de combler cette lacune, nous présentons une méthodologie permettant de générer des paires question-réponse à partir des ensembles de données existants sur la légendage audio et introduisons le MusicQA Dataset conçu spécifiquement pour répondre aux questions ouvertes liées à la musique. Les expériences montrent que le modèle MU-LLaMA proposé, entraîné sur notre ensemble de données MusicQA, obtient d'excellents résultats dans les domaines de la réponse aux questions musicales et de la génération de légendes musicales selon diverses métriques, surpassant les modèles actuels d'état de l'art (SOTA) dans ces deux domaines et offrant une avancée prometteuse dans le champ de recherche T2M-Gen.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Compréhension Musicale LLaMA : Amélioration de la Génération Texte-Musique par le Biais du Questionnement et de la Légendage | Articles | HyperAI