SonicVerse : Apprentissage multi-tâches pour la légendisation guidée par les caractéristiques musicales

Des légendes détaillées qui reflètent fidèlement les caractéristiques d'une pièce musicale peuvent enrichir les bases de données musicales et faire progresser la recherche en IA musicale. Cet article présente un modèle de légendage musical multi-tâches, SonicVerse, qui intègre la génération de légendes avec des tâches auxiliaires de détection de caractéristiques musicales telles que la détection de tonalité, la détection de voix, et plus encore, afin de capturer directement à la fois les détails acoustiques de bas niveau et les attributs musicaux de haut niveau. La contribution principale est une architecture basée sur la projection qui transforme l'entrée audio en jetons linguistiques, tout en détectant les caractéristiques musicales grâce à des têtes auxiliaires dédiées. Les sorties de ces têtes sont également projetées en jetons linguistiques pour améliorer l'entrée du légendage. Ce cadre non seulement produit des légendes riches et descriptives pour des fragments musicaux courts, mais permet également directement la génération de descriptions détaillées et temporellement informées pour des pièces musicales plus longues, en chaînant les sorties à l'aide d'un grand modèle linguistique. Pour entraîner le modèle, nous avons étendu le jeu de données MusicBench en l'annotant avec des caractéristiques musicales à l'aide de MIRFLEX, un extracteur modulaire de caractéristiques musicales, aboutissant ainsi à des paires d'audio, légendes et données de caractéristiques musicales. Les résultats expérimentaux montrent que l'intégration des caractéristiques améliore ainsi la qualité et le détail des légendes générées.