MeLFusion : Synthétiser de la musique à partir d'indices visuels et linguistiques en utilisant des modèles de diffusion

La musique est une langue universelle capable de communiquer des émotions et des sentiments. Elle constitue une partie essentielle du spectre complet des médias créatifs, allant des films aux publications sur les réseaux sociaux. Les modèles d'apprentissage automatique capables de synthétiser de la musique sont principalement conditionnés par des descriptions textuelles. Inspirés par la manière dont les musiciens composent non seulement à partir d'un scénario de film, mais aussi grâce à des visualisations, nous proposons MeLFusion, un modèle qui peut utiliser efficacement des indices provenant d'une description textuelle et de l'image correspondante pour synthétiser de la musique.MeLFusion est un modèle de diffusion texte-à-musique doté d'une nouvelle « synapse visuelle », qui intègre efficacement les sémantiques issues du mode visuel dans la musique générée. Pour faciliter les recherches dans ce domaine, nous introduisons un nouveau jeu de données appelé MeLBench et proposons une nouvelle métrique d'évaluation IMSM (Image-Music Similarity Metric). Notre évaluation expérimentale exhaustive indique que l'ajout d'informations visuelles au processus de synthèse musicale améliore considérablement la qualité de la musique générée, mesurée tant objectivement que subjectivement, avec un gain relatif pouvant atteindre 67,98 % sur le score FAD (Frechet Audio Distance). Nous espérons que notre travail attirera l'attention sur cette zone de recherche pragmatique, mais relativement peu explorée.