HyperAIHyperAI

Command Palette

Search for a command to run...

MeLFusion : Synthétiser de la musique à partir d'indices visuels et linguistiques en utilisant des modèles de diffusion

Sanjoy Chowdhury Sayan Nag K J Joseph Balaji Vasan Srinivasan Dinesh Manocha

Résumé

La musique est une langue universelle capable de communiquer des émotions et des sentiments. Elle constitue une partie essentielle du spectre complet des médias créatifs, allant des films aux publications sur les réseaux sociaux. Les modèles d'apprentissage automatique capables de synthétiser de la musique sont principalement conditionnés par des descriptions textuelles. Inspirés par la manière dont les musiciens composent non seulement à partir d'un scénario de film, mais aussi grâce à des visualisations, nous proposons MeLFusion, un modèle qui peut utiliser efficacement des indices provenant d'une description textuelle et de l'image correspondante pour synthétiser de la musique.MeLFusion est un modèle de diffusion texte-à-musique doté d'une nouvelle « synapse visuelle », qui intègre efficacement les sémantiques issues du mode visuel dans la musique générée. Pour faciliter les recherches dans ce domaine, nous introduisons un nouveau jeu de données appelé MeLBench et proposons une nouvelle métrique d'évaluation IMSM (Image-Music Similarity Metric). Notre évaluation expérimentale exhaustive indique que l'ajout d'informations visuelles au processus de synthèse musicale améliore considérablement la qualité de la musique générée, mesurée tant objectivement que subjectivement, avec un gain relatif pouvant atteindre 67,98 % sur le score FAD (Frechet Audio Distance). Nous espérons que notre travail attirera l'attention sur cette zone de recherche pragmatique, mais relativement peu explorée.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp