HyperAIHyperAI
vor 2 Monaten

MeLFusion: Musiksynthese aus Bild- und Sprachhinweisen mit Hilfe von Diffusionsmodellen

Chowdhury, Sanjoy ; Nag, Sayan ; Joseph, K J ; Srinivasan, Balaji Vasan ; Manocha, Dinesh
MeLFusion: Musiksynthese aus Bild- und Sprachhinweisen mit Hilfe von
Diffusionsmodellen
Abstract

Musik ist eine universelle Sprache, die Emotionen und Gefühle vermitteln kann. Sie bildet einen wesentlichen Bestandteil des gesamten Spektrums kreativer Medien, von Filmen bis hin zu Social-Media-Beiträgen. Maschinelles Lernen-Modelle, die Musik synthetisieren können, werden in der Regel anhand textbasierter Beschreibungen konditioniert. Inspiriert davon, wie Musiker Musik nicht nur aus einem Film-Drehbuch komponieren, sondern auch durch Visualisierungen, schlagen wir MeLFusion vor, ein Modell, das effektiv Anhaltspunkte aus einer textuellen Beschreibung und dem entsprechenden Bild zur Synthese von Musik nutzen kann. MeLFusion ist ein Text-zu-Musik-Diffusionsmodell mit einer neuartigen „visuellen Synapse“ (visual synapse), die die Semantik aus der visuellen Modalität effektiv in die generierte Musik einfließen lässt. Um Forschung in diesem Bereich zu fördern, stellen wir einen neuen Datensatz MeLBench vor und schlagen eine neue Evaluationsmetrik IMSM vor. Unsere umfassende experimentelle Auswertung zeigt, dass die Hinzufügung visueller Informationen zum Musiksyntheseprozess die Qualität der generierten Musik erheblich verbessert, sowohl objektiv als auch subjektiv gemessen, mit einem relativen Gewinn von bis zu 67,98 % im FAD-Score. Wir hoffen, dass unsere Arbeit Aufmerksamkeit auf diesen praktischen, aber bisher relativ wenig erforschten Bereich lenken wird.

MeLFusion: Musiksynthese aus Bild- und Sprachhinweisen mit Hilfe von Diffusionsmodellen | Neueste Forschungsarbeiten | HyperAI