Mustango: Auf dem Weg zur steuerbaren Text-zu-Musik-Generierung

Die Qualität von Text-zu-Musik-Modellen hat dank neuer Fortschritte in Diffusionsmodellen neue Höhen erreicht. Die Steuerbarkeit verschiedener musikalischer Aspekte wurde jedoch bisher kaum untersucht. In dieser Arbeit schlagen wir Mustango vor: ein auf Diffusionsmodellen basierendes Text-zu-Musik-System, das von musikdomänenkenntnis inspiriert ist. Mustango strebt an, die generierte Musik nicht nur mit allgemeinen Textbeschreibungen zu steuern, sondern auch mit reichhaltigeren Beschreibungen, die spezifische Anweisungen zu Akkorden, Beats, Tempo und Tonart enthalten können. Im Zentrum von Mustango steht MuNet, ein durch Musikdomänenkenntnis informierter UNet-Leitungsmodul, der den Prozess der Rückwärtsdiffusion steuert, um die aus dem Textprompt abgeleiteten musikspezifischen Bedingungen sowie die allgemeine Texteinbettung in die generierte Musik einzubeziehen.Um die begrenzte Verfügbarkeit offener Datensätze von Musik mit Textbeschreibungen zu überwinden, schlagen wir eine neuartige Datenverstärkungsmethode vor, die das Verändern harmonischer, rhythmischer und dynamischer Aspekte von Musikaudio umfasst und moderne Methoden der Muskinformationssuche (Music Information Retrieval) verwendet, um die Musikeigenschaften zu extrahieren. Diese Eigenschaften werden dann den bestehenden textbasierten Beschreibungen hinzugefügt. Wir veröffentlichen den resultierenden MusicBench-Datensatz, der über 52.000 Instanzen enthält und musiktheoriebasierte Beschreibungen im Caption-Text einschließt.Durch umfangreiche Experimente zeigen wir, dass die Qualität der von Mustango generierten Musik den aktuellen Stand der Technik repräsentiert und dass die Steuerbarkeit durch musikspezifische Textprompts andere Modelle wie MusicGen und AudioLDM2 deutlich übertrifft.