vor 2 Monaten

Noise2Music: Textbedingte Musikgenerierung mit Diffusionsmodellen

Huang, Qingqing ; Park, Daniel S. ; Wang, Tao ; Denk, Timo I. ; Ly, Andy ; Chen, Nanxin ; Zhang, Zhengdong ; Zhang, Zhishuai ; Yu, Jiahui ; Frank, Christian ; Engel, Jesse ; Le, Quoc V. ; Chan, William ; Chen, Zhifeng ; Han, Wei

Details der Forschungsarbeit anzeigen

Noise2Music: Textbedingte Musikgenerierung mit Diffusionsmodellen

Abstract

Wir stellen Noise2Music vor, bei dem eine Reihe von Diffusionsmodellen trainiert wird, um aus Textanweisungen hochwertige 30-Sekunden-Musikstücke zu generieren. Zwei Arten von Diffusionsmodellen werden nacheinander trainiert und eingesetzt: ein Generatormodell, das eine Zwischenrepräsentation unter Berücksichtigung des Textes erzeugt, und ein Kaskademodell, das hochauflösendes Audio unter Bedingung der Zwischenrepräsentation und gegebenenfalls des Textes erzeugt. Wir untersuchen zwei Optionen für die Zwischenrepräsentation: eine verwendet ein Spektrogramm, die andere verwendet Audio mit geringerer Auflösung. Wir stellen fest, dass das generierte Audio nicht nur wichtige Elemente der Textanweisungen wie Genre, Tempo, Instrumente, Stimmung und Epoche treu widerspiegelt, sondern darüber hinaus auch die feingranularen Semantiken der Anweisungen verankert. Vortrainierte große Sprachmodelle spielen hierbei eine entscheidende Rolle – sie werden verwendet, um gepaarten Text für das Audiomaterial des Trainingsdatensatzes zu generieren und um Embeddings der von den Diffusionsmodellen verarbeiteten Textanweisungen zu extrahieren.Generierte Beispiele: https://google-research.github.io/noise2music