Einfache und steuerbare Musikgenerierung

Wir greifen die Aufgabe der bedingten Musikgenerierung an. Wir stellen MusicGen vor, ein einzelnes Sprachmodell (LM), das über mehrere Ströme einer komprimierten diskreten Musikdarstellung, d.h. Tokens, operiert. Im Gegensatz zu früheren Arbeiten besteht MusicGen aus einem einstufigen Transformer-Sprachmodell zusammen mit effizienten Token-Interleaving-Mustern, was die Notwendigkeit, mehrere Modelle kaskadenartig oder durch Upsampling zu verketten, beseitigt. Mit diesem Ansatz zeigen wir, wie MusicGen hochwertige Mono- und Stereo-Stichproben generieren kann, während es auf textuelle Beschreibungen oder melodische Merkmale konditioniert wird, was eine bessere Kontrolle über die generierte Ausgabe ermöglicht. Wir führen umfangreiche empirische Evaluierungen durch, wobei sowohl automatische als auch menschliche Studien berücksichtigt werden, und zeigen, dass der vorgeschlagene Ansatz bei einem Standard-Benchmark für Text-zu-Musik-Generierung den evaluierten Baselines überlegen ist. Durch Ablationsstudien beleuchten wir die Bedeutung jeder Komponente von MusicGen. Musikstichproben, Code und Modelle sind unter https://github.com/facebookresearch/audiocraft verfügbar.