Langform-Musikgenerierung mit latenter Diffusion

Audio-basierte generative Modelle für Musik haben in letzter Zeit erhebliche Fortschritte gemacht, konnten jedoch bisher keine vollständigen Musikstücke mit kohärenter musikalischer Struktur erzeugen. Wir zeigen, dass es durch die Schulung eines generativen Modells auf langen zeitlichen Kontexten möglich ist, Musikstücke mit einer Länge von bis zu 4 Minuten und 45 Sekunden zu erzeugen. Unser Modell basiert auf einem Diffusion-Transformer, der auf einer stark heruntergekoppelten kontinuierlichen Latentdarstellung (Latentrate von 21,5 Hz) operiert. Es erreicht state-of-the-art Ergebnisse hinsichtlich Audioqualität und Prompt-Alignment gemessen an etablierten Metriken, und subjektive Tests belegen, dass es vollständige Musikstücke mit kohärenter Struktur erzeugt.