HyperAIHyperAI

Command Palette

Search for a command to run...

Langform-Musikgenerierung mit latenter Diffusion

Zach Evans Julian D. Parker CJ Carr Zack Zukowski Josiah Taylor Jordi Pons

Zusammenfassung

Audio-basierte generative Modelle für Musik haben in letzter Zeit erhebliche Fortschritte gemacht, konnten jedoch bisher keine vollständigen Musikstücke mit kohärenter musikalischer Struktur erzeugen. Wir zeigen, dass es durch die Schulung eines generativen Modells auf langen zeitlichen Kontexten möglich ist, Musikstücke mit einer Länge von bis zu 4 Minuten und 45 Sekunden zu erzeugen. Unser Modell basiert auf einem Diffusion-Transformer, der auf einer stark heruntergekoppelten kontinuierlichen Latentdarstellung (Latentrate von 21,5 Hz) operiert. Es erreicht state-of-the-art Ergebnisse hinsichtlich Audioqualität und Prompt-Alignment gemessen an etablierten Metriken, und subjektive Tests belegen, dass es vollständige Musikstücke mit kohärenter Struktur erzeugt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp