Command Palette
Search for a command to run...
JEN-1: Textgesteuerte universelle Musikgenerierung mit omnidirektionalen Diffusionsmodellen
JEN-1: Textgesteuerte universelle Musikgenerierung mit omnidirektionalen Diffusionsmodellen
Li Peike ; Chen Boyu ; Yao Yao ; Wang Yikai ; Wang Allen ; Wang Alex
Zusammenfassung
Die Musikgenerierung hat mit dem Fortschritt tiefer generativer Modelle zunehmendes Interesse gefunden. Allerdings bleibt die Generierung von Musik auf der Grundlage textueller Beschreibungen, auch als Text-zu-Musik bekannt, aufgrund der Komplexität musikalischer Strukturen und der hohen Anforderungen an die Abtastfrequenz eine Herausforderung. Trotz der Bedeutung dieser Aufgabe zeigen vorherrschende generative Modelle Einschränkungen in Bezug auf Musikqualität, Recheneffizienz und Generalisierungsfähigkeit. In diesem Artikel stellen wir JEN-1 vor, ein universelles hochwertiges Modell für die Text-zu-Musik-Generierung. JEN-1 ist ein Diffusionsmodell, das sowohl autoregressive als auch nicht-autoregressive Trainingsmethoden einbezieht. Durch kontextbasiertes Lernen führt JEN-1 verschiedene Generierungsaufgaben durch, darunter textgesteuerte Musikgenerierung, Musikauffüllung (music inpainting) und -fortsetzung (continuation). Bewertungen zeigen, dass JEN-1 bei der Ausrichtung von Text und Musik sowie bei der Musikqualität über den aktuellen Stand der Technik hinaus leistet, während es gleichzeitig die Recheneffizienz beibehält. Unsere Demos sind unter https://jenmusic.ai/audio-demos verfügbar.