HyperAIHyperAI
vor 2 Monaten

JEN-1: Textgesteuerte universelle Musikgenerierung mit omnidirektionalen Diffusionsmodellen

Li, Peike ; Chen, Boyu ; Yao, Yao ; Wang, Yikai ; Wang, Allen ; Wang, Alex
JEN-1: Textgesteuerte universelle Musikgenerierung mit omnidirektionalen Diffusionsmodellen
Abstract

Die Musikgenerierung hat mit dem Fortschritt tiefer generativer Modelle zunehmendes Interesse gefunden. Allerdings bleibt die Generierung von Musik auf der Grundlage textueller Beschreibungen, auch als Text-zu-Musik bekannt, aufgrund der Komplexität musikalischer Strukturen und der hohen Anforderungen an die Abtastfrequenz eine Herausforderung. Trotz der Bedeutung dieser Aufgabe zeigen vorherrschende generative Modelle Einschränkungen in Bezug auf Musikqualität, Recheneffizienz und Generalisierungsfähigkeit. In diesem Artikel stellen wir JEN-1 vor, ein universelles hochwertiges Modell für die Text-zu-Musik-Generierung. JEN-1 ist ein Diffusionsmodell, das sowohl autoregressive als auch nicht-autoregressive Trainingsmethoden einbezieht. Durch kontextbasiertes Lernen führt JEN-1 verschiedene Generierungsaufgaben durch, darunter textgesteuerte Musikgenerierung, Musikauffüllung (music inpainting) und -fortsetzung (continuation). Bewertungen zeigen, dass JEN-1 bei der Ausrichtung von Text und Musik sowie bei der Musikqualität über den aktuellen Stand der Technik hinaus leistet, während es gleichzeitig die Recheneffizienz beibehält. Unsere Demos sind unter https://jenmusic.ai/audio-demos verfügbar.

JEN-1: Textgesteuerte universelle Musikgenerierung mit omnidirektionalen Diffusionsmodellen | Neueste Forschungsarbeiten | HyperAI