Effiziente neuronale Musikgenerierung

Kürzliche Fortschritte bei der Musikgenerierung wurden durch dasstandardsichernde MusicLM erheblich vorangetrieben, das eine Hierarchie aus drei LMs umfasst,jeweils für semantisches, grobes akustisches und feines akustisches Modellierungen. Dennocherfordert die Stichprobenziehung mit MusicLM die sequenzielle Verarbeitung durch diese LMs, umdie feingranularen akustischen Token zu erhalten, was rechenaufwendig ist und für die Echtzeitgenerierungunzumutbar wird. Eine effiziente Musikgenerierung mit einer Qualität vergleichbar zu MusicLM stellt weiterhin eine bedeutende Herausforderung dar. In dieser Arbeit stellen wir MeLoDy (M für Musik; L für LM; D für Diffusion) vor, ein von einem LM geleitetes Diffusionsmodell, das Musikaudios von standardsichernder Qualität generiert und dabei die Vorwärtsdurchläufe in MusicLM um 95,7 % oder 99,6 % reduziert, je nachdem, ob es sich um 10-Sekunden- oder 30-Sekunden-Musik handelt. MeLoDy übernimmt das oberste LM von MusicLM für die semantische Modellierung und wendet ein neuartiges Dual-Path-Diffusionsmodell (DPD) sowie einen Audio-VAE-GAN an, um die bedingenden semantischen Token effizient in Wellenform zu decodieren. DPD wurde entwickelt, um gleichzeitig grobe und feine Akustik zu modellieren, indem es die semantische Information effektiv in Latentensegmente integriert, indem es bei jedem Entrauschungsschritt Cross-Attention verwendet. Unsere experimentellen Ergebnisse deuten darauf hin, dass MeLoDy nicht nur praktische Vorteile hinsichtlich der Stichprobenziehgeschwindigkeit und der unendlich fortsetzbaren Generierung aufweist, sondern auch standardsichernde musikalische Eigenschaften, Audiotransparenz und Textkorrelation bietet.Unsere Proben sind unter https://Efficient-MeLoDy.github.io/ verfügbar.