Schnelle zeitbedingte latente Audio-Diffusion

Die Generierung von langen, 44,1 kHz Stereo-Audios aus Textanweisungen kann rechnerisch anspruchsvoll sein. Zudem behandeln die meisten bisherigen Arbeiten nicht das Problem, dass Musik und Soundeffekte in ihrer Dauer natürlicherweise variieren. Unser Forschungsprojekt konzentriert sich auf die effiziente Erstellung von langen, variabler Länge Stereo-Musik und -Sounds mit einer Frequenz von 44,1 kHz unter Verwendung von Textanweisungen und einem generativen Modell. Stable Audio basiert auf latenter Diffusion, wobei die latente Darstellung durch ein vollkonvolutionsbasiertes variationsautoencoder definiert wird. Es wird sowohl durch Textanweisungen als auch durch Zeitinformationen konditioniert, was eine feine Kontrolle über den Inhalt und die Länge der generierten Musik und Sounds ermöglicht. Stable Audio ist in der Lage, Stereo-Signale von bis zu 95 Sekunden bei 44,1 kHz innerhalb von 8 Sekunden auf einem A100-GPU zu rendern. Trotz seiner Rechenleistungseffizienz und schnellen Inferenz ist es eines der besten Modelle in zwei öffentlichen Benchmarks für Text-zu-Musik- und Text-zu-Audio-Konvertierung. Im Gegensatz zu den besten aktuellen Modellen kann Stable Audio Musik mit Struktur und Stereo-Sounds erzeugen.