HyperAIHyperAI

Command Palette

Search for a command to run...

Schnelle zeitbedingte latente Audio-Diffusion

Zach Evans CJ Carr Josiah Taylor Scott H. Hawley Jordi Pons

Zusammenfassung

Die Generierung von langen, 44,1 kHz Stereo-Audios aus Textanweisungen kann rechnerisch anspruchsvoll sein. Zudem behandeln die meisten bisherigen Arbeiten nicht das Problem, dass Musik und Soundeffekte in ihrer Dauer natürlicherweise variieren. Unser Forschungsprojekt konzentriert sich auf die effiziente Erstellung von langen, variabler Länge Stereo-Musik und -Sounds mit einer Frequenz von 44,1 kHz unter Verwendung von Textanweisungen und einem generativen Modell. Stable Audio basiert auf latenter Diffusion, wobei die latente Darstellung durch ein vollkonvolutionsbasiertes variationsautoencoder definiert wird. Es wird sowohl durch Textanweisungen als auch durch Zeitinformationen konditioniert, was eine feine Kontrolle über den Inhalt und die Länge der generierten Musik und Sounds ermöglicht. Stable Audio ist in der Lage, Stereo-Signale von bis zu 95 Sekunden bei 44,1 kHz innerhalb von 8 Sekunden auf einem A100-GPU zu rendern. Trotz seiner Rechenleistungseffizienz und schnellen Inferenz ist es eines der besten Modelle in zwei öffentlichen Benchmarks für Text-zu-Musik- und Text-zu-Audio-Konvertierung. Im Gegensatz zu den besten aktuellen Modellen kann Stable Audio Musik mit Struktur und Stereo-Sounds erzeugen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Schnelle zeitbedingte latente Audio-Diffusion | Paper | HyperAI