HyperAIHyperAI
il y a 2 mois

Diffusion latente audio conditionnée au temps rapide

Evans, Zach ; Carr, CJ ; Taylor, Josiah ; Hawley, Scott H. ; Pons, Jordi
Diffusion latente audio conditionnée au temps rapide
Résumé

La génération d'audio stéréo de longue durée à une fréquence d'échantillonnage de 44,1 kHz à partir de prompts textuels peut être exigeante sur le plan computationnel. De plus, la plupart des travaux précédents n'abordent pas le fait que la durée de la musique et des effets sonores varie naturellement. Notre recherche se concentre sur la génération efficace de musique et de sons stéréo de longue durée et de longueur variable à 44,1 kHz en utilisant des prompts textuels avec un modèle génératif. Stable Audio est basé sur la diffusion latente, sa latence étant définie par un autoencodeur variationnel entièrement convolutif. Il est conditionné par des prompts textuels ainsi que par des plongements temporels, permettant un contrôle précis tant sur le contenu que sur la durée de la musique et des sons générés. Stable Audio est capable de restituer des signaux stéréo d'une durée allant jusqu'à 95 secondes à 44,1 kHz en 8 secondes sur une GPU A100. Malgré son efficacité computationnelle et son inférence rapide, il figure parmi les meilleurs dans deux benchmarks publics de conversion texte-en-musique et texte-en-audio, et contrairement aux modèles d'avant-garde, il peut générer de la musique structurée et des sons stéréo.

Diffusion latente audio conditionnée au temps rapide | Articles de recherche récents | HyperAI