HyperAIHyperAI

Command Palette

Search for a command to run...

Diffusion latente audio conditionnée au temps rapide

Zach Evans CJ Carr Josiah Taylor Scott H. Hawley Jordi Pons

Résumé

La génération d'audio stéréo de longue durée à une fréquence d'échantillonnage de 44,1 kHz à partir de prompts textuels peut être exigeante sur le plan computationnel. De plus, la plupart des travaux précédents n'abordent pas le fait que la durée de la musique et des effets sonores varie naturellement. Notre recherche se concentre sur la génération efficace de musique et de sons stéréo de longue durée et de longueur variable à 44,1 kHz en utilisant des prompts textuels avec un modèle génératif. Stable Audio est basé sur la diffusion latente, sa latence étant définie par un autoencodeur variationnel entièrement convolutif. Il est conditionné par des prompts textuels ainsi que par des plongements temporels, permettant un contrôle précis tant sur le contenu que sur la durée de la musique et des sons générés. Stable Audio est capable de restituer des signaux stéréo d'une durée allant jusqu'à 95 secondes à 44,1 kHz en 8 secondes sur une GPU A100. Malgré son efficacité computationnelle et son inférence rapide, il figure parmi les meilleurs dans deux benchmarks publics de conversion texte-en-musique et texte-en-audio, et contrairement aux modèles d'avant-garde, il peut générer de la musique structurée et des sons stéréo.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp