HyperAIHyperAI

Command Palette

Search for a command to run...

Noise2Music : Génération musicale conditionnée par du texte avec des modèles de diffusion

Résumé

Nous présentons Noise2Music, une série de modèles de diffusion entraînés pour générer des extraits musicaux de haute qualité d'une durée de 30 secondes à partir de prompts textuels. Deux types de modèles de diffusion sont utilisés : un modèle générateur qui produit une représentation intermédiaire conditionnée par le texte, et un modèle en cascade qui génère un audio haute fidélité conditionné par cette représentation intermédiaire et éventuellement par le texte. Ces deux modèles sont entraînés et utilisés successivement pour produire des musiques de haute fidélité. Nous explorons deux options pour la représentation intermédiaire : l'une utilise un spectrogramme et l'autre utilise un audio de moindre fidélité. Nous constatons que l'audio généré non seulement reflète fidèlement les éléments clés du prompt textuel tels que le genre, le tempo, les instruments, l'ambiance et l'époque, mais va plus loin en ancrant les sémantiques fines du prompt. Les grands modèles linguistiques préentraînés jouent un rôle crucial dans ce processus -- ils sont utilisés pour générer des paires texte-audio dans l'ensemble d'entraînement et pour extraire les plongements (embeddings) des prompts textuels ingérés par les modèles de diffusion.Exemples générés : https://google-research.github.io/noise2music


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp