Noise2Music : Génération musicale conditionnée par du texte avec des modèles de diffusion

Nous présentons Noise2Music, une série de modèles de diffusion entraînés pour générer des extraits musicaux de haute qualité d'une durée de 30 secondes à partir de prompts textuels. Deux types de modèles de diffusion sont utilisés : un modèle générateur qui produit une représentation intermédiaire conditionnée par le texte, et un modèle en cascade qui génère un audio haute fidélité conditionné par cette représentation intermédiaire et éventuellement par le texte. Ces deux modèles sont entraînés et utilisés successivement pour produire des musiques de haute fidélité. Nous explorons deux options pour la représentation intermédiaire : l'une utilise un spectrogramme et l'autre utilise un audio de moindre fidélité. Nous constatons que l'audio généré non seulement reflète fidèlement les éléments clés du prompt textuel tels que le genre, le tempo, les instruments, l'ambiance et l'époque, mais va plus loin en ancrant les sémantiques fines du prompt. Les grands modèles linguistiques préentraînés jouent un rôle crucial dans ce processus -- ils sont utilisés pour générer des paires texte-audio dans l'ensemble d'entraînement et pour extraire les plongements (embeddings) des prompts textuels ingérés par les modèles de diffusion.Exemples générés : https://google-research.github.io/noise2music