HyperAIHyperAI

Command Palette

Search for a command to run...

TräumerAI : Création musicale avec StyleGAN

Jong-Dong Lee Seong-Hyun Kang Yanping Li Youngjae Cho

Résumé

L'objectif de cet article est de générer une vidéo visuellement attrayante qui réagit à la musique grâce à un réseau neuronal, de manière que chaque image de la vidéo reflète les caractéristiques musicales du clip audio correspondant. Pour atteindre cet objectif, nous proposons un visualiseur musical neuronal nommé TräumerAI, qui établit une correspondance directe entre des plongements musicaux profonds et des plongements stylistiques de StyleGAN. TräumerAI se compose d'un modèle d'autotagging musical utilisant un CNN à tronçons courts (short-chunk CNN) et de StyleGAN2 pré-entraîné sur le jeu de données WikiArt. Au lieu d'établir une métrique objective entre les sémantiques musicales et visuelles, nous avons étiqueté manuellement les paires de manière subjective. Un annotateur a écouté 100 extraits musicaux de 10 secondes chacun et a sélectionné une image parmi 200 exemples générés par StyleGAN qui convient à la musique. Sur la base des données collectées, nous avons entraîné une fonction de transfert simple qui convertit un plongement audio en un plongement stylistique. Les exemples générés montrent que la correspondance entre l'audio et la vidéo présente un certain niveau de similarité intra-segment et de dissimilarité inter-segment.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp