TräumerAI: Musik träumen mit StyleGAN

Das Ziel dieser Arbeit ist es, ein visuell ansprechendes Video zu generieren, das auf Musik mit einem neuronalen Netzwerk reagiert, sodass jedes Bild des Videos die musikalischen Charakteristika der entsprechenden Audioschnipsel widerspiegelt. Um dieses Ziel zu erreichen, schlagen wir einen neuronalen Musikvisualisierer vor, der tiefgreifende Musik-Embeddings direkt auf Stil-Embeddings von StyleGAN abbildet und den Namen TräumerAI trägt. Dieser Visualisierer besteht aus einem Musik-Auto-Tagging-Modell, das kurze CNN-Segmente verwendet, und einem vorgefertigten StyleGAN2, das auf dem WikiArt-Datensatz trainiert wurde.Anstatt eine objektive Metrik zwischen musikalischer und visueller Semantik zu etablieren, haben wir die Paare subjektiv manuell beschriftet. Ein Annotator hörte sich 100 Musikschnipsel von jeweils 10 Sekunden Länge an und wählte unter 200 von StyleGAN generierten Beispielen ein Bild aus, das zur Musik passt. Auf Basis der gesammelten Daten trainierten wir eine einfache Transferfunktion, die ein Audio-Embedding in ein Stil-Embedding umwandelt. Die generierten Beispiele zeigen, dass die Abbildung zwischen Audio und Video eine gewisse Intra-Segment-Ähnlichkeit und Inter-Segment-Verschiedenheit aufweist.