HyperAIHyperAI

Command Palette

Search for a command to run...

TräumerAI: Musik träumen mit StyleGAN

Jong-Dong Lee Seong-Hyun Kang Yanping Li Youngjae Cho

Zusammenfassung

Das Ziel dieser Arbeit ist es, ein visuell ansprechendes Video zu generieren, das auf Musik mit einem neuronalen Netzwerk reagiert, sodass jedes Bild des Videos die musikalischen Charakteristika der entsprechenden Audioschnipsel widerspiegelt. Um dieses Ziel zu erreichen, schlagen wir einen neuronalen Musikvisualisierer vor, der tiefgreifende Musik-Embeddings direkt auf Stil-Embeddings von StyleGAN abbildet und den Namen TräumerAI trägt. Dieser Visualisierer besteht aus einem Musik-Auto-Tagging-Modell, das kurze CNN-Segmente verwendet, und einem vorgefertigten StyleGAN2, das auf dem WikiArt-Datensatz trainiert wurde.Anstatt eine objektive Metrik zwischen musikalischer und visueller Semantik zu etablieren, haben wir die Paare subjektiv manuell beschriftet. Ein Annotator hörte sich 100 Musikschnipsel von jeweils 10 Sekunden Länge an und wählte unter 200 von StyleGAN generierten Beispielen ein Bild aus, das zur Musik passt. Auf Basis der gesammelten Daten trainierten wir eine einfache Transferfunktion, die ein Audio-Embedding in ein Stil-Embedding umwandelt. Die generierten Beispiele zeigen, dass die Abbildung zwischen Audio und Video eine gewisse Intra-Segment-Ähnlichkeit und Inter-Segment-Verschiedenheit aufweist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp