HyperAIHyperAI

Command Palette

Search for a command to run...

Erzeugung von Videos mit dynamikbewussten impliziten generativen adversarialen Netzwerken

Sihyun Yu Jihoon Tack Sangwoo Mo Hyunsu Kim Junho Kim Jung-Woo Ha Jinwoo Shin

Zusammenfassung

In der Ära des tiefen Lernens bleibt die Generierung hochwertiger langer Videos herausfordernd, da sie aufgrund der räumlich-zeitlichen Komplexität und Kontinuität von Videos erhebliche Schwierigkeiten bereitet. Bisherige Ansätze haben versucht, die Verteilung von Videos durch die Darstellung als 3D-Gitter von RGB-Werten zu modellieren, was die Skalierbarkeit der generierten Videos einschränkt und kontinuierliche Dynamiken vernachlässigt. In dieser Arbeit zeigen wir, dass der kürzlich aufkommende Ansatz der impliziten neuronalen Darstellungen (Implicit Neural Representations, INRs), die ein kontinuierliches Signal in ein parametrisiertes neuronales Netzwerk kodieren, diese Herausforderung effektiv abmildern kann. Durch die Nutzung von INRs für Videos stellen wir einen dynamikbewussten impliziten generativen adversarialen Netzwerkansatz (Dynamics-aware Implicit Generative Adversarial Network, DIGAN) vor, ein neuartiges generatives adversariales Netzwerk zur Video-Generierung. Konkret führen wir (a) einen auf INRs basierenden Video-Generator ein, der die Bewegungsdynamik durch unterschiedliche Manipulation von Raum- und Zeitkoordinaten verbessert, sowie (b) einen Bewegungsdiskriminator, der unnatürliche Bewegungen effizient identifiziert, ohne die gesamten langen Frame-Sequenzen beobachten zu müssen. Wir demonstrieren die Überlegenheit von DIGAN an mehreren Datensätzen und zeigen mehrere beeindruckende Eigenschaften, darunter die Synthese langer Videos, die Extrapolation von Videos sowie die nicht-autoregressive Video-Generierung. So verbessert DIGAN den bisherigen Stand der Technik bezüglich des FVD-Scores auf dem UCF-101-Datensatz um 30,7 % und kann auf Videos mit 128 Frames mit einer Auflösung von 128×128 trainiert werden – das entspricht einer Länge von 80 Frames mehr als der bisherige Stand der Technik, der mit 48 Frames arbeitete.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Erzeugung von Videos mit dynamikbewussten impliziten generativen adversarialen Netzwerken | Paper | HyperAI