HyperAIHyperAI

Command Palette

Search for a command to run...

CCVS: kontextbewusste steuerbare Video-Synthese

Guillaume Le Moing Jean Ponce Cordelia Schmid

Zusammenfassung

Diese Präsentation stellt einen selbstüberwachten Lernansatz zur Synthese neuer Videoclips aus bestehenden Clips vor, der mehrere neue Schlüsselelemente zur Verbesserung der räumlichen Auflösung und Realitätsnähe enthält: Der Syntheseprozess wird an kontextuelle Informationen für zeitliche Kontinuität sowie an zusätzliche Hilfsinformationen zur feinabgestimmten Steuerung angepasst. Das Vorhersagemodell ist doppelt autoregressiv – im Latentraum eines Autoencoders zur Vorhersage und im Bildraum zur Aktualisierung des Kontexts – wobei dieser Kontext zudem über ein lernfähiges Optikflussmodul zur Sicherstellung von raumzeitlicher Konsistenz genutzt wird. Die adversarische Trainingsstrategie des Autoencoders sowohl im Erscheinungsbild- als auch im zeitlichen Bereich dient der weiteren Steigerung der Realitätsnähe der Ausgabe. Ein Quantisierer, der zwischen Encoder und Transformer platziert ist, der die Vorhersage zukünftiger Frames im Latentraum übernimmt (und dessen inverses Pendant zwischen Transformer und Decoder), verleiht zudem zusätzliche Flexibilität, indem er einfache Mechanismen zur Handhabung multimodaler Hilfsinformationen für die Steuerung des Syntheseprozesses ermöglicht (z. B. einige Beispielbilder, ein Audiotrack, eine Trajektorie im Bildraum) und die inhärente Unsicherheit der Zukunft berücksichtigt, indem mehrere Vorhersagen zugelassen werden. Experimente mit einer Implementierung des vorgeschlagenen Ansatzes erzielen sehr gute qualitative und quantitative Ergebnisse auf mehreren Aufgaben und Standardbenchmarks.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CCVS: kontextbewusste steuerbare Video-Synthese | Paper | HyperAI