vor 9 Tagen

CCVS: kontextbewusste steuerbare Video-Synthese

Guillaume Le Moing, Jean Ponce, Cordelia Schmid

Abstract

Diese Präsentation stellt einen selbstüberwachten Lernansatz zur Synthese neuer Videoclips aus bestehenden Clips vor, der mehrere neue Schlüsselelemente zur Verbesserung der räumlichen Auflösung und Realitätsnähe enthält: Der Syntheseprozess wird an kontextuelle Informationen für zeitliche Kontinuität sowie an zusätzliche Hilfsinformationen zur feinabgestimmten Steuerung angepasst. Das Vorhersagemodell ist doppelt autoregressiv – im Latentraum eines Autoencoders zur Vorhersage und im Bildraum zur Aktualisierung des Kontexts – wobei dieser Kontext zudem über ein lernfähiges Optikflussmodul zur Sicherstellung von raumzeitlicher Konsistenz genutzt wird. Die adversarische Trainingsstrategie des Autoencoders sowohl im Erscheinungsbild- als auch im zeitlichen Bereich dient der weiteren Steigerung der Realitätsnähe der Ausgabe. Ein Quantisierer, der zwischen Encoder und Transformer platziert ist, der die Vorhersage zukünftiger Frames im Latentraum übernimmt (und dessen inverses Pendant zwischen Transformer und Decoder), verleiht zudem zusätzliche Flexibilität, indem er einfache Mechanismen zur Handhabung multimodaler Hilfsinformationen für die Steuerung des Syntheseprozesses ermöglicht (z. B. einige Beispielbilder, ein Audiotrack, eine Trajektorie im Bildraum) und die inhärente Unsicherheit der Zukunft berücksichtigt, indem mehrere Vorhersagen zugelassen werden. Experimente mit einer Implementierung des vorgeschlagenen Ansatzes erzielen sehr gute qualitative und quantitative Ergebnisse auf mehreren Aufgaben und Standardbenchmarks.