HyperAIHyperAI
vor 7 Tagen

Diffusionsmodelle für die Videovorhersage und -infilling

Tobias Höppe, Arash Mehrjou, Stefan Bauer, Didrik Nielsen, Andrea Dittadi
Diffusionsmodelle für die Videovorhersage und -infilling
Abstract

Das Vorhersagen zukünftiger Ergebnisse oder das Schließen auf fehlende Informationen in einer Sequenz sind entscheidende Fähigkeiten für Agenten, um intelligente Entscheidungen treffen zu können. Dazu sind leistungsfähige, zeitlich konsistente generative Fähigkeiten erforderlich. Diffusionsmodelle haben bei mehreren generativen Aufgaben bemerkenswerte Erfolge gezeigt, wurden jedoch bisher noch nicht umfassend im Video-Bereich untersucht. Wir präsentieren Random-Mask Video Diffusion (RaMViD), das Bild-Diffusionsmodelle durch den Einsatz von 3D-Faltungen auf Videos erweitert und eine neue Bedingungstechnik während des Trainings einführt. Durch Variation der Maske, auf die das Modell bedingt wird, ist es in der Lage, Videovorhersage, Infilling und Upsampling durchzuführen. Aufgrund unseres einfachen Bedingungsschemas können wir die gleiche Architektur wie bei der unbedingten Trainingsphase nutzen, was es ermöglicht, das Modell gleichzeitig bedingt und unbedingt zu trainieren. Wir evaluieren RaMViD an zwei Benchmark-Datensätzen für Videovorhersage, wo wir state-of-the-art Ergebnisse erzielen, sowie an einem Datensatz für Videogenerierung. Hochauflösende Videos sind unter https://sites.google.com/view/video-diffusion-prediction verfügbar.

Diffusionsmodelle für die Videovorhersage und -infilling | Neueste Forschungsarbeiten | HyperAI