HyperAIHyperAI

Command Palette

Search for a command to run...

Diffusionsmodelle für die Videovorhersage und -infilling

Tobias Höppe Arash Mehrjou Stefan Bauer Didrik Nielsen Andrea Dittadi

Zusammenfassung

Das Vorhersagen zukünftiger Ergebnisse oder das Schließen auf fehlende Informationen in einer Sequenz sind entscheidende Fähigkeiten für Agenten, um intelligente Entscheidungen treffen zu können. Dazu sind leistungsfähige, zeitlich konsistente generative Fähigkeiten erforderlich. Diffusionsmodelle haben bei mehreren generativen Aufgaben bemerkenswerte Erfolge gezeigt, wurden jedoch bisher noch nicht umfassend im Video-Bereich untersucht. Wir präsentieren Random-Mask Video Diffusion (RaMViD), das Bild-Diffusionsmodelle durch den Einsatz von 3D-Faltungen auf Videos erweitert und eine neue Bedingungstechnik während des Trainings einführt. Durch Variation der Maske, auf die das Modell bedingt wird, ist es in der Lage, Videovorhersage, Infilling und Upsampling durchzuführen. Aufgrund unseres einfachen Bedingungsschemas können wir die gleiche Architektur wie bei der unbedingten Trainingsphase nutzen, was es ermöglicht, das Modell gleichzeitig bedingt und unbedingt zu trainieren. Wir evaluieren RaMViD an zwei Benchmark-Datensätzen für Videovorhersage, wo wir state-of-the-art Ergebnisse erzielen, sowie an einem Datensatz für Videogenerierung. Hochauflösende Videos sind unter https://sites.google.com/view/video-diffusion-prediction verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Diffusionsmodelle für die Videovorhersage und -infilling | Paper | HyperAI