HyperAIHyperAI
vor 7 Tagen

MCVD: Masked Conditional Video Diffusion für Vorhersage, Generierung und Interpolation

Vikram Voleti, Alexia Jolicoeur-Martineau, Christopher Pal
MCVD: Masked Conditional Video Diffusion für Vorhersage, Generierung und Interpolation
Abstract

Video-Vorhersage ist eine anspruchsvolle Aufgabe. Die Qualität der Videobilder, die aktuelle state-of-the-art (SOTA)-generative Modelle liefern, neigt dazu, schlecht zu sein, und die Generalisierung über die Trainingsdaten hinaus ist schwierig. Darüber hinaus sind bestehende Vorhersageframeworks typischerweise nicht in der Lage, gleichzeitig andere videobezogene Aufgaben wie bedingungslose Generierung oder Interpolation zu bewältigen. In dieser Arbeit stellen wir einen allgemein verwendbaren Ansatz namens Masked Conditional Video Diffusion (MCVD) vor, der alle diese Aufgaben der Video-Synthese mithilfe eines probabilistischen, bedingten score-basierten Diffusionsmodells ermöglicht, das auf vergangenen und/oder zukünftigen Frames bedingt ist. Wir trainieren das Modell auf eine Weise, bei der wir zufällig und unabhängig entweder alle vergangenen Frames oder alle zukünftigen Frames maskieren. Diese neuartige, jedoch einfache Architektur ermöglicht es, ein einziges Modell zu trainieren, das eine breite Palette an Video-Aufgaben ausführen kann: zukünftige oder vergangene Vorhersage – wenn lediglich zukünftige oder vergangene Frames maskiert sind; bedingungslose Generierung – wenn sowohl vergangene als auch zukünftige Frames maskiert sind; und Interpolation – wenn weder vergangene noch zukünftige Frames maskiert sind. Unsere Experimente zeigen, dass dieser Ansatz hochwertige Frames für unterschiedliche Videoarten generieren kann. Unsere MCVD-Modelle basieren auf einfachen, nicht rekursiven 2D-Faltungsarchitekturen, die auf Block-Gruppen von Frames bedingt sind und ebenfalls Block-Gruppen von Frames generieren. Wir erzeugen Videos beliebiger Länge autoregressiv in blockweiser Manier. Unser Ansatz erreicht SOTA-Ergebnisse auf etablierten Benchmarks für Video-Vorhersage und Interpolation, wobei die Trainingszeiten für die Modelle mit 1 bis 12 Tagen bei Nutzung von ≤ 4 GPUs gemessen wurden. Projektseite: https://mask-cond-video-diffusion.github.io; Code: https://github.com/voletiv/mcvd-pytorch

MCVD: Masked Conditional Video Diffusion für Vorhersage, Generierung und Interpolation | Neueste Forschungsarbeiten | HyperAI