HyperAIHyperAI

Command Palette

Search for a command to run...

vor 23 Tagen

VideoCanvas: Einheitliche Video-Vervollständigung aus beliebigen räumlich-zeitlichen Patchen mittels Kontextbedingung

Minghong Cai Qiulin Wang Zongli Ye Wenze Liu Quande Liu Weicai Ye Xintao Wang Pengfei Wan Kun Gai Xiangyu Yue

VideoCanvas: Einheitliche Video-Vervollständigung aus beliebigen räumlich-zeitlichen Patchen mittels Kontextbedingung

Abstract

Wir führen die Aufgabe der beliebigen spatio-temporalen Video-Vervollständigung ein, bei der ein Video aus beliebigen, vom Benutzer spezifizierten Patch-Regionen generiert wird, die an beliebigen räumlichen Positionen und Zeitpunkten platziert sind – vergleichbar mit dem Malen auf einer Video-Leinwand. Diese flexible Formulierung vereint nahtlos zahlreiche bestehende Aufgaben der steuerbaren Video-Generierung – darunter die Bild-zu-Video-Generierung aus dem ersten Frame, Inpainting, Erweiterung und Interpolation – unter einem einheitlichen, kohärenten Paradigma. Die Realisierung dieses Ansatzes stößt jedoch auf eine fundamentale Herausforderung bei modernen latenten Video-Diffusionsmodellen: die zeitliche Mehrdeutigkeit, die durch kausale VAEs verursacht wird, bei denen mehrere Pixel-Frames in einer einzigen latente Darstellung komprimiert werden, wodurch eine präzise frame-basierte Bedingung strukturell schwierig wird. Wir lösen diese Herausforderung mit VideoCanvas, einem neuartigen Framework, das das In-Context-Conditioning (ICC)-Paradigma für diese fein granulare Steuerungsaufgabe ohne zusätzliche Parameter anpasst. Wir schlagen eine hybride Bedingungsstrategie vor, die räumliche und zeitliche Steuerung entkoppelt: Die räumliche Platzierung erfolgt über Null-Padding, während die zeitliche Ausrichtung mittels Temporal RoPE-Interpolation erreicht wird, bei der jeder Bedingung eine kontinuierliche, gebrochene Position innerhalb der latente Sequenz zugewiesen wird. Dies beseitigt die zeitliche Mehrdeutigkeit der VAE und ermöglicht pixel-frame-orientierte Steuerung auf einem fixierten Backbone. Zur Evaluierung dieser neuen Fähigkeit entwickeln wir VideoCanvasBench, die erste Benchmark für beliebige spatio-temporale Video-Vervollständigung, die sowohl die intra-szenische Genauigkeit als auch die inter-szenische Kreativität abdeckt. Experimente zeigen, dass VideoCanvas bestehende Bedingungsparadigmen erheblich übertrifft und eine neue State-of-the-Art in der flexiblen und einheitlichen Video-Generierung etabliert.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VideoCanvas: Einheitliche Video-Vervollständigung aus beliebigen räumlich-zeitlichen Patchen mittels Kontextbedingung | Forschungsarbeiten | HyperAI