HyperAIHyperAI
vor 7 Tagen

Sag mir, was passiert ist: Einheitliche textgesteuerte Videovervollständigung mittels multimodaler maskierter Videogenerierung

Tsu-Jui Fu, Licheng Yu, Ning Zhang, Cheng-Yang Fu, Jong-Chyi Su, William Yang Wang, Sean Bell
Sag mir, was passiert ist: Einheitliche textgesteuerte Videovervollständigung mittels multimodaler maskierter Videogenerierung
Abstract

Die Generierung eines Videos anhand der ersten mehrerer statischer Bilder ist herausfordernd, da sie die Vorhersage plausibler zukünftiger Frames mit zeitlicher Kohärenz erfordert. Neben der Videovorhersage ist auch die Fähigkeit, rückwärts vom letzten Frame zu spielen oder Lücken zwischen Anfang und Ende zu füllen, von entscheidender Bedeutung, wird jedoch für die Videovervollständigung selten untersucht. Da aus lediglich wenigen Frames unterschiedliche mögliche Fortsetzungen resultieren können, kann ein System, das Anweisungen in natürlicher Sprache versteht und zur Videovervollständigung nutzt, die Kontrollierbarkeit erheblich verbessern. Inspiriert durch diese Überlegung führen wir eine neue Aufgabe ein: textgesteuerte Videovervollständigung (Text-guided Video Completion, TVC), bei der das Modell ein Video aus partiellen Bildern unter Anleitung einer Anweisung generieren soll. Daraufhin schlagen wir Multimodale Maskierte Videogenerierung (Multimodal Masked Video Generation, MMVG) zur Lösung dieser TVC-Aufgabe vor. Während des Trainings diskretisiert MMVG die Videobilder in visuelle Tokens und maskiert die meisten davon, um die Vervollständigung von beliebigen Zeitpunkten aus durchzuführen. Im Inference-Modus kann ein einzelnes MMVG-Modell alle drei Fälle der TVC- Aufgabe – Videovorhersage, Rückwärtsabspielung und Lückenfüllung – durch Anwendung entsprechender Maskierungsbedingungen bewältigen. Wir evaluieren MMVG in verschiedenen Video-Szenarien, darunter Egocentric-Videos, Animationen und Spielszenen. Umfangreiche experimentelle Ergebnisse zeigen, dass MMVG effektiv ist, hochwertige visuelle Darstellungen unter textueller Steuerung für die TVC-Aufgabe zu generieren.

Sag mir, was passiert ist: Einheitliche textgesteuerte Videovervollständigung mittels multimodaler maskierter Videogenerierung | Neueste Forschungsarbeiten | HyperAI