vor 6 Monaten

Zusammenfassung

Die Generierung eines Videos anhand der ersten mehrerer statischer Bilder ist herausfordernd, da sie die Vorhersage plausibler zukünftiger Frames mit zeitlicher Kohärenz erfordert. Neben der Videovorhersage ist auch die Fähigkeit, rückwärts vom letzten Frame zu spielen oder Lücken zwischen Anfang und Ende zu füllen, von entscheidender Bedeutung, wird jedoch für die Videovervollständigung selten untersucht. Da aus lediglich wenigen Frames unterschiedliche mögliche Fortsetzungen resultieren können, kann ein System, das Anweisungen in natürlicher Sprache versteht und zur Videovervollständigung nutzt, die Kontrollierbarkeit erheblich verbessern. Inspiriert durch diese Überlegung führen wir eine neue Aufgabe ein: textgesteuerte Videovervollständigung (Text-guided Video Completion, TVC), bei der das Modell ein Video aus partiellen Bildern unter Anleitung einer Anweisung generieren soll. Daraufhin schlagen wir Multimodale Maskierte Videogenerierung (Multimodal Masked Video Generation, MMVG) zur Lösung dieser TVC-Aufgabe vor. Während des Trainings diskretisiert MMVG die Videobilder in visuelle Tokens und maskiert die meisten davon, um die Vervollständigung von beliebigen Zeitpunkten aus durchzuführen. Im Inference-Modus kann ein einzelnes MMVG-Modell alle drei Fälle der TVC- Aufgabe – Videovorhersage, Rückwärtsabspielung und Lückenfüllung – durch Anwendung entsprechender Maskierungsbedingungen bewältigen. Wir evaluieren MMVG in verschiedenen Video-Szenarien, darunter Egocentric-Videos, Animationen und Spielszenen. Umfangreiche experimentelle Ergebnisse zeigen, dass MMVG effektiv ist, hochwertige visuelle Darstellungen unter textueller Steuerung für die TVC-Aufgabe zu generieren.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Tsu-Jui Fu Licheng Yu Ning Zhang Cheng-Yang Fu Jong-Chyi Su William Yang Wang Sean Bell

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Tsu-Jui Fu Licheng Yu Ning Zhang Cheng-Yang Fu Jong-Chyi Su William Yang Wang Sean Bell

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Sag mir, was passiert ist: Einheitliche textgesteuerte Videovervollständigung mittels multimodaler maskierter Videogenerierung

Tsu-Jui Fu Licheng Yu Ning Zhang Cheng-Yang Fu Jong-Chyi Su William Yang Wang Sean Bell

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Sag mir, was passiert ist: Einheitliche textgesteuerte Videovervollständigung mittels multimodaler maskierter Videogenerierung

Tsu-Jui Fu Licheng Yu Ning Zhang Cheng-Yang Fu Jong-Chyi Su William Yang Wang Sean Bell

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Sag mir, was passiert ist: Einheitliche textgesteuerte Videovervollständigung mittels multimodaler maskierter Videogenerierung

Tsu-Jui Fu Licheng Yu Ning Zhang Cheng-Yang Fu Jong-Chyi Su William Yang Wang Sean Bell

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters