HyperAIHyperAI
vor 3 Monaten

Zu einer end-to-end generativen Modellierung langer Videos mit speicher-effizienten bidirektionalen Transformers

Jaehoon Yoo, Semin Kim, Doyup Lee, Chiheon Kim, Seunghoon Hong
Zu einer end-to-end generativen Modellierung langer Videos mit speicher-effizienten bidirektionalen Transformers
Abstract

Autoregressive Transformers haben bei der Videogenerierung bemerkenswerte Erfolge erzielt. Aufgrund der quadratischen Komplexität der Self-Attention sind Transformers jedoch grundsätzlich daran gehindert, langfristige Abhängigkeiten in Videos direkt zu lernen, und leiden zudem inhärent unter langsamer Inferenzzeit und Fehlerfortpflanzung aufgrund des autoregressiven Prozesses. In diesem Paper stellen wir den Memory-effizienten bidirektionalen Transformer (MeBT) vor, der die end-to-end-Lernung langfristiger Abhängigkeiten in Videos und eine schnelle Inferenz ermöglicht. Aufbauend auf jüngsten Fortschritten bei bidirektionalen Transformers lernt unsere Methode, den gesamten spatio-temporalen Volumen eines Videos parallel aus teilweise beobachteten Patchen zu decodieren. Der vorgeschlagene Transformer erreicht eine lineare Zeitkomplexität sowohl bei der Kodierung als auch bei der Decodierung, indem sichtbare Kontext-Token in eine feste Anzahl latenter Token projiziert und diese zur Decodierung der maskierten Token über Cross-Attention konditioniert werden. Durch die Kombination linearer Komplexität und bidirektionaler Modellierung zeigt unsere Methode im Vergleich zu autoregressiven Transformers eine signifikante Verbesserung bei der Generierung mittellanger Videos hinsichtlich Qualität und Geschwindigkeit. Videos und Code sind verfügbar unter https://sites.google.com/view/mebt-cvpr2023.