il y a 3 mois

Vers une modélisation générative end-to-end de vidéos longues avec des transformateurs bidirectionnels à faible consommation de mémoire

Jaehoon Yoo, Semin Kim, Doyup Lee, Chiheon Kim, Seunghoon Hong

Résumé

Les transformateurs autoregressifs ont connu un succès remarquable dans la génération vidéo. Toutefois, ces modèles sont limités dans leur capacité à apprendre directement les dépendances à long terme dans les vidéos en raison de la complexité quadratique de l’attention auto-associative, et souffrent intrinsèquement de temps de décodage lent et de propagation d’erreurs due au processus autoregressif. Dans ce travail, nous proposons le Memory-efficient Bidirectional Transformer (MeBT), une méthode permettant un apprentissage end-to-end des dépendances à long terme dans les vidéos ainsi qu’une inférence rapide. Inspiré des avancées récentes sur les transformateurs bidirectionnels, notre approche apprend à décoder en parallèle l’intégralité du volume spatio-temporel d’une vidéo à partir de fragments partiellement observés. Le transformateur proposé atteint une complexité temporelle linéaire à la fois en encodage et en décodage, en projetant les jetons de contexte observables vers un nombre fixe de jetons latents, puis en les conditionnant pour décoder les jetons masqués via une attention croisée. Grâce à cette complexité linéaire et à la modélisation bidirectionnelle, notre méthode montre une amélioration significative par rapport aux transformateurs autoregressifs pour la génération de vidéos de longueur modérée, tant en termes de qualité que de vitesse. Les vidéos et le code sont disponibles à l’adresse suivante : https://sites.google.com/view/mebt-cvpr2023.