LARP : Tokenisation de vidéos avec un générateur autorégressif appris

Nous présentons LARP, un nouveau tokeniseur vidéo conçu pour surmonter les limitations des méthodes actuelles de tokenisation vidéo pour les modèles génératifs autorégressifs (AR). Contrairement aux tokeniseurs par patch traditionnels qui encodent directement des patchs visuels locaux en tokens discrets, LARP introduit un schéma de tokenisation holistique qui rassemble des informations à partir du contenu visuel à l'aide d'un ensemble de requêtes holistiques apprises. Cette conception permet à LARP de capturer des représentations plus globales et sémantiques, plutôt que d'être limité aux informations au niveau des patchs locaux. De plus, elle offre une flexibilité en supportant un nombre arbitraire de tokens discrets, ce qui permet une tokenisation adaptative et efficace basée sur les exigences spécifiques de la tâche. Pour aligner l'espace de tokens discrets avec les tâches de génération AR en aval, LARP intègre un petit transformateur AR comme modèle prédictif lors de l'entraînement, capable de prédire le prochain token dans son espace latent discret. En incorporant ce modèle prédictif pendant l'entraînement, LARP apprend un espace latent non seulement optimisé pour la reconstruction vidéo mais également structuré de manière à faciliter davantage la génération autorégressive. De plus, ce processus définit un ordre séquentiel pour les tokens discrets, les poussant progressivement vers une configuration optimale pendant l'entraînement, garantissant ainsi une génération AR plus fluide et précise lors de l'inférence. Des expériences exhaustives démontrent les performances remarquables de LARP, atteignant un FVD record sur le banc d'essai UCF101 pour la génération vidéo conditionnelle par classe. LARP améliore la compatibilité des modèles AR avec les vidéos et ouvre la voie à la création de grands modèles linguistiques multimodaux (MLLMs) à haute fidélité unifiés.