OmniTokenizer : un tokeniseur conjoint image-vidéo pour la génération visuelle

Le tokenizer, qui agit comme un traducteur en convertissant les données visuelles complexes en un espace latente compact, constitue le cœur des modèles génératifs visuels. À la lumière du constat selon lequel les tokenizers existants sont spécifiquement conçus pour des entrées d’images ou de vidéos, ce papier présente OmniTokenizer, un tokenizer basé sur les transformeurs pour une tokenization conjointe d’images et de vidéos. OmniTokenizer repose sur une architecture décomposée spatiale et temporelle, intégrant des mécanismes d’attention par fenêtre et d’attention causale pour modéliser respectivement les dimensions spatiale et temporelle. Afin d’exploiter la complémentarité entre les données d’images et de vidéos, nous proposons également une stratégie d’entraînement progressive : OmniTokenizer est d’abord entraîné sur des données d’images à une résolution fixe afin de développer sa capacité d’encodage spatial, puis entraîné conjointement sur des images et des vidéos à plusieurs résolutions pour apprendre les dynamiques temporelles. Pour la première fois, OmniTokenizer traite à la fois les entrées d’images et de vidéos dans un cadre unifié, démontrant ainsi la faisabilité de leur synergie. Des expériences étendues montrent qu’OmniTokenizer atteint des performances de reconstruction de pointe (SOTA) sur diverses bases de données d’images et de vidéos, par exemple un FID de reconstruction de 1,11 sur ImageNet et un FVD de 42 sur UCF-101, surpassant les méthodes SOTA précédentes respectivement de 13 % et 26 %. En outre, nous démontrons également que, lorsqu’il est intégré à OmniTokenizer, tant les approches basées sur les modèles de langage que les modèles de diffusion peuvent réaliser des performances avancées de synthèse visuelle, soulignant ainsi l’efficacité et la polyvalence de notre méthode. Le code est disponible à l’adresse suivante : https://github.com/FoundationVision/OmniTokenizer.