Une image vaut 32 tokens pour la reconstruction et la génération

Les avancées récentes dans les modèles génératifs ont mis en évidence le rôle crucial de la tokenisation d’images dans la synthèse efficace d’images à haute résolution. La tokenisation, qui consiste à transformer les images en représentations latentes, réduit considérablement les contraintes computationnelles par rapport au traitement direct des pixels, tout en améliorant l’efficacité et la performance du processus de génération. Les méthodes antérieures, telles que VQGAN, utilisent généralement des grilles latentes 2D avec des facteurs de downsampling fixes. Toutefois, ces approches de tokenisation 2D peinent à gérer les redondances inhérentes aux images, où des régions adjacentes présentent fréquemment des similitudes. Pour surmonter ce défaut, nous introduisons le Transformer-based 1-Dimensional Tokenizer (TiTok), une approche innovante qui tokenise les images en séquences latentes 1D. TiTok offre une représentation latente plus compacte, produisant des représentations nettement plus efficaces et performantes que les techniques classiques. Par exemple, une image de taille 256 × 256 × 3 peut être réduite à seulement 32 tokens discrets, une réduction considérable par rapport aux 256 ou 1024 tokens obtenus par les méthodes antérieures. Malgré sa compacité, TiTok atteint des performances compétitives par rapport aux approches de pointe. En utilisant le même cadre de générateur, TiTok obtient un score gFID de 1,97, surpassant significativement la base MaskGIT de 4,21 sur le benchmark ImageNet 256 × 256. Les avantages de TiTok deviennent encore plus marquants à des résolutions plus élevées : sur le benchmark ImageNet 512 × 512, TiTok non seulement dépasse le modèle de diffusion de pointe DiT-XL/2 (gFID 2,74 contre 3,04), mais réduit également le nombre de tokens d’image de 64 fois, entraînant un processus de génération 410 fois plus rapide. La meilleure variante de TiTok dépasse encore significativement DiT-XL/2 (gFID 2,13 contre 3,04) tout en générant des échantillons de haute qualité 74 fois plus rapidement.