Command Palette
Search for a command to run...
Une image vaut 32 jetons pour la reconstruction et la génération
Une image vaut 32 jetons pour la reconstruction et la génération
Qihang Yu Mark Weber Xueqing Deng Xiaohui Shen Daniel Cremers Liang-Chieh Chen
Résumé
Les avancées récentes des modèles génératifs ont mis en évidence le rôle crucial de la tokenisation d’images dans la synthèse efficace d’images haute résolution. La tokenisation, qui transforme les images en représentations latentes, réduit les contraintes computationnelles par rapport au traitement direct des pixels, tout en améliorant l’efficacité et la performance du processus de génération. Les méthodes antérieures, telles que VQGAN, utilisent généralement des grilles latentes 2D avec des facteurs de décimation fixes. Toutefois, ces approches de tokenisation 2D peinent à gérer les redondances inhérentes aux images, où des régions adjacentes présentent fréquemment des similarités. Pour surmonter ce problème, nous proposons le Transformer-based 1-Dimensional Tokenizer (TiTok), une approche innovante qui tokenise les images en séquences latentes 1D. TiTok offre une représentation latente plus compacte, produisant des représentations nettement plus efficaces et performantes que les techniques classiques. Par exemple, une image de taille 256 × 256 × 3 peut être réduite à seulement 32 tokens discrets, une réduction significative par rapport aux 256 ou 1024 tokens obtenus par les méthodes antérieures. Malgré sa compacité, TiTok atteint des performances compétitives par rapport aux approches de pointe. En particulier, en utilisant le même cadre de générateur, TiTok obtient un score gFID de 1,97, surpassant de manière significative la méthode de référence MaskGIT (différence de 4,21) sur le benchmark ImageNet 256 × 256. Les avantages de TiTok deviennent encore plus marquants à des résolutions plus élevées : sur le benchmark ImageNet 512 × 512, TiTok non seulement dépasse le modèle de diffusion de pointe DiT-XL/2 (gFID 2,74 contre 3,04), mais réduit également le nombre de tokens d’image de 64 fois, entraînant un processus de génération 410 fois plus rapide. La meilleure variante de TiTok dépasse même significativement DiT-XL/2 (gFID 2,13 contre 3,04) tout en générant des échantillons de haute qualité 74 fois plus rapidement.