HyperAIHyperAI

Command Palette

Search for a command to run...

Une image vaut 32 jetons pour la reconstruction et la génération

Qihang Yu Mark Weber Xueqing Deng Xiaohui Shen Daniel Cremers Liang-Chieh Chen

Résumé

Les avancées récentes des modèles génératifs ont mis en évidence le rôle crucial de la tokenisation d’images dans la synthèse efficace d’images haute résolution. La tokenisation, qui transforme les images en représentations latentes, réduit les contraintes computationnelles par rapport au traitement direct des pixels, tout en améliorant l’efficacité et la performance du processus de génération. Les méthodes antérieures, telles que VQGAN, utilisent généralement des grilles latentes 2D avec des facteurs de décimation fixes. Toutefois, ces approches de tokenisation 2D peinent à gérer les redondances inhérentes aux images, où des régions adjacentes présentent fréquemment des similarités. Pour surmonter ce problème, nous proposons le Transformer-based 1-Dimensional Tokenizer (TiTok), une approche innovante qui tokenise les images en séquences latentes 1D. TiTok offre une représentation latente plus compacte, produisant des représentations nettement plus efficaces et performantes que les techniques classiques. Par exemple, une image de taille 256 × 256 × 3 peut être réduite à seulement 32 tokens discrets, une réduction significative par rapport aux 256 ou 1024 tokens obtenus par les méthodes antérieures. Malgré sa compacité, TiTok atteint des performances compétitives par rapport aux approches de pointe. En particulier, en utilisant le même cadre de générateur, TiTok obtient un score gFID de 1,97, surpassant de manière significative la méthode de référence MaskGIT (différence de 4,21) sur le benchmark ImageNet 256 × 256. Les avantages de TiTok deviennent encore plus marquants à des résolutions plus élevées : sur le benchmark ImageNet 512 × 512, TiTok non seulement dépasse le modèle de diffusion de pointe DiT-XL/2 (gFID 2,74 contre 3,04), mais réduit également le nombre de tokens d’image de 64 fois, entraînant un processus de génération 410 fois plus rapide. La meilleure variante de TiTok dépasse même significativement DiT-XL/2 (gFID 2,13 contre 3,04) tout en générant des échantillons de haute qualité 74 fois plus rapidement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Une image vaut 32 jetons pour la reconstruction et la génération | Articles | HyperAI