HyperAIHyperAI

Command Palette

Search for a command to run...

Augmenter la taille du codebook de VQGAN à 100 000 avec un taux d’utilisation de 99 %

Lei Zhu Fangyun Wei Yanye Lu Dong Chen

Résumé

Dans le domaine de la quantification d’images, illustrée par VQGAN, le processus consiste à encoder les images en des jetons discrets extraits d’un codebook de taille prédéfinie. Les avancées récentes, notamment avec LLAMA 3, montrent que l’agrandissement significatif du codebook améliore notablement les performances du modèle. Toutefois, VQGAN et ses dérivés, tels que VQGAN-FC (Codes factorisés) et VQGAN-EMA, continuent de faire face à des défis liés à l’expansion de la taille du codebook et à l’amélioration de son utilisation. Par exemple, VQGAN-FC est limité à l’apprentissage d’un codebook dont la taille maximale est de 16 384, tout en maintenant un taux d’utilisation généralement inférieur à 12 % sur ImageNet. Dans ce travail, nous proposons un nouveau modèle de quantification d’images nommé VQGAN-LC (Large Codebook), qui étend la taille du codebook à 100 000 éléments, atteignant un taux d’utilisation dépassant 99 %. Contrairement aux méthodes précédentes qui optimisent chaque entrée du codebook individuellement, notre approche part d’un codebook initialement constitué de 100 000 caractéristiques extraites par un encodeur vision pré-entraîné. L’optimisation se concentre ensuite sur l’entraînement d’un projecteur qui aligne l’ensemble du codebook avec les distributions de caractéristiques de l’encodeur dans le cadre de VQGAN-LC. Nous démontrons la supériorité de notre modèle par rapport à ses prédécesseurs sur diverses tâches, notamment la reconstruction d’images, la classification d’images, la génération d’images auto-régressive à l’aide de GPT, ainsi que la création d’images par des modèles génératifs basés sur la diffusion ou les flux. Le code source et les modèles sont disponibles à l’adresse suivante : https://github.com/zh460045050/VQGAN-LC.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Augmenter la taille du codebook de VQGAN à 100 000 avec un taux d’utilisation de 99 % | Articles | HyperAI