Quantification par rétropropagation d'index pour une tokenisation d'image évolutif

Les méthodes existantes de quantification vectorielle (VQ) peinent à évoluer à grande échelle, en grande partie à cause de l’instabilité du codebook qui subit des mises à jour partielles durant l’entraînement. Le codebook est sujet à une collapse lorsque son utilisation diminue, en raison de l’écart croissant entre la distribution des codes non activés et les caractéristiques visuelles. Pour résoudre ce problème, nous proposons une nouvelle méthode de VQ appelée Index Backpropagation Quantization (IBQ), conçue pour l’optimisation conjointe de tous les embeddings du codebook et du encodeur visuel. En appliquant un estimateur de type « straight-through » à la distribution catégorique one-hot entre les caractéristiques encodées et le codebook, tous les codes deviennent différentiables et conservent un espace latent cohérent avec le encodeur visuel. L’IBQ permet un entraînement évolutif des tokeniseurs visuels et, pour la première fois, atteint un codebook à grande échelle (2¹⁸), à haute dimension (256) et à haute utilisation. Des expériences sur la référence standard ImageNet démontrent la scalabilité et l’efficacité supérieure de l’IBQ, obtenant des résultats compétitifs en reconstruction et dans l’application de génération visuelle autoregressive. Le code source et les modèles sont disponibles à l’adresse suivante : https://github.com/TencentARC/SEED-Voken.