PeCo : Codebook Perceptuel pour l'entraînement préalable de BERT des Transformers Vision

Cet article explore un meilleur objectif de prédiction pour l'entraînement préalable de vision transformers basé sur BERT. Nous observons que les objectifs de prédiction actuels sont en contradiction avec les jugements de perception humaine. Cette incohérence motive notre recherche d’un objectif de prédiction perceptuelle. Nous affirmons que des images perceptuellement similaires devraient rester proches l’une de l’autre dans l’espace des objectifs de prédiction. Nous découvrons de manière surprenante une idée simple mais efficace : imposer la similarité perceptuelle pendant l’entraînement du dVAE. En outre, nous utilisons un modèle transformer auto-supervisé pour l’extraction de caractéristiques profondes, et montrons qu’il est particulièrement adapté au calcul de similarité perceptuelle. Nous démontrons que ces tokens visuels appris présentent effectivement des significations sémantiques améliorées, et contribuent à une meilleure performance de transfert dans diverses tâches en aval. Par exemple, nous atteignons une précision Top-1 de $\textbf{84,5\%}$ sur ImageNet-1K en utilisant un modèle ViT-B comme architecture de base, dépassant ainsi la méthode concurrente BEiT de $\textbf{+1,3\%}$, avec le même nombre d’époques d’entraînement préalable. Notre approche obtient également des améliorations significatives pour la détection d’objets et la segmentation sur COCO, ainsi que pour la segmentation sémantique sur ADE20K. En utilisant une architecture plus grande (ViT-H), nous atteignons l’état de l’art sur ImageNet avec une précision de $\textbf{88,3\%}$, parmi les méthodes utilisant uniquement les données d’ImageNet-1K.