Tous les jetons comptent : Étiquetage de jetons pour une meilleure formation des transformateurs visuels

Dans cet article, nous présentons le token labeling -- un nouvel objectif d'entraînement pour les transformateurs visuels de haute performance (ViTs). Contrairement à l'objectif d'entraînement standard des ViTs qui calcule la perte de classification sur un jeton de classe supplémentaire et entraînable, notre proposition utilise tous les jetons de patch d'image pour calculer la perte d'entraînement de manière dense.Plus précisément, le token labeling reformule le problème de classification d'images en plusieurs problèmes de reconnaissance au niveau des jetons et attribue à chaque jeton de patch une supervision individuelle spécifique à sa position, générée par un annotateur automatique. Les expériences montrent que le token labeling peut améliorer clairement et de manière cohérente les performances de divers modèles ViT sur un large éventail de tâches. Par exemple, pour un transformateur visuel avec 26 millions de paramètres apprenables, l'utilisation du token labeling permet d'atteindre une précision Top-1 de 84,4% sur ImageNet. Ce résultat peut être encore amélioré jusqu'à 86,4% en augmentant légèrement la taille du modèle à 150 millions de paramètres, ce qui constitue le modèle minimal parmi ceux précédemment atteignant 86% (250 millions+).Nous montrons également que le token labeling peut clairement améliorer la capacité de généralisation des modèles pré-entraînés sur des tâches en aval nécessitant des prédictions denses, telles que la segmentation sémantique. Notre code ainsi que tous les détails d'entraînement seront rendus publiquement disponibles sur https://github.com/zihangJiang/TokenLabeling.