il y a 2 mois

iBOT : Pré-entraînement de BERT pour les images avec un tokeniseur en ligne

Jinghao Zhou; Chen Wei; Huiyu Wang; Wei Shen; Cihang Xie; Alan Yuille; Tao Kong

Résumé

Le succès des Transformers linguistiques est principalement attribué à la tâche prétexte de modélisation de langage masquée (MLM), où les textes sont d'abord tokenisés en éléments sémantiquement significatifs. Dans cette étude, nous examinons la modélisation d'image masquée (MIM) et soulignons les avantages et les défis liés à l'utilisation d'un tokeniseur visuel sémantiquement significatif. Nous présentons un cadre auto-supervisé appelé iBOT qui peut effectuer des prédictions masquées avec un tokeniseur en ligne. Plus précisément, nous réalisons une distillation auto-supervisée sur les tokens de patch masqués et utilisons le réseau enseignant comme tokeniseur en ligne, tout en effectuant une distillation auto-supervisée sur le token de classe pour acquérir des sémantiques visuelles. Le tokeniseur en ligne est appris conjointement avec l'objectif MIM et supprime la nécessité d'un pipeline de formation multistade où le tokeniseur doit être pré-entraîné au préalable. Nous démontrons l'excellence d'iBOT en atteignant une précision de sondage linéaire de 82,3 % et une précision d'affinage de 87,8 % évaluées sur ImageNet-1K. Au-delà des résultats exceptionnels en classification d'images, nous mettons en évidence des motifs sémantiques locaux émergents, ce qui aide les modèles à obtenir une forte robustesse face aux corruptions courantes et à atteindre des résultats de pointe dans les tâches downstream denses, telles que la détection d'objets, la segmentation d'instances et la segmentation sémantique.