HyperAIHyperAI

Command Palette

Search for a command to run...

iBOT : Pré-entraînement de BERT pour les images avec un tokeniseur en ligne

Jinghao Zhou¹ Chen Wei² Huiyu Wang² Wei Shen³ Cihang Xie⁴ Alan Yuille² Tao Kong¹

Résumé

Le succès des Transformers linguistiques est principalement attribué à la tâche prétexte de modélisation de langage masquée (MLM), où les textes sont d'abord tokenisés en éléments sémantiquement significatifs. Dans cette étude, nous examinons la modélisation d'image masquée (MIM) et soulignons les avantages et les défis liés à l'utilisation d'un tokeniseur visuel sémantiquement significatif. Nous présentons un cadre auto-supervisé appelé iBOT qui peut effectuer des prédictions masquées avec un tokeniseur en ligne. Plus précisément, nous réalisons une distillation auto-supervisée sur les tokens de patch masqués et utilisons le réseau enseignant comme tokeniseur en ligne, tout en effectuant une distillation auto-supervisée sur le token de classe pour acquérir des sémantiques visuelles. Le tokeniseur en ligne est appris conjointement avec l'objectif MIM et supprime la nécessité d'un pipeline de formation multistade où le tokeniseur doit être pré-entraîné au préalable. Nous démontrons l'excellence d'iBOT en atteignant une précision de sondage linéaire de 82,3 % et une précision d'affinage de 87,8 % évaluées sur ImageNet-1K. Au-delà des résultats exceptionnels en classification d'images, nous mettons en évidence des motifs sémantiques locaux émergents, ce qui aide les modèles à obtenir une forte robustesse face aux corruptions courantes et à atteindre des résultats de pointe dans les tâches downstream denses, telles que la détection d'objets, la segmentation d'instances et la segmentation sémantique.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp