Exploration des architectures de Transformers à vision simple pour la détection d'objets

Nous explorons le Vision Transformer (ViT) simple et non hiérarchique en tant que réseau de base pour la détection d'objets. Cette conception permet d'ajuster l'architecture originale du ViT à la détection d'objets sans avoir besoin de redessiner un réseau de base hiérarchique pour l'apprentissage préalable. Avec des adaptations minimales pour l'ajustement fin, notre détecteur à réseau de base simple peut obtenir des résultats compétitifs. De manière surprenante, nous observons que : (i) il est suffisant de construire une pyramide de caractéristiques simple à partir d'une carte de caractéristiques mono-échelle (sans le design FPN courant) et (ii) il est suffisant d'utiliser l'attention par fenêtre (sans décalage) assistée par très peu de blocs de propagation inter-fenêtres. En utilisant des backbones ViT simples pré-entraînés comme Autoencodeurs Masqués (MAE), notre détecteur, nommé ViTDet, peut rivaliser avec les méthodes précédentes basées sur des backbones hiérarchiques, atteignant jusqu'à 61,3 AP_box sur le jeu de données COCO en utilisant uniquement un apprentissage préalable sur ImageNet-1K. Nous espérons que notre étude attirera l'attention sur la recherche relative aux détecteurs à réseau de base simple. Le code pour ViTDet est disponible dans Detectron2.