il y a 2 mois

Exploration des architectures de Transformers à vision simple pour la détection d'objets

Li, Yanghao ; Mao, Hanzi ; Girshick, Ross ; He, Kaiming

Résumé

Nous explorons le Vision Transformer (ViT) simple et non hiérarchique en tant que réseau de base pour la détection d'objets. Cette conception permet d'ajuster l'architecture originale du ViT à la détection d'objets sans avoir besoin de redessiner un réseau de base hiérarchique pour l'apprentissage préalable. Avec des adaptations minimales pour l'ajustement fin, notre détecteur à réseau de base simple peut obtenir des résultats compétitifs. De manière surprenante, nous observons que : (i) il est suffisant de construire une pyramide de caractéristiques simple à partir d'une carte de caractéristiques mono-échelle (sans le design FPN courant) et (ii) il est suffisant d'utiliser l'attention par fenêtre (sans décalage) assistée par très peu de blocs de propagation inter-fenêtres. En utilisant des backbones ViT simples pré-entraînés comme Autoencodeurs Masqués (MAE), notre détecteur, nommé ViTDet, peut rivaliser avec les méthodes précédentes basées sur des backbones hiérarchiques, atteignant jusqu'à 61,3 AP_box sur le jeu de données COCO en utilisant uniquement un apprentissage préalable sur ImageNet-1K. Nous espérons que notre étude attirera l'attention sur la recherche relative aux détecteurs à réseau de base simple. Le code pour ViTDet est disponible dans Detectron2.