HyperAIHyperAI

Command Palette

Search for a command to run...

Exploration des architectures de Transformers à vision simple pour la détection d'objets

Yanghao Li Hanzi Mao Ross Girshick† Kaiming He‡

Résumé

Nous explorons le Vision Transformer (ViT) simple et non hiérarchique en tant que réseau de base pour la détection d'objets. Cette conception permet d'ajuster l'architecture originale du ViT à la détection d'objets sans avoir besoin de redessiner un réseau de base hiérarchique pour l'apprentissage préalable. Avec des adaptations minimales pour l'ajustement fin, notre détecteur à réseau de base simple peut obtenir des résultats compétitifs. De manière surprenante, nous observons que : (i) il est suffisant de construire une pyramide de caractéristiques simple à partir d'une carte de caractéristiques mono-échelle (sans le design FPN courant) et (ii) il est suffisant d'utiliser l'attention par fenêtre (sans décalage) assistée par très peu de blocs de propagation inter-fenêtres. En utilisant des backbones ViT simples pré-entraînés comme Autoencodeurs Masqués (MAE), notre détecteur, nommé ViTDet, peut rivaliser avec les méthodes précédentes basées sur des backbones hiérarchiques, atteignant jusqu'à 61,3 AP_box sur le jeu de données COCO en utilisant uniquement un apprentissage préalable sur ImageNet-1K. Nous espérons que notre étude attirera l'attention sur la recherche relative aux détecteurs à réseau de base simple. Le code pour ViTDet est disponible dans Detectron2.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp