Command Palette
Search for a command to run...
Anchor DETR : Conception des requêtes pour la détection d'objets basée sur les Transformers
Anchor DETR : Conception des requêtes pour la détection d'objets basée sur les Transformers
Yingming Wang Xiangyu Zhang Tong Yang Jian Sun
Résumé
Dans cet article, nous proposons une nouvelle conception de requêtes pour la détection d'objets basée sur les transformateurs. Dans les détecteurs précédents fondés sur les transformateurs, les requêtes d'objets sont un ensemble d'embeddings appris. Toutefois, chaque embedding appris n’a pas de signification physique explicite, et il est impossible d’expliquer où il va se concentrer. Cette absence de localisation précise rend difficile l’optimisation, car chaque slot de prédiction associé à une requête d’objet ne correspond pas à un mode spécifique. Autrement dit, chaque requête d’objet ne se concentre pas sur une région précise. Pour résoudre ces problèmes, notre conception de requêtes repose sur des points d’ancrage (anchor points), largement utilisés dans les détecteurs basés sur les réseaux de neurones convolutifs (CNN). Ainsi, chaque requête d’objet se concentre sur les objets situés à proximité d’un point d’ancrage. En outre, notre approche permet de prédire plusieurs objets à une même position, ce qui permet de surmonter le défi dit « une région, plusieurs objets ». Par ailleurs, nous avons conçu une variante de l’attention qui réduit la consommation mémoire tout en atteignant des performances équivalentes ou supérieures à celles de l’attention standard dans DETR. Grâce à cette conception de requêtes et à la variante d’attention, le détecteur proposé, que nous appelons Anchor DETR, atteint de meilleures performances tout en étant plus rapide que DETR, avec 10 fois moins d’époques d’entraînement. Par exemple, il atteint un score AP de 44,2 à 19 FPS sur le jeu de données MSCOCO en utilisant des caractéristiques extraites par ResNet50-DC5 après 50 époques d’entraînement. Des expériences étendues sur le benchmark MSCOCO confirment l’efficacité des méthodes proposées. Le code est disponible à l’adresse suivante : \url{https://github.com/megvii-research/AnchorDETR}.