Head Dynamique : Unification des Heads de Détection d'Objets par le Biais des Atteintes

La nature complexe de la combinaison de la localisation et de la classification dans la détection d'objets a conduit au développement florissant de nombreuses méthodes. Les travaux antérieurs ont cherché à améliorer les performances des têtes de détection d'objets sous diverses formes, mais ont échoué à proposer une vue unifiée. Dans cet article, nous présentons un nouveau cadre de tête dynamique visant à unifier les têtes de détection d'objets grâce à l'attention. En combinant de manière cohérente plusieurs mécanismes d'attention auto-associative entre les niveaux de caractéristiques pour assurer une prise en compte de l'échelle, entre les emplacements spatiaux pour une prise en compte spatiale, et au sein des canaux de sortie pour une prise en compte des tâches, l'approche proposée améliore significativement la capacité de représentation des têtes de détection d'objets, sans surcharge computationnelle. Des expériences supplémentaires démontrent l'efficacité et l'efficience de la tête dynamique proposée sur le benchmark COCO. Avec un modèle de base standard ResNeXt-101-DCN, nous améliorons considérablement les performances par rapport aux détecteurs d'objets populaires et atteignons un nouveau record mondial avec 54,0 AP. En outre, en utilisant un modèle de base transformer récent et des données supplémentaires, nous parvenons à établir un nouveau record sur COCO avec 60,6 AP. Le code sera mis à disposition à l'adresse suivante : https://github.com/microsoft/DynamicHead.