TOOD : Détection d'objets à une étape alignée sur la tâche

La détection d’objets à une seule étape est généralement mise en œuvre en optimisant deux sous-tâches : la classification d’objets et la localisation, à l’aide de têtes comportant deux branches parallèles, ce qui peut entraîner un certain degré d’alignement spatial inexact entre les prédictions des deux tâches. Dans ce travail, nous proposons une détection d’objets à une seule étape alignée aux tâches (TOOD), qui aligne explicitement les deux tâches de manière apprise. Premièrement, nous concevons une nouvelle tête alignée aux tâches (T-Head), qui offre un meilleur équilibre entre l’apprentissage des caractéristiques interactives entre les tâches et celles spécifiques à chaque tâche, ainsi qu’une plus grande flexibilité pour apprendre l’alignement grâce à un prédicteur aligné aux tâches. Deuxièmement, nous introduisons un apprentissage d’alignement des tâches (TAL), qui rapproche explicitement (voire unifie) les ancres optimales des deux tâches pendant l’entraînement, via un schéma de attribution d’échantillons conçu spécifiquement et une fonction de perte alignée aux tâches. Des expériences étendues ont été menées sur MS-COCO, où TOOD atteint un score de 51,1 AP lors d’un test à modèle unique et échelle unique. Ce résultat dépasse largement les détecteurs à une seule étape récents, tels qu’ATSS (47,7 AP), GFL (48,2 AP) et PAA (49,0 AP), tout en nécessitant moins de paramètres et de FLOPs. Des résultats qualitatifs démontrent également l’efficacité de TOOD pour améliorer l’alignement entre les tâches de classification d’objets et de localisation. Le code est disponible à l’adresse suivante : https://github.com/fcjian/TOOD.