Détection d'objets bout-en-bout avec des Transformers

Nous présentons une nouvelle méthode qui considère la détection d'objets comme un problème de prédiction directe d'ensemble. Notre approche simplifie significativement le pipeline de détection en éliminant efficacement la nécessité de nombreux composants conçus manuellement, tels que la suppression non maximale (non-maximum suppression) ou la génération d'ancres, qui codent explicitement nos connaissances a priori sur la tâche. Les principaux éléments du nouveau cadre, appelé DETR (DEtection TRansformer), sont une fonction de perte globale basée sur les ensembles, qui impose des prédictions uniques grâce à un appariement biparti, ainsi qu'une architecture d'encodeur-décodeur de type transformer. En s'appuyant sur un petit ensemble fixe de requêtes d'objets apprises, DETR raisonne sur les relations entre les objets et le contexte global de l'image pour produire directement, en parallèle, l'ensemble final des prédictions. Ce nouveau modèle est conceptuellement simple et ne nécessite pas de bibliothèque spécialisée, contrairement à de nombreux détecteurs modernes. DETR atteint une précision et une performance en temps d'exécution comparables à celles du modèle de référence bien établi et fortement optimisé, Faster RCNN, sur le difficile jeu de données COCO pour la détection d'objets. En outre, DETR peut être facilement généralisé pour produire une segmentation panoptique de manière unifiée, et nous montrons qu'il surpasse significativement les modèles de référence concurrents. Le code d'entraînement et les modèles pré-entraînés sont disponibles à l'adresse suivante : https://github.com/facebookresearch/detr.