Omni-DETR : Détection d'objets omnivariée avec des Transformers sous supervision omnivariée

Nous considérons le problème de la détection d'objets supervisée de manière omnivore, qui permet d'utiliser des annotations non étiquetées, entièrement étiquetées et faiblement étiquetées — telles que des balises d'image, des comptages, des points, etc. — pour la détection d'objets. Ce cadre est rendu possible par une architecture unifiée, Omni-DETR, fondée sur les avancées récentes des méthodes de type « enseignant-élève » et des détecteurs basés sur les transformateurs en bout à bout. Dans cette architecture unifiée, divers types d'annotations faibles peuvent être exploités pour générer des pseudo-étiquettes précises, grâce à un mécanisme de filtrage basé sur un appariement bipartite, permettant ainsi à modèle d'apprendre efficacement. Les expérimentations montrent que Omni-DETR atteint des résultats de pointe sur plusieurs jeux de données et configurations. Nous avons également constaté que les annotations faibles contribuent à améliorer les performances de détection, et qu'un mélange de ces annotations permet d'obtenir un meilleur compromis entre le coût d'étiquetage et la précision par rapport à l'étiquetage complet standard. Ces résultats pourraient encourager la création de grands jeux de données pour la détection d'objets utilisant des annotations mixtes. Le code est disponible à l'adresse suivante : https://github.com/amazon-research/omni-detr.