Apprentissage à partir de sémantiques riches et de localisations grossières pour la détection d'objets à queue longue

La détection d'objets à queue longue (LTOD) vise à gérer l'extrême déséquilibre des données dans les ensembles de données du monde réel, où de nombreuses classes à queue longue ont peu d'instances. Une stratégie populaire consiste à explorer des données supplémentaires avec des étiquettes au niveau de l'image, mais elle produit des résultats limités en raison de (1) l'ambiguïté sémantique -- une étiquette au niveau de l'image ne capture qu'une partie saillante de l'image, ignorant les sémantiques riches restantes ; et (2) la sensibilité à la localisation -- l'étiquette dépend fortement des positions et des découpages de l'image originale, qui peuvent changer après des transformations de données comme le découpage aléatoire.Pour remédier à ces problèmes, nous proposons RichSem, une méthode simple mais efficace, robuste pour apprendre des sémantiques riches à partir de localisations grossières sans nécessiter des boîtes englobantes précises. RichSem exploite les sémantiques riches provenant des images, qui servent ensuite de supervision douce supplémentaire pour former les détecteurs. Plus précisément, nous ajoutons une branche sémantique à notre détecteur pour apprendre ces sémantiques douces et améliorer les représentations de caractéristiques pour la détection d'objets à queue longue. La branche sémantique n'est utilisée que pendant l'entraînement et est supprimée lors de l'inférence.RichSem obtient des améliorations constantes tant sur l'ensemble général que sur les catégories rares du LVIS sous différents backbones et détecteurs. Notre méthode atteint un niveau de performance state-of-the-art sans nécessiter des procédures d'entraînement et de test complexes. De plus, nous montrons l'efficacité de notre méthode sur d'autres ensembles de données à queue longue grâce à des expériences supplémentaires. Le code est disponible sur \url{https://github.com/MengLcool/RichSem}.