MixTeacher : Extraction de labels prometteurs à l'aide d'un enseignant à échelle mixte pour la détection d'objets semi-supervisée

La variation d’échelle entre les instances d’objets constitue encore un défi majeur dans la détection d’objets. Malgré les progrès remarquables réalisés par les modèles de détection modernes, ce défi est particulièrement marqué dans le cadre de la détection semi-supervisée. Alors que les méthodes existantes de détection semi-supervisée reposent sur des conditions strictes pour filtrer des pseudo-étiquettes de haute qualité à partir des prédictions du réseau, nous observons que les objets présentant une échelle extrême ont tendance à être associés à une faible confiance, entraînant un manque de supervision positive pour ces objets. Dans cet article, nous proposons un cadre novateur visant à résoudre le problème de la variation d’échelle en introduisant un enseignant à échelle mixte afin d’améliorer la génération de pseudo-étiquettes et d’encourager un apprentissage invariant à l’échelle. En outre, nous proposons une stratégie d’extraction de pseudo-étiquettes basée sur une promotion du score des prédictions à travers différentes échelles, exploitant ainsi des prédictions améliorées issues de caractéristiques à échelle mixte. Nos expériences étendues sur les benchmarks MS COCO et PASCAL VOC, sous diverses configurations semi-supervisées, démontrent que notre méthode atteint de nouveaux états de l’art. Le code et les modèles sont disponibles à l’adresse \url{https://github.com/lliuz/MixTeacher}.