Les enseignants modèles enseignent mieux les élèves pour la détection d'objets semi-supervisée

Nous proposons une approche semi-supervisée pour les détecteurs d'objets contemporains, fondée sur le cadre de modélisation enseignant-étudiant. Notre méthode se distingue par trois caractéristiques principales : 1) une stratégie de moyenne mobile exponentielle pour mettre à jour en temps réel l'enseignant à partir de l'étudiant ; 2) l'utilisation d'un grand nombre de propositions régionales et de pseudo-étiquettes souples comme cibles d'entraînement pour l'étudiant ; 3) une méthode légère de fusion de données spécifique à la détection pour l'enseignant, permettant de générer des pseudo-étiquettes plus fiables. Contrairement à STAC, l'état de l'art récent qui repose sur des étiquettes dures sur des échantillons de pseudo-étiquettes rares et difficiles, notre modèle transmet à l'étudiant une information bien plus riche grâce à des pseudo-étiquettes souples sur un grand nombre de propositions. Sur l'ensemble de validation VOC07, notre modèle atteint un score AP de style COCO de 53,04 % en utilisant VOC12 comme données non étiquetées, soit une amélioration de 8,4 % par rapport à STAC. Sur MS-COCO, il surpasser l'ensemble des méthodes antérieures lorsque seule une faible proportion des données est étiquetée. En outre, il atteint un AP de 53,8 % sur le test-dev de MS-COCO, avec une amélioration de 3,1 % par rapport au modèle entièrement supervisé ResNet-152 Cascaded R-CNN, en exploitant des données non étiquetées d'une taille similaire à celle des données étiquetées.