Efficient Teacher : Détection d'objets semi-supervisée pour YOLOv5

La détection d'objets semi-supervisée (SSOD) s'est avérée efficace pour améliorer les performances des détecteurs de la série R-CNN ainsi que des détecteurs sans ancres. Toutefois, les détecteurs à une étape basés sur des ancres manquent d'une structure adéquate pour générer des pseudo-étiquettes de haute qualité ou flexibles, entraînant des problèmes graves d'incohérence en SSOD. Dans cet article, nous proposons le cadre Efficient Teacher, conçu pour une entraînement semi-supervisé à une étape basé sur des ancres, à la fois évolutive et efficace. Ce cadre repose sur trois composants principaux : le Dense Detector, le Pseudo Label Assigner et l'Epoch Adaptor. Le Dense Detector constitue un modèle de base qui étend RetinaNet en intégrant des techniques d'échantillonnage dense inspirées de YOLOv5. Le cadre Efficient Teacher introduit un mécanisme novateur d’attribution de pseudo-étiquettes, appelé Pseudo Label Assigner, qui exploite de manière plus fine les pseudo-étiquettes produites par le Dense Detector. L'Epoch Adaptor est une méthode permettant d’assurer un cycle d’entraînement semi-supervisé stable et efficace en boucle complète (end-to-end) pour le Dense Detector. Le Pseudo Label Assigner permet de prévenir l’apparition de biais dus à un grand nombre de pseudo-étiquettes de faible qualité, qui pourraient perturber le Dense Detector dans le cadre d’un apprentissage mutuel entre enseignant et élève. Quant à l’Epoch Adaptor, il utilise des techniques d’adaptation de domaine et d’adaptation de distribution afin que le Dense Detector puisse apprendre des caractéristiques cohérentes réparties globalement, rendant ainsi l’entraînement indépendant de la proportion des données étiquetées. Nos expérimentations montrent que le cadre Efficient Teacher atteint des résultats de pointe sur les jeux de données VOC, COCO-standard et COCO-additional, tout en nécessitant moins de FLOPs que les méthodes précédentes. À notre connaissance, il s'agit du premier essai visant à appliquer la détection d'objets semi-supervisée à YOLOv5. Le code source est disponible à l'adresse suivante : https://github.com/AlibabaResearch/efficientteacher