Réexamen du déséquilibre de classe pour la détection d'objets semi-supervisée end-to-end

La détection d'objets semi-supervisée (SSOD) a connu des progrès significatifs grâce au développement des méthodes end-to-end basées sur les pseudo-étiquettes. Toutefois, de nombreuses de ces approches rencontrent des difficultés dues à l'imbalance de classes, ce qui limite l'efficacité du générateur de pseudo-étiquettes. Par ailleurs, dans la littérature, il a été observé que les pseudo-étiquettes de faible qualité entravent sévèrement les performances de la SSOD. Dans ce travail, nous examinons les causes profondes des pseudo-étiquettes de mauvaise qualité et proposons de nouveaux mécanismes d'apprentissage pour améliorer la qualité de génération des étiquettes. Pour faire face à des taux élevés de faux négatifs et à une faible précision, nous introduisons un mécanisme d'adaptation de seuil qui permet au réseau proposé de filtrer les boîtes englobantes optimales. Nous proposons également un module Jitter-Bagging afin de fournir des informations précises sur la localisation, afin d'affiner les boîtes englobantes. En outre, deux nouvelles fonctions de perte sont introduites, exploitant les scores de fond et de premier plan prédits par les réseaux enseignant et étudiant, afin d'améliorer le taux de rappel des pseudo-étiquettes. De plus, notre méthode applique une supervision stricte au réseau enseignant en lui fournissant des données augmentées fortes et faibles, afin de générer des pseudo-étiquettes robustes capables de détecter des objets petits et complexes. Enfin, les expériences étendues montrent que le réseau proposé surpasser les méthodes de pointe sur les jeux de données MS-COCO et Pascal VOC, et permet à un modèle de base d'atteindre des performances équivalentes à 100 % supervisées avec une quantité bien moindre de données étiquetées (à savoir 20 %).