MUM : Mix Image Tiles et UnMix Feature Tiles pour la Détection d'Objets Semi-supervisée

De nombreuses études récentes sur l’apprentissage semi-supervisé (SSL) reposent sur une architecture enseignant-étudiant, où le réseau étudiant est entraîné à partir d’un signal de supervision généré par l’enseignant. La stratégie d’augmentation des données joue un rôle crucial dans le cadre SSL, car il est difficile de créer une paire d’entrées affaiblies-renforcées sans perdre d’information étiquetée. En particulier, lors de l’extension du SSL à la détection d’objets semi-supervisée (SSOD), de nombreuses méthodes d’augmentation puissantes liées à la géométrie d’image et à la régularisation par interpolation s’avèrent difficiles à exploiter, car elles risquent de compromettre l’information de localisation des boîtes englobantes dans la tâche de détection d’objets. Pour remédier à ce problème, nous proposons une méthode d’augmentation des données simple mais efficace, appelée Mix/UnMix (MUM), qui décompose les tuiles de caractéristiques pour les tuiles d’image mélangées dans le cadre de la SSOD. Notre méthode permet de mixer les tuiles d’entrée d’image et de les reconstruire dans l’espace des caractéristiques. Ainsi, MUM permet de bénéficier de l’effet de régularisation par interpolation provenant d’étiquettes pseudo-non interpolées, tout en générant efficacement une paire significative « faible-force ». En outre, MUM peut être facilement intégrée à diverses méthodes de SSOD. Des expériences étendues sur les jeux de données MS-COCO et PASCAL VOC démontrent l’efficacité de MUM, qui améliore de manière cohérente la performance en mAP par rapport aux méthodes de référence dans tous les protocoles de benchmark SSOD testés.