Détection d'objets semi-supervisée par apprentissage de catégorie virtuelle

En raison du coût élevé des données étiquetées dans les applications du monde réel, les détecteurs d'objets semi-supervisés fondés sur l'étiquetage par pseudo-étiquettes suscitent un vif intérêt. Toutefois, la gestion des échantillons ambigus s'avère particulièrement délicate : éliminer ces échantillons utiles compromettrait la généralisation du modèle, tandis que leur utilisation pour l'entraînement aggraverait le biais de confirmation résultant des étiquetages erronés inévitables. Pour résoudre ce problème, cette étude propose d'utiliser de manière proactive les échantillons ambigus sans correction d'étiquette. Plus précisément, chaque échantillon ambigu est attribué à une catégorie virtuelle (VC), permettant ainsi une contribution sûre à l'optimisation du modèle, même en l'absence d'une étiquette précise. Cette approche repose sur la définition de la distance d'embedding entre l'échantillon d'entraînement et la catégorie virtuelle comme borne inférieure de la distance inter-classes. En outre, nous modifions également la fonction de perte de localisation afin de favoriser des frontières de haute qualité pour la régression de localisation. Des expérimentations étendues montrent que l'apprentissage basé sur la catégorie virtuelle surpasser considérablement les méthodes de pointe, en particulier lorsque le nombre d'étiquettes disponibles est faible.