PseCo : étiquetage pseudo-et apprentissage par consistance pour la détection d'objets semi-supervisée

Dans cet article, nous explorons deux techniques clés dans la détection d’objets semi-supervisée (SSOD), à savoir l’étiquetage par pseudo-étiquettes (pseudo labeling) et l’entraînement par cohérence (consistency training). Nous constatons que ces deux approches négligent actuellement certaines propriétés essentielles de la détection d’objets, ce qui entrave un apprentissage efficace sur les données non étiquetées. Plus précisément, concernant l’étiquetage par pseudo-étiquettes, les travaux existants se concentrent uniquement sur le score de classification tout en ignorant la précision de localisation des boîtes prédites ; quant à l’entraînement par cohérence, la méthode couramment utilisée, consistant à appliquer un redimensionnement aléatoire, ne prend en compte que la cohérence au niveau des étiquettes, tout en négligeant la cohérence au niveau des caractéristiques, qui joue pourtant un rôle fondamental dans l’obtention d’une invariance à l’échelle. Pour pallier les problèmes liés aux boîtes de pseudo-étiquettes bruitées, nous proposons une méthode appelée Noisy Pseudo box Learning (NPL), comprenant deux composants : une affectation de labels guidée par la prédiction (Prediction-guided Label Assignment, PLA) et un vote de cohérence basé sur les propositions positives (Positive-proposal Consistency Voting, PCV). La PLA s’appuie sur les prédictions du modèle pour affecter les étiquettes, ce qui la rend robuste même face à des boîtes de pseudo-étiquettes de qualité médiocre ; quant au PCV, il exploite la cohérence de la régression des propositions positives afin de refléter la qualité de localisation des boîtes pseudo-étiquetées. En outre, dans le cadre de l’entraînement par cohérence, nous introduisons une méthode appelée Multi-view Scale-invariant Learning (MSL), qui intègre à la fois des mécanismes de cohérence au niveau des étiquettes et au niveau des caractéristiques. La cohérence au niveau des caractéristiques est obtenue en alignant les pyramides de caractéristiques décalées entre deux images contenant le même contenu mais à des échelles différentes. Sur le benchmark COCO, notre méthode, nommée PSEudo labeling and COnsistency training (PseCo), surpasser le state-of-the-art (Soft Teacher) de 2,0, 1,8 et 2,0 points respectivement aux taux d’étiquetage de 1 %, 5 % et 10 %. Elle améliore également de manière significative l’efficacité d’apprentissage en SSOD : par exemple, PseCo réduit de moitié le temps d’entraînement par rapport à l’approche state-of-the-art tout en atteignant des performances supérieures. Le code est disponible à l’adresse suivante : https://github.com/ligang-cs/PseCo.