Apprentissage semi-supervisé résistant à l’ambiguïté pour la détection d’objets denses

Avec les techniques de détection d'objets semi-supervisée (SSOD) de base, les détecteurs mono-étape obtiennent généralement des améliorations limitées par rapport aux détecteurs à deux étapes. Nous avons expérimentalement constaté que la cause profonde réside dans deux types d'ambiguïtés : (1) l'ambiguïté de sélection, où les étiquettes pseudo-sélectionnées sont moins précises, car les scores de classification ne représentent pas correctement la qualité de localisation ; (2) l'ambiguïté d'affectation, où les échantillons sont associés à des étiquettes inappropriées lors de l'affectation des étiquettes pseudo, en raison d'une stratégie trompée par des objets manquants et des boîtes pseudo imprecises.Pour résoudre ces problèmes, nous proposons un apprentissage semi-supervisé résistant aux ambiguïtés (ARSL) pour les détecteurs mono-étape. Plus précisément, afin d'atténuer l'ambiguïté de sélection, nous introduisons une estimation conjointe de confiance (JCE) qui quantifie conjointement la qualité de classification et de localisation des étiquettes pseudo. Quant à l'ambiguïté d'affectation, une affectation séparée par tâche (TSA) est mise en place pour attribuer des étiquettes sur la base de prédictions au niveau des pixels plutôt que sur des boîtes pseudo peu fiables. Cette méthode utilise une stratégie "diviser pour régner" et exploite séparément les positifs pour la tâche de classification et celle de localisation, ce qui la rend plus robuste face à l'ambiguïté d'affectation.Des expériences exhaustives montrent que l'ARSL atténue efficacement les ambiguïtés et atteint des performances SSOD de pointe sur MS COCO et PASCAL VOC. Les codes sources peuvent être trouvés à l'adresse suivante : https://github.com/PaddlePaddle/PaddleDetection.