Segmentation sémantique semi-supervisée utilisant des pseudo-étiquettes non fiables

Le cœur de la segmentation sémantique semi-supervisée réside dans l'attribution de pseudo-étiquettes adéquates aux pixels des images non étiquetées. Une pratique courante consiste à sélectionner les prédictions à haute confiance comme pseudo-vérité terrain, mais cela entraîne un problème : la majorité des pixels peuvent rester inutilisés en raison de leur faible fiabilité. Nous affirmons que chaque pixel joue un rôle crucial dans l'entraînement du modèle, même lorsque sa prédiction est ambigüe. Intuitivement, une prédiction peu fiable peut être confuse parmi les classes principales (c’est-à-dire celles ayant les probabilités les plus élevées), mais elle devrait toutefois être certaine quant au fait que le pixel n’appartient pas aux autres classes. Ainsi, un tel pixel peut être traité de manière convaincante comme un exemple négatif pour les catégories les moins probables. À partir de cette observation, nous proposons une pipeline efficace pour exploiter pleinement les données non étiquetées. Plus précisément, nous séparons les pixels fiables et non fiables à l’aide de l’entropie des prédictions, poussons chaque pixel non fiable vers une file d’attente catégorielle composée d’exemples négatifs, et parvenons ainsi à entraîner le modèle en utilisant tous les pixels candidats. En tenant compte de l’évolution de l’entraînement, durant laquelle les prédictions deviennent de plus en plus précises, nous ajustons de manière adaptative le seuil de séparation entre les pixels fiables et non fiables. Les résultats expérimentaux sur diverses bases de données et configurations d’entraînement démontrent l’avantage de notre approche par rapport aux méthodes de pointe actuelles.