Segmentation sémantique semi-supervisée avec régularisation par cohérence basée sur les prototypes

La segmentation sémantique semi-supervisée exige que le modèle propage efficacement les informations d'étiquetage à partir d’images annotées limitées vers celles non étiquetées. Un défi majeur pour cette tâche de prédiction par pixel réside dans la grande variation intra-classe, c’est-à-dire que des régions appartenant à la même classe peuvent présenter une apparence très différente, même au sein d’une même image. Cette diversité rend la propagation des étiquettes difficile entre pixels. Pour surmonter ce problème, nous proposons une nouvelle approche visant à régulariser la distribution des caractéristiques intra-classe afin de réduire la difficulté de la propagation des étiquettes. Plus précisément, notre méthode encourage la cohérence entre la prédiction fournie par un prédicteur linéaire et celle produite par un prédicteur basé sur des prototypes, ce qui encourage implicitement les caractéristiques issues de la même pseudo-classe à être proches d’au moins un prototype intra-classe tout en restant éloignées des prototypes inter-classe. En intégrant par ailleurs des opérations CutMix et une stratégie soigneusement conçue de maintenance des prototypes, nous développons un algorithme de segmentation sémantique semi-supervisée qui obtient des performances supérieures aux méthodes de pointe sur les benchmarks Pascal VOC et Cityscapes, selon des évaluations expérimentales étendues.