Une base simple pour la segmentation sémantique semi-supervisée avec une augmentation de données forte

Récemment, des progrès significatifs ont été accomplis dans le domaine de la segmentation sémantique. Toutefois, le succès des méthodes de segmentation sémantique supervisée repose généralement sur une grande quantité de données étiquetées, dont l’acquisition est longue et coûteuse. Inspirés par les succès des méthodes d’apprentissage semi-supervisé en classification d’images, nous proposons ici un cadre simple mais efficace d’apprentissage semi-supervisé pour la segmentation sémantique. Nous démontrons que les détails font la différence : un ensemble de techniques de conception et d’entraînement simples peut améliorer de manière significative les performances de la segmentation sémantique semi-supervisée. Les travaux antérieurs [3, 27] n’ont pas réussi à exploiter efficacement des augmentations fortes lors de l’apprentissage à partir de pseudo-étiquettes, car le changement important de distribution induit par ces augmentations nuisait aux statistiques de normalisation par lots. Pour résoudre ce problème, nous proposons une nouvelle forme de normalisation par lots, nommée normalisation par lots spécifique à la distribution (DSBN), et démontrons l’importance des augmentations fortes pour la segmentation sémantique. En outre, nous concevons une fonction de perte d’autocorrection, efficace en matière de résistance au bruit. Nous menons une série d’études d’ablation afin de valider l’efficacité de chaque composant. Notre méthode atteint des résultats de pointe dans les configurations semi-supervisées sur les jeux de données Cityscapes et Pascal VOC.