Correction adaptative par apprentissage précoce pour la segmentation à partir d'annotations bruitées

L'apprentissage profond en présence d'étiquetages bruités a été largement étudié dans le cadre de la classification, mais beaucoup moins dans les tâches de segmentation. Dans ce travail, nous examinons la dynamique d'apprentissage des réseaux de segmentation profonds entraînés sur des données mal étiquetées. Nous observons un phénomène déjà rapporté dans le contexte de la classification : les réseaux ont tendance à s'ajuster d'abord aux étiquettes correctes au niveau des pixels pendant une phase dite « d'apprentissage précoce », avant de finalement mémoriser les étiquettes erronées. Toutefois, à la différence de la classification, la mémorisation dans la segmentation ne se produit pas simultanément pour toutes les catégories sémantiques. Inspirés par ces observations, nous proposons une nouvelle méthode pour la segmentation à partir d'étiquetages bruités, reposant sur deux éléments clés. Premièrement, nous détectons séparément, pour chaque catégorie, le début de la phase de mémorisation pendant l'entraînement. Cela nous permet de corriger de manière adaptative les étiquetages bruités afin d'exploiter pleinement l'apprentissage précoce. Deuxièmement, nous introduisons un terme de régularisation qui impose une cohérence à travers les échelles, afin de renforcer la robustesse face au bruit d'étiquetage. Notre méthode surpasse les approches standards sur une tâche de segmentation en imagerie médicale où le bruit est synthétisé pour simuler des erreurs humaines d'étiquetage. Elle se montre également robuste face à des étiquetages bruyants réalistes présents dans la segmentation sémantique faiblement supervisée, atteignant des résultats de pointe sur PASCAL VOC 2012. Le code est disponible à l'adresse suivante : https://github.com/Kangningthu/ADELE