Modélisation du contexte pour l'apprentissage incrémentiel en segmentation sémantique

Malgré leur efficacité dans une large gamme de tâches, les architectures profondes souffrent de certaines limitations importantes. En particulier, elles sont vulnérables à l'oubli catastrophique, c'est-à-dire qu'elles ont des performances médiocres lorsqu'elles doivent mettre à jour leur modèle avec de nouvelles classes sans conserver l'ensemble d'entraînement initial. Cet article aborde ce problème dans le contexte de la segmentation sémantique. Les stratégies actuelles échouent sur cette tâche car elles ne prennent pas en compte un aspect particulier de la segmentation sémantique : chaque étape d'entraînement fournit des annotations pour un sous-ensemble de toutes les classes possibles, entraînant un décalage de distribution sémantique pour les pixels de la classe arrière-plan (c'est-à-dire les pixels qui n'appartiennent à aucune autre classe). Dans ce travail, nous reprenons les méthodes classiques d'apprentissage incrémental, proposant un nouveau cadre basé sur la distillation qui prend explicitement en compte ce décalage. De plus, nous introduisons une nouvelle stratégie pour initialiser les paramètres du classifieur, évitant ainsi des prédictions biaisées vers la classe arrière-plan. Nous démontrons l'efficacité de notre approche par une évaluation extensive sur les jeux de données Pascal-VOC 2012 et ADE20K, surpassant significativement les méthodes d'apprentissage incrémental de pointe.