Adaptation continue pour la segmentation d'objets interactifs par apprentissage à partir de corrections

Dans la segmentation d’objets interactive, un utilisateur collabore avec un modèle de vision par ordinateur afin de segmenter un objet. Les travaux récents utilisent des réseaux de neurones convolutifs pour cette tâche : étant donné une image et un ensemble de corrections apportées par l’utilisateur en entrée, ils produisent un masque de segmentation. Ces approches obtiennent de fortes performances grâce à un entraînement sur de grands jeux de données, mais elles conservent les paramètres du modèle inchangés au moment de l’évaluation. À la place, nous observons que les corrections apportées par l’utilisateur peuvent servir d’exemples d’entraînement épars et proposons une méthode qui exploite cette idée pour mettre à jour les paramètres du modèle en temps réel, en fonction des données présentes. Notre approche permet une adaptation à un objet particulier et à son arrière-plan, aux décalages de distribution dans un ensemble de test, aux classes d’objets spécifiques, voire à des changements de domaine importants, où le mode d’acquisition d’images diffère entre l’entraînement et l’évaluation. Nous menons des expériences approfondies sur 8 jeux de données diversifiés et montrons que, comparé à un modèle dont les paramètres sont gelés : (i) notre méthode réduit le nombre de corrections nécessaires de 9 % à 30 % lorsque les décalages de distribution entre entraînement et évaluation sont faibles ; (ii) de 12 % à 44 % lorsqu’on se spécialise sur une classe spécifique ; et (iii) de 60 % et 77 % lorsque l’on change complètement de domaine entre entraînement et évaluation.