Un regard plus attentif sur l'auto-entraînement pour la segmentation sémantique zéro-étiquetée

La capacité à segmenter des classes inédites non observées durant l’apprentissage constitue un défi technique majeur en apprentissage profond, en raison de son potentiel à réduire les coûts élevés associés à l’annotation pour la segmentation sémantique. Les approches antérieures de segmentation sémantique à zéro étiquette abordent cette tâche en apprenant des embeddings visuels-sémantiques ou des modèles génératifs. Toutefois, ces méthodes sont sujettes au surapprentissage sur les classes vues, car aucune signalisation d’apprentissage n’est disponible pour celles-ci. Dans cet article, nous étudions la tâche exigeante de segmentation sémantique généralisée à zéro étiquette, où le modèle doit segmenter à la fois les classes vues et les classes inédites au moment du test. Nous supposons que des pixels appartenant à des classes inédites peuvent apparaître dans les images d’entraînement, mais sans être annotés. Notre idée consiste à capturer les informations latentes relatives aux classes inédites en supervisant le modèle à l’aide d’étiquettes pseudo-produites par le modèle lui-même pour les pixels non annotés. Nous proposons un régulariseur de cohérence qui filtre les étiquettes pseudo-bruitées en exploitant l’intersection des étiquettes pseudo-produites à partir de différentes augmentations de la même image. Notre cadre génère des étiquettes pseudo, puis réentraîne le modèle à l’aide de données annotées par des humains et de données étiquetées pseudo. Cette procédure est itérée plusieurs fois. En résulte, notre approche atteint un nouveau record d’état de l’art sur les jeux de données PascalVOC12 et COCO-stuff dans le cadre exigeant de la segmentation sémantique généralisée à zéro étiquette, surpassant ainsi d’autres méthodes existantes qui s’attaquent à cette tâche avec des stratégies plus complexes.