FreeSeg : Segmentation d'images unifiée, universelle et à vocabulaire ouvert

Récemment, l'apprentissage à vocabulaire ouvert a émergé pour accomplir la segmentation de catégories arbitraires de descriptions textuelles, ce qui rend le système de segmentation plus polyvalent et applicable à des scénarios d'utilisation plus généraux. Cependant, les méthodes existantes se consacrent à la conception d'architectures ou de paramètres spécialisés pour des tâches de segmentation spécifiques. Ces paradigmes de conception sur mesure entraînent une fragmentation entre différentes tâches de segmentation, ce qui entrave l'uniformité des modèles de segmentation. Ainsi, dans cet article, nous proposons FreeSeg, un cadre générique permettant une Segmentation d'Images Unifiée, Universelle et à Vocabulaire Ouvert. FreeSeg optimise un réseau tout-en-un par une formation en un seul passage (one-shot training) et utilise la même architecture et les mêmes paramètres pour gérer diverses tâches de segmentation sans heurt lors de la procédure d'inférence. De plus, l'apprentissage adaptatif des prompts facilite la capture par le modèle unifié de concepts sensibles aux tâches et aux catégories, améliorant ainsi sa robustesse dans des scénarios multi-tâches et variés. Des résultats expérimentaux étendus montrent que FreeSeg établit de nouveaux records en termes de performance et de généralisation sur trois tâches de segmentation, surpassant largement les meilleures architectures spécialisées par tâche : 5,5 % mIoU en segmentation sémantique, 17,6 % mAP en segmentation d'instances, 20,1 % PQ en segmentation panoramique pour les classes non vues sur COCO.