il y a 15 jours

Segmentation sémantique à vocabulaire ouvert avec CLIP adapté par masque

Feng Liang, Bichen Wu, Xiaoliang Dai, Kunpeng Li, Yinan Zhao, Hang Zhang, Peizhao Zhang, Peter Vajda, Diana Marculescu

Résumé

La segmentation sémantique à vocabulaire ouvert vise à segmenter une image en régions sémantiques selon des descriptions textuelles, qui n’ont pas nécessairement été vues durant l’apprentissage. Les méthodes récentes à deux étapes génèrent d’abord des propositions de masques indépendantes de classe, puis utilisent des modèles vision-langage pré-entraînés, tels que CLIP, pour classifier les régions masquées. Nous identifions le goulot d’étranglement de cette approche comme étant le modèle CLIP pré-entraîné, qui ne se comporte pas efficacement sur des images masquées. Pour remédier à cela, nous proposons de fine-tuner CLIP sur une collection de régions d’images masquées accompagnées de leurs descriptions textuelles correspondantes. Nous constituons les données d’entraînement en exploitant un jeu de données existant d’images et de légendes (par exemple, COCO Captions), en utilisant CLIP pour associer les régions masquées aux noms propres présents dans les légendes. Contrairement aux étiquettes de segmentation plus précises et manuellement annotées, avec des classes fixes (par exemple, COCO-Stuff), nous constatons que notre jeu de données bruité mais diversifié permet de mieux préserver la capacité de généralisation de CLIP. En parallèle de l’entraînement fin (fine-tuning) de tout le modèle, nous exploitons les zones « vides » des images masquées via une méthode que nous appelons mask prompt tuning. Les expériences montrent que cette approche apporte une amélioration significative sans modifier aucun poids de CLIP, et peut même renforcer davantage un modèle entièrement fine-tuné. En particulier, lorsque le modèle est entraîné sur COCO et évalué sur ADE20K-150, notre meilleur modèle atteint un mIoU de 29,6 %, soit une amélioration de +8,5 % par rapport à l’état de l’art précédent. Pour la première fois, les modèles généralistes à vocabulaire ouvert atteignent les performances des modèles spécialisés supervisés de 2017, sans nécessiter d’adaptation spécifique au jeu de données.