PSALM : Segmentation Pixelwise avec Modèle Multimodal de Grande Taille

PSALM est une extension puissante du Grand Modèle Multimodal (LMM) visant à relever les défis des tâches de segmentation. Pour surmonter la limitation de l’LMM se limitant à la sortie textuelle, PSALM intègre un décodeur de masque et un schéma d'entrée bien conçu pour gérer une variété de tâches de segmentation. Ce schéma comprend des images, des instructions de tâche, des invites conditionnelles et des jetons de masque, qui permettent au modèle de générer et classer efficacement des masques de segmentation. La conception flexible de PSALM soutient l'entraînement conjoint sur plusieurs jeux de données et tâches, ce qui conduit à une meilleure performance et à une généralisation accrue des tâches. PSALM obtient des résultats supérieurs sur plusieurs benchmarks, tels que RefCOCO/RefCOCO+/RefCOCOg, COCO Panoptic Segmentation et COCO-Interactive, et montre également des capacités zero-shot sur des tâches inédites comme la segmentation avec vocabulaire ouvert (open-vocabulary segmentation), la segmentation d'expressions référentielles généralisées (generalized referring expression segmentation) et la segmentation d'objets vidéo (video object segmentation), marquant ainsi une avancée significative vers un moment GPT en vision par ordinateur. Grâce à des expériences approfondies, PSALM démontre son potentiel à transformer le domaine de la segmentation d'images, en exploitant les capacités robustes de compréhension visuelle des LMM telles qu'on les observe dans le traitement du langage naturel. Le code source et les modèles sont disponibles sur https://github.com/zamling/PSALM.