SegGPT : Segmentation de Tout dans le Contexte

Nous présentons SegGPT, un modèle généraliste pour le segmentage de tout en contexte. Nous unifions diverses tâches de segmentation dans un cadre d'apprentissage généraliste en contexte qui accueille différents types de données de segmentation en les transformant au même format d'images. L'entraînement de SegGPT est formulé comme un problème de coloration en contexte avec une carte de couleurs aléatoire pour chaque échantillon de données. L'objectif est d'accomplir des tâches variées selon le contexte, plutôt que de se fier à des couleurs spécifiques. Après l'entraînement, SegGPT peut effectuer des tâches de segmentation arbitraires dans des images ou des vidéos par inférence en contexte, telles que la segmentation d'instances d'objets, la segmentation de matière (stuff), la segmentation de parties, la détection de contours et la segmentation textuelle. SegGPT est évalué sur une large gamme de tâches, incluant la segmentation sémantique à quelques exemples (few-shot semantic segmentation), la segmentation d'objets vidéo, la segmentation sémantique et la segmentation panoramique. Nos résultats montrent des capacités robustes pour le segmentage des cibles en-domaine et hors-domaine, tant qualitativement que quantitativement.