LISA : Segmentation par Raisonnement à l'Aide d'un Grand Modèle Linguistique

Bien que les systèmes de perception aient connu des avancées remarquables ces dernières années, ils restent dépendants d'instructions explicites données par l'homme ou de catégories pré-définies pour identifier les objets cibles avant d'exécuter des tâches de reconnaissance visuelle. Ces systèmes ne sont pas capables de raisonner activement et de comprendre les intentions implicites de l'utilisateur. Dans ce travail, nous proposons une nouvelle tâche de segmentation – la segmentation par raisonnement. Cette tâche est conçue pour produire un masque de segmentation à partir d'un texte de requête complexe et implicite. De plus, nous établissons un benchmark composé de plus d'un millier d'échantillons de données image-instruction-masque, intégrant des raisonnements complexes et des connaissances du monde pour des fins d'évaluation. Enfin, nous présentons LISA : Large Language Instructed Segmentation Assistant (Assistant de Segmentation Guidé par un Grand Modèle Linguistique), qui hérite des capacités de génération linguistique des grands modèles linguistiques multimodaux (LLMs) tout en possédant la capacité de produire des masques de segmentation. Nous étendons le vocabulaire initial avec un jeton <SEG> et proposons le paradigme embedding-as-mask pour débloquer la capacité de segmentation. Remarquablement, LISA peut traiter des cas impliquant un raisonnement complexe et des connaissances du monde. De plus, il montre une robustesse notable en termes de capacité zero-shot lorsqu'il est formé uniquement sur des jeux de données exempts de raisonnement. Par ailleurs, l'ajustement fin du modèle avec seulement 239 échantillons de données de segmentation par raisonnement entraîne une amélioration supplémentaire des performances. Les expériences quantitatives et qualitatives montrent que notre méthode permet effectivement d'exploiter efficacement les nouvelles capacités de segmentation par raisonnement pour les grands modèles linguistiques multimodaux. Le code, les modèles et les données sont disponibles sur https://github.com/dvlab-research/LISA.