HyperAIHyperAI

Command Palette

Search for a command to run...

LISA : Segmentation par Raisonnement à l'Aide d'un Grand Modèle Linguistique

Xin Lai; Zhuotao Tian; Yukang Chen; Yanwei Li; Yuhui Yuan; Shu Liu; Jiaya Jia

Résumé

Bien que les systèmes de perception aient connu des avancées remarquables ces dernières années, ils restent dépendants d'instructions explicites données par l'homme ou de catégories pré-définies pour identifier les objets cibles avant d'exécuter des tâches de reconnaissance visuelle. Ces systèmes ne sont pas capables de raisonner activement et de comprendre les intentions implicites de l'utilisateur. Dans ce travail, nous proposons une nouvelle tâche de segmentation – la segmentation par raisonnement. Cette tâche est conçue pour produire un masque de segmentation à partir d'un texte de requête complexe et implicite. De plus, nous établissons un benchmark composé de plus d'un millier d'échantillons de données image-instruction-masque, intégrant des raisonnements complexes et des connaissances du monde pour des fins d'évaluation. Enfin, nous présentons LISA : Large Language Instructed Segmentation Assistant (Assistant de Segmentation Guidé par un Grand Modèle Linguistique), qui hérite des capacités de génération linguistique des grands modèles linguistiques multimodaux (LLMs) tout en possédant la capacité de produire des masques de segmentation. Nous étendons le vocabulaire initial avec un jeton et proposons le paradigme embedding-as-mask pour débloquer la capacité de segmentation. Remarquablement, LISA peut traiter des cas impliquant un raisonnement complexe et des connaissances du monde. De plus, il montre une robustesse notable en termes de capacité zero-shot lorsqu'il est formé uniquement sur des jeux de données exempts de raisonnement. Par ailleurs, l'ajustement fin du modèle avec seulement 239 échantillons de données de segmentation par raisonnement entraîne une amélioration supplémentaire des performances. Les expériences quantitatives et qualitatives montrent que notre méthode permet effectivement d'exploiter efficacement les nouvelles capacités de segmentation par raisonnement pour les grands modèles linguistiques multimodaux. Le code, les modèles et les données sont disponibles sur https://github.com/dvlab-research/LISA.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp