HyperAIHyperAI

Command Palette

Search for a command to run...

PSALM : Segmentation Pixelwise avec Modèle Multimodal de Grande Taille

Zheng Zhang Yeyao Ma Enming Zhang Xiang Bai

Résumé

PSALM est une extension puissante du Grand Modèle Multimodal (LMM) visant à relever les défis des tâches de segmentation. Pour surmonter la limitation de l’LMM se limitant à la sortie textuelle, PSALM intègre un décodeur de masque et un schéma d'entrée bien conçu pour gérer une variété de tâches de segmentation. Ce schéma comprend des images, des instructions de tâche, des invites conditionnelles et des jetons de masque, qui permettent au modèle de générer et classer efficacement des masques de segmentation. La conception flexible de PSALM soutient l'entraînement conjoint sur plusieurs jeux de données et tâches, ce qui conduit à une meilleure performance et à une généralisation accrue des tâches. PSALM obtient des résultats supérieurs sur plusieurs benchmarks, tels que RefCOCO/RefCOCO+/RefCOCOg, COCO Panoptic Segmentation et COCO-Interactive, et montre également des capacités zero-shot sur des tâches inédites comme la segmentation avec vocabulaire ouvert (open-vocabulary segmentation), la segmentation d'expressions référentielles généralisées (generalized referring expression segmentation) et la segmentation d'objets vidéo (video object segmentation), marquant ainsi une avancée significative vers un moment GPT en vision par ordinateur. Grâce à des expériences approfondies, PSALM démontre son potentiel à transformer le domaine de la segmentation d'images, en exploitant les capacités robustes de compréhension visuelle des LMM telles qu'on les observe dans le traitement du langage naturel. Le code source et les modèles sont disponibles sur https://github.com/zamling/PSALM.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
PSALM : Segmentation Pixelwise avec Modèle Multimodal de Grande Taille | Articles | HyperAI