il y a 8 mois

Résumé

PSALM est une extension puissante du Grand Modèle Multimodal (LMM) visant à relever les défis des tâches de segmentation. Pour surmonter la limitation de l’LMM se limitant à la sortie textuelle, PSALM intègre un décodeur de masque et un schéma d'entrée bien conçu pour gérer une variété de tâches de segmentation. Ce schéma comprend des images, des instructions de tâche, des invites conditionnelles et des jetons de masque, qui permettent au modèle de générer et classer efficacement des masques de segmentation. La conception flexible de PSALM soutient l'entraînement conjoint sur plusieurs jeux de données et tâches, ce qui conduit à une meilleure performance et à une généralisation accrue des tâches. PSALM obtient des résultats supérieurs sur plusieurs benchmarks, tels que RefCOCO/RefCOCO+/RefCOCOg, COCO Panoptic Segmentation et COCO-Interactive, et montre également des capacités zero-shot sur des tâches inédites comme la segmentation avec vocabulaire ouvert (open-vocabulary segmentation), la segmentation d'expressions référentielles généralisées (generalized referring expression segmentation) et la segmentation d'objets vidéo (video object segmentation), marquant ainsi une avancée significative vers un moment GPT en vision par ordinateur. Grâce à des expériences approfondies, PSALM démontre son potentiel à transformer le domaine de la segmentation d'images, en exploitant les capacités robustes de compréhension visuelle des LMM telles qu'on les observe dans le traitement du langage naturel. Le code source et les modèles sont disponibles sur https://github.com/zamling/PSALM.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Segmentation D'images

Segmentation Sémantique

Multimodal

Vision Par Ordinateur

Tâche

Zheng Zhang Yeyao Ma Enming Zhang Xiang Bai

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Segmentation D'images

Segmentation Sémantique

Multimodal

Vision Par Ordinateur

Tâche

Zheng Zhang Yeyao Ma Enming Zhang Xiang Bai

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

PSALM : Segmentation Pixelwise avec Modèle Multimodal de Grande Taille | Articles | HyperAI

Command Palette

PSALM : Segmentation Pixelwise avec Modèle Multimodal de Grande Taille

Zheng Zhang Yeyao Ma Enming Zhang Xiang Bai

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

PSALM : Segmentation Pixelwise avec Modèle Multimodal de Grande Taille

Zheng Zhang Yeyao Ma Enming Zhang Xiang Bai

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

PSALM : Segmentation Pixelwise avec Modèle Multimodal de Grande Taille

Zheng Zhang Yeyao Ma Enming Zhang Xiang Bai

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters