HyperAIHyperAI

Command Palette

Search for a command to run...

Décodage généralisé pour les pixels, les images et le langage

Résumé

Nous présentons X-Decoder, un modèle de décodage généralisé capable de prédire de manière fluide des segments au niveau des pixels et des jetons linguistiques. X-Decoder prend en entrée deux types de requêtes : (i) des requêtes génériques non sémantiques, et (ii) des requêtes sémantiques induites à partir d’entrées textuelles, afin de décoder des sorties au niveau des pixels et au niveau des jetons dans un même espace sémantique. Grâce à cette conception innovante, X-Decoder constitue la première approche offrant une solution unifiée pour supporter tous les types de segmentation d’images ainsi qu’une grande variété de tâches vision-langage (VL). En outre, notre architecture permet des interactions fluides entre tâches à différentes granularités et apporte des bénéfices mutuels en apprenant un espace commun et riche de compréhension visuelle-sémantique au niveau des pixels, sans recourir à aucune étiquetage artificiel. Après pré-entraînement sur un ensemble mixte comprenant une quantité limitée de données de segmentation et des millions de paires image-texte, X-Decoder démontre une forte capacité de transfert sur une large gamme de tâches en aval, tant dans des scénarios zero-shot que dans des cas d’adaptation fine (fine-tuning). Notamment, il atteint des résultats de pointe sur la segmentation à vocabulaire ouvert et la segmentation par référence sur huit jeux de données ; une performance fine-tunée supérieure ou compétitive par rapport à d’autres modèles généralistes et spécialisés sur les tâches de segmentation et vision-langage ; ainsi qu’une grande flexibilité pour un fine-tuning efficace et la composition de nouvelles tâches (par exemple, génération de légendes par référence ou édition d’images). Le code, une démonstration, une vidéo et des visualisations sont disponibles à l’adresse suivante : https://x-decoder-vl.github.io.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp