HyperAIHyperAI

Command Palette

Search for a command to run...

LAVT : Transformer de Vision Conscient du Langage pour le Segmentation d'Images Référentielles

Yang Zhao ; Wang Jiaqi ; Tang Yansong ; Chen Kai ; Zhao Hengshuang ; Torr Philip H. S.

Résumé

La segmentation d'images par référence est une tâche fondamentale de vision-langage qui vise à segmenter un objet mentionné par une expression en langage naturel dans une image. L'un des principaux défis de cette tâche réside dans l'utilisation de l'expression de référence pour mettre en évidence les positions pertinentes dans l'image. Un paradigme pour aborder ce problème consiste à exploiter un décodeur puissant de vision-langage (« multimodal ») afin de fusionner les caractéristiques extraites indépendamment par un encodeur visuel et un encodeur linguistique. Les méthodes récentes ont réalisé des progrès remarquables dans ce paradigme en utilisant des Transformers comme décodeurs multimodaux, en parallèle du succès retentissant des Transformers dans de nombreuses autres tâches de vision-langage.Dans cette étude, nous adoptons une approche différente et montrons que des alignements multimodaux nettement meilleurs peuvent être obtenus grâce à la fusion précoce des caractéristiques linguistiques et visuelles au sein des couches intermédiaires d'un réseau encodeur Transformer visuel. En effectuant la fusion multimodale lors de l'étape d'encodage des caractéristiques visuelles, nous pouvons tirer parti de la capacité éprouvée d'un encodeur Transformer à modéliser les corrélations pour extraire un contexte multimodal utile. De cette manière, des résultats de segmentation précis sont facilement obtenus avec un prédicteur de masque léger. Sans recourir à des techniques complexes, notre méthode surpasse largement les méthodes précédentes state-of-the-art sur RefCOCO, RefCOCO+ et G-Ref.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
LAVT : Transformer de Vision Conscient du Langage pour le Segmentation d'Images Référentielles | Articles | HyperAI