HyperAIHyperAI

Command Palette

Search for a command to run...

Masquage visuel guidé par instruction

Jinliang Zheng Jianxiong Li Sijie Cheng Yinan Zheng Jiaming Li Jihao Liu Yu Liu Jingjing Liu Xianyuan Zhan

Résumé

Le suivi d'instructions est essentiel dans les grands modèles linguistiques contemporains. Toutefois, lorsqu'il est étendu au cadre multimodal, il souffre souvent d'un désalignement entre une instruction textuelle spécifique et la région cible correspondante dans une image. Afin d'améliorer la précision et la finesse du suivi d'instructions multimodales, nous introduisons le Masking visuel guidé par l'instruction (IVM), un nouveau modèle polyvalent d'ancrage visuel compatible avec divers modèles multimodaux, tels que les modèles multimodaux linguistiques (LMM) ou les modèles robotiques. En construisant des masques visuels pour les régions non pertinentes par rapport à l'instruction, les modèles multimodaux améliorés par IVM peuvent se concentrer efficacement sur les régions d'image pertinentes pour la tâche, permettant ainsi une meilleure alignement avec des instructions complexes. Plus précisément, nous avons conçu un pipeline de génération de données de masquage visuel et créé un jeu de données IVM-Mix-1M comprenant un million de paires image-instruction. Nous introduisons également une nouvelle technique d'apprentissage, le learning supervisé pondéré par discriminateur (DWSL), destinée à une formation préférentielle de IVM, qui privilégie les échantillons de haute qualité. Les résultats expérimentaux sur des tâches multimodales générales telles que la question-réponse visuelle (VQA) et le contrôle de robots embarqués démontrent la polyvalence d'IVM, qui s'insère comme un outil plug-and-play et améliore significativement les performances de divers modèles multimodaux, atteignant de nouveaux records sur des benchmarks multimodaux exigeants. Le code, les modèles et les données sont disponibles à l'adresse suivante : https://github.com/2toinf/IVM.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Masquage visuel guidé par instruction | Articles | HyperAI