Masquage visuel guidé par instruction

Le suivi d'instructions est essentiel dans les grands modèles linguistiques contemporains. Toutefois, lorsqu'il est étendu au cadre multimodal, il souffre souvent d'un désalignement entre une instruction textuelle spécifique et la région cible correspondante dans une image. Afin d'améliorer la précision et la finesse du suivi d'instructions multimodales, nous introduisons le Masking visuel guidé par l'instruction (IVM), un nouveau modèle polyvalent d'ancrage visuel compatible avec divers modèles multimodaux, tels que les modèles multimodaux linguistiques (LMM) ou les modèles robotiques. En construisant des masques visuels pour les régions non pertinentes par rapport à l'instruction, les modèles multimodaux améliorés par IVM peuvent se concentrer efficacement sur les régions d'image pertinentes pour la tâche, permettant ainsi une meilleure alignement avec des instructions complexes. Plus précisément, nous avons conçu un pipeline de génération de données de masquage visuel et créé un jeu de données IVM-Mix-1M comprenant un million de paires image-instruction. Nous introduisons également une nouvelle technique d'apprentissage, le learning supervisé pondéré par discriminateur (DWSL), destinée à une formation préférentielle de IVM, qui privilégie les échantillons de haute qualité. Les résultats expérimentaux sur des tâches multimodales générales telles que la question-réponse visuelle (VQA) et le contrôle de robots embarqués démontrent la polyvalence d'IVM, qui s'insère comme un outil plug-and-play et améliore significativement les performances de divers modèles multimodaux, atteignant de nouveaux records sur des benchmarks multimodaux exigeants. Le code, les modèles et les données sont disponibles à l'adresse suivante : https://github.com/2toinf/IVM.