MIMIC-IT : Apprentissage par instruction contextuel multimodal

Les instructions et réponses de haute qualité sont essentielles pour assurer les performances en zero-shot des grands modèles linguistiques sur des tâches interactives à base de langage naturel. Pour les tâches interactives vision-langage impliquant des scènes visuelles complexes, une quantité importante, diversifiée et créative de paires instruction-réponse multimodales est indispensable pour l’entraînement des modèles vision-langage (VLM). Toutefois, la disponibilité actuelle de telles paires instruction-réponse vision-langage, en termes de quantité, de diversité et de créativité, reste limitée, ce qui constitue un défi pour la généralisation des VLM interactifs. Dans ce travail, nous présentons MultI-Modal In-Context Instruction Tuning (MIMIC-IT), un jeu de données comprenant 2,8 millions de paires instruction-réponse multimodales, dont 2,2 millions d’instructions uniques issues d’images et de vidéos. Chaque paire est accompagnée d’informations multimodales contextuelles, formant ainsi des contextes conversationnels visant à renforcer les capacités de perception, de raisonnement et de planification des VLM. Le processus de collecte des paires instruction-réponse, baptisé Syphus, est mis à l’échelle grâce à une pipeline d’annotation automatique combinant expertise humaine et capacités de GPT. En utilisant le jeu de données MIMIC-IT, nous entraînons un grand VLM nommé Otter. Des évaluations étendues sur des benchmarks vision-langage montrent que Otter fait preuve d’une maîtrise remarquable en perception multimodale, en raisonnement et en apprentissage in-context. Une évaluation humaine confirme qu’il s’aligne efficacement sur les intentions des utilisateurs. Nous mettons librement à disposition le jeu de données MIMIC-IT, la pipeline de collecte des paires instruction-réponse, les benchmarks ainsi que le modèle Otter.