HyperAIHyperAI

Command Palette

Search for a command to run...

MIMIC-IT : Apprentissage par instruction contextuel multimodal

Bo Li Yuanhan Zhang Liangyu Chen Jinghao Wang Fanyi Pu Jingkang Yang Chunyuan Li Ziwei Liu

Résumé

Les instructions et réponses de haute qualité sont essentielles pour assurer les performances en zero-shot des grands modèles linguistiques sur des tâches interactives à base de langage naturel. Pour les tâches interactives vision-langage impliquant des scènes visuelles complexes, une quantité importante, diversifiée et créative de paires instruction-réponse multimodales est indispensable pour l’entraînement des modèles vision-langage (VLM). Toutefois, la disponibilité actuelle de telles paires instruction-réponse vision-langage, en termes de quantité, de diversité et de créativité, reste limitée, ce qui constitue un défi pour la généralisation des VLM interactifs. Dans ce travail, nous présentons MultI-Modal In-Context Instruction Tuning (MIMIC-IT), un jeu de données comprenant 2,8 millions de paires instruction-réponse multimodales, dont 2,2 millions d’instructions uniques issues d’images et de vidéos. Chaque paire est accompagnée d’informations multimodales contextuelles, formant ainsi des contextes conversationnels visant à renforcer les capacités de perception, de raisonnement et de planification des VLM. Le processus de collecte des paires instruction-réponse, baptisé Syphus, est mis à l’échelle grâce à une pipeline d’annotation automatique combinant expertise humaine et capacités de GPT. En utilisant le jeu de données MIMIC-IT, nous entraînons un grand VLM nommé Otter. Des évaluations étendues sur des benchmarks vision-langage montrent que Otter fait preuve d’une maîtrise remarquable en perception multimodale, en raisonnement et en apprentissage in-context. Une évaluation humaine confirme qu’il s’aligne efficacement sur les intentions des utilisateurs. Nous mettons librement à disposition le jeu de données MIMIC-IT, la pipeline de collecte des paires instruction-réponse, les benchmarks ainsi que le modèle Otter.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MIMIC-IT : Apprentissage par instruction contextuel multimodal | Articles | HyperAI