HyperAIHyperAI
il y a 16 jours

Otter : Un modèle multi-modal avec calibration d'instructions en contexte

Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Jingkang Yang, Ziwei Liu
Otter : Un modèle multi-modal avec calibration d'instructions en contexte
Résumé

Les grands modèles linguistiques (LLM) ont démontré des capacités universelles importantes en tant qu’apprenants à faible ou zéro exemple (few/zero-shot) dans diverses tâches, grâce à leur pré-entraînement sur d’immenses volumes de données textuelles, comme illustré par GPT-3, qui a conduit à InstructGPT et ChatGPT, capables d’interpréter efficacement des instructions en langage naturel pour accomplir des tâches du monde réel. Dans cet article, nous proposons d’introduire le tuning d’instructions dans les modèles multimodaux, motivés par le jeu de données de pré-entraînement à format entrelacé en amont du modèle Flamingo. Nous adoptons une approche similaire pour construire notre jeu de données MultI-Modal In-Context Instruction Tuning (MIMIC-IT). Nous présentons ensuite Otter, un modèle multimodal basé sur OpenFlamingo (version open-source du modèle Flamingo de DeepMind), entraîné sur MIMIC-IT et présentant une meilleure capacité à suivre les instructions ainsi qu’un apprentissage in-context amélioré. Nous optimisons également l’implémentation d’OpenFlamingo pour les chercheurs, en réduisant les ressources d’entraînement nécessaires de 1× GPU A100 à 4× GPU RTX-3090, et intégrons à la fois OpenFlamingo et Otter dans Hugging Face Transformers, afin de permettre à un plus grand nombre de chercheurs d’intégrer ces modèles dans leurs propres pipelines d’entraînement et d’inférence personnalisés.