Singe : La résolution de l'image et l'étiquetage du texte sont des éléments importants pour les grands modèles multi-modaux.

Les grands modèles multimodaux (LMMs) ont montré leur potentiel dans les tâches de vision-langage, mais ils peinent encore à traiter des entrées à haute résolution et à comprendre en détail les scènes complexes. Pour relever ces défis, nous présentons Monkey, une solution visant à améliorer les capacités des LMMs.Tout d'abord, Monkey traite les images d'entrée en les divisant en des patches uniformes, chacun correspondant à la taille (par exemple, 448x448) utilisée lors de l'entraînement initial du codificateur visuel bien entraîné. Grâce à un adaptateur individuel pour chaque patch, Monkey peut gérer des résolutions plus élevées allant jusqu'à 1344x896 pixels, ce qui permet une capture détaillée d'informations visuelles complexes. Ensuite, il utilise une méthode de génération de descriptions multinationales, enrichissant le contexte pour les associations entre scènes et objets. Cette stratégie en deux parties assure un apprentissage plus efficace à partir des données générées : la résolution plus élevée permet une capture plus détaillée des éléments visuels, ce qui améliore à son tour l'efficacité des descriptions complètes. Des résultats ablatifs étendus valident l'efficacité de nos conceptions.De plus, des expérimentations sur 18 jeux de données montrent que Monkey dépasse les LMMs existants dans de nombreuses tâches telles que la légendisation d'images et divers formats de questions-réponses visuels. En particulier, dans les tests qualitatifs axés sur la réponse aux questions textuelles denses, Monkey a obtenu des résultats encourageants comparativement à GPT4V. Le code est disponible sur https://github.com/Yuliang-Liu/Monkey.