HyperAIHyperAI
il y a 2 mois

MiniGPT-v2 : modèle de langage à grande échelle en tant qu'interface unifiée pour l'apprentissage multitâche vision-langue

Jun Chen; Deyao Zhu; Xiaoqian Shen; Xiang Li; Zechun Liu; Pengchuan Zhang; Raghuraman Krishnamoorthi; Vikas Chandra; Yunyang Xiong; Mohamed Elhoseiny
MiniGPT-v2 : modèle de langage à grande échelle en tant qu'interface unifiée pour l'apprentissage multitâche vision-langue
Résumé

Les grands modèles de langage ont démontré leurs capacités remarquables en tant qu'interface générale pour diverses applications liées au langage. Motivés par ces résultats, nous visons à construire une interface unifiée capable d'effectuer de nombreuses tâches de vision-langage, notamment la description d'images, les réponses à des questions visuelles et l'ancrage visuel, entre autres. Le défi consiste à utiliser un seul modèle pour réaliser efficacement des tâches de vision-langage variées avec des instructions multimodales simples. Pour atteindre cet objectif, nous présentons MiniGPT-v2, un modèle qui peut être considéré comme une interface unifiée pour améliorer la gestion de diverses tâches de vision-langage. Nous proposons d'utiliser des identifiants uniques pour différentes tâches lors de l'entraînement du modèle. Ces identifiants permettent à notre modèle de distinguer plus facilement chaque instruction de tâche et améliorent également l'efficacité de l'apprentissage du modèle pour chaque tâche. Après l'entraînement en trois étapes, les résultats expérimentaux montrent que MiniGPT-v2 obtient des performances solides sur plusieurs benchmarks de questions-réponses visuelles et d'ancrage visuel, comparativement à d'autres modèles généralistes de vision-langage. Notre modèle et nos codes sont disponibles à l'adresse suivante : https://minigpt-v2.github.io/

MiniGPT-v2 : modèle de langage à grande échelle en tant qu'interface unifiée pour l'apprentissage multitâche vision-langue | Articles de recherche récents | HyperAI