HyperAIHyperAI
il y a 9 jours

MiniGPT-4 : Amélioration de la compréhension vision-langage grâce à des grands modèles linguistiques avancés

Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, Mohamed Elhoseiny
MiniGPT-4 : Amélioration de la compréhension vision-langage grâce à des grands modèles linguistiques avancés
Résumé

Le récent GPT-4 a fait preuve de capacités multimodales exceptionnelles, telles que la génération directe de sites web à partir de textes manuscrits ou l’identification d’éléments humoristiques dans des images. Ces fonctionnalités sont rares dans les modèles précédents de vision-langage. Toutefois, les détails techniques sous-jacents à GPT-4 restent encore inconnus. Nous pensons que les capacités améliorées de génération multimodale de GPT-4 proviennent de l’utilisation de modèles linguistiques à grande échelle (LLM) sophistiqués. Pour explorer ce phénomène, nous proposons MiniGPT-4, qui aligne un encodeur visuel figé avec un LLM avancé figé, Vicuna, à l’aide d’une seule couche de projection. Notre travail est le premier à démontrer qu’un alignement approprié entre les caractéristiques visuelles et un LLM avancé peut conférer au modèle des capacités multimodales avancées similaires à celles de GPT-4, telles que la génération de descriptions détaillées d’images ou la création de sites web à partir de croquis manuels. En outre, nous observons également d’autres capacités émergentes dans MiniGPT-4, notamment la rédaction de récits et de poèmes inspirés par des images données, l’enseignement aux utilisateurs de recettes culinaires à partir de photos de nourriture, etc. Dans nos expérimentations, nous avons constaté que le modèle entraîné sur des paires courtes de légendes d’images produisait des sorties linguistiques artificielles (par exemple, répétitions ou fragmentation). Pour résoudre ce problème, nous avons constitué, en deuxième étape, un jeu de données détaillé de descriptions d’images afin de fine-tuner le modèle, ce qui améliore significativement sa fiabilité en génération et son utilité globale. Notre code, le modèle pré-entraîné et le jeu de données collecté sont disponibles à l’adresse suivante : https://minigpt-4.github.io/.