il y a 2 mois

L'Aube des MLL : Explorations Préliminaires avec GPT-4V(ision)

Yang, Zhengyuan ; Li, Linjie ; Lin, Kevin ; Wang, Jianfeng ; Lin, Chung-Ching ; Liu, Zicheng ; Wang, Lijuan

Résumé

Les grands modèles multimodaux (LMMs) étendent les grandes modèles de langage (LLMs) avec des compétences multisensorielles, telles que la compréhension visuelle, afin d'atteindre une intelligence générique plus forte. Dans cet article, nous analysons le dernier modèle, GPT-4V(ision), pour approfondir notre compréhension des LMMs. Cette analyse se concentre sur les tâches fascinantes que GPT-4V peut effectuer, en incluant des échantillons de tests pour sonder la qualité et la généralité de ses capacités, ainsi que les entrées prises en charge et les modes de fonctionnement du modèle, et les méthodes efficaces pour le solliciter.Dans notre approche pour explorer GPT-4V, nous avons sélectionné et organisé une collection d'échantillons qualitatifs soigneusement conçus couvrant divers domaines et tâches. Les observations tirées de ces échantillons démontrent que la capacité sans précédent de GPT-4V à traiter des entrées multimodales arbitrairement entrelacées et la généralité de ses capacités font ensemble de GPT-4V un système puissant et généraliste multimodal.De plus, la capacité unique de GPT-4V à comprendre les marqueurs visuels dessinés sur les images d'entrée peut donner lieu à de nouvelles méthodes d'interaction homme-machine, telles que l'incitation visuelle. Nous concluons ce rapport par des discussions approfondies sur les scénarios d'application émergents et les orientations futures de la recherche pour les systèmes basés sur GPT-4V. Nous espérons que cette exploration préliminaire inspirera des recherches futures sur la formulation des tâches multimodales de nouvelle génération, de nouvelles façons d'exploiter et d'améliorer les LMMs pour résoudre des problèmes réels, ainsi qu'une meilleure compréhension des modèles fondamentaux multimodaux.Enfin, nous reconnaissons que le modèle étudié est exclusivement le fruit du travail innovant d'OpenAI, qui mérite donc un crédit complet pour son développement. Veuillez consulter le document sur les contributions de GPT-4V pour l'attribution de l'auteur et du crédit : https://cdn.openai.com/contributions/gpt-4v.pdf