HyperAI
il y a 6 jours

À Quelle Extent GPT-4o Comprend-il la Vision ? Évaluation des Modèles Fondamentaux Multimodaux sur les Tâches Standard de Vision par Ordinateur

Rahul Ramachandran; Ali Garjani; Roman Bachmann; Andrei Atanov; Oğuzhan Fatih Kar; Amir Zamir
À Quelle Extent GPT-4o Comprend-il la Vision ? Évaluation des Modèles Fondamentaux Multimodaux sur les Tâches Standard de Vision par Ordinateur
Résumé

Les modèles fondamentaux multimodaux, tels que GPT-4o, ont récemment réalisé des progrès remarquables, mais il n'est pas clair où ces modèles se situent exactement en termes de compréhension de la vision. Dans cet article, nous évaluons les performances des modèles fondamentaux multimodaux populaires (GPT-4o, o4-mini, Gemini 1.5 Pro et Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2) sur des tâches standard de vision par ordinateur (segmentation sémantique, détection d'objets, classification d'images, prédiction de profondeur et de normales de surface) en utilisant des jeux de données établis (par exemple, COCO, ImageNet et ses variantes).Les principaux défis pour effectuer cette évaluation sont : 1) la plupart des modèles sont formés pour produire du texte et ne peuvent pas exprimer nativement des domaines variés tels que des segments ou des géométries 3D ; et 2) de nombreux modèles de pointe sont propriétaires et accessibles uniquement au niveau API, c'est-à-dire qu'il n'y a pas d'accès aux poids pour les adapter. Nous relevons ces défis en traduisant les tâches standard de vision en tâches équivalentes sollicitant des prompts textuels et compatibles avec l'API grâce à une chaîne de prompts afin de créer un cadre d'évaluation standardisé.Nous constatons que : 1) les modèles ne sont pas proches des modèles spécialisés d'avant-garde dans aucune tâche ; cependant, 2) ils font preuve d'une compétence respectable en tant que généralistes ; ce qui est remarquable étant donné qu'ils sont probablement formés principalement sur des tâches basées sur l'image-texte. 3) Ils réalisent des performances nettement meilleures dans les tâches sémantiques que dans les tâches géométriques. 4) Bien que les techniques de chaînage de prompts influencent les performances, les meilleurs modèles montrent moins de sensibilité aux variations de prompts. 5) GPT-4o obtient le meilleur score parmi les modèles non-raisonnableurs, se classant premier dans 4 sur 6 tâches ; 6) les modèles raisonnableurs, comme o3, montrent des améliorations dans les tâches géométriques ; et 7) une analyse préliminaire des modèles dotés d'une génération d'images native, comme le dernier GPT-4o, révèle qu'ils présentent des particularités telles que des hallucinations et des désalignements spatiaux.