6 days ago
GPT-4o 对视觉理解得如何?评估多模态基础模型在标准计算机视觉任务上的表现
Rahul Ramachandran; Ali Garjani; Roman Bachmann; Andrei Atanov; Oğuzhan Fatih Kar; Amir Zamir

摘要
多模态基础模型(如GPT-4o)最近取得了显著进展,但这些模型在视觉理解方面的确切水平尚不清楚。本文中,我们使用已建立的数据集(例如COCO、ImageNet及其变体等),对流行的多模态基础模型(GPT-4o、o4-mini、Gemini 1.5 Pro和Gemini 2.0 Flash、Claude 3.5 Sonnet、Qwen2-VL、Llama 3.2)在标准计算机视觉任务(语义分割、目标检测、图像分类、深度和表面法线预测)上的性能进行了基准测试。进行这一基准测试的主要挑战包括:1)大多数模型训练输出的是文本,无法直接表达多样化的领域,如分割或3D几何;2)许多领先的模型是专有的,仅能通过API访问,即无法获取权重以进行适应。为应对这些挑战,我们通过提示链将标准视觉任务转化为等效的文本提示任务和API兼容任务,从而创建了一个标准化的基准测试框架。我们的观察结果如下:1)这些模型在任何任务上都未能接近最先进专家模型的水平。然而,2)它们作为通才的表现值得尊敬;这一点尤为显著,因为它们主要是在基于图像-文本的任务上进行训练的。3)它们在语义任务上的表现明显优于几何任务。4)尽管提示链技术影响了性能,但更好的模型对提示变化的敏感度较低。5)GPT-4o在非推理模型中表现最佳,在6个任务中的4个获得了最高排名。6)推理模型(如o3)在几何任务上显示出改进。7)初步分析表明,具有原生图像生成能力的模型(如最新的GPT-4o),表现出了一些特点,如幻觉和空间错位。