GPT-4o가 시각을 얼마나 잘 이해하는가? 표준 컴퓨터 비전 작업에서 다중 모드 기초 모델 평가

다중 모드 기반 모델(GPT-4o 등)이 최근에 뛰어난 발전을 이룩하였지만, 이러한 모델들이 시각 이해 측면에서 정확히 어느 위치에 있는지는 명확하지 않습니다. 본 논문에서는 잘 알려진 다중 모드 기반 모델들(GPT-4o, o4-mini, Gemini 1.5 Pro 및 Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2)의 성능을 COCO, ImageNet 및 그 변형 등 기존 데이터셋을 사용하여 표준 컴퓨터 비전 작업(의미 분할, 객체 검출, 이미지 분류, 깊이와 표면 법선 예측)에서 평가합니다.이 작업 수행에 대한 주요 도전 과제는 다음과 같습니다: 1) 대부분의 모델은 텍스트 출력을 위해 훈련되었으며 세그먼트나 3D 기하학과 같은 다양한 영역을 원래 상태로 표현할 수 없습니다. 그리고 2) 많은 선두 모델들은 소유권이 있으며 API 수준에서만 접근 가능하기 때문에 가중치 접근을 통해 적응시키는 것이 불가능합니다. 우리는 이러한 도전 과제를 프롬프트 체인링(prompt chaining)을 통해 표준 비전 작업들을 동등한 텍스트 프롬프트 가능한 API 호환 작업으로 번역하여 표준화된 벤치마킹 프레임워크를 생성함으로써 해결하였습니다.우리는 다음과 같은 결과를 관찰하였습니다: 1) 어떤 작업에서도 이 모델들은 최신 전문 모델들과 큰 차이가 있습니다. 그러나 2) 이들은 존경받을 만한 일반주의자(generalist)입니다; 이는 주로 이미지-텍스트 기반 작업으로 훈련되었음을 고려할 때 놀랍습니다. 3) 의미 관련 작업에서는 기하학적 작업보다 훨씬 더 우수한 성능을 보였습니다. 4) 프롬프트 체인링 기술이 성능에 영향을 미치지만, 더 좋은 모델일수록 프롬프트 변동에 덜 민감하게 반응하였습니다. 5) GPT-4o는 추론 능력이 없는 모델 중 가장 우수한 성능을 보여서 6개 작업 중 4개에서 최고 위치를 차지하였습니다. 6) 추론 능력을 갖춘 모델들(o3 등)은 기하학적 작업에서 개선된 성능을 보였습니다. 그리고 7) GPT-4o와 같은 최신 이미지 생성 능력을 갖춘 모델들의 초기 분석 결과 환영(hallucinations), 공간 오차(spatial misalignments) 등의 특성을 나타내는 것으로 나타났습니다.