5일 전
COREVQA: 집단 관찰 및 추론 함의를 위한 시각질의응답 벤치마크
Ishant Chintapatla, Kazuma Choji, Naaisha Agarwal, Andrew Lin, Hannah You, Charles Duong, et al

초록
최근 들어 시각-언어 모델(Vision-Language Models, VLMs)을 시각적 질의응답(VQA) 쌍을 활용하여 평가하기 위한 다양한 벤치마크와 데이터셋이 개발되었으며, 모델의 정확도 향상이 두드러지게 나타났다. 그러나 이러한 벤치마크는 이미지 기반 가설에 대한 정확한 시각적 함의(visual entailment) 판단 능력, 예를 들어 이미지를 바탕으로 가설을 수용하거나 반박하는 능력을 거의 테스트하지 않는다. 이를 해결하기 위해 우리는 CrowdHuman 데이터셋에서 추출한 이미지를 기반으로 하여 5,608개의 이미지와 합성된 참/거짓 진술 쌍으로 구성된 COREVQA(Crowd Observations and Reasoning Entailment) 벤치마크를 제안한다. 이 벤치마크는 특히 혼잡한 이미지에서 시각적 함의 추론을 유도하기 위해 설계되었다. 실험 결과, 최고 성능을 보인 VLM 모델조차도 정확도가 80% 미만에 그치는 것으로 나타났으며, 다른 모델들의 성능은 더욱 낮게 나타났다(39.98%~69.95%). 이와 같은 뚜렷한 성능 격차는 VLM이 혼잡한 장면에서 특정 유형의 이미지-질의 쌍에 대해 추론하는 능력에 있어 핵심적인 한계를 드러낸다.