11일 전

일루전VQA: 시각 언어 모델을 위한 도전적인 시각적 착시 데이터셋

Haz Sameen Shahgir, Khondker Salman Sayeed, Abhik Bhattacharjee, Wasi Uddin Ahmad, Yue Dong, Rifat Shahriyar
일루전VQA: 시각 언어 모델을 위한 도전적인 시각적 착시 데이터셋
초록

비전-언어 모델(Vision Language Models, VLM)의 등장으로 연구자들은 자연어를 활용하여 신경망의 시각적 이해 능력을 탐구할 수 있게 되었다. 객체 분류 및 탐지 외에도 VLM은 시각적 이해 능력과 보편적 지식 기반 추론을 수행할 수 있다. 이러한 발전은 자연스럽게 다음과 같은 질문을 제기하게 되었다. 이미지 자체가 본질적으로 비합리적인 경우 VLM은 어떻게 반응할까? 이를 위해 우리는 시각적 오류와 해석이 어려운 장면으로 구성된 다양한 데이터셋인 IllusionVQA를 제안한다. 이 데이터셋은 다중 선택 형식의 시각 질문 응답(VQA) 작업 두 가지—이해(comprehension)와 소프트 로컬라이제이션(soft localization)—에서 VLM의 능력을 평가하기 위해 설계되었다. 성능이 가장 뛰어난 GPT4V는 이해 작업에서 4샷(4-shot) 기반으로 62.99%의 정확도를 기록했고, 로컬라이제이션 작업에서는 4샷 및 체인 오브 쓰로우(Chain-of-Thought) 전략을 사용했을 때 49.7%의 정확도를 달성했다. 인간 평가 결과, 인간은 이해 작업에서 91.03%, 로컬라이제이션 작업에서 100%의 정확도를 보였다. 본 연구에서는 인-컨텍스트 학습(In-Context Learning, ICL)과 체인 오브 쓰로우 추론이 Gemini-Pro의 로컬라이제이션 작업 성능을 상당히 저하시킨다는 사실을 발견했다. 보다 간접적인 관점에서, VLM의 ICL 능력에 대한 잠재적 약점을 발견하였는데, 정답이 몇 개의 샘플로 제공된 컨텍스트 창 내에 존재하더라도, VLM은 시각적 오류를 제대로 탐지하지 못하는 경우가 있었다.

일루전VQA: 시각 언어 모델을 위한 도전적인 시각적 착시 데이터셋 | 최신 연구 논문 | HyperAI초신경