2달 전

WinoGAViL: 시각-언어 모델을 도전하는 게임화된 연관성 벤치마크

Yonatan Bitton; Nitzan Bitton Guetta; Ron Yosef; Yuval Elovici; Mohit Bansal; Gabriel Stanovsky; Roy Schwartz
WinoGAViL: 시각-언어 모델을 도전하는 게임화된 연관성 벤치마크
초록

비전-언어 모델은 시각적 질문 응답과 같은 작업에서 우수한 성능을 보이지만, 기본적인 인간의 상식 추론 능력에서는 어려움을 겪습니다. 본 연구에서는 WinoGAViL: 비전-언어 연관성(예를 들어, 늑대인간과 만월 사이의 연관성)을 평가하기 위한 동적 평가 벤치마크로 사용되는 온라인 게임을 소개합니다. 인기 있는 카드 게임 코데네임즈(Codenames)에서 영감을 받아, 스파이마스터는 여러 시각적 후보와 관련된 텍스트 힌트를 제공하고, 다른 플레이어는 이를 식별하려고 합니다. 인간 플레이어는 경쟁 AI 모델에게 도전적이지만 다른 인간 플레이어가 해결할 수 있는 연관성을 만들면 보상을 받습니다. 우리는 이 게임을 통해 3.5천 개의 인스턴스를 수집하였으며, 이들 인스턴스는 인간에게 직관적이지만 (90% 이상의 자카르 지수) 최신 AI 모델에는 도전적이라는 것을 발견했습니다. 최고의 모델(ViLT)은 52%의 점수를 달성했으며, 주로 시각적으로 두드러지는 힌트에서 성공하였습니다. 우리의 분석 및 플레이어로부터 수집한 피드백은 수집된 연관성이 일반 지식, 상식, 추상화 등 다양한 추론 능력을 필요로 함을 나타냅니다. 우리는 데이터셋, 코드 및 대화형 게임을 공개하여, 더 나은 연관성 능력을 가진 모델 개발에 활용될 수 있는 미래의 데이터 수집을 가능하게 합니다.

WinoGAViL: 시각-언어 모델을 도전하는 게임화된 연관성 벤치마크 | 최신 연구 논문 | HyperAI초신경