11일 전

일반적 상식 깨기: WHOOPS! 합성 및 구성적 이미지에 대한 시각-언어 벤치마크

Nitzan Bitton-Guetta, Yonatan Bitton, Jack Hessel, Ludwig Schmidt, Yuval Elovici, Gabriel Stanovsky, Roy Schwartz

초록

이상하고 특이하며 낯선 이미지는 관찰자들의 호기심을 자극하는 이유가 바로 일상적인 상식을 도전하기 때문이다. 예를 들어, 2022년 월드컵 기간에 공개된 한 이미지에서는 유명한 축구 스타 리오넬 메시와 크리스티아누 호날두가 체스를 두고 있는 모습을 담고 있는데, 이는 두 사람이 경쟁을 펼쳐야 할 축구장이 아닌 체스판에서 경기를 벌이고 있다는 점에서 우리의 기대를 놀라게 한다. 인간은 이러한 비정형적인 이미지를 쉽게 인식하고 해석할 수 있지만, 인공지능(AI) 모델도 같은 능력을 갖추고 있을까? 우리는 시각적 일상지식(visual commonsense)을 평가하기 위한 새로운 데이터셋과 벤치마크인 WHOOPS!를 소개한다. 이 데이터셋은 미드저니(Midjourney)와 같은 공개된 이미지 생성 도구를 활용해 디자이너들이 의도적으로 일상지식을 위반하도록 만든 이미지들로 구성되어 있다. 본 데이터셋을 기반으로 여러 가지 과제를 고려하였다. 이미지 설명 생성, 다모달 매칭, 시각 질문 응답 외에도, 주어진 이미지가 왜 특이한지 식별하고 설명해야 하는 어려운 설명 생성 과제를 도입하였다. 실험 결과, 최신 모델인 GPT-3와 BLIP2 역시 WHOOPS!에서 인간의 성능에 미치지 못하는 것으로 나타났다. 우리는 본 데이터셋이 더 강력한 시각적 일상지식 추론 능력을 갖춘 AI 모델 개발을 촉진하기를 기대한다. 데이터, 모델 및 코드는 프로젝트 웹사이트(whoops-benchmark.github.io)에서 제공된다.