11일 전

일반적 상식 깨기: WHOOPS! 합성 및 구성적 이미지에 대한 시각-언어 벤치마크

Nitzan Bitton-Guetta, Yonatan Bitton, Jack Hessel, Ludwig Schmidt, Yuval Elovici, Gabriel Stanovsky, Roy Schwartz
일반적 상식 깨기: WHOOPS! 합성 및 구성적 이미지에 대한 시각-언어 벤치마크
초록

이상하고 특이하며 낯선 이미지는 관찰자들의 호기심을 자극하는 이유가 바로 일상적인 상식을 도전하기 때문이다. 예를 들어, 2022년 월드컵 기간에 공개된 한 이미지에서는 유명한 축구 스타 리오넬 메시와 크리스티아누 호날두가 체스를 두고 있는 모습을 담고 있는데, 이는 두 사람이 경쟁을 펼쳐야 할 축구장이 아닌 체스판에서 경기를 벌이고 있다는 점에서 우리의 기대를 놀라게 한다. 인간은 이러한 비정형적인 이미지를 쉽게 인식하고 해석할 수 있지만, 인공지능(AI) 모델도 같은 능력을 갖추고 있을까? 우리는 시각적 일상지식(visual commonsense)을 평가하기 위한 새로운 데이터셋과 벤치마크인 WHOOPS!를 소개한다. 이 데이터셋은 미드저니(Midjourney)와 같은 공개된 이미지 생성 도구를 활용해 디자이너들이 의도적으로 일상지식을 위반하도록 만든 이미지들로 구성되어 있다. 본 데이터셋을 기반으로 여러 가지 과제를 고려하였다. 이미지 설명 생성, 다모달 매칭, 시각 질문 응답 외에도, 주어진 이미지가 왜 특이한지 식별하고 설명해야 하는 어려운 설명 생성 과제를 도입하였다. 실험 결과, 최신 모델인 GPT-3와 BLIP2 역시 WHOOPS!에서 인간의 성능에 미치지 못하는 것으로 나타났다. 우리는 본 데이터셋이 더 강력한 시각적 일상지식 추론 능력을 갖춘 AI 모델 개발을 촉진하기를 기대한다. 데이터, 모델 및 코드는 프로젝트 웹사이트(whoops-benchmark.github.io)에서 제공된다.

일반적 상식 깨기: WHOOPS! 합성 및 구성적 이미지에 대한 시각-언어 벤치마크 | 최신 연구 논문 | HyperAI초신경