17일 전

QLEVR: 정량적 언어 및 초급 시각적 추론을 위한 진단 데이터셋

Zechen Li, Anders Søgaard
QLEVR: 정량적 언어 및 초급 시각적 추론을 위한 진단 데이터셋
초록

합성 데이터셋은 시각적 질문-응답 데이터셋의 추론 능력을 탐색하는 데 성공적으로 활용되어 왔다. 예를 들어, CLEVR(johnson2017clevr)는 다양한 시각적 추론 능력을 평가한다. CLEVR의 질문은 형태, 색상, 크기 비교, 수치적 추론, 존재 주장 등에 초점을 맞추고 있다. 본 논문에서는 기존의 존재성 및 수치적 양화에 그치지 않고, 보다 복잡한 양화어와 그 조합을 다루는 최소한의 편향을 지닌 진단용 시각적 질문-응답 데이터셋인 QLEVR를 소개한다. 예를 들어, 이미지 내에서 적어도 세 개의 파란 공보다 작은 적색 공이 두 개 이상 존재하는지 묻는 등의 질문을 포함한다. 본 연구에서는 데이터셋의 생성 방법을 설명하고, 최신 시각적 질문-응답 모델에 대한 최초의 평가 결과를 제시하며, QLEVR가 현재의 모델들에 있어 극도로 도전적인 과제임을 보여준다. 코드와 데이터셋은 https://github.com/zechenli03/QLEVR 에서 제공된다.