2달 전

VQA: 시각적 질문 응답

Aishwarya Agrawal; Jiasen Lu; Stanislaw Antol; Margaret Mitchell; C. Lawrence Zitnick; Dhruv Batra; Devi Parikh

초록

우리는 자유형식의 개방형 시각 질문 응답(VQA, Visual Question Answering) 작업을 제안합니다. 주어진 이미지와 그 이미지에 대한 자연어 질문이 있을 때, 이 작업은 정확한 자연어 답변을 제공하는 것입니다. 실제 상황, 예를 들어 시각 장애인을 돕는 것과 같은 경우를 반영하여, 질문과 답변 모두가 개방형입니다. 시각적 질문은 배경 세부 사항과 근본적인 맥락을 포함하여 이미지의 다양한 영역을 선택적으로 대상으로 합니다. 따라서 VQA에서 성공하는 시스템은 일반적인 이미지 캡션 생성 시스템보다 더 자세한 이미지 이해와 복잡한 추론이 필요합니다. 또한 많은 개방형 답변이 몇 단어 또는 다중 선택 형식으로 제공될 수 있는 폐쇄된 답변 집합만을 포함하기 때문에, VQA는 자동 평가에 적합합니다. 우리는 약 25만 장의 이미지, 76만 개의 질문 및 1,000만 개의 답변을 포함하는 데이터셋(www.visualqa.org)을 제공하며, 이 데이터셋이 제공하는 정보에 대해 논의합니다. 또한 여러 기준 모델들과 VQA 방법들을 인간의 성능과 비교하여 제공합니다. 우리의 VQA 데모는 CloudCV(http://cloudcv.org/vqa)에서 이용 가능합니다.