
초록
기존의 시각적 추론 데이터셋, 예를 들어 시각적 질문 응답(VQA)과 같은 경우, 질문, 이미지 또는 답변 분포에 기반한 편향성을 자주 겪습니다. 최근 제안된 CLEVR 데이터셋은 이러한 한계를 해결하고 세부적인 추론을 요구하지만, 이 데이터셋은 합성적이며 데이터셋 내에서 유사한 객체와 문장 구조로 구성되어 있습니다.본 논문에서는 새로운 추론 과제인 시각적 연역(Visual Entailment, VE)을 소개합니다. VE는 이미지-문장 쌍으로 이루어져 있으며, 전통적인 텍스트 연역(Textual Entailment) 과제와 달리 자연어 문장이 아닌 이미지가 전제(premise)로 정의됩니다. 훈련된 VE 모델의 목표는 이미지가 문장을 의미적으로 연역하는지를 예측하는 것입니다. 이 과제를 실현하기 위해 우리는 스탠퍼드 자연어 추론(SNLI) 코퍼스와 Flickr30k 데이터셋을 기반으로 SNLI-VE 데이터셋을 구축했습니다. 우리는 다양한 기존 VQA 베이스라인들을 평가하고 VE 과제를 처리하기 위한 Explainable Visual Entailment (EVE) 시스템이라는 모델을 구축했습니다. EVE는 최대 71%의 정확도를 달성하며 여러 다른 최신 VQA 기반 모델들을 능가합니다. 마지막으로, 우리는 EVE의 설명 가능성을 크로스-모달 주목력(attention) 시각화를 통해 입증하였습니다. SNLI-VE 데이터셋은 https://github.com/necla-ml/SNLI-VE에서 공개적으로 이용할 수 있습니다.