2달 전

시각적 연역: 세밀한 이미지 이해를 위한 새로운 과제

Ning Xie; Farley Lai; Derek Doran; Asim Kadav
시각적 연역: 세밀한 이미지 이해를 위한 새로운 과제
초록

기존의 시각적 추론 데이터셋, 예를 들어 시각적 질문 응답(VQA)과 같은 경우, 질문, 이미지 또는 답변 분포에 기반한 편향성을 자주 겪습니다. 최근 제안된 CLEVR 데이터셋은 이러한 한계를 해결하고 세부적인 추론을 요구하지만, 이 데이터셋은 합성적이며 데이터셋 내에서 유사한 객체와 문장 구조로 구성되어 있습니다.본 논문에서는 새로운 추론 과제인 시각적 연역(Visual Entailment, VE)을 소개합니다. VE는 이미지-문장 쌍으로 이루어져 있으며, 전통적인 텍스트 연역(Textual Entailment) 과제와 달리 자연어 문장이 아닌 이미지가 전제(premise)로 정의됩니다. 훈련된 VE 모델의 목표는 이미지가 문장을 의미적으로 연역하는지를 예측하는 것입니다. 이 과제를 실현하기 위해 우리는 스탠퍼드 자연어 추론(SNLI) 코퍼스와 Flickr30k 데이터셋을 기반으로 SNLI-VE 데이터셋을 구축했습니다. 우리는 다양한 기존 VQA 베이스라인들을 평가하고 VE 과제를 처리하기 위한 Explainable Visual Entailment (EVE) 시스템이라는 모델을 구축했습니다. EVE는 최대 71%의 정확도를 달성하며 여러 다른 최신 VQA 기반 모델들을 능가합니다. 마지막으로, 우리는 EVE의 설명 가능성을 크로스-모달 주목력(attention) 시각화를 통해 입증하였습니다. SNLI-VE 데이터셋은 https://github.com/necla-ml/SNLI-VE에서 공개적으로 이용할 수 있습니다.

시각적 연역: 세밀한 이미지 이해를 위한 새로운 과제 | 최신 연구 논문 | HyperAI초신경