2달 전

시각적 질문 응답을 위한 간단한 기준선

Bolei Zhou; Yuandong Tian; Sainbayar Sukhbaatar; Arthur Szlam; Rob Fergus

초록

우리는 시각적 질문 응답을 위한 매우 간단한 단어의 가방(bag-of-words) 베이스라인을 설명합니다. 이 베이스라인은 질문에서 추출한 단어 특징과 이미지에서 얻은 CNN 특징을 결합하여 답변을 예측합니다. 도전적인 VQA 데이터셋 [2]에서 평가할 때, 이 모델은 최근에 제시된 순환 신경망(recurrent neural networks) 기반 접근법들과 유사한 성능을 보입니다. 훈련된 모델의 강점과 약점을 탐구하기 위해, 우리는 상호작용형 웹 데모와 오픈 소스 코드를 제공합니다.