
우리는 주어진 사진에 대한 질문을 답변하기 위해 이미지와 언어 이해가 동시에 필요한 시각적 질문 응답(VQA) 문제를 다룹니다. 최근의 접근 방식은 이 문제에 컨볼루션-순환 네트워크 기반의 깊은 이미지 캡셔닝 방법을 적용하였지만, 공간 추론 모델링에는 실패하였습니다. 이를 해결하기 위해 우리는 공간 메모리 네트워크(Spatial Memory Network)라는 모델을 제안하고 이를 VQA 작업에 적용합니다. 메모리 네트워크는 특정 정보 부분을 선택하는 명시적인 주의 메커니즘을 가진 순환 신경망입니다. 우리의 공간 메모리 네트워크는 이미지의 다양한 공간 영역에서 얻은 뉴런 활성화 값을 메모리에 저장하고, 질문을 사용하여 답변 계산에 필요한 관련 영역을 선택합니다. 이 과정이 네트워크에서 단일 "점프(hop)"를 구성합니다. 우리는 첫 번째 점프에서 단어와 이미지 패치를 일치시키는 새로운 공간 주의 아키텍처를 제안하며, 두 번째 주의 점프를 추가하여 전체 질문을 고려해 첫 번째 점프 결과를 바탕으로 시각적 증거를 선택함으로써 개선된 결과를 얻습니다. 네트워크가 학습한 추론 과정을 더 잘 이해하기 위해 우리는 특히 공간 추론이 요구되는 합성 질문을 설계하고 주의 가중치를 시각화합니다. 우리는 제안한 모델을 두 개의 공개된 시각적 질문 응답 데이터셋인 DAQUAR [1]과 VQA [2]에서 평가하였으며, 이미지와 질문 특성을 결합하여 답변을 예측하는 강력한 깊은 베이스라인 모델(iBOWIMG) [3]과 비교하여 개선된 결과를 얻었습니다.