
초록
시각적 질문 응답(VQA)은 이미지의 시각적 내용과 질문의 텍스트 내용을 세밀하고 동시에 이해하는 것을 필요로 합니다. 따라서, 질문의 핵심 단어와 이미지의 핵심 객체를 연관시키는 효과적인 `공동 주의(co-attention)' 모델을 설계하는 것이 VQA 성능에 핵심적입니다. 지금까지 대부분의 성공적인 공동 주의 학습 시도는 얕은 모델을 사용하여 이루어졌으며, 깊은 공동 주의 모델은 얕은 모델 대비 크게 개선되지 않았습니다. 본 논문에서는 깊이 방향으로 연결된 모듈형 공동 주의(MCA) 레이어로 구성된 깊은 모듈형 공동 주의 네트워크(MCAN)를 제안합니다. 각 MCA 레이어는 두 가지 기본적인 주의 유닛을 모듈화하여 질문과 이미지의 자기 주의(self-attention) 및 이미지의 안내 주의(guided-attention)를 함께 모델링합니다. 우리는 벤치마크 VQA-v2 데이터셋에서 MCAN을 정량적으로와 정성적으로 평가하였으며, MCAN의 효과성을 탐구하기 위해 광범위한 절삭 연구(ablation studies)를 수행하였습니다. 실험 결과는 MCAN이 이전 최고 수준(state-of-the-art)을 크게 능가한다는 것을 입증하였습니다. 우리의 최고 단일 모델은 테스트-개발(test-dev) 세트에서 70.63%의 전체 정확도를 달성하였습니다. 코드는 https://github.com/MILVLG/mcan-vqa에서 제공됩니다.