2달 전

깊은 모듈러 공주목 네트워크를 이용한 시각적 질문 응답

Zhou Yu; Jun Yu; Yuhao Cui; Dacheng Tao; Qi Tian
깊은 모듈러 공주목 네트워크를 이용한 시각적 질문 응답
초록

시각적 질문 응답(VQA)은 이미지의 시각적 내용과 질문의 텍스트 내용을 세밀하고 동시에 이해하는 것을 필요로 합니다. 따라서, 질문의 핵심 단어와 이미지의 핵심 객체를 연관시키는 효과적인 `공동 주의(co-attention)' 모델을 설계하는 것이 VQA 성능에 핵심적입니다. 지금까지 대부분의 성공적인 공동 주의 학습 시도는 얕은 모델을 사용하여 이루어졌으며, 깊은 공동 주의 모델은 얕은 모델 대비 크게 개선되지 않았습니다. 본 논문에서는 깊이 방향으로 연결된 모듈형 공동 주의(MCA) 레이어로 구성된 깊은 모듈형 공동 주의 네트워크(MCAN)를 제안합니다. 각 MCA 레이어는 두 가지 기본적인 주의 유닛을 모듈화하여 질문과 이미지의 자기 주의(self-attention) 및 이미지의 안내 주의(guided-attention)를 함께 모델링합니다. 우리는 벤치마크 VQA-v2 데이터셋에서 MCAN을 정량적으로와 정성적으로 평가하였으며, MCAN의 효과성을 탐구하기 위해 광범위한 절삭 연구(ablation studies)를 수행하였습니다. 실험 결과는 MCAN이 이전 최고 수준(state-of-the-art)을 크게 능가한다는 것을 입증하였습니다. 우리의 최고 단일 모델은 테스트-개발(test-dev) 세트에서 70.63%의 전체 정확도를 달성하였습니다. 코드는 https://github.com/MILVLG/mcan-vqa에서 제공됩니다.