
초록
시각적 질문 응답은 본질적으로 구성적(compositional) 성격을 가지고 있습니다. 예를 들어 "개는 어디에 있나요?"라는 질문은 "개의 색깔은 무엇인가요?"와 "고양이는 어디에 있나요?" 등의 질문과 부분 구조를 공유합니다. 이 논문에서는 깊은 네트워크의 표현 능력과 질문의 구성적 언어 구조를 동시에 활용하고자 합니다. 우리는 신경 모듈 네트워크(neural module networks)를 구성하고 학습하는 절차를 설명합니다. 이 방법은 질문을 언어적 부분 구조로 분해하고, 이러한 구조를 이용하여 동적으로 모듈화된 네트워크(개를 인식하거나 색상을 분류하는 등의 재사용 가능한 컴포넌트)를 생성합니다. 결과적으로 생성된 복합 네트워크는 공동으로 훈련됩니다. 우리는 이 접근법을 두 개의 도전적인 시각적 질문 응답 데이터셋에서 평가하였으며, VQA 자연 이미지 데이터셋과 추상적인 형태에 대한 복잡한 질문이 포함된 새로운 데이터셋 모두에서 최고 수준의 결과를 달성하였습니다.