
초록
시각 대화(visual dialog)는 주어진 이미지를 기반으로 한 시각적으로 근거를 둔 일련의 질문에 답하는 도전적인 비전-언어 과제이다. 시각 대화 과제를 해결하기 위해서는 다양한 다중모달 입력(예: 질문, 대화 기록, 이미지)에 대한 고수준의 이해가 필요하다. 구체적으로, 에이전트는 1) 질문의 의미적 의도를 파악하고, 2) 이질적인 모달 입력 간에 질문과 관련된 텍스트적 및 시각적 콘텐츠를 정렬하는 능력이 필요하다. 본 논문에서는 주어진 이질적 입력에 대해 주목할 만한 여러 관점(multi-view)을 주의 메커니즘(attention mechanism)을 기반으로 활용하는 다중 시점 주의 네트워크(Multi-View Attention Network, MVAN)를 제안한다. MVAN은 두 가지 보완적인 모듈(즉, 주제 집약(Topic Aggregation)과 문맥 매칭(Context Matching))을 통해 대화 기록에서 질문과 관련된 정보를 효과적으로 추출하며, 모달 간 정렬 절차(즉, 모달 정렬(Modality Alignment))를 순차적으로 수행함으로써 다중모달 표현을 구축한다. VisDial v1.0 데이터셋에서 수행한 실험 결과는 제안된 모델의 효과성을 입증하며, 모든 평가 지표에서 기존 최고 성능 모델들을 상회함을 보였다.