17일 전

시각 대화를 위한 다중 시점 주의망

Sungjin Park, Taesun Whang, Yeochan Yoon, Heuiseok Lim
시각 대화를 위한 다중 시점 주의망
초록

시각 대화(visual dialog)는 주어진 이미지를 기반으로 한 시각적으로 근거를 둔 일련의 질문에 답하는 도전적인 비전-언어 과제이다. 시각 대화 과제를 해결하기 위해서는 다양한 다중모달 입력(예: 질문, 대화 기록, 이미지)에 대한 고수준의 이해가 필요하다. 구체적으로, 에이전트는 1) 질문의 의미적 의도를 파악하고, 2) 이질적인 모달 입력 간에 질문과 관련된 텍스트적 및 시각적 콘텐츠를 정렬하는 능력이 필요하다. 본 논문에서는 주어진 이질적 입력에 대해 주목할 만한 여러 관점(multi-view)을 주의 메커니즘(attention mechanism)을 기반으로 활용하는 다중 시점 주의 네트워크(Multi-View Attention Network, MVAN)를 제안한다. MVAN은 두 가지 보완적인 모듈(즉, 주제 집약(Topic Aggregation)과 문맥 매칭(Context Matching))을 통해 대화 기록에서 질문과 관련된 정보를 효과적으로 추출하며, 모달 간 정렬 절차(즉, 모달 정렬(Modality Alignment))를 순차적으로 수행함으로써 다중모달 표현을 구축한다. VisDial v1.0 데이터셋에서 수행한 실험 결과는 제안된 모델의 효과성을 입증하며, 모든 평가 지표에서 기존 최고 성능 모델들을 상회함을 보였다.

시각 대화를 위한 다중 시점 주의망 | 최신 연구 논문 | HyperAI초신경