2달 전

시각적 질문 응답을 위한 다중 모달 곱셈 특성 임베딩을 이용한 자유형 영역과 검출의 공동 주의

Pan Lu; Hongsheng Li; Wei Zhang; Jianyong Wang; Xiaogang Wang

초록

최근 시각적 질문 응답(VQA) 과제가 인공지능 분야에서 점차 주목을 받고 있습니다. 기존의 VQA 방법들은 주로 시각적 주의 메커니즘을 채택하여 입력된 질문과 해당 이미지 영역을 연관시켜 효과적인 질문 응답을 수행합니다. 자유형 영역 기반과 검출 기반의 시각적 주의 메커니즘이 주로 연구되어 왔으며, 전자는 자유형 이미지 영역에 집중하고 후자는 사전 지정된 검출 박스 영역에 집중합니다. 우리는 이 두 가지 주의 메커니즘이 보완적인 정보를 제공할 수 있으며, 이를 효과적으로 통합하여 VQA 문제를 더 잘 해결해야 한다고 주장합니다. 본 논문에서는 자유형 이미지 영역과 검출 박스를 모두 고려하는 새로운 딥 뉴럴 네트워크를 제안합니다. 제안된 프레임워크는 자유형 이미지 영역, 검출 박스, 그리고 질문 표현에서 추출한 특성을 다중 모달(multi-modal) 곱셈 특성 임베딩 방식을 통해 융합하여, 질문과 관련된 자유형 이미지 영역과 검출 박스를 공동으로 주의(attend)하도록 설계되어 더욱 정확한 질문 응답을 가능하게 합니다. 제안된 방법은 공개 데이터셋인 COCO-QA와 VQA에서 광범위하게 평가되었으며, 최신 접근법들을 능가하는 성능을 보였습니다. 소스 코드는 https://github.com/lupantech/dual-mfa-vqa에서 확인할 수 있습니다.