2달 전

시각적 질문 응답을 위한 계층적 질문-이미지 공통 주의 기제

Jiasen Lu; Jianwei Yang; Dhruv Batra; Devi Parikh

초록

최근 여러 연구들은 시각적 질문 응답(VQA)을 위한 주의 모델을 제안하여, 질문에 대한 답변과 관련된 이미지 영역을 강조하는 공간 맵을 생성하였습니다. 본 논문에서는 이러한 시각적 주의('어디를 볼 것인가')뿐만 아니라, '어떤 단어를 들어야 할 것인가' 또는 질문 주의를 모델링하는 것이 equally 중요하다는 주장을 제시합니다. 우리는 이미지와 질문 주의를 동시에 고려하는 새로운 공동주의(co-attention) 모델을 제시합니다. 또한, 우리의 모델은 새로운 1차원 합성곱 신경망(CNN)을 통해 계층적으로 질문(그리고 공유주의 메커니즘을 통해 결과적으로 이미지)에 대해 추론합니다. 우리의 모델은 VQA 데이터셋에서 최신 기술 수준을 60.3%에서 60.5%로, COCO-QA 데이터셋에서는 61.6%에서 63.3%로 개선했습니다. ResNet을 사용함으로써 성능은 VQA에서 62.1%, COCO-QA에서 65.4%까지 더욱 향상되었습니다.