다중 모드 잔차 학습을 이용한 시각적 질문-답변

깊은 신경망은 다양한 방법을 통해 이미지 인식 작업의 최신 기술을 계속해서 발전시키고 있습니다. 그러나 이러한 방법들의 다중 모달리티(multimodality) 적용은 아직 제한적입니다. 본 연구에서는 시각 질문 응답에서의 다중 모달 잔차 학습(multimodal residual learning)을 위해 다중 모달 잔차 네트워크(Multimodal Residual Networks, MRN)를 제시합니다. 이는 깊은 잔차 학습(deep residual learning)의 아이디어를 확장한 것입니다. 깊은 잔차 학습과 달리, MRN은 시각 정보와 언어 정보로부터 효과적으로 공동 표현(joint representation)을 학습합니다. 주요 아이디어는 최근 연구에서 주목받고 있는 주의 모델(attentional models)의 잔차 학습을 활용하여 요소별 곱셈(element-wise multiplication)을 사용하여 공동 잔차 매핑(joint residual mappings)을 수행하는 것입니다. 본 연구에서는 다중 모달리티에 의해 소개된 다양한 대안 모델(alternative models)을 탐구하였습니다. 우리는 Open-Ended 및 Multiple-Choice 작업 모두에서 Visual QA 데이터셋에서 최신 기술 결과(state-of-the-art results)를 달성하였습니다. 또한, 시각적 특징이 공간 정보 없이 붕괴되어 있음에도 불구하고, 각 학습 블록에 대한 공동 표현의 주의 효과(attention effect)를 역전파 알고리즘(back-propagation algorithm)을 사용하여 가시화할 수 있는 새로운 방법을 소개합니다.