
초록
다중 모드 학습에서 주의망은 주어진 시각 정보를 선택적으로 활용하는 효율적인 방법을 제공합니다. 그러나 모든 다중 모드 입력 채널 쌍에 대한 주의 분포를 학습하는 계산 비용은 매우 비싸서 용납할 수 없습니다. 이 문제를 해결하기 위해, 공동 주의(co-attention)는 두 개의 별도의 주의 분포를 각 모드에 대해 구축하여 다중 모드 입력 간의 상호작용을 무시합니다. 본 논문에서는 시각-언어 정보를 원활하게 활용하기 위한 이차형 주의 분포(bilinear attention distributions)를 찾는 이차형 주의망(BAN, Bilinear Attention Networks)을 제안합니다. BAN은 두 그룹의 입력 채널 간의 이차형 상호작용을 고려하며, 저순위 이차형 풀링(low-rank bilinear pooling)은 각 채널 쌍에 대한 결합 표현(joint representations)을 추출합니다. 또한, 우리는 BAN의 여덟 개 주의 맵(attention maps)을 효율적으로 활용하기 위한 다중 모드 잔여망(multimodal residual networks) 변종을 제안합니다. 우리는 VQA 2.0 및 Flickr30k Entities 데이터셋에서 우리의 모델을 정량적 및 정성적으로 평가하였으며, 결과는 BAN이 기존 방법들을 크게 능가하고 두 데이터셋 모두에서 새로운 최고 성능(state-of-the-arts)을 달성함을 보여줍니다.