2달 전

이중선형 주의 네트워크

Jin-Hwa Kim; Jaehyun Jun; Byoung-Tak Zhang
이중선형 주의 네트워크
초록

다중 모드 학습에서 주의망은 주어진 시각 정보를 선택적으로 활용하는 효율적인 방법을 제공합니다. 그러나 모든 다중 모드 입력 채널 쌍에 대한 주의 분포를 학습하는 계산 비용은 매우 비싸서 용납할 수 없습니다. 이 문제를 해결하기 위해, 공동 주의(co-attention)는 두 개의 별도의 주의 분포를 각 모드에 대해 구축하여 다중 모드 입력 간의 상호작용을 무시합니다. 본 논문에서는 시각-언어 정보를 원활하게 활용하기 위한 이차형 주의 분포(bilinear attention distributions)를 찾는 이차형 주의망(BAN, Bilinear Attention Networks)을 제안합니다. BAN은 두 그룹의 입력 채널 간의 이차형 상호작용을 고려하며, 저순위 이차형 풀링(low-rank bilinear pooling)은 각 채널 쌍에 대한 결합 표현(joint representations)을 추출합니다. 또한, 우리는 BAN의 여덟 개 주의 맵(attention maps)을 효율적으로 활용하기 위한 다중 모드 잔여망(multimodal residual networks) 변종을 제안합니다. 우리는 VQA 2.0 및 Flickr30k Entities 데이터셋에서 우리의 모델을 정량적 및 정성적으로 평가하였으며, 결과는 BAN이 기존 방법들을 크게 능가하고 두 데이터셋 모두에서 새로운 최고 성능(state-of-the-arts)을 달성함을 보여줍니다.

이중선형 주의 네트워크 | 최신 연구 논문 | HyperAI초신경