
초록
우리는 시각적 및 텍스트 주의 메커니즘을 동시에 활용하여 비전과 언어 간의 세부적인 상호작용을 포착하는 듀얼 어텐션 네트워크(Dual Attention Networks, DANs)를 제안합니다. DANs는 여러 단계를 통해 이미지의 특정 영역과 텍스트의 단어에 주목하며, 두 모달에서 필수 정보를 수집합니다. 이 프레임워크를 기반으로, 우리는 각각 다중모달 추론과 매칭을 위한 두 가지 유형의 DANs를 소개합니다. 추론 모델은 협력적 추론 과정에서 시각적 주의와 텍스트 주의가 서로를 안내할 수 있도록 하며, 이는 Visual Question Answering(VQA) 등의 작업에 유용합니다. 또한, 매칭 모델은 두 주의 메커니즘을 활용하여 공유된 의미에 초점을 맞추어 이미지와 문장 간의 유사성을 추정합니다. 우리의 광범위한 실험은 DANs가 비전과 언어를 결합하는 데 있어 효과적이며, VQA 및 이미지-텍스트 매칭 공개 벤치마크에서 최고 성능을 달성함을 입증합니다.