스택된 크로스 어텐션을 이용한 이미지-텍스트 매칭

본 논문에서는 이미지-텍스트 매칭 문제를 연구합니다. 객체나 다른 주요 요소(예: 눈, 하늘, 잔디)와 문장 내의 해당 단어 간의 잠재적 의미적 정렬을 추론함으로써 시각과 언어 사이의 미세한 상호작용을 포착하고, 이미지-텍스트 매칭을 더욱 해석 가능하게 만들 수 있습니다. 이전 연구들은 모든 가능한 영역과 단어 쌍의 유사성을 단순히 집계하거나, 더 중요하고 덜 중요한 단어나 영역에 차별적으로 주의를 기울이지 않았거나, 제한된 수의 의미적 정렬을 포착하기 위해 다단계 주의 과정을 사용하여 해석성이 떨어지는 결과를 얻었습니다. 본 논문에서는 이미지 영역과 문장 내의 단어를 모두 맥락으로 사용하여 전체적인 잠재적 정렬을 발견하고 이미지-텍스트 유사성을 추론하는 스택 크로스 어텐션(Stacked Cross Attention) 방법을 제시합니다. 우리의 접근 방식은 MS-COCO와 Flickr30K 데이터셋에서 최신 기술(SOTA) 결과를 달성하였습니다. Flickr30K에서 우리 접근 방식은 이미지를 쿼리로 하는 텍스트 검색에서 현재 최고 방법보다 상대적으로 22.1% 개선되었으며, 텍스트를 쿼리로 하는 이미지 검색에서도 상대적으로 18.2% 개선되었습니다(Recall@1 기준). MS-COCO에서는 문장 검색에서 상대적으로 17.8%, 이미지 검색에서 상대적으로 16.6% 개선되었습니다(5K 테스트 세트를 사용한 Recall@1 기준). 코드는 다음과 같이 공개되어 있습니다: https://github.com/kuanghuei/SCAN.