
초록
효과적인 이미지와 문장의 매칭은 전역 시각-의미 유사성을 얼마나 잘 측정하는지에 달려있습니다. 이러한 전역 유사성이 이미지(객체)와 문장(단어) 간의 여러 개의 국소 유사성의 복잡한 집합으로부터 발생한다는 관찰을 바탕으로, 인스턴스 인식 이미지와 문장 매칭을 위한 선택적 다중모달 장기-단기 메모리 네트워크(sm-LSTM)를 제안합니다. sm-LSTM은 각 시간 단계에서 이미지와 문장의 인스턴스 쌍에 선택적으로 주목할 수 있는 다중모달 맥락 조절 주의 메커니즘을 포함하고 있습니다. 이는 이미지와 문장에 대한 인스턴스 인식 주요도 맵을 예측함으로써 가능합니다. 선택된 인스턴스 쌍들의 표현은 예측된 주요도 맵에 기반하여 얻어지고, 이후 국소 유사성을 측정하기 위해 비교됩니다. 비슷한 방식으로 몇몇 시간 단계 내에서 여러 개의 국소 유사성을 측정함으로써, sm-LSTM은 숨겨진 상태들과 함께 이를 순차적으로 집합하여 원하는 전역 유사성 점수를 최종적으로 도출합니다. 광범위한 실험 결과는 우리의 모델이 복잡한 내용을 가진 이미지와 문장을 잘 매칭할 수 있으며, 두 개의 공개 벤치마크 데이터셋에서 최신 연구 결과를 달성하였음을 보여줍니다.