IMRAM: 다중 모달 이미지-텍스트 검색을 위한 반복적 매칭과 순환 주의 메모리

이미지와 텍스트 간의 양방향 검색을 가능하게 하는 것은 시각과 언어 간의 대응 관계를 이해하는 데 있어 중요하다. 기존의 방법들은 주의 메커니즘(attention mechanism)을 활용하여 이러한 대응 관계를 세밀하게 탐색하고자 한다. 그러나 대부분의 기존 방법은 모든 의미 정보를 동일하게 취급하여, 복잡성의 다양성을 고려하지 않고 일관된 방식으로 대응시킨다. 실제로 의미는 다양하며(즉, 다양한 종류의 의미 개념을 포함함), 인간은 보통 은유적인 구조를 따르며 이러한 의미들을 이해 가능한 언어로 조합한다. 기존의 방법으로는 이러한 복잡한 대응 관계를 최적화하여 포착하는 것이 어렵다. 본 논문에서는 이러한 한계를 해결하기 위해, 반복적 매칭과 순환적 주의 메모리(Iterative Matching with Recurrent Attention Memory, IMRAM)를 도입한다. 이 방법은 이미지와 텍스트 간의 대응 관계를 여러 단계의 정렬을 통해 점진적으로 탐색한다. 구체적으로, 세밀한 대응 관계를 점진적으로 탐색하기 위해 반복적 매칭 기법을 제안하며, 초기 단계에서 획득한 정렬 지식을 후속 단계로 전달하고 보완하기 위해 메모리 정제 단위(memory distillation unit)를 도입한다. Flickr8K, Flickr30K, MS COCO 등 세 가지 표준 벤치마크 데이터셋에서의 실험 결과는 IMRAM이 최고 수준의 성능을 달성함을 보여주며, 본 방법의 효과성을 잘 입증한다. 또한 실무적인 비즈니스 광고 데이터셋인 \Ads{}에 대한 실험을 통해 본 방법이 실제 응용 상황에서도 유용함을 추가로 검증하였다.