
초록
이미지-텍스트 매칭은 비전과 언어 분야를 연결하는 핫한 연구 주제로 남아 있다. 현재 이미지의 표현 방식은 해당 텍스트 캡션과 마찬가지로 전반적인 의미 개념을 충분히 반영하지 못한다는 점에서 여전히 도전 과제로 남아 있다. 이 문제를 해결하기 위해, 장면의 핵심 객체와 의미 개념을 포착하는 시각적 표현을 생성할 수 있는 간단하고 해석 가능한 추론 모델을 제안한다. 구체적으로, 먼저 이미지 영역 간의 연결 관계를 구축하고, 그래프 컨볼루션 네트워크(GCN)를 활용하여 의미 관계를 반영한 특징을 생성한다. 이후 이러한 관계 강화된 특징에 대해 게이트(gate)와 메모리 메커니즘을 도입하여 전반적인 의미 추론을 수행하고, 구분 가능한 정보를 선택하면서 장면 전체에 대한 표현을 점진적으로 생성한다. 실험 결과, 제안한 방법은 MS-COCO 및 Flickr30K 데이터셋에서 이미지-텍스트 매칭 성능에서 새로운 최고 성능(SOTA)을 달성함을 입증하였다. MS-COCO에서 이미지 검색은 기존 최고 성능 방법 대비 6.8% 상대적 향상, 캡션 검색은 4.8% 상대적 향상(테스트 세트 1K 기준 Recall@1 기준)을 기록하였다. Flickr30K에서는 이미지 검색이 12.6% 상대적으로, 캡션 검색이 5.8% 상대적으로 개선되었으며(Recall@1 기준), 각각의 성능 향상이 뚜렷하게 나타났다. 본 연구의 코드는 https://github.com/KunpengLi1994/VSRN 에서 공개되어 있다.