
초록
이미지-텍스트 매칭은 시각과 언어를 연결하는 데 핵심적인 역할을 하며, 이미지와 문장 간의 전역적 일치 또는 영역과 단어 간의 국소적 일치를 활용함으로써 큰 진전을 이뤘다. 그러나 이러한 일치 관계를 어떻게 최대한 활용하여 보다 정확한 매칭 점수를 도출할 수 있을지에 대한 연구는 여전히 부족한 실정이다. 본 논문에서는 이미지-텍스트 매칭을 위한 새로운 유사도 그래프 추론 및 주의 필터링(Similarity Graph Reasoning and Attention Filtration, SGRAF) 네트워크를 제안한다. 구체적으로, 벡터 기반의 유사도 표현을 먼저 학습하여 국소적 및 전역적 일치를 보다 포괄적으로 특징화한 후, 하나의 그래프 합성 신경망(GCN)에 기반한 유사도 그래프 추론(SGR) 모듈을 도입하여 국소적 및 전역적 일치를 고려한 관계 인식형 유사도를 추론한다. 또한, 중요한 대표적 일치에만 선택적으로 주의를 기울이고 의미 없는 일치에 의한 간섭은 제거함으로써 이러한 일치 관계를 효과적으로 통합하는 유사도 주의 필터링(SAF) 모듈을 추가로 개발한다. 제안된 방법이 Flickr30K 및 MSCOCO 데이터셋에서 최신 기술 수준의 성능을 달성함을 입증하였으며, 광범위한 정성적 실험과 분석을 통해 SGR 및 SAF 모듈의 뛰어난 해석 가능성도 확인하였다.