15일 전

그래프 구조 네트워크를 이용한 이미지-텍스트 매칭

Chunxiao Liu, Zhendong Mao, Tianzhu Zhang, Hongtao Xie, Bin Wang, Yongdong Zhang
그래프 구조 네트워크를 이용한 이미지-텍스트 매칭
초록

이미지-텍스트 매칭은 시각과 언어를 연결하는 데 있어 점점 더 많은 관심을 받고 있다. 핵심 과제는 이미지와 텍스트 간의 대응 관계를 어떻게 학습할 수 있는가에 있다. 기존의 연구들은 객체의 동시 등장 통계 기반으로 대규모 대응 관계를 학습하지만, 세부적인 어절 수준의 대응 관계 학습에는 실패하고 있다. 본 논문에서는 세부적인 대응 관계를 학습하기 위한 새로운 그래프 구조 매칭 네트워크(Graph Structured Matching Network, GSMN)를 제안한다. GSMN은 객체, 관계, 특성(속성)을 구조화된 어절(structured phrase)로 명시적으로 모델링함으로써, 객체, 관계, 특성 각각의 대응 관계를 별도로 학습할 수 있을 뿐만 아니라, 구조화된 어절의 세부적인 대응 관계 학습에도 기여한다. 이는 노드 수준의 매칭(node-level matching)과 구조 수준의 매칭(structure-level matching)을 통해 달성된다. 노드 수준의 매칭은 각 노드(객체, 관계, 특성)를 다른 모달리티에서 관련 있는 노드와 연결한다. 이후 이러한 연결된 노드들이 구조 수준의 매칭에서 이웃 노드 간의 관계를 융합함으로써 세부적인 대응 관계를 공동으로 추론한다. 포괄적인 실험 결과, GSMN은 기존 최고 성능의 방법들보다 다양한 벤치마크에서 우수한 성능을 보였으며, Flickr30K와 MSCOCO 데이터셋에서 각각 약 7%, 2%의 상대적 Recall@1 향상을 달성했다. 코드는 다음 주소에서 공개될 예정이다: https://github.com/CrossmodalGroup/GSMN.

그래프 구조 네트워크를 이용한 이미지-텍스트 매칭 | 최신 연구 논문 | HyperAI초신경