
초록
시각적 기반(visual grounding)은 다양한 비전-언어 작업에서 흔히 사용되는 핵심 구성 요소이지만, 기반 엔티티의 시각적 및 언어적 특성 간 큰 변동성, 강한 맥락 효과, 그리고 그로 인한 의미적 모호성으로 인해 여전히 도전적인 과제로 남아 있다. 기존 연구들은 주로 제한된 맥락 정보를 가진 개별 어절의 표현을 학습하는 데 집중해 왔다. 이러한 한계를 극복하기 위해 본 논문은 기반 엔티티들의 전반적인 맥락과 관계를 포착하기 위한 언어 유도 그래프 표현을 제안하며, 다중 어절 시각적 기반 작업을 위한 크로스모달 그래프 매칭 전략을 개발한다. 구체적으로, 메시지 전파를 통해 어절과 객체 제안물에 대한 맥락 인식 표현을 각각 계산하는 모듈형 그래프 신경망을 도입한 후, 그래프 기반 매칭 모듈을 통해 전역적으로 일관된 기반 어절의 위치를 생성한다. 전체 그래프 신경망은 이단계 전략을 통해 공동으로 학습되며, Flickr30K Entities 벤치마크에서 평가된다. 광범위한 실험 결과는 제안하는 방법이 기존 최고 성능 기법들보다 뚜렷한 성능 향상을 보였음을 입증하며, 본 기반 프레임워크의 효과성을 입증한다. 코드는 https://github.com/youngfly11/LCMCG-PyTorch 에서 제공된다.