11일 전
교정된 다중모달 검색을 위한 관계 정렬 학습
Shuhuai Ren, Junyang Lin, Guangxiang Zhao, Rui Men, An Yang, Jingren Zhou, Xu Sun, Hongxia Yang

초록
대규모 다중모달 사전학습 접근법의 성과에도 불구하고, 이미지-텍스트 검색과 같은 교차모달 검색은 여전히 도전적인 과제로 남아 있다. 두 모달 간의 의미적 격차를 해소하기 위해 기존 연구들은 주로 개체 수준에서 단어-영역 일치에 집중해 왔으며, 단어 간 언어적 관계와 영역 간 시각적 관계 사이의 매칭을 고려하지 못했다. 이러한 관계 일관성의 소외는 이미지-텍스트 쌍의 맥락 기반 표현을 저해하고 모델 성능과 해석 가능성에 부정적인 영향을 미친다. 본 논문에서는 먼저, 언어적 관계와 시각적 관계 간의 의미적 거리 측정을 통해 관계 일관성을 정량화하는 새로운 지표인 내모달 자기주의 거리(Intra-modal Self-attention Distance, ISD)를 제안한다. 이를 바탕으로, 두 모달 간의 상호모달 일치를 통해 내모달 자기주의를 상호 보정하고 ISD를 최적화하는 정규화 학습 방법인 내모달 자기주의에 대한 상호모달 일치(Inter-modal Alignment on Intra-modal Self-attentions, IAIS)를 제시한다. IAIS 정규화기는 Flickr30k 및 MS COCO 데이터셋에서 기존의 주요 모델 성능을 상당한 폭으로 향상시켰으며, 본 연구의 접근법이 우수함을 입증한다.