17일 전

CAMP: 텍스트-이미지 검색을 위한 다중모달 적응형 메시지 전달

Zihao Wang, Xihui Liu, Hongsheng Li, Lu Sheng, Junjie Yan, Xiaogang Wang, Jing Shao

초록

텍스트-이미지 크로스모달 검색은 언어와 시각 분야에서 도전적인 과제이다. 기존의 대부분의 접근 방식은 이미지와 문장을 독립적으로 공통 임베딩 공간에 매핑한 후, 그 유사도를 비교하는 방식을 채택하고 있다. 그러나 이러한 기존 방법들은 공통 공간 내에서 유사도를 계산하기 전에 이미지와 문장 간의 상호작용을 충분히 탐색하지 못하는 경향이 있다. 직관적으로 이미지와 문장을 매칭할 때 인간은 이미지의 특정 영역과 문장의 단어를 번갈아 가며 주의를 기울이며, 양 모달 간의 상호작용을 고려해 가장 두드러진 정보를 선택한다. 본 논문에서는 모달 간 메시지 전달을 위한 정보 흐름을 적응적으로 제어하는 크로스모달 적응형 메시지 전달(Cross-modal Adaptive Message Passing, CAMP)을 제안한다. 제안된 방법은 종합적이고 세밀한 크로스모달 상호작용을 고려할 뿐만 아니라, 적응형 게이팅 구조를 통해 부정 쌍(negative pairs)과 관련 없는 정보를 효과적으로 다룬다. 또한 전통적인 공통 임베딩 기반의 텍스트-이미지 매칭 접근 방식이 아닌, 융합된 특징을 기반으로 매칭 점수를 추론하고, 훈련을 위해 가장 어려운 부정 예제를 활용한 이진 교차 엔트로피 손실(hardest negative binary cross-entropy loss)을 제안한다. COCO 및 Flickr30k 데이터셋에서의 실험 결과는 기존 최고 성능 기법들을 크게 상회하며, 본 연구의 효과성을 입증한다.