2달 전

다중 수준 다모달 공통 의미 공간을 이용한 이미지-문구 정합

Hassan Akbari; Svebor Karaman; Surabhi Bhargava; Brian Chen; Carl Vondrick; Shih-Fu Chang
다중 수준 다모달 공통 의미 공간을 이용한 이미지-문구 정합
초록

우리는 문장과 시각적 모달리티가 공유하는 다중 수준의 공통 의미 공간을 학습하여 구문 지상화(phrase grounding) 문제를 해결합니다. 이 과정에서 깊은 합성곱 신경망(Deep Convolutional Neural Network)의 여러 수준의 특징 맵(feature maps)과 문자 기반 언어 모델에서 추출한 문맥화된 단어 및 문장 임베딩(contextualized word and sentence embeddings)을 활용합니다. 각 수준, 단어, 그리고 문장 임베딩에 대한 전용 비선형 매핑(non-linear mappings)을 통해, 우리는 코사인 유사도(cosine similarity)로 어떤 대상 텍스트와 시각적 내용 간의 비교를 수행할 수 있는 다수의 공통 의미 공간 인스턴스를 얻습니다. 우리는 다중 수준의 다모달 주의 메커니즘(multi-level multimodal attention mechanism)을 통해 각 수준에서 주목받는 시각적 특징(attended visual features)을 출력하여 모델을 안내합니다. 최고의 수준은 실제 이미지-문장 쌍(image-sentence pairs of the ground truth)의 적절성 점수(pertinence scores)를 최대화하기 위해 텍스트 내용과 비교됩니다. 세 개의 공개 데이터셋에서 수행한 실험 결과, 구문 위치 결정(phrase localization) 분야에서 기존 최신 연구(state-of-the-art)보다 상당한 성능 향상(20%-60% 상대적 향상)이 나타났으며, 이러한 데이터셋에서 새로운 성능 기록을 세웠습니다. 또한 우리의 접근 방식 중 각 요소의 기여도를 보여주기 위해 자세한 감소 연구(ablation study)를 제공하며, 코드는 GitHub에 공개됩니다.