2달 전

이미지와 언어의 순서 임베딩

Ivan Vendrov; Ryan Kiros; Sanja Fidler; Raquel Urtasun

초록

하이퍼니미(hypernymy), 텍스트 추론(textual entailment) 및 이미지 캡셔닝(image captioning)은 단일 시각-의미 계층 구조에서 단어, 문장 및 이미지를 포함하는 특수한 경우로 볼 수 있다. 본 논문에서는 이러한 계층 구조의 부분 순서 구조를 명시적으로 모델링하는 것을 제안한다. 이를 위해 우리는 순서화된 표현을 학습하기 위한 일반적인 방법을 소개하고, 이 방법이 이미지와 언어 관련 다양한 작업에 어떻게 적용될 수 있는지를 설명한다. 실험 결과, 이로 인해 생성된 표현들이 현재 접근 방식보다 하이퍼니름 예측 및 이미지-캡션 검색 작업에서 성능이 개선됨을 보여준다.