13일 전
텍스트-비디오 검색을 위한 의미역 인지 상관 Transformer
Burak Satar, Hongyuan Zhu, Xavier Bresson, Joo Hwee Lim

초록
소셜미디어의 등장으로 매일 수많은 영상 클립이 업로드되고 있으며, 언어 기반 질의를 통해 가장 관련성 있는 시각 콘텐츠를 검색하는 것은 점점 더 중요해지고 있다. 기존의 대부분의 접근법은 텍스트 및 시각 콘텐츠 간의 공동 임베딩 공간을 학습하되, 각 모달리티 내부의 구조적 특성과 모달리티 간의 상호관계를 충분히 활용하지 못하고 있다. 본 논문에서는 텍스트와 영상을 객체, 공간적 맥락, 시간적 맥락이라는 의미적 역할로 명시적으로 분리하고, 주의(attention) 기반 구조를 통해 세 역할 간의 내부 역할 상관관계와 상호 역할 상관관계를 학습함으로써, 다양한 수준에서 매칭에 유용한 구분 능력을 갖춘 특징을 탐색하는 새로운 트랜스포머를 제안한다. 주요 YouCook2 데이터셋을 대상으로 한 초기 실험 결과에 따르면, 제안한 방법은 현재 최고 성능(SOTA) 기법을 모든 지표에서 크게 상회하며, 두 가지 지표에서는 두 가지 SOTA 방법보다도 우수한 성능을 보였다.