13일 전

텍스트-비디오 검색을 위한 의미역 인지 상관 Transformer

Burak Satar, Hongyuan Zhu, Xavier Bresson, Joo Hwee Lim
텍스트-비디오 검색을 위한 의미역 인지 상관 Transformer
초록

소셜미디어의 등장으로 매일 수많은 영상 클립이 업로드되고 있으며, 언어 기반 질의를 통해 가장 관련성 있는 시각 콘텐츠를 검색하는 것은 점점 더 중요해지고 있다. 기존의 대부분의 접근법은 텍스트 및 시각 콘텐츠 간의 공동 임베딩 공간을 학습하되, 각 모달리티 내부의 구조적 특성과 모달리티 간의 상호관계를 충분히 활용하지 못하고 있다. 본 논문에서는 텍스트와 영상을 객체, 공간적 맥락, 시간적 맥락이라는 의미적 역할로 명시적으로 분리하고, 주의(attention) 기반 구조를 통해 세 역할 간의 내부 역할 상관관계와 상호 역할 상관관계를 학습함으로써, 다양한 수준에서 매칭에 유용한 구분 능력을 갖춘 특징을 탐색하는 새로운 트랜스포머를 제안한다. 주요 YouCook2 데이터셋을 대상으로 한 초기 실험 결과에 따르면, 제안한 방법은 현재 최고 성능(SOTA) 기법을 모든 지표에서 크게 상회하며, 두 가지 지표에서는 두 가지 SOTA 방법보다도 우수한 성능을 보였다.

텍스트-비디오 검색을 위한 의미역 인지 상관 Transformer | 최신 연구 논문 | HyperAI초신경