9일 전

다중모달 트랜스포머를 활용한 비디오 검색

Valentin Gabeur, Chen Sun, Karteek Alahari, Cordelia Schmid
다중모달 트랜스포머를 활용한 비디오 검색
초록

자연어 쿼리에 관련된 비디오 콘텐츠를 검색하는 작업은 인터넷 규모의 데이터셋을 효과적으로 다루는 데 핵심적인 역할을 한다. 기존의 이와 같은 캡션-비디오 검색 문제에 대한 대부분의 방법들은 비디오 내에 존재하는 다중 모달 특징을 충분히 활용하지 못하고 있으며, 프레임별 시각적 특징을 시간 정보가 제한적이거나 전혀 없는 상태에서 통합하는 경향이 있다. 본 논문에서는 비디오 내 다양한 모달을 공동으로 인코딩할 수 있는 다중 모달 트랜스포머를 제안한다. 이는 각 모달이 다른 모달에 주목할 수 있도록 해주며, 트랜스포머 아키텍처를 활용하여 시간 정보를 인코딩하고 모델링할 수 있다. 자연어 측면에서는 다중 모달 트랜스포머와 함께 언어 임베딩을 공동 최적화하는 최적의 실천 방법을 탐구한다. 본 논문에서 제안하는 이 새로운 프레임워크를 통해 세 가지 데이터셋에서 비디오 검색 분야에서 최신 기준(SOTA) 성능을 달성할 수 있었다. 자세한 내용은 http://thoth.inrialpes.fr/research/MMT 에서 확인할 수 있다.