
초록
자연어 쿼리에 관련된 비디오 콘텐츠를 검색하는 작업은 인터넷 규모의 데이터셋을 효과적으로 다루는 데 핵심적인 역할을 한다. 기존의 이와 같은 캡션-비디오 검색 문제에 대한 대부분의 방법들은 비디오 내에 존재하는 다중 모달 특징을 충분히 활용하지 못하고 있으며, 프레임별 시각적 특징을 시간 정보가 제한적이거나 전혀 없는 상태에서 통합하는 경향이 있다. 본 논문에서는 비디오 내 다양한 모달을 공동으로 인코딩할 수 있는 다중 모달 트랜스포머를 제안한다. 이는 각 모달이 다른 모달에 주목할 수 있도록 해주며, 트랜스포머 아키텍처를 활용하여 시간 정보를 인코딩하고 모델링할 수 있다. 자연어 측면에서는 다중 모달 트랜스포머와 함께 언어 임베딩을 공동 최적화하는 최적의 실천 방법을 탐구한다. 본 논문에서 제안하는 이 새로운 프레임워크를 통해 세 가지 데이터셋에서 비디오 검색 분야에서 최신 기준(SOTA) 성능을 달성할 수 있었다. 자세한 내용은 http://thoth.inrialpes.fr/research/MMT 에서 확인할 수 있다.