9일 전
MDMMT: 비디오 검색을 위한 다영역 다중모달 트랜스포머
Maksim Dzabraev, Maksim Kalashnikov, Stepan Komkov, Aleksandr Petiushko

초록
우리는 MSRVTT 및 LSMDC 벤치마크에서 텍스트에서 영상 검색(task)에 대해 기존 모든 솔루션을 크게 능가하는 최신 기술 수준의 성능을 보여주는 새로운 모델을 제안한다. 특히, 미세조정(finetuning) 없이 단일 모델로 두 데이터셋에서 모두 최신 기술 수준의 결과를 달성하였다. 이러한 다분야 일반화 성능은 다양한 영상 설명(비디오 캡션) 데이터셋을 적절히 조합함으로써 달성되었다. 우리는 서로 다른 데이터셋에서 훈련하는 것이 각각의 테스트 성능을 향상시킬 수 있음을 입증하였다. 또한, 여러 인기 있는 데이터셋 간의 교차 영역을 분석한 결과, MSRVTT는 훈련 세트와 테스트 세트 사이에 상당한 중복이 존재하며, ActivityNet에서도 동일한 현상이 관찰되었다.