9일 전

MDMMT-2: 비디오 검색을 위한 다영역 다모달 트랜스포머, 일반화를 향한 한 걸음 더

Alexander Kunitsyn, Maksim Kalashnikov, Maksim Dzabraev, Andrei Ivaniuta
MDMMT-2: 비디오 검색을 위한 다영역 다모달 트랜스포머, 일반화를 향한 한 걸음 더
초록

본 연구에서는 MSR-VTT, LSMDC, MSVD, YouCook2 및 TGIF 데이터셋에서 텍스트-비디오 검색 작업에 대해 단일 모델을 통해 달성한 최신 기술 수준의 성능을 제시한다. 세 가지 서로 다른 데이터 소스를 결합하였다: 약한 지도 신호를 갖는 비디오, 커뮤니티 레이블링된 텍스트-이미지 쌍, 그리고 텍스트-비디오 쌍. 사전 훈련된 네트워크의 가용성에 대한 철저한 분석을 통해 최적의 사전 지식 기반 모델을 선정하였다. 본 연구는 높은 전이 학습 효율성을 제공하며, 훈련 중에 노이즈가 포함된 데이터셋을 사용해도 사전 지식이 저하되지 않도록 하는 삼단계 훈련 절차를 제안한다. 또한, 다양한 모달리티 간의 효과적인 융합을 위해 이중 위치 인코딩을 도입하였으며, 비정사각형 입력 처리를 위한 간단한 방법도 제안하였다.