
초록
우리는 이미지-언어 사전학습 모델을 영상-텍스트 검색에 종단 간(end-to-end) 방식으로 전이할 수 있는 CLIP2Video 네트워크를 제안한다. 영상-언어 학습 분야의 주요 접근법들은 대규모 영상-텍스트 데이터셋에서 시공간적 영상 특징과 영상 및 언어 간 다중 모달 상호작용을 추출하는 데 초점을 맞추고 있다. 이와 달리, 우리는 사전 학습된 이미지-언어 모델을 활용하여 이미지-텍스트 간의 공학적 학습과 영상 프레임 간 시간적 관계 강화를 각각 수행하는 두 단계 프레임워크로 단순화함으로써, 비교적 작은 데이터셋에서도 학습이 가능하도록 한다. 구체적으로, 대조적 이미지-언어 사전학습(Contrastive Language-Image Pretraining, CLIP) 모델이 포착한 공간적 의미를 기반으로, 미세한 시간적 프레임에서의 움직임을 포착하기 위한 시간 차이 블록(Temporal Difference Block)과 영상 클립과 어절의 토큰을 재정렬하고 다중 모달 상관관계를 강화하는 시간 정렬 블록(Temporal Alignment Block)을 도입한다. 광범위한 아블레이션 연구를 수행한 결과, MSR-VTT, MSVD, VATEX를 포함한 주요 텍스트-영상 및 영상-텍스트 검색 벤치마크에서 최신 기준(SOTA) 성능을 달성하였으며, 특히 MSR-VTT, MSVD, VATEX에서 검색 정확도 신기록을 수립하였다.