9일 전
CLIP4Clip: 엔드 투 엔드 영상 클립 검색을 위한 CLIP의 실증적 연구
Huaishao Luo, Lei Ji, Ming Zhong, Yang Chen, Wen Lei, Nan Duan, Tianrui Li

초록
비디오-텍스트 검색은 다중 모달 연구에서 핵심적인 역할을 하며, 다양한 실세계 웹 응용 분야에서 널리 활용되고 있다. CLIP(Contrastive Language-Image Pre-training)는 웹에서 수집한 이미지-텍스트 데이터셋을 기반으로 시각적 개념을 학습할 수 있는 능력을 보여준 이미지-언어 사전 학습 모델이다. 본 논문에서는 CLIP 모델의 지식을 엔드투엔드 방식으로 비디오-언어 검색에 전이할 수 있는 CLIP4Clip 모델을 제안한다. 실증 연구를 통해 다음과 같은 주요 질문들을 탐구하였다: 1) 비디오-텍스트 검색에 있어 이미지 특징만으로 충분한가? 2) CLIP 기반의 대규모 비디오-텍스트 데이터셋에 대한 후속 사전 학습은 성능에 어떤 영향을 미치는가? 3) 비디오 프레임 간 시간적 의존성을 모델링하는 실용적인 메커니즘은 무엇인가? 4) 모델의 하이퍼파라미터가 비디오-텍스트 검색 작업에 미치는 민감도는 어떠한가? 광범위한 실험 결과는 CLIP에서 전이된 CLIP4Clip 모델이 MSR-VTT, MSVC, LSMDC, ActivityNet, DiDeMo 등 다양한 비디오-텍스트 검색 데이터셋에서 최첨단(SOTA) 성능을 달성할 수 있음을 보여주었다. 본 연구의 코드는 https://github.com/ArrowLuo/CLIP4Clip에서 공개한다.