17일 전

CLIP2TV: 비디오-텍스트 검색을 위한 정렬, 매칭 및 다이스틸

Zijian Gao, Jingyu Liu, Weiqi Sun, Sheng Chen, Dedan Chang, Lili Zhao
CLIP2TV: 비디오-텍스트 검색을 위한 정렬, 매칭 및 다이스틸
초록

현대의 비디오-텍스트 검색 프레임워크는 기본적으로 비디오 인코더, 텍스트 인코더, 그리고 유사도 헤드의 세 가지 구성 요소로 이루어져 있다. 시각적 및 텍스트 표현 학습에서의 성공을 바탕으로, 트랜스포머 기반의 인코더와 융합 기법이 비디오-텍스트 검색 분야에도 도입되고 있다. 본 보고서에서는 트랜스포머 기반 방법에서 핵심적인 요소가 어디에 있는지를 탐색하기 위해 CLIP2TV를 제안한다. 이를 위해 먼저 다중 모달 학습 분야의 최근 연구들을 재검토하고, 이를 비디오-텍스트 검색에 적용할 수 있는 기법들을 도입한 후, 다양한 구성에서 광범위한 실험을 통해 그 성능을 평가한다. 특히 CLIP2TV는 MSR-VTT 데이터셋에서 52.9@R1의 성능을 기록하여 기존 최고 성능(SOTA) 결과를 4.1% 이상 상회하는 성과를 달성했다.