9일 전

비디오 검색을 위한 간단한 프레임워크: CLIP 활용

Jesús Andrés Portillo-Quintero, José Carlos Ortiz-Bayliss, Hugo Terashima-Marín

초록

비디오 검색은 텍스트 쿼리를 비디오와 매칭하거나 그 반대로 수행하는 어려운 과제이다. 기존의 대부분의 접근 방식은 사용자가 제공한 레이블(Annotation)에 의존하고 있다. 비록 간단한 방식이지만, 실무에서는 항상 적용 가능한 것은 아니다. 본 연구에서는 사용자 레이블이 필요 없이 비디오 표현을 얻기 위해 언어-이미지 모델인 CLIP을 활용하는 방법을 탐구한다. 이 모델은 이미지와 텍스트를 비교할 수 있는 공통 공간을 학습하도록 특별히 설계되었다. 본 문서에서 설명하는 다양한 기법을 활용하여 CLIP의 적용 범위를 비디오로 확장하였으며, MSR-VTT 및 MSVD 벤치마크에서 최신 기술(SOTA) 수준의 성능을 달성하였다.