11일 전

CLIP-하이킹의 길: 장시간 비디오 검색을 위한 안내서

Max Bain, Arsha Nagrani, Gül Varol, Andrew Zisserman
CLIP-하이킹의 길: 장시간 비디오 검색을 위한 안내서
초록

본 논문의 목표는 이미지-텍스트 모델을 장시간 영상 검색에 적응시키는 것이다. 최근 연구들은 CLIP을 도입함으로써 영상 검색에서 최상의 성능을 달성한 바 있으며, 이미지-텍스트 표현을 영상 작업에 효과적으로 활용한 사례로 볼 수 있다. 그러나 CLIP이 프레임별로 추출한 이미지 수준의 표현을 단순 평균 풀링하는 방식을 넘어서는 시간적 집계(temporal aggregation) 학습은 아직 제한적인 성과를 보이고 있다. 우리는 쿼리 점수를 기반으로 프레임 임베딩의 가중 평균을 계산하는 간단하면서도 효과적인 기준 모델(baseline)이 기존의 모든 시간적 모델링 접근 방식과 평균 풀링보다 상당한 성능 향상을 보임을 발견하였다. 이를 통해 다른 연구자들이 비교할 수 있도록 개선된 기준 모델을 제안하고, 다양한 장시간 영상 검색 벤치마크에서 이 간단한 기준 모델이 최신 기술 수준의 성능을 달성함을 입증한다.

CLIP-하이킹의 길: 장시간 비디오 검색을 위한 안내서 | 최신 연구 논문 | HyperAI초신경