CenterCLIP: 효율적인 텍스트-비디오 검색을 위한 토큰 클러스터링

최근 CLIP과 같은 대규모 사전 학습 방법은 텍스트-비디오 검색과 같은 다중 모달 연구 분야에서 큰 진전을 이루었다. CLIP에서는 트랜스포머가 복잡한 다중 모달 관계를 모델링하는 데 핵심적인 역할을 한다. 그러나 CLIP의 비전 트랜스포머에서 중요한 시각적 토큰화 과정은 연속적이고 유사한 프레임이 반복되는 비디오의 특성상, 동질적인 토큰이 다수 생성되며, 이는 계산 비용을 크게 증가시키고 웹 애플리케이션에서 비디오 검색 모델을 배포하는 데 장애가 된다. 본 논문에서는 이러한 중복된 비디오 토큰 수를 줄이기 위해, 가장 대표적인 토큰을 찾아 비필요한 토큰을 제거하는 다중 세그먼트 토큰 클러스터링 알고리즘을 제안한다. 프레임의 중복은 주로 연속된 프레임에서 발생하므로, 비디오를 여러 세그먼트로 분할하고 세그먼트 단위로 클러스터링을 수행한다. 각 세그먼트에서 추출한 중심 토큰들을 새로운 시퀀스로 결합함으로써, 원래의 시공간적 관계를 잘 유지하면서도 토큰 수를 효과적으로 감소시킬 수 있다. 본 연구에서는 고차원 공간에서 결정론적 메도이드를 효율적으로 찾고 반복적으로 그룹을 분할하는 두 가지 클러스터링 알고리즘을 구현하였다. 이러한 토큰 클러스터링 및 중심 토큰 선택 절차를 통해 중복된 시각적 토큰을 제거함으로써 계산 비용을 성공적으로 절감하였다. 이 방법은 비디오와 텍스트 표현 간의 세그먼트 수준에서의 의미적 정렬을 더욱 강화하며, 세그먼트 내 프레임 간의 시공간적 상호작용을 강제한다. 제안한 방법은 CenterCLIP으로 명명되었으며, 전형적인 텍스트-비디오 벤치마크에서 기존 최첨단 기법을 크게 능가함과 동시에, 학습 메모리 비용을 최대 35% 감소시키고 추론 속도를 최대 14% 가속화하는 성과를 달성하였다. 코드는 다음 링크에서 확인할 수 있다: \href{https://github.com/mzhaoshuai/CenterCLIP}{https://github.com/mzhaoshuai/CenterCLIP}.