CLIP 기반 이미지에서 비디오로의 지식 전이를 위한 시간적 모델링의 재검토

이미지-텍스트 사전학습 모델, 예를 들어 CLIP는 대규모 이미지-텍스트 데이터 쌍에서 학습한 탁월한 다중 모달 지식을 보여주었으며, 이로 인해 영상 분야에서 시각적 표현 학습을 향상시킬 잠재력이 있다는 점에서 점차 더 많은 주목을 받고 있다. 본 논문에서는 CLIP 모델을 기반으로, 이미지에서 영상으로의 지식 전이 맥락에서 시간적 모델링을 재검토한다. 이는 이미지-텍스트 사전학습 모델을 영상 도메인으로 확장하는 데 핵심적인 과제이다. 우리는 현재의 시간적 모델링 기법이 고수준의 의미 중심 작업(예: 검색) 또는 저수준의 시각적 패턴 중심 작업(예: 인식) 중 하나에 특화되어 있으며, 두 가지 상황을 동시에 처리하지 못함을 발견하였다. 이 문제의 핵심은 CLIP 모델 내의 고수준과 저수준 지식을 동시에 활용하면서도 시간적 의존성을 효과적으로 모델링하는 데 있다. 이러한 문제를 해결하기 위해, 우리는 다양한 영상 작업에 확장 가능한 CLIP 모델의 시간적 모델링 메커니즘으로서 간단하면서도 효과적인 '공간-시간 보조 네트워크(Spatial-Temporal Auxiliary Network, STAN)'를 제안한다. 구체적으로, 저수준과 고수준 지식의 전이를 동시에 실현하기 위해 STAN은 공간-시간 모듈을 분해하여 구성된 브랜치 구조를 채택하여, 다수준의 CLIP 특징을 공간-시간적으로 맥락화할 수 있도록 한다. 제안한 방법은 영상-텍스트 검색(Video-Text Retrieval)과 영상 인식(Video Recognition)이라는 두 가지 대표적인 영상 작업에 대해 평가하였다. 광범위한 실험 결과는 제안한 모델이 MSR-VTT, DiDeMo, LSMDC, MSVD, Kinetics-400, Something-Something-V2 등 다양한 데이터셋에서 최첨단 기법들에 비해 우수한 성능을 보임을 입증한다. 코드는 https://github.com/farewellthree/STAN 에 공개될 예정이다.