17일 전

CLIP 기반 이미지에서 비디오로의 지식 전이를 위한 시간적 모델링의 재검토

Ruyang Liu, Jingjia Huang, Ge Li, Jiashi Feng, Xinglong Wu, Thomas H. Li
CLIP 기반 이미지에서 비디오로의 지식 전이를 위한 시간적 모델링의 재검토
초록

이미지-텍스트 사전학습 모델, 예를 들어 CLIP는 대규모 이미지-텍스트 데이터 쌍에서 학습한 탁월한 다중 모달 지식을 보여주었으며, 이로 인해 영상 분야에서 시각적 표현 학습을 향상시킬 잠재력이 있다는 점에서 점차 더 많은 주목을 받고 있다. 본 논문에서는 CLIP 모델을 기반으로, 이미지에서 영상으로의 지식 전이 맥락에서 시간적 모델링을 재검토한다. 이는 이미지-텍스트 사전학습 모델을 영상 도메인으로 확장하는 데 핵심적인 과제이다. 우리는 현재의 시간적 모델링 기법이 고수준의 의미 중심 작업(예: 검색) 또는 저수준의 시각적 패턴 중심 작업(예: 인식) 중 하나에 특화되어 있으며, 두 가지 상황을 동시에 처리하지 못함을 발견하였다. 이 문제의 핵심은 CLIP 모델 내의 고수준과 저수준 지식을 동시에 활용하면서도 시간적 의존성을 효과적으로 모델링하는 데 있다. 이러한 문제를 해결하기 위해, 우리는 다양한 영상 작업에 확장 가능한 CLIP 모델의 시간적 모델링 메커니즘으로서 간단하면서도 효과적인 '공간-시간 보조 네트워크(Spatial-Temporal Auxiliary Network, STAN)'를 제안한다. 구체적으로, 저수준과 고수준 지식의 전이를 동시에 실현하기 위해 STAN은 공간-시간 모듈을 분해하여 구성된 브랜치 구조를 채택하여, 다수준의 CLIP 특징을 공간-시간적으로 맥락화할 수 있도록 한다. 제안한 방법은 영상-텍스트 검색(Video-Text Retrieval)과 영상 인식(Video Recognition)이라는 두 가지 대표적인 영상 작업에 대해 평가하였다. 광범위한 실험 결과는 제안한 모델이 MSR-VTT, DiDeMo, LSMDC, MSVD, Kinetics-400, Something-Something-V2 등 다양한 데이터셋에서 최첨단 기법들에 비해 우수한 성능을 보임을 입증한다. 코드는 https://github.com/farewellthree/STAN 에 공개될 예정이다.

CLIP 기반 이미지에서 비디오로의 지식 전이를 위한 시간적 모델링의 재검토 | 최신 연구 논문 | HyperAI초신경