
초록
우리는 비디오 이해를 위한 새로운 프레임워크인 시간적 맥락화된 CLIP (TC-CLIP)을 제안합니다. 이 프레임워크는 비디오 내의 시공간 영역에서 전역 상호작용을 통해 필수적인 시간 정보를 활용합니다. 구체적으로, 우리는 비디오에 대한 계층별 시간 정보 주입 메커니즘인 시간적 맥락화(TC)를 소개합니다. 이 메커니즘은 1) 각 프레임에서 핵심 정보를 추출하고, 2) 관련 정보를 프레임 간 연결하여 맥락 토큰으로 요약하며, 3) 맥락 토큰을 특성 인코딩에 활용합니다. 또한, 비디오 조건부 프롬프팅(VP) 모듈은 맥락 토큰을 처리하여 텍스트 모달리티에서 유익한 프롬프트를 생성합니다. 제로샷, 소수 샷, 기존-새로운 행동 인식 및 완전히 지도된 행동 인식 실험에서 우리의 모델이 효과적임을 검증하였습니다. TC와 VP에 대한 감소 연구(ablation study)는 우리의 설계 선택을 뒷받침합니다. 소스 코드가 포함된 프로젝트 페이지는 https://github.com/naver-ai/tc-clip 에서 확인할 수 있습니다.