
초록
최근 이미지-텍스트 쌍 데이터를 이용한 시각-언어 모델의 대규모 사전 학습에서 인상적인 제로샷 작업에 대한 일반화 능력이 입증되었습니다. 이러한 성공을 바탕으로 CLIP과 같은 이미지 기반 시각-언어 모델을 비디오 영역으로 확장하여 제로샷 능력을 비디오 영역에도 적용하기 위한 노력이 이루어졌습니다. 이러한 적응들은 유망한 결과를 보여주었지만, 상당한 계산 비용이 들고 비디오 영역 고유의 중요한 시간적 요소를 효과적으로 모델링하는 데 어려움을 겪었습니다. 본 연구에서는 이러한 문제들을 해결하기 위해 간단하고 효율적인 CLIP의 변형인 EZ-CLIP을 소개합니다. EZ-CLIP은 시간적 시각 프롬프팅을 활용하여 시간적 적응을 원활하게 수행하며, 핵심 CLIP 아키텍처에 대한 근본적인 변경 없이도 뛰어난 일반화 능력을 유지할 수 있습니다. 또한, 동작을 포착하는 데 초점을 맞추도록 시간적 시각 프롬프팅을 안내하는 새로운 학습 목표를 제안하여 비디오 데이터에서의 학습 능력을 향상시킵니다. 우리는 다섯 가지 다른 벤치마크 데이터셋에서 광범위한 실험을 수행하여 EZ-CLIP의 제로샷 학습 및 기본부터 새로운 비디오 행동 인식 능력을 철저히 평가하였으며, 소수 샷 일반화 가능성도 확인하였습니다. 인상적으로, EZ-CLIP은 단 520만 개의 학습 가능한 매개변수(기존 최고 모델의 7110만 개와 비교)로 단일 GPU에서 효율적으로 훈련될 수 있으며, 여러 평가에서 기존 접근법보다 우수한 성능을 보였습니다.