
이미지 모델을 비디오 영역으로 적응시키는 것이 비디오 인식 작업을 해결하기 위한 효율적인 패러다임으로 부상하고 있습니다. 이미지 모델의 많은 매개변수와 효과적인 전이 능력 때문에 전체 미세 조정(full fine-tuning)은 덜 효율적이고 심지어 불필요할 수 있습니다. 따라서 최근 연구는 매개변수 효율성을 높이는 이미지-비디오 적응(image-to-video adaptation) 방향으로 초점을 옮기고 있습니다. 그러나 이러한 적응 전략은 필연적으로 도메인 간 차이(domain gap)와 비디오의 시간적 모델링(temporal modeling)을 처리하기 위해 추가적인 계산 비용을 발생시킵니다.본 논문에서는 새로운 적응 패러다임(ZeroI2V)을 제시하여 이미지 트랜스포머를 비디오 인식 작업으로 전환하는 방법(즉, 추론 시 원래 모델에 추가 비용 없이)을 소개합니다. 이 목표를 달성하기 위해 두 가지 핵심 설계를 제안합니다. 첫째, 비디오에서의 동태성을 포착하고 이미지-비디오 적응의 어려움을 줄이기 위해 자기 주의(self-attention)의 유연성을 활용하여 공간-시간 이중 헤드 주의(spatial-temporal dual-headed attention, STDHA)를 도입합니다. 이 접근법은 추가 매개변수와 계산 없이 이미지 트랜스포머에 시간적 모델링 능력을 효과적으로 부여합니다. 둘째, 이미지와 비디오 사이의 도메인 간 차이를 처리하기 위해 경량화된 밀집형 선형 어댑터(linear adapters)를 사용하는 선형 적응 전략(linear adaption strategy)을 제안합니다. 이로써 동결된(frozen) 이미지 모델을 완전히 비디오 인식으로 전환할 수 있습니다. 맞춤형 선형 설계 덕분에 모든 새로 추가된 어댑터는 훈련 후 구조적 재매개변수화(structural reparameterization)를 통해 원래 모듈과 쉽게 통합될 수 있어 추론 시 추가 비용 없이 작동할 수 있습니다.대표적인 완전 지도(fully-supervised) 및 소수 샘플(few-shot) 비디오 인식 벤치마크에서 수행한 광범위한 실험 결과, ZeroI2V는 기존 최신 방법들을 일치하거나 심지어 능가하면서도 우수한 매개변수 효율성과 추론 효율성을 제공함을 보여주었습니다.