4달 전

ZeroI2V: 이미지에서 비디오로의 제로 비용 프리트레인 트랜스포머 적응

Xinhao Li; Yuhan Zhu; Limin Wang
ZeroI2V: 이미지에서 비디오로의 제로 비용 프리트레인 트랜스포머 적응
초록

이미지 모델을 비디오 영역으로 적응시키는 것이 비디오 인식 작업을 해결하기 위한 효율적인 패러다임으로 부상하고 있습니다. 이미지 모델의 많은 매개변수와 효과적인 전이 능력 때문에 전체 미세 조정(full fine-tuning)은 덜 효율적이고 심지어 불필요할 수 있습니다. 따라서 최근 연구는 매개변수 효율성을 높이는 이미지-비디오 적응(image-to-video adaptation) 방향으로 초점을 옮기고 있습니다. 그러나 이러한 적응 전략은 필연적으로 도메인 간 차이(domain gap)와 비디오의 시간적 모델링(temporal modeling)을 처리하기 위해 추가적인 계산 비용을 발생시킵니다.본 논문에서는 새로운 적응 패러다임(ZeroI2V)을 제시하여 이미지 트랜스포머를 비디오 인식 작업으로 전환하는 방법(즉, 추론 시 원래 모델에 추가 비용 없이)을 소개합니다. 이 목표를 달성하기 위해 두 가지 핵심 설계를 제안합니다. 첫째, 비디오에서의 동태성을 포착하고 이미지-비디오 적응의 어려움을 줄이기 위해 자기 주의(self-attention)의 유연성을 활용하여 공간-시간 이중 헤드 주의(spatial-temporal dual-headed attention, STDHA)를 도입합니다. 이 접근법은 추가 매개변수와 계산 없이 이미지 트랜스포머에 시간적 모델링 능력을 효과적으로 부여합니다. 둘째, 이미지와 비디오 사이의 도메인 간 차이를 처리하기 위해 경량화된 밀집형 선형 어댑터(linear adapters)를 사용하는 선형 적응 전략(linear adaption strategy)을 제안합니다. 이로써 동결된(frozen) 이미지 모델을 완전히 비디오 인식으로 전환할 수 있습니다. 맞춤형 선형 설계 덕분에 모든 새로 추가된 어댑터는 훈련 후 구조적 재매개변수화(structural reparameterization)를 통해 원래 모듈과 쉽게 통합될 수 있어 추론 시 추가 비용 없이 작동할 수 있습니다.대표적인 완전 지도(fully-supervised) 및 소수 샘플(few-shot) 비디오 인식 벤치마크에서 수행한 광범위한 실험 결과, ZeroI2V는 기존 최신 방법들을 일치하거나 심지어 능가하면서도 우수한 매개변수 효율성과 추론 효율성을 제공함을 보여주었습니다.