17일 전
목적: 효율적인 비디오 동작 인식을 위한 이미지 모델의 적응
Taojiannan Yang, Yi Zhu, Yusheng Xie, Aston Zhang, Chen Chen, Mu Li

초록
최근 비전 트랜스포머 기반의 영상 모델은 대부분 '이미지 사전 훈련 후 미세 조정(finetuning)' 방식을 따르며, 여러 영상 기준 평가에서 큰 성공을 거두었다. 그러나 사전 훈련된 이미지 트랜스포머 모델이 뛰어난 전이 성능을 보여주고 있음에도 불구하고, 이러한 영상 모델에 대해 전체 파라미터를 미세 조정하는 것은 계산적으로 비효율적일 수 있으며, 불필요할 수도 있다. 본 연구에서는 효율적인 영상 이해를 위해 사전 훈련된 이미지 모델(AIM)을 적응시키는 새로운 방법을 제안한다. 사전 훈련된 이미지 모델의 파라미터를 동결하고, 가벼운 어댑터(Adapters)를 몇 개 추가함으로써, 공간적 적응(spatial adaptation), 시간적 적응(temporal adaptation), 그리고 공동 적응(joint adaptation)을 도입하여 이미지 모델이 점진적으로 시공간 추론 능력을 갖추도록 한다. 제안하는 AIM 방법은 네 가지 영상 동작 인식 기준 평가에서 기존 기법과 경쟁 가능하거나 더 우수한 성능을 달성하면서도, 조정 가능한 파라미터 수가 크게 줄어든다는 점을 보여준다. 본 방법의 단순성 덕분에 다양한 사전 훈련된 이미지 모델에 일반적으로 적용 가능하며, 향후 더 강력한 이미지 기반 모델들을 활용할 수 있는 잠재력을 지닌다. 프로젝트 웹페이지는 \url{https://adapt-image-models.github.io/}이다.