17일 전

목적: 효율적인 비디오 동작 인식을 위한 이미지 모델의 적응

Taojiannan Yang, Yi Zhu, Yusheng Xie, Aston Zhang, Chen Chen, Mu Li
목적: 효율적인 비디오 동작 인식을 위한 이미지 모델의 적응
초록

최근 비전 트랜스포머 기반의 영상 모델은 대부분 '이미지 사전 훈련 후 미세 조정(finetuning)' 방식을 따르며, 여러 영상 기준 평가에서 큰 성공을 거두었다. 그러나 사전 훈련된 이미지 트랜스포머 모델이 뛰어난 전이 성능을 보여주고 있음에도 불구하고, 이러한 영상 모델에 대해 전체 파라미터를 미세 조정하는 것은 계산적으로 비효율적일 수 있으며, 불필요할 수도 있다. 본 연구에서는 효율적인 영상 이해를 위해 사전 훈련된 이미지 모델(AIM)을 적응시키는 새로운 방법을 제안한다. 사전 훈련된 이미지 모델의 파라미터를 동결하고, 가벼운 어댑터(Adapters)를 몇 개 추가함으로써, 공간적 적응(spatial adaptation), 시간적 적응(temporal adaptation), 그리고 공동 적응(joint adaptation)을 도입하여 이미지 모델이 점진적으로 시공간 추론 능력을 갖추도록 한다. 제안하는 AIM 방법은 네 가지 영상 동작 인식 기준 평가에서 기존 기법과 경쟁 가능하거나 더 우수한 성능을 달성하면서도, 조정 가능한 파라미터 수가 크게 줄어든다는 점을 보여준다. 본 방법의 단순성 덕분에 다양한 사전 훈련된 이미지 모델에 일반적으로 적용 가능하며, 향후 더 강력한 이미지 기반 모델들을 활용할 수 있는 잠재력을 지닌다. 프로젝트 웹페이지는 \url{https://adapt-image-models.github.io/}이다.

목적: 효율적인 비디오 동작 인식을 위한 이미지 모델의 적응 | 최신 연구 논문 | HyperAI초신경