17일 전

Side4Video: 메모리 효율적인 이미지-비디오 전이 학습을 위한 공간-시간 측면 네트워크

Huanjin Yao, Wenhao Wu, Zhiheng Li
Side4Video: 메모리 효율적인 이미지-비디오 전이 학습을 위한 공간-시간 측면 네트워크
초록

대규모 사전 훈련된 시각 모델은 컴퓨터 비전 분야에서 놀라운 성과를 거두고 있다. 그러나 하류 작업, 특히 비디오 이해 작업에 대해 대규모 모델을 완전히 미세조정하는 것은 계산 비용 측면에서 지나치게 비효율적일 수 있다. 최근 연구들은 효율적인 이미지에서 비디오로의 전이 학습에 주목하고 있다. 그러나 기존의 효율적인 미세조정 방법들은 훈련 메모리 사용량에 대한 고려가 부족하며, 더 큰 모델을 비디오 영역으로 전이하는 탐색도 부족한 실정이다. 본 논문에서는 메모리 효율적인 대규모 이미지 모델을 비디오 이해로 전이하기 위한 새로운 공간-시간 사이드 네트워크(Spatial-Temporal Side Network)를 제안하며, 이를 Side4Video라 명명한다. 구체적으로, 고정된 시각 모델에 부착된 경량의 공간-시간 사이드 네트워크를 도입하여, 무거운 사전 훈련된 모델을 통한 역전파를 피하고, 원래 이미지 모델의 다수 레벨의 공간적 특징을 활용한다. 극도로 메모리 효율적인 아키텍처 덕분에, 기존 어댑터 기반 방법보다 메모리 사용량을 75% 감소시킬 수 있다. 이를 통해 기존 ViT-L(304M)보다 14배 큰 4.4B 파라미터를 가진 대규모 ViT-E 모델을 비디오 이해 작업에 성공적으로 전이할 수 있다. 제안한 방법은 단일 모달 및 다중 모달 작업(예: 동작 인식 및 텍스트-비디오 검색)을 포함한 다양한 비디오 데이터셋에서 뛰어난 성능을 달성하였으며, 특히 Something-Something V1&V2(67.3% & 74.6%), Kinetics-400(88.6%), MSR-VTT(52.3%), MSVD(56.1%), VATEX(68.8%)에서 높은 성능을 기록하였다. 코드는 https://github.com/HJYao00/Side4Video 에 공개한다.

Side4Video: 메모리 효율적인 이미지-비디오 전이 학습을 위한 공간-시간 측면 네트워크 | 최신 연구 논문 | HyperAI초신경