11일 전
비디오 Mamba 세트: 상태 공간 모델이 비디오 이해를 위한 유연한 대안으로서
Guo Chen, Yifei Huang, Jilan Xu, Baoqi Pei, Zhe Chen, Zhiqi Li, Jiahao Wang, Kunchang Li, Tong Lu, Limin Wang

초록
비디오 이해는 컴퓨터 비전 연구의 핵심 방향 중 하나로, RNN, 3D CNN, Transformers와 같은 다양한 아키텍처에 대한 광범위한 연구가 진행되어 왔다. 최근 제안된 상태공간 모델(state space model) 아키텍처, 예를 들어 Mamba는 긴 시계열 모델링에서의 성공을 비디오 모델링으로 확장할 수 있는 희망적인 특성을 보이고 있다. Mamba가 비디오 이해 분야에서 Transformers의 실질적인 대안이 될 수 있는지 평가하기 위해 본 연구에서는 Mamba가 비디오 모델링에서 수행할 수 있는 다양한 역할을 탐구하고, Mamba가 우월성을 발휘할 수 있는 다양한 작업들을 조사하는 포괄적인 연구를 수행한다. 우리는 Mamba를 비디오 모델링에서 네 가지 역할로 분류하여, 총 14개의 모델/모듈로 구성된 Video Mamba Suite를 구성하고, 12개의 비디오 이해 작업에서 이를 평가한다. 광범위한 실험 결과는 Mamba가 비디오 전용 및 비디오-언어 작업 모두에서 강력한 잠재력을 지니고 있으며, 효율성과 성능 사이의 유망한 균형을 보이고 있음을 시사한다. 본 연구가 향후 비디오 이해 분야의 연구에 유의미한 데이터 포인트와 통찰을 제공할 수 있기를 기대한다. 코드는 공개되어 있으며: https://github.com/OpenGVLab/video-mamba-suite.