11일 전

비디오 Mamba 세트: 상태 공간 모델이 비디오 이해를 위한 유연한 대안으로서

Guo Chen, Yifei Huang, Jilan Xu, Baoqi Pei, Zhe Chen, Zhiqi Li, Jiahao Wang, Kunchang Li, Tong Lu, Limin Wang
비디오 Mamba 세트: 상태 공간 모델이 비디오 이해를 위한 유연한 대안으로서
초록

비디오 이해는 컴퓨터 비전 연구의 핵심 방향 중 하나로, RNN, 3D CNN, Transformers와 같은 다양한 아키텍처에 대한 광범위한 연구가 진행되어 왔다. 최근 제안된 상태공간 모델(state space model) 아키텍처, 예를 들어 Mamba는 긴 시계열 모델링에서의 성공을 비디오 모델링으로 확장할 수 있는 희망적인 특성을 보이고 있다. Mamba가 비디오 이해 분야에서 Transformers의 실질적인 대안이 될 수 있는지 평가하기 위해 본 연구에서는 Mamba가 비디오 모델링에서 수행할 수 있는 다양한 역할을 탐구하고, Mamba가 우월성을 발휘할 수 있는 다양한 작업들을 조사하는 포괄적인 연구를 수행한다. 우리는 Mamba를 비디오 모델링에서 네 가지 역할로 분류하여, 총 14개의 모델/모듈로 구성된 Video Mamba Suite를 구성하고, 12개의 비디오 이해 작업에서 이를 평가한다. 광범위한 실험 결과는 Mamba가 비디오 전용 및 비디오-언어 작업 모두에서 강력한 잠재력을 지니고 있으며, 효율성과 성능 사이의 유망한 균형을 보이고 있음을 시사한다. 본 연구가 향후 비디오 이해 분야의 연구에 유의미한 데이터 포인트와 통찰을 제공할 수 있기를 기대한다. 코드는 공개되어 있으며: https://github.com/OpenGVLab/video-mamba-suite.

비디오 Mamba 세트: 상태 공간 모델이 비디오 이해를 위한 유연한 대안으로서 | 최신 연구 논문 | HyperAI초신경