2달 전

VideoMamba: 효율적인 비디오 이해를 위한 상태 공간 모델

Li, Kunchang ; Li, Xinhao ; Wang, Yi ; He, Yinan ; Wang, Yali ; Wang, Limin ; Qiao, Yu
VideoMamba: 효율적인 비디오 이해를 위한 상태 공간 모델
초록

영상 이해에서 지역적 중복성과 전역적 의존성을 동시에 해결하기 위해, 본 연구는 혁신적으로 맘바(Mamba)를 영상 분야에 적용하였습니다. 제안된 VideoMamba는 기존의 3D 컨볼루션 신경망과 영상 트랜스포머의 한계를 극복합니다. 이 모델의 선형 복잡도 연산자는 고해상도 장기 영상 이해에 필수적인 효율적인 장기 모델링을 가능하게 합니다. 광범위한 평가를 통해 VideoMamba의 네 가지 핵심 능력이 확인되었습니다: (1) 대규모 데이터셋 사전 훈련 없이 시각적 영역에서 확장성이 뛰어나다는 점, 이는 새로운 자기 증류(self-distillation) 기술 덕분입니다; (2) 미세한 움직임 차이까지 감지할 수 있는 단기 행동 인식에 대한 민감성; (3) 전통적인 특징 기반 모델보다 크게 발전한 장기 영상 이해 능력; (4) 다른 모달리티와의 호환성, 이는 다중 모달리티 환경에서 견고함을 입증하였습니다. 이러한 독특한 장점들을 통해 VideoMamba는 영상 이해 분야에서 새로운 기준을 설정하며, 포괄적인 영상 이해를 위한 확장성 있고 효율적인 솔루션을 제공합니다. 모든 코드와 모델은 https://github.com/OpenGVLab/VideoMamba에서 이용할 수 있습니다.