9일 전
BIMBA: 장거리 비디오 질문 응답을 위한 선택적 스캔 압축
Md Mohaiminul Islam, Tushar Nagarajan, Huiyu Wang, Gedas Bertasius, Lorenzo Torresani

초록
긴 영상에서의 비디오 질문 응답(VQA)은 다수의 중복 프레임에서 관련 정보를 추출하고 장거리 의존성을 모델링하는 핵심적인 과제를 안고 있다. 자기주의(self-attention) 메커니즘은 시퀀스 모델링에 일반적인 해결책을 제공하지만, 긴 영상에서 발생하는 방대한 수의 시공간 토큰에 적용할 경우 계산 비용이 지나치게 높아진다. 기존 대부분의 방법들은 계산 비용을 낮추기 위해 압축 전략에 의존하며, 예를 들어 희소한 프레임 샘플링을 통해 입력 길이를 단축하거나, 대규모 언어 모델(LLM)에 전달되는 출력 시퀀스를 공간-시간 풀링을 통해 압축한다. 그러나 이러한 단순한 접근 방식은 중복 정보를 과도하게 반영할 뿐만 아니라 중요한 사건이나 빠르게 발생하는 시공간 패턴을 놓치는 경우가 많다. 본 연구에서는 긴 형식의 영상 처리를 위한 효율적인 상태공간 모델인 BIMBA를 제안한다. 본 모델은 선택적 스캔(selective scan) 알고리즘을 활용하여 고차원 영상에서 핵심 정보를 효과적으로 선택하고, 이를 효율적인 LLM 처리를 위한 축소된 토큰 시퀀스로 변환한다. 광범위한 실험을 통해 BIMBA는 PerceptionTest, NExT-QA, EgoSchema, VNBench, LongVideoBench, Video-MME 등 다양한 긴 형식 VQA 벤치마크에서 최신 기준(SOTA) 성능을 달성함을 입증하였다. 코드 및 모델은 공개적으로 https://sites.google.com/view/bimba-mllm 에서 제공된다.