2달 전
MA-LMM: 장기 비디오 이해를 위한 메모리 증강형 대형 다중 모달 모델
Bo He, Hengduo Li, Young Kyun Jang, Menglin Jia, Xuefei Cao, Ashish Shah, Abhinav Shrivastava, Ser-Nam Lim

초록
대형 언어 모델(LLM)의 성공에 힘입어, 시각 모델을 LLM에 통합하여 시각-언어 기반 모델을 구축하는 것이 최근 많은 관심을 받고 있습니다. 그러나 기존의 LLM 기반 대형 다중모달 모델(예: Video-LLaMA, VideoChat)은 짧은 비디오 이해를 위해 제한된 수의 프레임만 처리할 수 있습니다. 본 연구에서는 주로 장기 비디오 이해를 위한 효율적이고 효과적인 모델 설계에 초점을 맞추었습니다. 대부분의 기존 연구와 달리 동시에 더 많은 프레임을 처리하려는 시도 대신, 우리는 온라인 방식으로 비디오를 처리하고 과거 비디오 정보를 메모리 뱅크에 저장하는 방법을 제안합니다. 이 방법은 우리의 모델이 LLM의 컨텍스트 길이 제약이나 GPU 메모리 한계를 초과하지 않으면서 장기 분석을 위해 과거 비디오 내용을 참조할 수 있게 합니다. 우리의 메모리 뱅크는 현재의 다중모달 LLM에 오프더shelf 방식으로 원활하게 통합될 수 있습니다. 우리는 다양한 비디오 이해 작업(장기 비디오 이해, 비디오 질문 응답, 비디오 캡셔닝 등)에서 광범위한 실험을 수행하였으며, 여러 데이터셋에서 최상의 성능을 달성하였습니다. 코드는 https://boheumd.github.io/MA-LMM/에서 제공됩니다.