19일 전
MovieChat+: 장시간 비디오 질의 응답을 위한 질문 인지 희소 메모리
Enxin Song, Wenhao Chai, Tian Ye, Jenq-Neng Hwang, Xi Li, Gaoang Wang

초록
최근에 비디오 기반 모델과 대규모 언어 모델을 통합하여 비디오 이해 시스템을 구축하는 접근법이 주목받고 있다. 이는 특정 사전 정의된 비전 작업에 국한되는 기존 방법의 한계를 극복할 수 있다. 그러나 기존의 방법들은 복잡한 공간-시간 모듈을 사용하거나, 비디오 이해를 위해 시간 특징을 추출하기 위해 추가적인 인지 모델에 크게 의존하며, 주로 짧은 비디오에서만 우수한 성능을 보인다. 반면, 긴 비디오의 경우 장기적인 시간적 연결에 따른 계산 복잡도와 메모리 비용이 크게 증가하여 추가적인 도전 과제를 야기한다. 본 연구는 Atkinson-Shiffrin 기억 모델의 장점을 활용하여, 트랜스포머 내의 토큰을 기억의 매개체로 활용하고, 특별히 설계한 기억 메커니즘과 결합함으로써 이러한 문제를 해결한다. 우리는 추가적인 학습 가능한 시간 모듈을 도입하지 않고도 사전 학습된 다중 모달 대규모 언어 모델을 긴 비디오 이해에 적용할 수 있도록 하며, 제로샷(Zero-shot) 접근법을 채택한다. 제안하는 MovieChat은 긴 비디오 이해 분야에서 최신 기술 수준의 성능을 달성하였으며, 1,000개의 긴 비디오, 2,000개의 시간적 지칭 레이블, 14,000개의 수동 레이블을 포함한 MovieChat-1K 벤치마크를 공개하였다. 이는 본 연구 방법의 효과성을 검증하기 위한 기준으로 활용된다. 코드 및 데이터셋은 다음 링크를 통해 접근 가능하다: https://github.com/rese1f/MovieChat.