2달 전
LongVU: 장기 비디오-언어 이해를 위한 시공간 적응형 압축
Xiaoqian Shen, Yunyang Xiong, Changsheng Zhao, Lemeng Wu, Jun Chen, Chenchen Zhu, Zechun Liu, Fanyi Xiao, Balakrishnan Varadarajan, Florian Bordes, Zhuang Liu, Hu Xu, Hyunwoo J. Kim, Bilge Soran, Raghuraman Krishnamoorthi, Mohamed Elhoseiny, Vikas Chandra

초록
다중 모드 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 비디오 콘텐츠의 이해와 분석에서 유망한 진전을 보여주고 있습니다. 그러나 긴 비디오를 처리하는 것은 LLM의 컨텍스트 크기에 의해 제약받는 중요한 과제입니다. 이 한계를 극복하기 위해, 우리는 시공간 적응 압축 메커니즘인 LongVU를 제안합니다. LongVU는 시각적 세부 정보를 유지하면서 긴 비디오의 토큰 수를 줄이는 데 초점을 맞추고 있습니다. 우리의 아이디어는 교차 모달 쿼리와 프레임 간 의존성을 활용하여 비디오의 시간적 및 공간적 중복성을 적응적으로 줄이는 데 기반하고 있습니다. 구체적으로, 우리는 DINOv2 특징을 사용하여 높은 유사성을 나타내는 중복 프레임을 제거합니다. 그런 다음 텍스트 안내 교차 모달 쿼리를 이용하여 선택적인 프레임 특징 감소를 수행합니다. 또한, 프레임 간 시간적 의존성을 기반으로 공간 토큰 감소를 진행합니다. 우리의 적응 압축 전략은 주어진 컨텍스트 길이 내에서 시각적 정보 손실을 최소화하면서 많은 수의 프레임을 효과적으로 처리할 수 있습니다. LongVU는 다양한 비디오 이해 벤치마크에서 기존 방법들을 일관되게 능가하며, 특히 VideoMME와 MLVU 같은 1시간 길이의 비디오 이해 작업에서 더욱 우수한 성능을 보입니다. 경량 LLM에서도 LongVU는 최신 비디오 이해 성능을 유지하면서 효과적으로 더 작은 크기로 확장됩니다.